问:
批量梯度下降法和随机梯度下降法的优缺点比较
答:
批量梯度下降
缺点:可能是由于数据原因,或者损失函数的特点,导致,损失函数的图中,有局部最优。如果直接每一次都是整体的样本来进行梯度的计算,会发现踢的方向狠稳定,从而如果初始位置选的不好,从而很容易陷到局部最优当中再也出不来的。
优点: 如果没有局部最优或者初始位置选的好,可以很狠稳定的去逼近全优点。
随机梯度下降
每次计算新的梯度的时候,不再使用所有的样本来进行梯度的计算,而是随机选取一个样本,使用它的特征和标签的信息来更新梯度。这个梯度的方向就不一样了,方向大致还是损失函数(使用所有的样本的信息而构建的损失函数)增长的方向,但是有很大的随机性。从而在更新过程中,参数可以很大程度上避免陷入局部最优,从而逼近全局最优。
优点:速度快!因为每一次只使用一个样本量来进行计算。
缺点:重大的缺陷是,到了最优点,很难收敛,噪音点影响特别大