2020-06-10
                                阅读量:
                                2769
                            
                        GD(梯度下降)和SGD(随机梯度下降)有什么区别?
                        - 相同点
 
在GD和SGD中,都会在每次迭代中更新模型的参数,使得代价函数变小。
- 不同点:
 
GD(梯度下降)
在GD中,每次迭代都要用到全部训练数据。
SGD(随机梯度下降)
在SGD中,每次迭代可以只用一个训练数据来更新参数。
- 总结
当训练数据过大时,用GD可能造成内存不够用,那么就可以用SGD了,SGD其实可以算作是一种online-learning。另外SGD收敛会比GD快,但是对于代价函数求最小值还是GD做的比较好,不过SGD也够用了。 
                                17.4582
                            
                                3
                            
                                2
                            
                                
                            
                                关注作者
                            
                                    收藏
                                                            评论(0)
                    
发表评论
暂无数据
                        
                        推荐帖子
                    
                0条评论
                        0条评论
                        0条评论
                        
            
                
                
