2020-05-07
阅读量:
1231
L1和L2惩罚力度区别不是很大吗?
直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏,






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论