2020-06-02
阅读量:
1836
机器学习中岭回归、L2正则化(ridge regression)的区别
岭回归是一种可用于共线性数据分析的有偏估计回归方法,它是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对条件数很大(病态数据)的拟合要强于最小二乘法。
在线性回归问题中,最小二乘法实际上是最小化问题:
而岭回归则是加入了L2惩罚项:
这样参数的方差不会过大,且随着惩罚项系数C的增大,共线性的影响将越来也小。在这个过程中,可以记录$\theta(k)$(岭迹)的变化情况,通过对岭迹的波动来判断我们是否要剔除该变量。
那为什么说岭回归能解决共线性问题呢?从矩阵计算的角度来看,L2正则化下方程的解为:
共线性代表正定矩阵XTX的条件数很大:
而当条件数很大时,矩阵的逆的数值计算也是非常不准确的,但是当我们给矩阵加上一个单位矩阵时,奇异性(不可逆)问题就完全没有啦。
进一步考虑对惩罚项对奇异值的影响,假设X的奇异值(SVD)分解为:
则容易证明
其中D是对角矩阵,且满足
其反应了惩罚项是如何影响到条件数的。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论