正则化具体操作是怎么做的呢？

wo5656500

2020-04-21 阅读量: 1283

正则化具体操作是怎么做的呢？

1）概念

　　L0正则化的值是模型参数中非零参数的个数。

　　L1正则化表示各个参数绝对值之和。

　　L2正则化标识各个参数的平方的和的开方值。

2）正则化后会导致参数稀疏，一个好处是可以简化模型，避免过拟合。因为一个模型中真正重要的参数可能并不多，如果考虑所有的参数起作用，那么可以对训练数据可以预测的很好，但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。

且参数越小，模型就会越简单，这是因为越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。

3）三种正则概述

-》L0正则化

根据上面的讨论，稀疏的参数可以防止过拟合，因此用L0范数（非零参数的个数）来做正则化项是可以防止过拟合的。

从直观上看，利用非零参数的个数，可以很好的来选择特征，实现特征稀疏的效果，具体操作时选择参数非零的特征即可。但因为L0正则化很难求解，是个NP难问题，因此一般采用L1正则化。L1正则化是L0正则化的最优凸近似，比L0容易求解，并且也可以实现稀疏的效果。

-》L1正则化

L1正则化在实际中往往替代L0正则化，来防止过拟合。在江湖中也人称Lasso。

L1正则化之所以可以防止过拟合，是因为L1范数就是各个参数的绝对值相加得到的，我们前面讨论了，参数值大小和模型复杂度是成正比的。因此复杂的模型，其L1范数就大，最终导致损失函数就大，说明这个模型就不够好。

-》L2正则化

L2正则化可以防止过拟合的原因和L1正则化一样，只是形式不太一样。

L2范数是各参数的平方和再求平方根，我们让L2范数的正则项

$\parallel W\parallel _{2}$

最小，可以使W的每个元素都很小，都接近于0。但与L1范数不一样的是，它不会是每个元素为0，而只是接近于0。越小的参数说明模型越简单，越简单的模型越不容易产生过拟合现象。

L2正则化江湖人称Ridge，也称“岭回归”

1.2939

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子