2020-05-31
阅读量:
1166
归一化和标准化的区别及如何使用scikit-learn进行处理?
归一化(normalization)和标准化(standardization)是两种对数据去量纲的方法,它的区别如下:
归一化:归一化是将样本的特征值放缩到同一量纲下,缩放后的样本范围处于[0,1]或[-1,1]之间.归一化受样本的异常值影响较大,如果缩放后的数据小数位较多,则在用python计算数据的时候会出现一定偏差.因此,一般数据存在异常值偏差较大时,最好选用标准化对数据进行处理.一般KNN算法使用归一化对数据进行去量纲的处理.
标准化:标准化是通过计算整列数据的z-score值,将数据进行平移和缩放.该法不改变数据的分布.需要注意的是对数据进行标准化处理,并不是指处理后的数据会变为正态分布.
标准化和归一化的一般应用差别:
1. 可以使用标准化对使用无监督算法的数据进行处理;
2. 如果数据呈现钟型曲线,用标准化处理数据更好;
3. 如果数据中存在异常值(过大,或者过小),标准化的效果更好.
用scikit-learn库处理数据:







评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论