热线电话:13121318867

登录
2018-11-28 阅读量: 950
数值型数据的处理和离群值处理方法

数值型数据的处理方法,也是先观察其分布,即找离群值。离群值的侦测有如下三种方法:

方法一:离群值为过大或过小的值,对数据排序即可发现。

方法二:即平均值法,在平均值±3×标准偏差之内的值可视为正常值。

方法三:四分位法,IQR = Q3 – Q1,Q3代表第75%的值,Q1代表第25%的值。正常值的范围为Q1 – 1.5×IQR ~ Q3 + 1.5×IQR。四分位法的优点在于适用于小数据,故较常用。

找到离群值后,离群值的处理方法有:

方法一:将离群值视为空值。

方法二:天花板/地板法,即如数据小于正常范围最小值,则改为正常范围最小值,可称为地板;如数据大于正常范围最大值,则改为正常范围最大值,可称为天花板,优点在于还是保持最大最小值不变。

方法三:函数校正法,即将离群值做log10(离群值)处理,即压缩数据。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子