异常值处理常用的几种方法-CDA数据分析师官网

热线电话：13121318867

异常值处理常用的几种方法

2020-07-01

异常值，又称离群点，是指那些在数据集中存在的不合理的值，需要注意的是，不合理的值是偏离正常范围的值，不是错误值。比如人的身高为-1m，人的体重为1吨等，都属于异常值的范围。虽然异常值不常出现，但是又会对实际项目分析有影响，造成结果的偏差，所以大家不能不重视。前面文章分享了几种异常值检测的方法，下面小编给大家带来常用的异常值处理方法，希望对大家有所帮助。

·删除

直接将含有异常值的记录删除，通常有两种策略：整条删除和成对删除。这种方法最简单简单易行，但缺点也不容忽视，一是在观测值很少的情况下，这种删除操作会造成样本量不足;二是，直接删除、可能会对变量的原有分布造成影响，从而导致统计模型不稳定。

·视为缺失值

视为缺失值，利用处理缺失值的方法来处理。这一方法的好处是能够利用现有变量的信息，来填补异常值。需要注意的是，将该异常值作为缺失值处理，需要根据该异常值(缺失值)的特点来进行，针对该异常值(缺失值)是完全随机缺失、随机缺失还是非随机缺失的不同情况进行不同处理。

·平均值修正

如果数据的样本量很小的话，也可用前后两个观测值的平均值来修正该异常值。这其实是一种比较折中的方法，大部分的参数方法是针对均值来建模的，用平均值来修正，优点是能克服了丢失样本的缺陷，缺点是丢失了样本“特色”。

·不处理

根据该异常值的性质特点，使用更加稳健模型来修饰，然后直接在该数据集上进行数据挖掘。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；