登录
首页大数据时代python数据清洗中,是如何识别和处理异常值的?
python数据清洗中,是如何识别和处理异常值的?
2020-07-17
收藏

异常值处理python数据清洗中重要的步骤,虽然异常值出现频率比较低,但是如果置之不理的话,还是会对实际项目的分析造成偏差,所以今天小编就跟大家分享python数据清洗中应该如何识别和处理异常值,希望对大家有所帮助。

一、异常值概念

异常值,又称离群点,就是那些远离绝大多数样本点的特殊群体,通常这样的数据点在数据集中都表现出不合理的特性,需要注意的是,异常值正常范围的值,不是错误值。

二、python数据清洗中异常值的识别

通常python数据清洗中,可以借助箱线图、正态分布图这些图形法来进行异常值识别。

1.箱线图法

采用箱线图识别异常值的判断标准为:当变量的数据值超出箱线图上须和下须的范围之外,也就是大于箱线图的上须或者小于箱线图的下须时,就可以认为这样的数据点为异常点。

2.正态分布图法

如果数据点落在偏离均值正负2倍标准差之外的概率就不足5%,它属于小概率事件,即认为这样的数据点为异常点。同理,如果数据点落在偏离均值正负3倍标准差之外的概率将会更小,可以认为这些数据点为极端异常点。

三、python数据清洗中异常值的处理

(1)直接将异常值删除

(2)暂且保留异常值,结合整体模型进行综合分析

(3)在样本量很小的情况下,可以使用均值或其他统计量取代

(4)将异常值视为缺失值,利用处理缺失值的方法进行处理

(5)不处理,根据该缺失值的性质特点,使用稳健模型加以修饰

(6)利用抽样技术或者模拟技术,接受更合理的标准误等信息

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询