登录
首页大数据时代数据清洗中常用的异常值检测的几种方法
数据清洗中常用的异常值检测的几种方法
2020-06-30
收藏

异常值是指样本中的个别值,其数值明显偏离它(或它们们)所属样本的其余观测值。异常值分析目的是检验是否有录入错误的数据以及是否含有不合常理的数据时。如果对异常值的存在忽视不见,在数据的计算分析过程中把异常值包括进去,是十分危险的,将对结果会产生不良影响。因此我们需要重视异常值的出现,分析其产生的原因,找到正确的改进方法。下面小编介绍几种常用的异常值检测方法,希望对大家有所帮助。

1.箱形图是数字数据通过其四分位数形成的图形化描述。这是一种非常简单但有效的可视化离群点的方法。考虑把上下触须作为数据分布的边界。任何高于上触须或低于下触须的数据点都可以认为是离群点或异常值。

2.DBScan 是一种用于把数据聚成组的聚类算法。它同样也被用于单维或多维数据的基于密度的异常检测。其它聚类算法比如 k 均值和层次聚类也可用于检测离群点。

3.孤立森林(Isolation Forest)方法是一维或多维特征空间中大数据集的非参数方法,其中的一个重要概念是孤立数。孤立数是孤立数据点所需的拆分数。

4. 可以使用python中的pandas库,直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的。用这种方法可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。

数据分析咨询请扫描二维码

客服在线
立即咨询