如何使用R语言解决可恶的脏数据-CDA数据分析师官网

热线电话：13121318867

如何使用R语言解决可恶的脏数据

2016-03-23

在数据分析过程中最头疼的应该是如何应付脏数据，脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误，所以必须谨慎的处理那些脏数据。

脏数据的存在形式主要有如下几种情况：

1）缺失值

2）异常值

3）数据的不一致性

下面就跟大家侃侃如何处理这些脏数据。

一、缺失值

缺失值，顾名思义就是一种数据的遗漏，根据CRM中常见的缺失值做一个汇总：

1）会员信息缺失，如身份证号、手机号、性别、年龄等

2）消费数据缺失，如消费次数、消费金额、客单价，卡余等

3）产品信息缺失，如批次、价格、折扣、所属类别等

根据实际的业务需求不同，可以对缺失值采用不同的处理办法，如需要给会员推送短信，而某些会员恰好手机号不存在，可以考虑剔除；如性别不知道，可以使用众数替代；如年龄未知，可以考虑用均值替换。当然还有其他处理缺失值的办法，如多重插补法。下面以一个简单的例子，来说明缺失值的处理。

上面的数据框是一个不含有任何缺失值的数据集，现在我想随机产生100个缺失值，具体操作如下：

很明显这里已经随机产生100个缺失值了，下面看看这100个缺失值的分布情况。我们使用VIM包中的aggr()函数绘制缺失值的分布情况：

图中显示：Tel变量有21个缺失，Sex变量有28个缺失，Age变量有6个缺失，Freq变量有20个缺失，Amount变量有13个缺失，ATV有12个缺失。

为了演示，下面对Tel变量缺失的观测进行剔除；对Sex变量的缺失值用众数替换；Age变量用平均值替换；Freq变量、Amount变量和ATV变量用多重插补法填充。

这个时候，Tel变量、Sex变量和Age变量已不存在缺失值，下面对Freq变量、Amount变量和ATV变量使用多重插补法。

可通过mice包实现多重插补法，该包可以对数值型数据和因子型数据进行插补。对于数值型数据，默认使用随机回归添补法(pmm)；对二元因子数据，默认使用Logistic回归添补法(logreg)；对多元因子数据，默认使用分类回归添补法(polyreg)。其他插补法，可通过 mice查看相关文档。

通过不同的方法将缺失值数据进行处理，从上图可知，通过填补后，数据的概概览情况基本与原始数据相近，说明填补过程中，基本保持了数据的总体特征。

二、异常值

异常值也是非常痛恨的一类脏数据，异常值往往会拉高或拉低数据的整体情况，为克服异常值的影响，我们需要对异常值进行处理。首先，我们需要识别出哪些值是异常值或离群点，其次如何处理这些异常值。下面仍然以案例的形式，给大家讲讲异常值的处理：

1.识别异常值

一般通过绘制盒形图来查看哪些点是离群点，而离群点的判断标准是四分位数与四分位距为基础。即离群点超过上四分位数的1.5倍四分位距或低于下四分位数的1.5倍四分位距。

例子：

图中可知，有一部分数据落在上四分位数的1.5倍四分位距之上，即异常值，下面通过编程，将异常值找出来：

2.找出异常点

结果显示，分别是第104、106、110、114、116、118和120这6个点。下面就要处理这些离群点，一般有两种方法，即剔除或替补。剔除很简单，但有时剔除也会给后面的分析带来错误的结果，接下来就讲讲替补。

三、数据的不一致性

数据的不一致性一般是由于不同的数据源导致。如有些数据源的数据单位是斤，而有些数据源的数据单位为公斤；如有些数据源的数据单位是米，而有些数据源的数据单位为厘米；如两个数据源的数据没有同时更新等。对于这种不一致性可以通过数据变换轻松得到一致的数据，只有数据源的数据一致了，才可以进行统计分析或数据挖掘。由于这类问题的处理比较简单，这里就不累述具体的处理办法了。

来源 | 先锋的家园（51CTO博客）

http://jackwxh.blog.51cto.com/2850597/1742916

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；