啊啊啊啊啊吖

2018-11-26   阅读量: 689

数据分析师 R语言 数据挖掘

异常值处理

扫码加入数据分析学习群

在异常值处理之前需要对异常值进行识别, 一般多采用单变量散点图或

是箱形图来达到目的。 在R中, 使用函数dotchart() 、 boxplot() 实现绘制

单变量散点图与箱形图。

异常值产生最常见的原因是人为输入的错误, 如小数

点输入错误, 会把123.00g变成12300g。

在数据预处理时, 异常值是否剔除, 需视具体情况而定, 因为有些异常

值可能蕴含着有用的信息。

将含有异常值的记录直接删除这种方法简单易行, 但缺点也很明显, 在

观测值很少的情况下, 这种删除会造成样本量不足, 可能会改变变量的原有

分布, 从而造成分析结果的不准确。 视为缺失值处理的好处是可以利用现有

变量的信息, 对异常值(缺失值) 进行填补。

很多情况下, 要先分析异常值出现的可能原因, 再判断异常值是否应该

舍弃, 如果是正确的数据, 可以直接在具有异常值的数据集上进行挖掘建

模。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子