朝阳Tim

2019-02-25   阅读量: 1009

统计学 数据分析师

异常值、缺失值处理的常见思路?

扫码加入数据分析学习群

问题描述:

当我们在处理数据的时候,特别是某个字段的连续变量,如果存在异常值,例如极大值或极小值,会对模型产生较大影响,一般有哪些处理思路呢?又如何处理缺失值?


解决思路:

  • 对于异常值,可以直接剔除,也可以用平均值填补,极大值、极小值可以采用盖帽法(99%分位点、1%分位点)填充;spss中常用箱线图来观察,划出离群点并进行异常值处理
  • 对于缺失值,可以用平均值、众数进行填补,填补依据要结合业务理解,不同的缺失值比例,有不同的缺失值处理思路:
添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
6.0239 1 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子