2018-11-01
阅读量:
1210
处理缺失值的策略
缺少值是常见的,您需要有一个策略来处理它们。缺失值可以表示数据中的许多不同内容。也许数据不可用或不适用或事件未发生。可能是输入数据的人不知道正确的值,或者错过填写。数据挖掘方法在处理缺失值的方式上有所不同。通常,它们会忽略缺失值,或者排除包含缺失值的任何记录,或者使用均值替换缺失值,或者从现有值中推断缺失值。

缺少值替换策略:
- 忽略缺少值的记录。
- 用全局常量替换它们(例如,“?”)。
- 根据您的域知识手动填写缺失值。
- 用可变平均值(如果是数字)或最常用值(如果是分类)替换它们。
- 使用建模技术,如最近邻居,贝叶斯规则,决策树或EM算法。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论