热线电话:13121318867

登录
2018-12-05 阅读量: 756
处理数据中的缺失值

数据中的缺失值是个非常棘手的问题,有很多文献都致力于解决这个问题。那么,数据缺失

究竟带来了什么问题?假设有100个样本和20个特征,这些数据都是机器收集回来的。若机器上

的某个传感器损坏导致一个特征无效时该怎么办?此时是否要扔掉整个数据?这种情况下,另外

19个特征怎么办?它们是否还可用?答案是肯定的。因为有时候数据相当昂贵,扔掉和重新获取

都是不可取的,所以必须采用一些方法来解决这个问题。

下面给出了一些可选的做法:

 使用可用特征的均值来填补缺失值;

 使用特殊值来填补缺失值,如1;

 忽略有缺失值的样本;

 使用相似样本的均值添补缺失值;

 使用另外的机器学习算法预测缺失值。

353.8013
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子