2018-11-29
阅读量:
1062
缺失值的补全办法
粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断被称为【缺失值】。
它指的是现有数据集中某个或某些属性的值是不完全的。
处理缺失值的方法有:
1 直接删除:适用于样本较大的情况,样本较小时,可能会影响最终的分析结果 。
2 估算:数据均匀,均值法填充;数据分布倾斜,中位数填充;根据数据的分布情况,可以采用均值、中位数、或者众数进行数据填充
3 插补法:
·随机插补法:从总体中随机抽取某几个样本代替缺失样本。
·多重填补法:包含m个插补值的向量代替每一个缺失值的过程,要求m大于等于20。m个完整数据集合能从插补向量中创建。
·热平台插补:在非缺失数据集中找到一个与缺失值所在样本相似的样本,利用其中的观测值对缺失值进行插补。
·拉格朗日插值法和牛顿插值法:两者都是通过给定n+1个互异的插值节点,让你求一条n次代数曲线近似地表示待插值的函数曲线。
4 建模法:
·回归:基于完整的数据集,建立回归方程。
将已知属性值代入方程来估计未知属性值,以估计值来进行空值得填充。
·极大似然估计:基于缺失类型为随机缺失得条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对缺失数据进行极大似然估计。
·贝叶斯、随机森林、决策树:建立模型对缺失值进行预测。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论