热线电话:13121318867

登录
2018-11-29 阅读量: 1062
缺失值的补全办法

粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断被称为【缺失值】。

它指的是现有数据集中某个或某些属性的值是不完全的。

处理缺失值的方法有:

1 直接删除:适用于样本较大的情况,样本较小时,可能会影响最终的分析结果 。

2 估算:数据均匀,均值法填充;数据分布倾斜,中位数填充;根据数据的分布情况,可以采用均值、中位数、或者众数进行数据填充

3 插补法:

·随机插补法:从总体中随机抽取某几个样本代替缺失样本。

·多重填补法:包含m个插补值的向量代替每一个缺失值的过程,要求m大于等于20。m个完整数据集合能从插补向量中创建。

·热平台插补:在非缺失数据集中找到一个与缺失值所在样本相似的样本,利用其中的观测值对缺失值进行插补。

·拉格朗日插值法和牛顿插值法:两者都是通过给定n+1个互异的插值节点,让你求一条n次代数曲线近似地表示待插值的函数曲线。

4 建模法:

·回归:基于完整的数据集,建立回归方程。

将已知属性值代入方程来估计未知属性值,以估计值来进行空值得填充。

·极大似然估计:基于缺失类型为随机缺失得条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对缺失数据进行极大似然估计。

·贝叶斯、随机森林、决策树:建立模型对缺失值进行预测。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子