登录
首页大数据时代缺失值类型和产生原因
缺失值类型和产生原因
2020-06-24
收藏

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

一、类型

缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。

完全随机缺失

(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。

随机缺失

(missing at random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。

完全非随机缺失

(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。

其它

从缺失值的所属属性上讲,如果所有的缺失值都是同一属性,那么这种缺失成为单值缺失,如果缺失值属于不同的属性,称为任意缺失。另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。

二、产生原因

缺失值的产生的原因多种多样,主要分为机械原因和人为原因。

机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。

人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。

数据分析咨询请扫描二维码

客服在线
立即咨询