# 实际业务中,数据准备流程包括:数据获取、清洗、转换、集成
一、缺失值
缺失值:null值+特殊数值(-999)
缺失机制:完全变量(数据集中不含缺失值的变量)、不完全变量/ 完全随机缺失MCAR、随机缺失MAR、完全非随机缺失MNAR
空值的含义:某个对象的属性值缺失或未知;
三类:
不存在型空值(一个未婚者的配偶姓名)
存在型空值(暂时无法知道)
占位型空值(这种空值的填充只表示填充)
二、缺失值处理三种方法:
1.删除:(行)或特征(列)删除
2.填充:
人工填写(filling manually)
特殊值填充(Treating Missing Attribute values as Special values)
如:所有的空值都用“unknown”填充,或是对于全是正数的数组填充为“-1”
均值填充(Mean/Mode Completer)/条件平均值填充法(ConditionalMeanCompleter)
SQL均值填充:selectifnull(comm,(selectavg(comm)fromemp))fromemp;
热卡填充(Hot deck imputation,或就近补齐)热卡填充(Hot deck imputation,或就近补齐)数学模型--根据其他字段找出相似对象
K近邻填充(KNN)
使用所有可能的值填充(Assigning All Possible values of the Attribute)
组合完整化填充(Combinatorial Completer)
回归(Regression)
期望值最大化(Expectation maximization,EM)
多重插补(Multiple Imputation,MI)
C4.5方法
3.不处理(在包含空值的数据上进行数据挖掘)
贝叶斯网络
人工神经网络等算法
引入哑变量,将变量映射到高维空间
三、异常值
1.异常值:数据集中不合理的值,指的是偏离正常范围的值,不是错误值
2.异常值检测
(1)简单统计分析(是最大值和最小值)
(2)3σ原则(正态分布)
(3)箱线图
上下须为数据分布的边界,只要是高于上须,或者是低于下触须的数据点都可以认为是离群点或异常值。
下四分位数:25%分位点所对应的值(Q1)
中位数:50%分位点对应的值(Q2)
上四分位数:75%分位点所对应的值(Q3)
上须:Q3+1.5(Q3-Q1)
下须:Q1-1.5(Q3-Q1)
四、异常值处理
1.删除
2.视为缺失值
缺失值用特殊值填充,看做缺失值
3.平均值修正
用前后两个观测值的平均值来修正该异常值
4.盖帽法
将99%以上的点值=99%的点值;小于1%的点值=1%的点值
5.分箱法(考察数据的“近邻”来光滑有序数据的值)
等深分箱:每个分箱中的样本量一致;
等宽分箱:每个分箱中的取值范围一致
6.回归插补(发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据)
假设是p(y)=N(f(x)),N为正态分布
7.多重插补(先删除Y变量的缺失值然后插补)
8.不处理(数据挖掘)








暂无数据