CDA117513

2022-01-24   阅读量: 581

Mysql 数据处理 数据清洗 数据分析 缺失值处理

MYSQL数据处理常见方法

扫码加入数据分析学习群


# 实际业务中,数据准备流程包括:数据获取、清洗、转换、集成


一、缺失值

  1. 缺失值:null值+特殊数值(-999)

  2. 缺失机制:完全变量(数据集中不含缺失值的变量)、不完全变量/ 完全随机缺失MCAR、随机缺失MAR、完全非随机缺失MNAR

  3. 空值的含义:某个对象的属性值缺失或未知;

三类:

  • 不存在型空值(一个未婚者的配偶姓名)

  • 存在型空值(暂时无法知道)

  • 占位型空值(这种空值的填充只表示填充)

二、缺失值处理三种方法:

1.删除:(行)或特征(列)删除

2.填充:

  • 人工填写(filling manually)

  • 特殊值填充(Treating Missing Attribute values as Special values)

    如:所有的空值都用“unknown”填充,或是对于全是正数的数组填充为“-1”

  • 均值填充(Mean/Mode Completer)/条件平均值填充法(ConditionalMeanCompleter)

  • SQL均值填充:selectifnull(comm,(selectavg(comm)fromemp))fromemp;

  • 热卡填充(Hot deck imputation,或就近补齐)热卡填充(Hot deck imputation,或就近补齐)数学模型--根据其他字段找出相似对象

  • K近邻填充(KNN)

  • 使用所有可能的值填充(Assigning All Possible values of the Attribute)

  • 组合完整化填充(Combinatorial Completer)

  • 回归(Regression)

  • 期望值最大化(Expectation maximization,EM)

  • 多重插补(Multiple Imputation,MI)

  • C4.5方法

3.不处理(在包含空值的数据上进行数据挖掘)

  • 贝叶斯网络

  • 人工神经网络等算法

  • 引入哑变量,将变量映射到高维空间

三、异常值

1.异常值:数据集中不合理的值,指的是偏离正常范围的值,不是错误值

2.异常值检测

(1)简单统计分析(是最大值和最小值)

(2)3σ原则(正态分布)

(3)箱线图

上下须为数据分布的边界,只要是高于上须,或者是低于下触须的数据点都可以认为是离群点或异常值。

下四分位数:25%分位点所对应的值(Q1)

中位数:50%分位点对应的值(Q2)

上四分位数:75%分位点所对应的值(Q3)

上须:Q3+1.5(Q3-Q1)

下须:Q1-1.5(Q3-Q1)

四、异常值处理

1.删除

2.视为缺失值

缺失值用特殊值填充,看做缺失值

3.平均值修正

用前后两个观测值的平均值来修正该异常值

4.盖帽法

将99%以上的点值=99%的点值;小于1%的点值=1%的点值

5.分箱法(考察数据的“近邻”来光滑有序数据的值)

等深分箱:每个分箱中的样本量一致;

等宽分箱:每个分箱中的取值范围一致

6.回归插补(发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据)

假设是p(y)=N(f(x)),N为正态分布

7.多重插补(先删除Y变量的缺失值然后插补)

8.不处理(数据挖掘)

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
45.6251 8 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子