MYSQL数据处理常见方法_CDA答疑社区

热线电话：13121318867

登录

CDA117513

2022-01-24 阅读量: 1120

MYSQL数据处理常见方法

# 实际业务中，数据准备流程包括：数据获取、清洗、转换、集成

一、缺失值

缺失值：null值+特殊数值（-999）
缺失机制：完全变量（数据集中不含缺失值的变量）、不完全变量/ 完全随机缺失MCAR、随机缺失MAR、完全非随机缺失MNAR
空值的含义：某个对象的属性值缺失或未知；

三类：

不存在型空值（一个未婚者的配偶姓名）
存在型空值（暂时无法知道）
占位型空值（这种空值的填充只表示填充）

二、缺失值处理三种方法：

1.删除：（行）或特征（列）删除

2.填充：

人工填写（filling manually）
特殊值填充（Treating Missing Attribute values as Special values）
如：所有的空值都用“unknown”填充，或是对于全是正数的数组填充为“-1”
均值填充（Mean/Mode Completer）/条件平均值填充法（ConditionalMeanCompleter）
SQL均值填充：selectifnull(comm,(selectavg(comm)fromemp))fromemp;
热卡填充（Hot deck imputation，或就近补齐）热卡填充（Hot deck imputation，或就近补齐）数学模型--根据其他字段找出相似对象
K近邻填充（KNN）
使用所有可能的值填充（Assigning All Possible values of the Attribute）
组合完整化填充（Combinatorial Completer）
回归（Regression）
期望值最大化（Expectation maximization，EM）
多重插补（Multiple Imputation，MI）
C4.5方法

3.不处理（在包含空值的数据上进行数据挖掘）

贝叶斯网络
人工神经网络等算法
引入哑变量，将变量映射到高维空间

三、异常值

1.异常值：数据集中不合理的值，指的是偏离正常范围的值，不是错误值

2.异常值检测

（1）简单统计分析（是最大值和最小值）

（2）3σ原则（正态分布）

（3）箱线图

上下须为数据分布的边界，只要是高于上须，或者是低于下触须的数据点都可以认为是离群点或异常值。

下四分位数：25%分位点所对应的值(Q1)

中位数：50%分位点对应的值(Q2)

上四分位数：75%分位点所对应的值(Q3)

上须：Q3+1.5(Q3-Q1)

下须：Q1-1.5(Q3-Q1)

四、异常值处理

1.删除

2.视为缺失值

缺失值用特殊值填充，看做缺失值

3.平均值修正

用前后两个观测值的平均值来修正该异常值

4.盖帽法

将99%以上的点值=99%的点值；小于1%的点值=1%的点值

5.分箱法（考察数据的“近邻”来光滑有序数据的值）

等深分箱：每个分箱中的样本量一致；

等宽分箱：每个分箱中的取值范围一致

6.回归插补（发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据）

假设是p(y)=N(f(x))，N为正态分布

7.多重插补（先删除Y变量的缺失值然后插补）

8.不处理（数据挖掘）

45.6251

8

0

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子