热线电话:13121318867

登录
2018-11-29 阅读量: 1168
噪音处理

数据中存在着错误或异常(偏离期望值)的数据,称为【噪音数据】。这些数据对数据的分析造成了干扰。

处理噪音的方法:

1 分箱法:

将待处理的数据按照一定的规则放入箱子中,考察每一个箱子中的数据,根据各个箱子的情况采取方法进行数据处理。

-分箱方法:

· 等深分箱法:按记录行数分箱,每箱具有相同的记录数

· 等宽分箱法:每个箱的区间范围是一个常量,根据区间 范围分箱

· 用户自定义区间

· 最小熵:使各区间分组内的记录具有最小熵

-分箱后对数据进行平滑处理:

· 均值平滑:对同一箱值中的数据求平均值,箱内的数据用平均值代替。

· 中位数平滑:取中位数,箱内数据用中位数来代替。

· 边界平滑:箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

一般而言,宽度越大,光滑效果越明显。

2 回归:利用函数拟合数据来光滑数据。

·单线性回归:找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。

·多线性回归:它涉及多于两个属性,并且数据拟合到一个多维面。

使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

3 聚类:

将物理的或抽象对象的集合分组为不同簇(一组数据对象的集合),找出并清除落在簇之外的孤立点,这些孤立点就是噪声。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子