数据预处理之数据归一化-CDA数据分析师官网

数据预处理之数据归一化

2018-02-28

数据预处理之数据归一化

一、简单缩放

分为：最大值缩放和均值缩放

在简单缩放中，我们的目的是通过对数据的每一个维度的值进行重新调节（这些维度可能是相互独立的），使得最终的数据向量落在[0,1]或[− 1,1]的区间内（根据数据情况而定）。

例子:在处理自然图像时，我们获得的像素值在[0,255]区间中，常用的处理是将这些像素值除以255，使它们缩放到[0,1]中。

二、逐样本均值消减(也称为移除直流分量)

如果你的数据是平稳的（即数据每一个维度的统计都服从相同分布），那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

例子：对于图像，这种归一化可以移除图像的平均亮度值(intensity)。很多情况下我们对图像的照度并不感兴趣，而更多地关注其内容，这时对每个数据点移除像素的均值是有意义的。

注意：虽然该方法广泛地应用于图像，但在处理彩色图像时需要格外小心，具体来说，是因为不同色彩通道中的像素并不都存在平稳特性。

例如

Caffe demo 里头的 classification_demo.m脚本文件中对原始数据有这样的处理

im_data = im_data - mean_data;

三、特征标准化(使数据集中所有特征都具有零均值和单位方差)

特征标准化的具体做法是：首先计算每一个维度上数据的均值（使用全体数据计算），之后在每一个维度上都减

去该均值。下一步便是在数据的每一维度上除以该维度上数据的标准差。

简单的说就是：减去原始数据的均值再除以原始数据的标准差

例子

x = [ones(m, 1), x];

%x包括2个特征值和1个偏置项，所以矩阵x的规模是 x:[mX3]

sigma = std(x);%X的标准差；mu = mean(x);%X的均值；x(:,2) = (x(:,2) - mu(2))./ sigma(2);x(:,3) = (x(:,3) - mu(3))./ sigma(3);

特征 Caffe

数据分析咨询请扫描二维码

上一篇商业活动中数据重要性分析

下一篇初学者如何从零学习人工智能

数据预处理之数据归一化

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...