通俗易懂地讲解什么是 PCA 主成分分析？_CDA答疑社区

热线电话：13121318867

登录

anranhui

2020-06-13 阅读量: 2361

通俗易懂地讲解什么是 PCA 主成分分析？

主成分分析（Principal Component Analysis，PCA），主要用于数据降维。

首先说一下什么是降维，字面意思就是降低数据的维数，而数据维数也可简单理解为列的个数，比如我们有一组数据如下：

这就是二维数据，我们可以通过主成分分析降维成一维数据。

现在就让我们说说是如何把二维降一维的。

可以从散点图看出两者完全正相关，因此有一列其实是多余的，所以我们要进行降维：

其中的一列数据房价。

这种一维数据可以直接放在实数轴上：

不过数据还需要处理下，假设房价样本用X表示，那么均值为：

然后以均值X^-为原点,以X^-为0，那么上述表格的数字就需要修改下：

这个过程称为“中心化”。“中心化”处理的原因是，这些数字后继会参与统计运算，比如求样本方差，中间就包含了X_i-X^-，

用“中心化”的数据就可以直接算出“房价”的样本方差：

“中心化”之后可以看出数据大概可以分为两类

现在新采集了房屋的面积，可以看出两者完全正相关，有一列其实是多余的：

求出房屋样本、面积样本的均值，分别对房屋样本、面积样本进行“中心化”后得到：

房价X,和面积Y的样本协方差是这样的（这里也是用的一致估计量）：

可见“中心化”后的数据可以简化上面这个公式，这点后面还会看到具体应用。

把这个二维数据画在坐标轴上，横纵坐标分别为“房价”、“面积”，可以看出它们排列为一条直线

如果旋转坐标系，让横坐标和这条直线重合：

旋转后的坐标系，横纵坐标不再代表“房价”、“面积”了，而是两者的混合（术语是线性组合），这里把它们称作“主元1”、“主元2”，坐标值很容易用勾股定理计算出来，比如a在“主

元1”的坐标值为：

很显然a在“主元2”上的坐标为0，把所有的房间换算到新的坐标系上：

因为“主元2”全都为0，完全是多余的，我们只需要“主元1”就够了，这样就又把数据降为了一维，而且没有丢失任何信息：

https://www.zhihu.com/question/41120789

0.2064

1

0

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子