anranhui

2020-06-13   阅读量: 1482

pca 主成分分析 统计学

通俗易懂地讲解什么是 PCA 主成分分析?

扫码加入数据分析学习群

主成分分析(Principal Component Analysis,PCA),主要用于数据降维

首先说一下什么是降维,字面意思就是降低数据的维数,而数据维数也可简单理解为列的个数,比如我们有一组数据如下:


这就是二维数据,我们可以通过主成分分析降维成一维数据。

现在就让我们说说是如何把二维降一维的。

可以从散点图看出两者完全正相关,因此有一列其实是多余的,所以我们要进行降维:


其中的一列数据房价。

这种一维数据可以直接放在实数轴上:





不过数据还需要处理下,假设房价样本用X表示,那么均值为:


然后以均值X-为原点,以X-为0,那么上述表格的数字就需要修改下:


这个过程称为“中心化”。“中心化”处理的原因是,这些数字后继会参与统计运算,比如求样本方差,中间就包含了Xi -X-




用“中心化”的数据就可以直接算出“房价”的样本方差:



“中心化”之后可以看出数据大概可以分为两类



现在新采集了房屋的面积,可以看出两者完全正相关,有一列其实是多余的:


求出房屋样本、面积样本的均值,分别对房屋样本、面积样本进行“中心化”后得到:


房价X,和面积Y的样本协方差是这样的(这里也是用的一致估计量):



可见“中心化”后的数据可以简化上面这个公式,这点后面还会看到具体应用。

把这个二维数据画在坐标轴上,横纵坐标分别为“房价”、“面积”,可以看出它们排列为一条直线



如果旋转坐标系,让横坐标和这条直线重合:




旋转后的坐标系,横纵坐标不再代表“房价”、“面积”了,而是两者的混合(术语是线性组合),这里把它们称作“主元1”、“主元2”,坐标值很容易用勾股定理计算出来,比如a在“主

元1”的坐标值为:



很显然a在“主元2”上的坐标为0,把所有的房间换算到新的坐标系上:


因为“主元2”全都为0,完全是多余的,我们只需要“主元1”就够了,这样就又把数据降为了一维,而且没有丢失任何信息:











https://www.zhihu.com/question/41120789



添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.2064 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子