热线电话:13121318867

登录
2019-03-14 阅读量: 1336
计算之间的Pearson成对相关性

我将单热编码应用于我的数据集中的分类特征,现在我被要求计算并可视化所有特征之间的Pearson成对相关性。虽然,在编码之后,对于分类特征的每个值存在更多列,并且计算它们之间的相关性是没有意义的。

corr = df.corr(method='pearson') 
sns.heatmap(corr)

我该如何解决这个问题?

使用热图PNG进行当前可视化

解决办法:Pearson Correlation的定义,就说:

“Pearson相关性是介于-1和1之间的数字,表示两个变量线性相关的程度。 ”

它基本上用于衡量一个变量相对于另一个变量的预期变化。话虽如此,直观地计算Pearson对分类变量的相关性是没有意义的,因为没有涉及数值。

如果您需要检查您的分类值是否相关(关联而不是关系),您可以使用以下技术之一:

方差分析(ANOVA)

皮尔逊的卡方检验

11.0571
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子