2019-03-14
阅读量:
1336
计算之间的Pearson成对相关性
我将单热编码应用于我的数据集中的分类特征,现在我被要求计算并可视化所有特征之间的Pearson成对相关性。虽然,在编码之后,对于分类特征的每个值存在更多列,并且计算它们之间的相关性是没有意义的。
corr = df.corr(method='pearson')
sns.heatmap(corr)
我该如何解决这个问题?
解决办法:Pearson Correlation的定义,就说:
“Pearson相关性是介于-1和1之间的数字,表示两个变量线性相关的程度。 ”
它基本上用于衡量一个变量相对于另一个变量的预期变化。话虽如此,直观地计算Pearson对分类变量的相关性是没有意义的,因为没有涉及数值。
如果您需要检查您的分类值是否相关(关联而不是关系),您可以使用以下技术之一:
方差分析(ANOVA)
皮尔逊的卡方检验






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论