zxq997

2018-10-22   阅读量: 1205

数据分析师 统计学

什么是二元变量相关系数?

扫码加入数据分析学习群

二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言,两个定距和定比变量间的相关性用Pearson(皮尔逊)相关系数来判定,这是参数检验的方法;两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定,这两种方法属于非参数检验。

Pearson简单相关系数

皮尔逊简单相关,也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方法,用于对定距或定比变量的相关性探索。皮尔逊相关系数的计算公式:

使用条件:

两个变量都是由测量获得的连续型数据,即等距或等比数据。

两个变量的总体都呈正态分布或接近正态分布,,至少是单峰对称分布,当然样本并不一定要正态。

必须是成对的数据,并且每对数据之间是相互独立的。

两个变量之间呈线性关系,一般用描绘散点图的方式来观察。

Spearman等级相关系数

Spearman相关系数是由英国统计学家Spearman在Pearson相关的基础上剔除的等级相关系数的计算方法,用于对定类或定序变量的相关性检验,可以看作是Pearson相关系数的非参数检验,因为它依据的是数据的秩而非数据的实际值。Spearman相关系数的取值范围也是在-1到+1之间,绝对值越大相关性越强,正负号表示相关的方向。Spearman相关系数计算公式:

Spearman等级相关系数的特点:

如果两变量正相关较强,则它们秩变化同步,D值较小,等级相关系数趋于1;

如果两变量负相关较强,则它们秩变化相反,D值较大,等级相关系数趋于-1;

如果两变量相关性弱,它们秩变化互不影响,D值趋于中间值,等级相关系数趋于0;

Kendall’s tau-b等级相关系数

和Spearman相关系数一样,Kendall’stau-b等级相关系数也是用于对定序变量的相关程度的度量,也属于非参数检验的范畴。它利用变量秩数据来计算一致对数目U和非一致对数目V。当两个变量具有较强的正相关关系时,一致对数目U较大,非一致对数目V较小;当两个变量具有较强的负相关关系时,一致对数目U较小,非一致对数目V较大;当两个变量相关性较弱时,一致对数目U和非一致对数目V大致相等。Kendalltau-b相关系数定义为:

Kendall tau-b相关系数具有如下特点:

如果两变量正相关性强,秩变化同步,则U应该较大,V应该较小,趋于1;

如果两变量负相关性强,秩变化相反,则U应该较小,V应该较大,趋于-1;

如果相关关系弱,则U,V大致相等,趋于0;

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子