809669515

2018-10-31   阅读量: 1129

数据分析师 机器学习 数据挖掘

Logistic回归

扫码加入数据分析学习群

逻辑回归预测结果的概率只能有两个值(即二分法)。预测基于使用一个或多个预测变量(数值和分类)。线性回归不适合预测二元变量的值,原因有两个:

  • 线性回归将预测超出可接受范围的值(例如,预测
    0到1范围之外的概率)
  • 由于二分法实验对于每个实验只能具有两个可能值中的一个,因此残差将不会正常地分布在预测线附近。

另一方面,逻辑回归产生逻辑曲线,其限制在0和1之间的值。逻辑回归类似于线性回归,但曲线是使用目标变量的“概率”的自然对数构造的。而不是概率。此外,预测因子不必在每组中正态分布或具有相等的方差。

在逻辑回归中,常数(b 0)左右移动曲线,斜率(b 1)定义曲线的陡度。通过简单变换,逻辑回归方程可以用比值比来编写。

最后,根据双方的自然对数,我们可以用log-odds(logit)来表示方程,这是预测变量的线性函数。系数(b1)是logit(log-odds)随x的单位变化而变化的量。 

如前所述,逻辑回归可以处理任意数量的数字和/或分类变量。

线性回归和逻辑回归之间存在一些类比。正如普通最小二乘回归是用于估计线性回归中最佳拟合线的系数的方法一样,逻辑回归使用最大似然估计(MLE)来获得将预测变量与目标相关联的模型系数。在估计该初始函数之后,重复该过程直到LL(对数似然)没有显着变化。

甲伪- [R 2值也可用来指示回归模型的适当性。似然比检验是对基线模型的似然比减去简化模型的似然比之间差异的显着性的检验。这种差异称为“模型卡方” .Wald检验 用于检验模型中每个系数(b )的统计显着性(即预测因子贡献)。

伪R 2

有几种措施旨在模拟R 2 分析以评估逻辑模型的拟合优度,但它们不能解释为解释R 2并且不同的伪R 2可以达到非常不同的值。这里我们讨论三种伪R 2测量。

似然比检验

似然比检验提供了用于比较一个模型(例如,完整模型)下的数据的可能性与另一个更受限制的模型(例如,截距模型)下的数据的可能性的手段。

其中'p'是逻辑模型预测概率。下一步是计算这两个对数似然之间的差异。 

两个可能性之间的差异乘以因子2,以便使用标准显着性水平(Chi2检验)评估统计显着性。测试的自由度将等于模型下估计的参数数量的差异(例如,完整和截距)。 

Wald测试

Wald检验用于评估模型中每个系数(b)的统计显着性。

其中W是具有正态分布的Wald统计量(如Z检验),b是系数,SE是其标准误差。然后将W值平方,得到具有卡方分布的Wald统计量。

预测者贡献

Wald检验通常用于评估每个预测因子的预测的重要性。预测因子贡献的另一个指标是expb)或系数的优势比,即logit(log-odds)变化的数量,预测因子(x)中的一个单位变化。 

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子