SPSS—二元Logistic回归结果分析-CDA数据分析师官网

热线电话：13121318867

SPSS—二元Logistic回归结果分析

2018-06-27

SPSS—二元Logistic回归结果分析

1：在“案例处理汇总”中可以看出：选定的案例 489 个，未选定的案例 361 个，这个结果是根据设定的 validate = 1 得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替，在“分类变量编码”中教育水平分为 5 类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为 0，如果四个都未被选中，那么就是”研究生“ 频率分别代表了处在某个教育水平的个数，总和应该为 489 个
1：在“分类表”中可以看出：预测有 360 个是“否”（未违约）有 129 个是 “是”（违约） 2：在“方程中的变量”表中可以看出：最初是对“常数项”记性赋值，B 为 -1.026，标准误差为：0.103 那么 wald =( B/S.E)?=(-1.026/0.103)? = 99.2248, 跟表中的“100.029 几乎接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小， B 和 Exp(B) 是对数关系，将 B 进行对数抓换后，可以得到：Exp(B) = e^-1.026 = 0.358, 其中自由度为 1， sig 为 0.000，非常显著
1：从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型内表中分别给出了，得分，df , Sig 三个值, 而其中得分（Score)计算公式如下：
（公式中（Xi- X?) 少了一个平方）
下面来举例说明这个计算过程：(“年龄”自变量的得分为例）从“分类表”中可以看出：有 129 人违约，违约记为“1” 129，选定案例总和为 489 那么： y? = 129/489 = 0.2638036809816 x? = 16951 / 489 = 34.664621676892 所以：∑(Xi-x?)? = 30074.9979 y?（1-y?）=0.2638036809816 *（1-0.2638036809816 ）则违约总和为
=0.19421129888216 则：y?（1-y?）* 840.9044060372 ∑(Xi-x?)? =0.19421129888216 * 30074.9979 = 5
则：[∑Xi(yi - y?）]^2 = 43570.8 所以：
=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 （四舍五入）
计算过程采用的是在 EXCEL 里面计算出来的，截图如下所示：
从“不在方程的变量中”可以看出，年龄的“得分”为 7.46，刚好跟计算结果吻合！！答案得到验证~！！！！
1:从“块 1” 中可以看出：采用的是：向前步进的方法，在“模型系数的综合检验”表中可以看出：所有的 SIG 几乎都为“0” 而且随着模型的逐渐步进，卡方值越来越大，说明模型越来越显著，在第 4 步后，终止，根据设定的显著性值和自由度，可以算出卡方临界值，公式为： =CHIINV(显著性值,自由度) ，放入 excel 就可以得到结果 2：在“模型汇总“中可以看出：Cox&SnellR 方和 Nagelkerke R 方拟合效果都不太理想，最终理想模型也才：0.305 和 0.446，最大似然平方的对数值都比较大，明显是显著的
似然数对数计算公式为：
计算过程太费时间了，我就不举例说明计算过程了 Cox&SnellR 方的计算值是根据： 1：先拟合不包含待检验因素的 Logistic 模型，求对数似然函数值 INL0 （指只包含“常数项”的检验） 2：再拟合包含待检验因素的 Logistic 模型，求新的对数似然函数值 InLB （包含自变量的检验）
再根据公式：值！
即可算出：Cox&SnellR 方的
提示：将 Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析 1：从 Hosmer 和 Lemeshow 检验表中，可以看出：经过 4 次迭代后，最终的卡方统计量为：11.919，而临界值为：CHINV(0.05,8) = 15.507 卡方统计量< 临界值，从 SIG 角度来看： 0.155 > 0.05 , 说明模型能够很好的拟合整体，不存在显著的差异。 2：从 Hosmer 和 Lemeshow 检验随即表中可以看出： ”观测值“和”期望值 “几乎是接近的，不存在很大差异，说明模型拟合效果比较理想，印证了“Hosmer 和 Lemeshow 检验”中的结果而“Hosmer 和 Lemeshow 检验”表中的“卡方”统计量，是通过“Hosmer 和 Lemeshow 检验随即表”中的数据得到的（即通过“观测值和”预测值“）得到的，计算公式如下所示：
x?（卡方统计量） =
∑（观测值频率- 预测值频率）^2 / 预测值的频率
举例说明一下计算过程：以计算 "步骤 1 的卡方统计量为例 " 1：将“Hosmer 和 Lemeshow 检验随即表”中“步骤 1 ” excel 中，得到如下所示结果：的数据，复制到
从“Hosmer 和 Lemeshow 检验”表中可以看出，步骤 1 的卡方统计量为： 7.567，在上图中，通过 excel 计算得到，结果为 7.566569 ~~7.567 （四舍五入），结果是一致的，答案得到验证！！
1：从“分类表”—“步骤 1” 中可以看出：选定的案例中， “是否曾今违约” 总计：489 个，其中没有违约的 360 个，并且对 360 个“没有违约”的客户进行了预测， 340 个预测成功，个预测失败，有 20 预测成功率为： / 360 =94.4% 340 其中“违约”的有 189 个，也对 189 个“违约”的客户进行了预测，有 95 个预测失败， 34 个预测成功，预测成功率：34 / 129 = 26.4% 总计预测成功率：（340 + 34）/ 489 = 76.5% 步骤 1 的总体预测成功率为： 76.5%，在步骤 4 终止后，总体预测成功率为： 83.4，预测准确率逐渐提升 76.5%—79.8%—81.4%—83.4。 83.4 的预测准确率，不能够算太高，只能够说还行。
从“如果移去项则建模”表中可以看出：“在-2 对数似然中的更改” 中的数值是不是很眼熟？？？，跟在“模型系数总和检验”表中“卡方统计量"量的值是一样的！！！
将“如果移去项则建模”和 “方程中的变量”两个表结合一起来看 1：在“方程中的变量”表中可以看出：在步骤 1 中输入的变量为“负债率” ，在”如果移去项则建模“表中可以看出，当移去“负债率”这个变量时，引起了 74.052 的数值更改，此时模型中只剩下“常数项”-282.152 为常数项的对数似然值在步骤 2 中，当移去“工龄”这个自变量时，引起了 44.543 的数值变化（简称：似然比统计量），在步骤 2 中，移去“工龄”这个自变量后，还剩下“负债率”和“常量”，此时对数似然值变成了：-245.126，此时我们可以通过公式算出“负债率”的似然比统计量：计算过程如下：似然比统计量 = 2（-245.126+282.152）=74.052 答案得到验证！！！
2：在“如果移去项则建模”表中可以看出：不管移去那一个自变量，“更改的显著性”都非常小，几乎都小于 0.05，所以这些自变量系数跟模型显著相关，不能够剔去！！ 3：根据" 方程中的变量“这个表，我们可以得出 logistic 回归模型表达式：
= =
1 / 1+ e^-(a+∑βI*Xi)
我们假设 Z
么可以得到简洁表达式：
P(Y) = 1 / 1+e^ (-z) 将”方程中的变量“ —步骤 4 中的参数代入模型表达式中，可以得到 logistic 回归模型如下所示： P(Y) = 1 / 1 + e ^ -（-0.766+0.594*信用卡负债率+0.081*负债率-0.069*地址-0.249*功龄）
从”不在方程中的变量“表中可以看出：年龄，教育，收入，其它负债，都没有纳入模型中，其中：sig 值都大于 0.05，所以说明这些自变量跟模型显著不相关。
在”观察到的组和预测概率图”中可以看出： 1：the Cut Value is 0.5, 此处以 0.5 为切割值，预测概率大于 0.5，表示客户“违约”的概率比较大，小于 0.5 表示客户“违约”概率比较小。 2：从上图中可以看出：预测分布的数值基本分布在“左右两端”在大于 0.5 的切割值中，大部分都是“1” 表示大部分都是“违约”客户，（大约 230 个违约客户）预测概率比较准，而在小于 0.5 的切割值中，大部分都是“0” 大部分都是“未违约”的客户，（大约 500 多个客户，未违约）预测也很准
在运行结束后，会自动生成多个自变量，如下所示：
1：从上图中可以看出，已经对客户“是否违约”做出了预测，上面用颜色标记的部分-PRE_1 表示预测概率，上面的预测概率，可以通过前面的 Logistic 回归模型计算出来，计算过程不演示了 2： COOK_1 和 SRE_1 的值可以跟预测概率（PRE_1) 进行画图，来看 COOK_1 和 SRE_1 对预测概率的影响程度，因为 COOK 值跟模型拟合度有一定的关联，发生奇异值，会影响分析结果。如果有太多奇异值，应该单独进行深入研究！