京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS分析技术:二元logistic回归
今天我们介绍另外一种应用范围更加广泛的回归分析方法:二元logistic回归。
应用背景
数据分析技术在实际应用过程中,大量的研究都需要对只有“是”和“否”两种选择的结论给予解释,即研究中的因变量并不是常用的定距变量和定序变量,而是仅有两种状态的二分变量。针对这种变量的回归分析称为二元Logistic回归分析技术。二元Logistic回归分析是一种多元回归分析,这里的二元不是自变量个数,而是指因变量的取值范围,与多元回归分析中的多元代表自变量个数截然不同。
例如,作为汽车销售商,其最关心的问题是顾客是否会购买某种品牌小汽车,为了预测未来顾客的购车可能性,汽车销售商可以采集半年来咨询该种小汽车的顾客的基本信息,以这些顾客最终是否购买了小汽车作为因变量,以顾客的职业、文化程度、收入情况、民族、宗教、喜好等因素作为自变量、借助二元Logistic回归分析技术,构造顾客购买此品牌小汽车的回归方程。然后,汽车销售商就可以以此回归方程式为依据,对前来咨询的顾客做出初步判定。这就是二元Logistic回归分析的主要目的。
理论基础
在因变量取值只能是0和1时,虽然从理论上讲无法直接使用一般多元线性回归模型建模,但是如果借助普通多元线性回归模型研究该问题,则在大量个案的情况下,所获得的因变量的均值将是因变量取“真”值时的概率。由此,可以得到初步想法:把因变量取值为1的概率作为新的因变量,把二元回归分析转化为针对新因变量的普通多元线性回归。
由于在二元回归模型中,因变量取值为1的概率P的值应在0~1之间。在借助普通多元线性回归模型解释二元回归中的概率P时,模型中的因变量与概率值之间的关系是线性的,然而在实际应用中,这个概率值与因变量之间往往是一种非线性关系。例如,在一定的条件范围内,购买新型手机的概率与收入增长情况呈正比,但这种情况并不稳定,经常是在收入增长初期,购买新手机的概率增长得比较缓慢,当收入增长到一定水平后,购买新手机的概率会快速增长,但当收入增长到某个数额后,购买新手机的概率人会增长,但增长速度已经逐渐变缓,对这样的概率P进行必要的转化,使之符合常规线性模型,例如下式:
上式就是Logistic函数,它是在增长函数的基础上,针对二元回归中的概率P值所做的专门变形。如果将上式推广到多元线性回归公式,就形成了针对二分变量的多元回归分析。
参数求解
二元Logistic回归方程的参数求解采用极大似然估计法。极大似然估计是一种在总体分布密度函数和样本信息的基础上,求解模型中未知参数估计值的方法,它基于总体的分布密度函数来构造一个包含未知参数的似然函数,并求解在似然函数值最大情况下的未知参数的估计值。在这一原则下得到的模型,其产生的样本数据的分布与总体分布相近的可能性最大。因此,似然函数的函数值实际上也是一种概率值,它反映了在所确定拟合模型为真时,该模型能够较好的拟合样本数据的可能性,所以似然函数的取值也是0~1。
Logistic回归系数显著性检验的目的是逐个检验模型中各个自变量是否与LogitP有显著的线性关系,对于解释LogitP是否有重要贡献。在二元Logistic回归分析中,对回归系数的判定统计量是Wald统计量。Wald统计量的原理与普通线性回归分析中的T值的概念相似。Wald值越大,表示回归系数的影响力越显著。
二元Logistic回归分析也是一种多元回归分析,在面临多个自变量时,同样存在着自变量的筛选标准和自变量进入方程的顺序问题。
自变量筛选方法
极大似然估计的方法;极大似然估计方法,即基于极大似然估计算法对每个待选自变量进行评价,以便确定该自变量是否进入方程。似然比检验的原理是通过分析模型中自变量的变化对似然比的影响来检验增加或减少自变量的值是否对因变量有统计学上的显著意义。
采用Wald检验方法;这是一种类似T检验的自变量筛选方法,根据二元数据处理的特点,人们对T检验的算法进行了扩展,剔提出了Wald统计量,通过检查Wald统计量的强度,以确定相对应的自变量能否进入方程。
采取比分检验方式;在已经设计好的回归模型的基础上增加一个变量,并假设新变量的回归系数为0,。此时以似然函数的一阶偏导和信息矩阵的乘积作为比分检验的统计量S。在样本量较大时,S服从自由度为检验参数个数的卡方分布。然后借助卡方分布的原理对自变量实施判定。
自变量进入方程顺序
直接进入方式;所谓直接进入,就是所有给定自变量都进入到回归方程中。在最终的回归方程中,应该包含全部自变量。直接进入方式的最大缺点是需要用户根据回归分析的输出表格,人工判定回归方程的质量和各个回归系数的质量。
逐个进入法;逐个进入发,也叫向前法。其思路是对于给定自变量,按照其检验概率的显著性程度选择最优的自变量,把它依次加入到方程中,然后按照选定的筛选技术进行自变量的判定。在SPSS的二元Logistic回归分析中,对于自变量的筛选,在向前方式下,分别有条件、似然和Wald三种筛选方法。
向后,逐渐剔除法;逐个剔除法的基本思路是对于给定自变量,先全部进入方程,按照其检验概率P的显著性水平一次选择最差的自变量,从方程中剔除。在SPSS的二元Logistic回归分析中,对于自变量的剔除,在向后方式下,也分别有条件、LR和Wald三种筛选技术。
回归方程质量评价
二元Logistic回归分析也提供了类似于线性回归的判定系数R方,F值和Sig值的专门数据指标。
判定系数;在二元Logistic回归分析中,衡量其拟合程度高低的指标是二元回归分析的判定系数,它叫“Cox&Snell R方”统计量,这是一个与普通线性回归中的判定系数R方作用相似的统计量。但是,由于它的取值范围不易确定,因此在使用时并不方便。为了解决这个问题,SPSS引入了NagelkerteR方统计量,它是对CS R方的修正,取值范围为0~1。它的值越接近1,越好。
回归系数显著性及其检验概率;在二元Logistic回归分析中,对于纳入方程的每个自变量,都可以计算其Wald值(相当于线性回归中的T值)。利用Wald值,可以判定该自变量对回归方程的影响力,通常Walds值应大于2。另外,与Walds值配套的检验概率Sig值也能发挥同样的作用。
错判矩阵;错判矩阵是一个二维表格,用于直观的显示出二元Logistic回归中原始观测数据与预测值之间的吻合程度。由于二元Logistic回归的因变量只有2个取值,所以错判矩阵的结构很简单。如下表:
在错判矩阵中,A+D的值占总数的比例越大,说明二元回归的吻合程度越高,回归方程的质量越高。
Hosmer-Lemeshow拟合度检验;对于自变量较多且多为定距型数据的二元回归分析,通常在执行回归分析时把选项对话框中的【Hosmer-Lemeshow拟合度】复选框选中,以便使系统自动输出其统计量。在拟合度表格中,检验概率值越大,表示回归方程与观测值的差异性越小,回归方差的你和程度越高。
案例分析
现在有一份某个大学的学生资料,请以是否喜欢数学为因变量,以性别、爱好、专业和数学成绩为自变量开展回归分析,并解释回归分析结果。
SPSS分析步骤
1、利用菜单【转换】-【重新编码为不同变量】,将性别、专业和爱好进行数值化编码。
2、利用菜单【分析】-【回归】-【二元Logistic】命令,启动Logistic回归对话框;如下图所示,将变量选入不同方框;同时在【方法】栏选择“向前 LR”;
3、选中【分类】菜单,将定类变量Sex、zy和ah选中,选中的作用是使这些变量在计算过程中成为不被关注大小值的哑元,这些变量的每一项都会独立参与到回归分析当中。所有变量中,只有数学成绩是定距变量。
4、点击【确定】,进行二元Logistic回归分析,获得回归结果。
结果解读
由于选择的是向前LR,所以分析首先是对每一个变量进行检验,得出Wald值和检验概率Sig。然后根据检验概率从低到高逐个代入回归方程进行迭代运算,迭代运算最高为20次。我们接下来直接分析迭代运算的最终结果:
第一个表格显示最后产生两个回归模型,显著性都为0.000,小于0.05,表示模型有效,但是还不能说明模型的质量好坏。第二个表格包含了NagelkerkeR方结果,两个值都大于0.4,表示质量可以接受,但是第二个模型的R方值为0.820,很接近1,说明模型二的质量高于模型一。
上图是错判矩阵,从结果来看,模型1的判断正确率为80%,而模型2的为91.7%。因此,模型1的判定率明显优于模型2。
最后这个表格显示进入到方程中的自变量。B列是回归方程的系数。Wald是各自变量对应的Wald值,相当于线性回归中的t值,反映该自变量在方程中的价值。显著性水平小于0.05,代表影响力大,但是使用极大似然法时会出现显著性大于0.05的情况,需要谨慎对待。
推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19