
SPSS分析技术:二元logistic回归
今天我们介绍另外一种应用范围更加广泛的回归分析方法:二元logistic回归。
应用背景
数据分析技术在实际应用过程中,大量的研究都需要对只有“是”和“否”两种选择的结论给予解释,即研究中的因变量并不是常用的定距变量和定序变量,而是仅有两种状态的二分变量。针对这种变量的回归分析称为二元Logistic回归分析技术。二元Logistic回归分析是一种多元回归分析,这里的二元不是自变量个数,而是指因变量的取值范围,与多元回归分析中的多元代表自变量个数截然不同。
例如,作为汽车销售商,其最关心的问题是顾客是否会购买某种品牌小汽车,为了预测未来顾客的购车可能性,汽车销售商可以采集半年来咨询该种小汽车的顾客的基本信息,以这些顾客最终是否购买了小汽车作为因变量,以顾客的职业、文化程度、收入情况、民族、宗教、喜好等因素作为自变量、借助二元Logistic回归分析技术,构造顾客购买此品牌小汽车的回归方程。然后,汽车销售商就可以以此回归方程式为依据,对前来咨询的顾客做出初步判定。这就是二元Logistic回归分析的主要目的。
理论基础
在因变量取值只能是0和1时,虽然从理论上讲无法直接使用一般多元线性回归模型建模,但是如果借助普通多元线性回归模型研究该问题,则在大量个案的情况下,所获得的因变量的均值将是因变量取“真”值时的概率。由此,可以得到初步想法:把因变量取值为1的概率作为新的因变量,把二元回归分析转化为针对新因变量的普通多元线性回归。
由于在二元回归模型中,因变量取值为1的概率P的值应在0~1之间。在借助普通多元线性回归模型解释二元回归中的概率P时,模型中的因变量与概率值之间的关系是线性的,然而在实际应用中,这个概率值与因变量之间往往是一种非线性关系。例如,在一定的条件范围内,购买新型手机的概率与收入增长情况呈正比,但这种情况并不稳定,经常是在收入增长初期,购买新手机的概率增长得比较缓慢,当收入增长到一定水平后,购买新手机的概率会快速增长,但当收入增长到某个数额后,购买新手机的概率人会增长,但增长速度已经逐渐变缓,对这样的概率P进行必要的转化,使之符合常规线性模型,例如下式:
上式就是Logistic函数,它是在增长函数的基础上,针对二元回归中的概率P值所做的专门变形。如果将上式推广到多元线性回归公式,就形成了针对二分变量的多元回归分析。
参数求解
二元Logistic回归方程的参数求解采用极大似然估计法。极大似然估计是一种在总体分布密度函数和样本信息的基础上,求解模型中未知参数估计值的方法,它基于总体的分布密度函数来构造一个包含未知参数的似然函数,并求解在似然函数值最大情况下的未知参数的估计值。在这一原则下得到的模型,其产生的样本数据的分布与总体分布相近的可能性最大。因此,似然函数的函数值实际上也是一种概率值,它反映了在所确定拟合模型为真时,该模型能够较好的拟合样本数据的可能性,所以似然函数的取值也是0~1。
Logistic回归系数显著性检验的目的是逐个检验模型中各个自变量是否与LogitP有显著的线性关系,对于解释LogitP是否有重要贡献。在二元Logistic回归分析中,对回归系数的判定统计量是Wald统计量。Wald统计量的原理与普通线性回归分析中的T值的概念相似。Wald值越大,表示回归系数的影响力越显著。
二元Logistic回归分析也是一种多元回归分析,在面临多个自变量时,同样存在着自变量的筛选标准和自变量进入方程的顺序问题。
自变量筛选方法
极大似然估计的方法;极大似然估计方法,即基于极大似然估计算法对每个待选自变量进行评价,以便确定该自变量是否进入方程。似然比检验的原理是通过分析模型中自变量的变化对似然比的影响来检验增加或减少自变量的值是否对因变量有统计学上的显著意义。
采用Wald检验方法;这是一种类似T检验的自变量筛选方法,根据二元数据处理的特点,人们对T检验的算法进行了扩展,剔提出了Wald统计量,通过检查Wald统计量的强度,以确定相对应的自变量能否进入方程。
采取比分检验方式;在已经设计好的回归模型的基础上增加一个变量,并假设新变量的回归系数为0,。此时以似然函数的一阶偏导和信息矩阵的乘积作为比分检验的统计量S。在样本量较大时,S服从自由度为检验参数个数的卡方分布。然后借助卡方分布的原理对自变量实施判定。
自变量进入方程顺序
直接进入方式;所谓直接进入,就是所有给定自变量都进入到回归方程中。在最终的回归方程中,应该包含全部自变量。直接进入方式的最大缺点是需要用户根据回归分析的输出表格,人工判定回归方程的质量和各个回归系数的质量。
逐个进入法;逐个进入发,也叫向前法。其思路是对于给定自变量,按照其检验概率的显著性程度选择最优的自变量,把它依次加入到方程中,然后按照选定的筛选技术进行自变量的判定。在SPSS的二元Logistic回归分析中,对于自变量的筛选,在向前方式下,分别有条件、似然和Wald三种筛选方法。
向后,逐渐剔除法;逐个剔除法的基本思路是对于给定自变量,先全部进入方程,按照其检验概率P的显著性水平一次选择最差的自变量,从方程中剔除。在SPSS的二元Logistic回归分析中,对于自变量的剔除,在向后方式下,也分别有条件、LR和Wald三种筛选技术。
回归方程质量评价
二元Logistic回归分析也提供了类似于线性回归的判定系数R方,F值和Sig值的专门数据指标。
判定系数;在二元Logistic回归分析中,衡量其拟合程度高低的指标是二元回归分析的判定系数,它叫“Cox&Snell R方”统计量,这是一个与普通线性回归中的判定系数R方作用相似的统计量。但是,由于它的取值范围不易确定,因此在使用时并不方便。为了解决这个问题,SPSS引入了NagelkerteR方统计量,它是对CS R方的修正,取值范围为0~1。它的值越接近1,越好。
回归系数显著性及其检验概率;在二元Logistic回归分析中,对于纳入方程的每个自变量,都可以计算其Wald值(相当于线性回归中的T值)。利用Wald值,可以判定该自变量对回归方程的影响力,通常Walds值应大于2。另外,与Walds值配套的检验概率Sig值也能发挥同样的作用。
错判矩阵;错判矩阵是一个二维表格,用于直观的显示出二元Logistic回归中原始观测数据与预测值之间的吻合程度。由于二元Logistic回归的因变量只有2个取值,所以错判矩阵的结构很简单。如下表:
在错判矩阵中,A+D的值占总数的比例越大,说明二元回归的吻合程度越高,回归方程的质量越高。
Hosmer-Lemeshow拟合度检验;对于自变量较多且多为定距型数据的二元回归分析,通常在执行回归分析时把选项对话框中的【Hosmer-Lemeshow拟合度】复选框选中,以便使系统自动输出其统计量。在拟合度表格中,检验概率值越大,表示回归方程与观测值的差异性越小,回归方差的你和程度越高。
案例分析
现在有一份某个大学的学生资料,请以是否喜欢数学为因变量,以性别、爱好、专业和数学成绩为自变量开展回归分析,并解释回归分析结果。
SPSS分析步骤
1、利用菜单【转换】-【重新编码为不同变量】,将性别、专业和爱好进行数值化编码。
2、利用菜单【分析】-【回归】-【二元Logistic】命令,启动Logistic回归对话框;如下图所示,将变量选入不同方框;同时在【方法】栏选择“向前 LR”;
3、选中【分类】菜单,将定类变量Sex、zy和ah选中,选中的作用是使这些变量在计算过程中成为不被关注大小值的哑元,这些变量的每一项都会独立参与到回归分析当中。所有变量中,只有数学成绩是定距变量。
4、点击【确定】,进行二元Logistic回归分析,获得回归结果。
结果解读
由于选择的是向前LR,所以分析首先是对每一个变量进行检验,得出Wald值和检验概率Sig。然后根据检验概率从低到高逐个代入回归方程进行迭代运算,迭代运算最高为20次。我们接下来直接分析迭代运算的最终结果:
第一个表格显示最后产生两个回归模型,显著性都为0.000,小于0.05,表示模型有效,但是还不能说明模型的质量好坏。第二个表格包含了NagelkerkeR方结果,两个值都大于0.4,表示质量可以接受,但是第二个模型的R方值为0.820,很接近1,说明模型二的质量高于模型一。
上图是错判矩阵,从结果来看,模型1的判断正确率为80%,而模型2的为91.7%。因此,模型1的判定率明显优于模型2。
最后这个表格显示进入到方程中的自变量。B列是回归方程的系数。Wald是各自变量对应的Wald值,相当于线性回归中的t值,反映该自变量在方程中的价值。显著性水平小于0.05,代表影响力大,但是使用极大似然法时会出现显著性大于0.05的情况,需要谨慎对待。
推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~
免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18