SPSS分析技术:二元logistic回归
今天我们介绍另外一种应用范围更加广泛的回归分析方法:二元logistic回归。
应用背景
数据分析技术在实际应用过程中,大量的研究都需要对只有“是”和“否”两种选择的结论给予解释,即研究中的因变量并不是常用的定距变量和定序变量,而是仅有两种状态的二分变量。针对这种变量的回归分析称为二元Logistic回归分析技术。二元Logistic回归分析是一种多元回归分析,这里的二元不是自变量个数,而是指因变量的取值范围,与多元回归分析中的多元代表自变量个数截然不同。
例如,作为汽车销售商,其最关心的问题是顾客是否会购买某种品牌小汽车,为了预测未来顾客的购车可能性,汽车销售商可以采集半年来咨询该种小汽车的顾客的基本信息,以这些顾客最终是否购买了小汽车作为因变量,以顾客的职业、文化程度、收入情况、民族、宗教、喜好等因素作为自变量、借助二元Logistic回归分析技术,构造顾客购买此品牌小汽车的回归方程。然后,汽车销售商就可以以此回归方程式为依据,对前来咨询的顾客做出初步判定。这就是二元Logistic回归分析的主要目的。
理论基础
在因变量取值只能是0和1时,虽然从理论上讲无法直接使用一般多元线性回归模型建模,但是如果借助普通多元线性回归模型研究该问题,则在大量个案的情况下,所获得的因变量的均值将是因变量取“真”值时的概率。由此,可以得到初步想法:把因变量取值为1的概率作为新的因变量,把二元回归分析转化为针对新因变量的普通多元线性回归。
由于在二元回归模型中,因变量取值为1的概率P的值应在0~1之间。在借助普通多元线性回归模型解释二元回归中的概率P时,模型中的因变量与概率值之间的关系是线性的,然而在实际应用中,这个概率值与因变量之间往往是一种非线性关系。例如,在一定的条件范围内,购买新型手机的概率与收入增长情况呈正比,但这种情况并不稳定,经常是在收入增长初期,购买新手机的概率增长得比较缓慢,当收入增长到一定水平后,购买新手机的概率会快速增长,但当收入增长到某个数额后,购买新手机的概率人会增长,但增长速度已经逐渐变缓,对这样的概率P进行必要的转化,使之符合常规线性模型,例如下式:
上式就是Logistic函数,它是在增长函数的基础上,针对二元回归中的概率P值所做的专门变形。如果将上式推广到多元线性回归公式,就形成了针对二分变量的多元回归分析。
参数求解
二元Logistic回归方程的参数求解采用极大似然估计法。极大似然估计是一种在总体分布密度函数和样本信息的基础上,求解模型中未知参数估计值的方法,它基于总体的分布密度函数来构造一个包含未知参数的似然函数,并求解在似然函数值最大情况下的未知参数的估计值。在这一原则下得到的模型,其产生的样本数据的分布与总体分布相近的可能性最大。因此,似然函数的函数值实际上也是一种概率值,它反映了在所确定拟合模型为真时,该模型能够较好的拟合样本数据的可能性,所以似然函数的取值也是0~1。
Logistic回归系数显著性检验的目的是逐个检验模型中各个自变量是否与LogitP有显著的线性关系,对于解释LogitP是否有重要贡献。在二元Logistic回归分析中,对回归系数的判定统计量是Wald统计量。Wald统计量的原理与普通线性回归分析中的T值的概念相似。Wald值越大,表示回归系数的影响力越显著。
二元Logistic回归分析也是一种多元回归分析,在面临多个自变量时,同样存在着自变量的筛选标准和自变量进入方程的顺序问题。
自变量筛选方法
极大似然估计的方法;极大似然估计方法,即基于极大似然估计算法对每个待选自变量进行评价,以便确定该自变量是否进入方程。似然比检验的原理是通过分析模型中自变量的变化对似然比的影响来检验增加或减少自变量的值是否对因变量有统计学上的显著意义。
采用Wald检验方法;这是一种类似T检验的自变量筛选方法,根据二元数据处理的特点,人们对T检验的算法进行了扩展,剔提出了Wald统计量,通过检查Wald统计量的强度,以确定相对应的自变量能否进入方程。
采取比分检验方式;在已经设计好的回归模型的基础上增加一个变量,并假设新变量的回归系数为0,。此时以似然函数的一阶偏导和信息矩阵的乘积作为比分检验的统计量S。在样本量较大时,S服从自由度为检验参数个数的卡方分布。然后借助卡方分布的原理对自变量实施判定。
自变量进入方程顺序
直接进入方式;所谓直接进入,就是所有给定自变量都进入到回归方程中。在最终的回归方程中,应该包含全部自变量。直接进入方式的最大缺点是需要用户根据回归分析的输出表格,人工判定回归方程的质量和各个回归系数的质量。
逐个进入法;逐个进入发,也叫向前法。其思路是对于给定自变量,按照其检验概率的显著性程度选择最优的自变量,把它依次加入到方程中,然后按照选定的筛选技术进行自变量的判定。在SPSS的二元Logistic回归分析中,对于自变量的筛选,在向前方式下,分别有条件、似然和Wald三种筛选方法。
向后,逐渐剔除法;逐个剔除法的基本思路是对于给定自变量,先全部进入方程,按照其检验概率P的显著性水平一次选择最差的自变量,从方程中剔除。在SPSS的二元Logistic回归分析中,对于自变量的剔除,在向后方式下,也分别有条件、LR和Wald三种筛选技术。
回归方程质量评价
二元Logistic回归分析也提供了类似于线性回归的判定系数R方,F值和Sig值的专门数据指标。
判定系数;在二元Logistic回归分析中,衡量其拟合程度高低的指标是二元回归分析的判定系数,它叫“Cox&Snell R方”统计量,这是一个与普通线性回归中的判定系数R方作用相似的统计量。但是,由于它的取值范围不易确定,因此在使用时并不方便。为了解决这个问题,SPSS引入了NagelkerteR方统计量,它是对CS R方的修正,取值范围为0~1。它的值越接近1,越好。
回归系数显著性及其检验概率;在二元Logistic回归分析中,对于纳入方程的每个自变量,都可以计算其Wald值(相当于线性回归中的T值)。利用Wald值,可以判定该自变量对回归方程的影响力,通常Walds值应大于2。另外,与Walds值配套的检验概率Sig值也能发挥同样的作用。
错判矩阵;错判矩阵是一个二维表格,用于直观的显示出二元Logistic回归中原始观测数据与预测值之间的吻合程度。由于二元Logistic回归的因变量只有2个取值,所以错判矩阵的结构很简单。如下表:
在错判矩阵中,A+D的值占总数的比例越大,说明二元回归的吻合程度越高,回归方程的质量越高。
Hosmer-Lemeshow拟合度检验;对于自变量较多且多为定距型数据的二元回归分析,通常在执行回归分析时把选项对话框中的【Hosmer-Lemeshow拟合度】复选框选中,以便使系统自动输出其统计量。在拟合度表格中,检验概率值越大,表示回归方程与观测值的差异性越小,回归方差的你和程度越高。
案例分析
现在有一份某个大学的学生资料,请以是否喜欢数学为因变量,以性别、爱好、专业和数学成绩为自变量开展回归分析,并解释回归分析结果。
SPSS分析步骤
1、利用菜单【转换】-【重新编码为不同变量】,将性别、专业和爱好进行数值化编码。
2、利用菜单【分析】-【回归】-【二元Logistic】命令,启动Logistic回归对话框;如下图所示,将变量选入不同方框;同时在【方法】栏选择“向前 LR”;
3、选中【分类】菜单,将定类变量Sex、zy和ah选中,选中的作用是使这些变量在计算过程中成为不被关注大小值的哑元,这些变量的每一项都会独立参与到回归分析当中。所有变量中,只有数学成绩是定距变量。
4、点击【确定】,进行二元Logistic回归分析,获得回归结果。
结果解读
由于选择的是向前LR,所以分析首先是对每一个变量进行检验,得出Wald值和检验概率Sig。然后根据检验概率从低到高逐个代入回归方程进行迭代运算,迭代运算最高为20次。我们接下来直接分析迭代运算的最终结果:
第一个表格显示最后产生两个回归模型,显著性都为0.000,小于0.05,表示模型有效,但是还不能说明模型的质量好坏。第二个表格包含了NagelkerkeR方结果,两个值都大于0.4,表示质量可以接受,但是第二个模型的R方值为0.820,很接近1,说明模型二的质量高于模型一。
上图是错判矩阵,从结果来看,模型1的判断正确率为80%,而模型2的为91.7%。因此,模型1的判定率明显优于模型2。
最后这个表格显示进入到方程中的自变量。B列是回归方程的系数。Wald是各自变量对应的Wald值,相当于线性回归中的t值,反映该自变量在方程中的价值。显著性水平小于0.05,代表影响力大,但是使用极大似然法时会出现显著性大于0.05的情况,需要谨慎对待。
数据分析咨询请扫描二维码
数据分析在当今市场营销领域扮演着至关重要的角色,为企业提供洞察力和决策支持。通过Python作为强大的数据分析工具,我们可以利 ...
2024-12-11学历与实践经验 数据架构师的职业道路既需要坚实的学术基础,也需要丰富的实践经验。通常,相关要求包括: 本科及以上学历:大 ...
2024-12-11数据分析师是当今数字化时代的关键角色之一,他们的工作范围涵盖了政府机关、企业、研究机构、医疗保健行业、教育机构、咨询公司 ...
2024-12-11数据分析这门技术,看似“高大上”,但真正懂得其原理的人却不多。很多人以为掌握了几种软件工具就算会数据分析了,但事实上,数 ...
2024-12-11数据分析在当今商业决策中扮演着至关重要的角色,而有效的数据可视化是沟通洞见和启发行动的关键。从中级数据分析师的职责出发, ...
2024-12-10在当今世界,我们看到许多行业呈现出令人兴奋的增长和发展态势。这些领域不仅满足了当下的需求,更是塑造着未来的经济格局。让我 ...
2024-12-10中国数字经济的崛起与影响力 多份报告和研究显示,中国的数字经济正以惊人的速度增长,并在经济各个层面产生广泛影响。让我们一 ...
2024-12-10中国数字经济的蓬勃发展 中国的数字经济在过去几年呈现出了惊人的增长势头,成为国民经济中不可或缺的引擎。截至2023年,中国数 ...
2024-12-10数据科学作为一门跨学科的领域,结合了统计学、计算机科学和专业知识,旨在从大量复杂数据中提取有意义的信息,为决策提供支持。 ...
2024-12-10数据分析专员在企业中扮演着至关重要的角色,通过专业的数据分析技能帮助企业从数据中提取价值,支持业务决策和增长。他们的工作 ...
2024-12-10欢迎走进数据分析的精彩世界!随着信息时代的到来,数据成为无处不在的宝贵资源。想要掌握数据分析的精髓,不仅需要扎实的基础知 ...
2024-12-10数据分析作为一门跨学科的领域,需要学习和掌握多方面的基础知识和技能。以下是数据分析所需的基础知识: 统计学和概率论 统计学 ...
2024-12-10数据分析的关键要素 数据分析作为一门跨学科的领域,涵盖广泛的基础知识和技能,是探索数据背后价值的重要工具。让我们深入了解 ...
2024-12-10在当今大数据时代,数据分析技能变得愈发重要。教育机构和在线平台提供了多样化的数据分析课程,覆盖各层次学习者需求。选择适合 ...
2024-12-10重要技能概览 作为现代商业和科学领域中不可或缺的角色,数据分析师需要掌握一系列关键技能和知识。这些技能涵盖了技术和软技能 ...
2024-12-10数据分析师的职业发展是一个持续演进的旅程,从掌握基础技能到拓展高级分析能力,贯穿于各个行业的实际应用。这篇文章将深入探讨 ...
2024-12-10在当今数字化时代,数据分析师扮演着至关重要的角色,他们不仅需要具备坚实的技术基础,还需具备业务洞察力和沟通技巧。让我们一 ...
2024-12-10数据分析师在当今就业市场中拥有广泛的职业发展机会,尤其是在大数据和人工智能迅速发展的背景下。让我们深入探讨数据分析模型的 ...
2024-12-10就业前景展望 统计与大数据分析专业的发展在数码化时代蓬勃发展,为热门领域之一。这个领域吸引着越来越多的专业人才,满足不断 ...
2024-12-10制作漂亮的数据分析图表不仅需要一定的数据分析技巧,还需要了解如何直观、易于理解地呈现数据。选择合适的图表类型、讲究色彩搭 ...
2024-12-10