京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何衡量多元线性回归模型优劣
最近再做一些多元回归分析方面的分析,但对于得出的回归模型的好坏不知道如何才判断,于是查找了一下相关的教材书籍,找到了张文彤老师写的《SPSS统计分析高级教程》这本书,里面对于回归模型的优劣评价给出来了几点看法,我在此做了摘录分享一下。
当供建立回归模型的自变量有p 个时,仅考虑各因素的主效应,可以建立2^P 个模型(包括仅含常数项的模型)。如果来衡量这些模型的好坏?常用有以下几种标准:
1.复相关系数R
复相关系数(Multiple Correlation Coefficient) 又称多元相关系数,表示模型中所有自变量xi间与反应变量y之间线性回归关系的密切程度大小。实际上它是Yi 与其估计值的简单线性相关系数,即Pearson 相关系数。但其取值范围为(0 ,1),没有负值。R 值越大,说明线性回归关系越密切。但R值直大至多少才算足够好?不同学科的研究其判断标准也不一样。如社会科学研究学者可能认为R >0.4 己经足够好了(想想对股价的预测吧) ,而医学研究学者认为R =0.8 仍嫌偏小,这可能是因为社会科学研究中存在较多的对反应变量确有影响却无法进行测量的变量,当然也就无法对其进行统计分析。此外,用复相关系数评价多元线性回归模型优劣时存在不足,即使向模型中增加的变量没有统计学意义, R 值仍会增大。
2. 决定系数R2
模型的决定系数(Determinate Coefficient) 等于复相关系数的平方。与简单线性回归中的决定系数相类似,它表示反应变量y 的总变异中可由回归模型中自变量解释的部分所占的比例,是衡量所建立模型效果好坏的指标之一。显然, R2 越大越好,但是也存在与复相关系数一样的不足。决定系数的计算公式如下:
3. 校正的决定系数R_adj^2
由于用R2评价拟合模型的好坏具有一定的局限性,即使向模型中增加的变量没有统计学意义, R2值仍会增大。因此需对其进行校正,从而形成了校正的决定系数(Adjusted R Square) 。 校正的决定系数总小于决定系数。校正的决定系数公式如下:
与R2不同的是,当模型中增加的变量没有统计学意义时,校正决定系数会减小,因此校正R2 是衡量所建模型好坏的重要指标之一,校正R2 越大,模型拟合得越好。但当p/n 很小时,如小于0.05 时,校正作用趋于消失。
实际应用中,R2、R_adj^2值的大小还与研究中实际观测到的自变量取值范围有关,一种可能的情况是,某个实际观测的自变量取值范围很窄,但此时所建模型的R2 很大,但这并不代表模型在外推应用时的效果肯定会很好。此外,有时虽然校正决定系数(或决定系数)很大,但误差均方仍很大,这会导致估计的?可信区间很宽,从而失去实际应用价值。
4. 剩余标准差
剩余标准差(Std. Error Of The Estimate) ,等于误差均方MSE 的算术平方根,就是残差之标准差,其大小反应了用建立的模型预测因变量时的精度。剩余标准差越小,说明建立的模型效果越好。与校正决定系数相类似地,当模型中增加无统计学意义的自变量时,剩余标准差反而会增大。此外,剩余标准差还在因变量估值的可信区间估计、自变量的选择等很多方面有着重要作用。
上面介绍的4项可以在SPSS软件上直接输出,除此之外还有一些常用的衡量多元回归模型优劣的标准在这里点一下,有兴趣的读者可参考相关参考书。
5、赤池信息准则
赤池信息准则也被称为AIC 准则(Akaike’s Information Criterion) ,由日本学者赤池于1973年提出,除应用于一般线性模型、广义线性模型的变量筛选外,还被应用于时间序列分析中自回归阶数的确定。AIC 由两部分组成,一部分反映模型的拟合精度,一部分反映了模型中参数的个数,即模型的繁简程度。其计算公式为:
n 为样本含量,与前面走义不同的是,这里的p 为模型中参数个数(包括常数项) ,L 为模型的最大似然函数。一昧地增加模型中自变量的个数虽然能使前半部分减小,而后一部分却不断增大,当模型中纳入无统计学意义的自变量时,前半部分减小的幅度小于后一部分增大的幅度,亏本的生意当然没人去做。AIC 值越小,说明拟合的模型既精度高又简洁。
应用不同的方法拟合的回归模型其AIC 值是不一样的,因此,在应用AIC 准则对不同的模型进行比较时,不同拟合方法得到的模型不能进行比较,AIC 准则只能用于比较同一种方法拟合得到的回归模型。
6、C_p 统计量
Cp 统计量由C. L. Mallows 于1964 年提出。
MSE_p 指模型中含有p 个参数(包括常数项)时的误差均方, MSE_p 为所有自变量均引入模型时的误差均方。用Cp 统计量选择模型的标准是选择Cp 最接近p 的那个模型。
7、其他标准
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22