京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:丁点helper
来源:丁点帮你
上一篇文章介绍了一般线性回归的典型操作,并且留了一个思考题。感谢小伙伴的参与,大家很厉害,没有被迷惑到,线性回归获得的系数代表的是相关关系,而非因果关联。
回归是相关不是因果
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。
因为,回归的使用仅能说明数据之前存在关联,但这种关联是否真正代表了两者的内在联系还需要更深入的研究。
之所以采用回归分析,就是通过纳入多个自变量,达到控制混杂因素的作用,但是我们无法纳入所有可能的因素,即所谓的“遗漏变量”(omitted variables),从而导致回归的结果不准确。
例如,探究教育程度与收入的关系,如果我们在回归分析中没有纳入“父母的平均教育程度”这个变量,此时,这个变量就被称为“遗漏变量”。
根据常识,父母的教育程度应该是孩子未来收入的重要影响因素,同时也几乎决定了孩子的教育程度。因此,遗漏这个变量有可能让我们得出有偏差的结果(一般会高估个人教育程度对未来收入的影响)。
同时,如果X与Y之间的关系,不是X导致Y,而是Y导致X(称作“反向因果”),此时的回归分析也会得出有统计学意义的结果(总体回归系数不为0)。
但这个结果无法显示相关关系的方向,即无法判断是X→Y,还是Y→X,从而误导我们的判断。
例如,常有人说,一个国家保护私人产权制度越完善,这个国家就越富裕。
这意味着完备的产权促进了国家经济的发展,于是人们建议:贫穷的国家都要实施良好的私有产权保护。
不可否认,产权对提升经济发展的确有作用。但我们不能忽略这其中的反向因果。
也就是说,很有可能是一个国家富裕之后才开始注意产权保护,产权制度才会更加完善,由此,并非是产权促进了经济的发展,而是经济发展促进了产权的完善。
所以,我们不能只从两组数据的相关就推测因果,除了那些没有纳入考虑的变量,反向因果也有可能对我们进行误导。
由此来看,回归分析更像是一种探索,它提供某种线索,启示我们下一步的研究方向。
回归诊断——残差图
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。
回归分析有时候之所以不能揭示因果,除了上面谈到的遗漏变量效应和反向因果外,某些假设条件的违反也会导致回归的结果不准。
所以,我们要牢记做完回归并不意味着万事大吉,进行必要的诊断性分析十分必要。
回归诊断,就是通过各种方法来验证回归分析的假设条件以及其他因素的影响,这里我们重点讲讲回归LINE条件的诊断和多重共线性的识别。
前文我们提到过做线性回归的时候一般需满足:线性、独立、正态、方差齐(LINE)条件。
对这些假设条件的诊断其实有各种各样的办法,其中一种使用十分广泛,简单易学,同时效率也比较高的做法是作残差图。
画残差图,一般是以回归分析Y的预测值为横轴,以残差为纵轴做散点图。
如果打开SPSS,可以看到回归分析模块中有很多种残差:未标准化、标准化、学生化等等。
简单起见,大家可以选择所谓的“学生化”残差。
不知有同学是否了解过,什么叫“学生化残差”?(不能再古怪了!)
实际上,它和我们前面学习的t检验还有联系。
t检验发明者的笔名就叫“学生”,即student,所以这里的“学生化残差”可以简单理解为一种t变换(与标准化,即z变换类似)。
具体的细节感兴趣的同学可以去查一查。在我们的具体应用中,采用“学生化残差”和“预测值”做散点图还是挺简单的,而且可以发现一些问题。
一条原则:如果线性回归效果较好,则残差图的各个散点会围绕着“残差=0”水平线上下均匀分布,如下图中的红线。
这可能是最简单的诊断方法,通过观察散点在上述红线上下的分布情况来推测回归分析的质量,同时提示需要改进的方向。
例如,下面这张散点图,就提示Y与自变量X之间可能存在某种曲线关系。
当增加某个自变量的二次项后,回归被改善。
没有添加任何二次项
增加x1的二次项,拟合效果提示
除此以外,线性回归诊断另一个常见的问题是,当自变量X之间互相存在高度相关性时,会导致回归方程估计结果不稳定,回归系数的标准误大大增加(可以通过数学公式证明,标准误计算的分母因为X之间的相关系数而变大,从而整个标准误变小),称为共线性。
共线性最大的问题是,导致本身有意义(P<0.05)的结果变为无意义(P>0.05)。
SPSS在线性回归分析模块也有专门的共线性诊断指标,我们在分析时点选即可:
根据上一篇文章中的例子,共线性诊断的的指标均在要求之内,提示共线性问题不严重。
最后,如果线性回归的LINE没有通过诊断分析,需要怎样改进呢?如下图,大家作为参考,这些内容后期有机会我们逐渐给大家讲解。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04