京公网安备 11010802034615号
经营许可证编号:京B2-20210330
8.1 回归的多面性
回归是一个令人困惑的词,因为它有许多特殊变种(见表8-1)。对于回归模型的拟合, R提供的强大而丰富的功能和选项也同样令人困惑。例如, 2005年Vito Ricci创建的列表表明, R中做回归分析的函数已超过了205个。在这一章中,我们的重点是普通最小二乘(OLS)回归法,包括简单线性回归、多项式回归和多元线性回归。 OLS回归是现今最常见的统计分析方法,其他回归模型(Logistic回归和泊松回归)将在第13章介绍。
8.1.1 OLS 回归的适用情境
OLS回归是通过预测变量的加权和来预测量化的因变量,其中权重是通过数据估计而得的参数。现在让我们一起看一个改编自Fwa(2006)的具体示例(此处没有任何含沙射影之意)。
![]()
一个工程师想找出跟桥梁退化有关的最重要的因素,比如使用年限、交通流量、桥梁设计、建造材料和建造方法、建造质量以及天气情况,并确定它们之间的数学关系。他从一个有代表性的桥梁样本中收集了这些变量的相关数据,然后使用OLS回归对数据进行建模。这种方法的交互性很强。他拟合了一系列模型,检验它们是否符合相应的统计假设,探索了所有异常的发现,最终从许多可能的模型中选择了“最佳”的模型。如果成功,那么结果将会帮助他完成以下任务。
![]()
在众多变量中判断哪些对预测桥梁退化是有用的,得到它们的相对重要性,从而关注重要的变量。
根据回归所得的等式预测新的桥梁的退化情况(预测变量的值已知,但是桥梁退化程度未知),找出那些可能会有麻烦的桥梁。
利用对异常桥梁的分析,获得一些意外的信息。比如他发现某些桥梁的退化速度比预测的更快或更慢,那么研究这些“离群点”可能会有重大的发现,能够帮助理解桥梁退化的机制。
可能桥梁的例子并不能引起你的兴趣。而我是从事临床心理学和统计的,对土木工程也是一无所知,但是这其中蕴含的一般性思想适用于物理、生物和社会科学的许多问题。以下问题都可以通过OLS方法进行处理。
铺路表面的面积与表面盐度有什么关系(Montogomery, 2007)?
一个用户哪些方面的经历会导致他沉溺于大型多人在线角色扮演游戏(MMORPG; Hsu,Wen& Wu, 2009)?
教育环境中的哪些因素与最能影响学生成绩得分?
血压、盐摄入量和年龄的关系是什么样的?对于男性和女性是相同的吗?
运动场馆和职业运动对大都市的发展有何影响(Baade & Dye, 1990)?
哪些因素可以解释各州的啤酒价格差异(Culbertson & Bradford, 1991)?(这个问题终于引起了你的注意!)
我们主要的困难有三个:发现有趣的问题, 设计一个有用的、可以测量的响应变量,以及收集合适的数据。8.1.2 基础回顾
下面的几节,我将介绍如何用R函数拟合OLS回归模型、评价拟合优度、检验假设条件以及选择模型。此处假定读者已经在本科统计课程第二学期接触了最小二乘回归法,不过,我还是会尽量少用数学符号,关注实际运用而不是理论细节。有大量优秀书籍都介绍了本章提到的统计知识。我最喜欢的是John Fox的Applied Regression Analysis and Generalized Linear Models (偏重理论)和An R and S-Plus Companion to Applied Regression(偏重应用),它们为本章提供了主要的素材。另外,一份不错的非技术性综述可参考Licht(1995)。
8.2 OLS 回归
在本章大部分内容中,我们都是利用OLS法通过一系列的预测变量来预测响应变量(也可以说是在预测变量上“回归”响应变量——其名也因此而来)。 OLS回归拟合模型的形式:其中, n 为观测的数目, k 为预测变量的数目。(虽然我极力避免讨论公式,但这里探讨公式是简化问题的需要。)等式中相应部分的解释如下。
![]()
我们的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数(截距项和斜率)。具体而言,即使得残差平方和最小。
为了能够恰当地解释OLS模型的系数,数据必须满足以下统计假设。
正态性 对于固定的自变量值,因变量值成正态分布。
独立性 Yi值之间相互独立。
线性 因变量与自变量之间为线性相关。
同方差性 因变量的方差不随自变量的水平不同而变化。也可称作不变方差,但是说同方差性感觉上更犀利。
如果违背了以上假设,你的统计显著性检验结果和所得的置信区间很可能就不精确。注意,OLS回归还假定自变量是固定的且测量无误差,但在实践中通常都放松了这个假设。8.2.1 用 lm()拟合回归模型
在R中,拟合线性模型最基本的函数就是lm(),格式为:
![]()
其中, formula指要拟合的模型形式, data是一个数据框,包含了用于拟合模型的数据。结果对象(本例中是myfit)存储在一个列表中,包含了所拟合模型的大量信息。表达式(formula)形式如下:
![]()
~左边为响应变量,右边为各个预测变量,预测变量之间用+符号分隔。表8-2中的符号可以不同方式修改这一表达式。
除了lm(),表8-3还列出了其他一些对做简单或多元回归分析有用的函数。拟合模型后,将这些函数应用于lm()返回的对象,可以得到更多额外的模型信息。
![]()
当回归模型包含一个因变量和一个自变量时,我们称为简单线性回归。当只有一个预测变量,但同时包含变量的幂(比如, X、 X 2、 X 3)时,我们称之为多项式回归。当有不止一个预测变量时,则称为多元线性回归。现在,我们首先从一个简单的线性回归例子开始,然后逐步展示多项式回归和多元线性回归,最后还会介绍一个包含交互项的多元线性回归的例子。
8.2.2 简单线性回归
让我们通过一个回归示例来熟悉表8-3中的函数。基础安装中的数据集women提供了15个年龄在30~39岁间女性的身高和体重信息,我们想通过身高来预测体重,获得一个等式可以帮助我们分辨出那些过重或过瘦的个体。代码清单8-1提供了分析过程,图8-1展示了结果图形。通过输出结果,可以得到预测等式:
![]()
因为身高不可能为0,你没必要给截距项一个物理解释,它仅仅是一个常量调整项。在Pr(>|t|)栏,可以看到回归系数(3.45)显著不为0(p<0.001),表明身高每增高1英寸,体重将预期增加3.45磅①。 R平方项(0.991)表明模型可以解释体重99.1%的方差,它也是实际和预测值之间的相关系数(R2 = r2ŶY)。残差标准误(1.53 lbs)则可认为是模型用身高预测体重的平均误差。 F统计量检验所有的预测变量预测响应变量是否都在某个几率水平之上。由于简单回归只有一个预测变量,此处F检验等同于身高回归系数的t检验。
![]()
为了展示的需要,我们已经输出了真实值、预测值和残差值。显然,最大的残差值在身高矮和身高高的地方出现,这也可以从图8-1看出来。图形表明你可以用含一个弯曲的曲线来提高预测的精度。比如,模型Ŷ = β0 + β1X + β1X2就能更好地拟合数据。多项式回归允许你用一个解释变量预测一个响应变量,它们关系的形式即n次多项式。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14