从协方差分析看回归与方差分析的联系-CDA数据分析师官网

热线电话：13121318867

首页大数据时代从协方差分析看回归与方差分析的联系

从协方差分析看回归与方差分析的联系

2020-08-19

作者：丁点helper

来源：丁点帮你

无论是单因素还是双因素方差分析，我们可以发现，它们都有一些共性，比如研究的因变量（如前文的硒含量、满意度得分），都是定量变量；而自变量，即分组变量（如地区、教育程度、性别）都是定性变量。

现在我们将前文“满意度得分的例子”继续延伸：除了我们关注的“教育程度”和“性别”外，还有其他变量会影响人们对生活的满意度得分吗？

当然有，比如收入水平！

很显然，一个人的工资多少完全可能直接决定他目前对生活的满意度。因此，倘若我们忽视了调查对象的收入情况，仅研究教育程度和性别的影响，这样就可能造成结果产生偏移，也就是说可能本来没意义的结果变成了有意义，从而得出误导性的判断。

因此，在这种情况下，“收入”这个变量就被称为“协变量”，可以记为“Z”。纳入协变量的方差分析，即称协方差分析。

一般而言，进行协方差分析的协变量为“定量变量”，比如本例中的“人均月收入”，它一般不是研究者重点研究的变量（本例中重点研究的是教育程度和性别），但因为它会对分析结果造成干扰，因此在分析过程中必须要将其纳入。

所以，协方差分析仍然是建立在方差分析这个基本框架之上的，其思想与单因素以及双因素方差分析区别也不大，并且在进行分析前数据需要满足的条件也都需要。

此外，因为加入了一个新的变量——协变量，所以也有些额外了条件需要满足。我们今天对这些条件做些概述。

1）变量的类型：一般而言，进行协方差分析，因变量是定量的连续变量（如本例的“满意度得分”）；自变量是分类变量（可以加入多个自变量，如本例中的“教育程度”和“性别”）；协变量是连续变量（如本例的“收入”）。

2）线性关系：原则上需要协变量与因变量存在线性关系。

3）平行性假设：分组变量的不同水平下，协变量与因变量的回归直线互相平行。

线性假设和平行性假设初次看起来可能比较难理解，但实际上就是为了排除所谓的交互作用。什么是交互作用呢？

比如我们想研究“教育程度”与“满意度得分”的关系，协变量是收入。在不考虑协变量时，发现随着教育程度的升高，人们的满意度得分也逐渐升高，比如教育上升一个等级（从“高中毕业”到“大学本科”，或者从“大学本科”升至“研究生及以上”），满意度得分都会增加5分。

现在加入“收入”这个协变量之后，发现随着教育程度升高，满意度得分也升高，但是不同的学历程度，其升高的幅度不一样。

比如，加入协变量之后，从“高中毕业”升至“大学本科”，满意度得分仍增加5分；但如果从“大学本科”升至“研究生及以上”，满意度得分仅仅增加3分。这个时候，我们就说收入与教育程度产生了交互作用。

产生了交互作用，也就意味着收入对生活满意度的影响会随着教育程度的变化而变化（注意这里的措辞，收入影响的是满意度和教育程度的相关关系，而不仅仅是其中某一个变量，这是理解交互作用的核心）

这句话也可以反过来说。教育程度对生活满意度的影响会随着人们收入不同而不同，用线性回归的术语来表示就是：不同的教育程度下，收入与满意度得分的回归直线斜率（β）不同，因此，它们就不会平行（两直线平行需要斜率相同）。

所以，想满足平行线假设，就需要协变量与自变量之间不存在交互作用，这个可以通过专门的检验方法来判断。

看到这里，你可能会疑惑，明明在讲方差分析，怎么扯到回归的内容了？

是的，方差分析和回归分析实际上可以看做是一回事儿，只是两者侧重点略有不同，前者主要是比较差异，后者主要是算影响的效应值（即回归系数β，这一点我们后面详述）。

一方面对于多因素或协方差分析的SPSS操作，我们称作“一般线性模型”；另外在进行回归分析之后软件也都会首先弹出一个方差分析的大表，检验整个回归模型是否有意义。

只不过我们在进行回归分析时，并没有严格区分自变量和协变量，而是将它们一股脑地全部纳入回归模型，然后筛选出最终有意义的变量。

因此，我们现在讲的方差分析，其实就是后续回归分析的一些特例，从回归的角度理解方差分析，相信你会看的更加明了！

回到我们今天的主题，除了上述三个条件，在进行协方差分析时也需要注意其他条件，比如常说的正态、独立、方差齐等，处理的方法也和普通的方差分析基本相同，暂不赘述。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

方差分析线性回归

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇终于有人把AI、BI分析、大数据、数据科学讲明白了

下一篇越努力越费劲，越加班越不被待见，现代职场“魔化”了吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从协方差分析看回归与方差分析的联系

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载