
1.线性回归的出现
当被解释变量和解释变量都为连续型,且存在线性关系时,可以采用线性回归对被解释变量进行预测。
多元线性回归的出现是非常自然的,由于在一元线性回归中,因变量只能依赖一个自变量来解释,换一句话说,就是我们 只能在一维空间中来解释世界,这是十分糟糕的,毕竟事物之间的关联是非常复杂的,只用其中一个变量来解释,总是显 得那么苍白和无力。
下面我们就来以“房价”和“客户价值”为因变量,探索一下影响他们的自变量。首先,影响房价的因素有哪些呢?
因此,我们不难发现,在用更多变量来解释因变量,显然会更加全面、丰富、合理和科学。与一元线性回归类似,一个含
有k个自变量的多元线性回归模型可以表示为:
y= Bo+Bixl+B2x2++bx+8
,β,B1,B,,为模型参数,E为误差项,来解释不能被自变量线性关系解释的部分。
多元线性回归的基本假设
1.线性关系假设——线性关系检验
2.线性关系检验——回归系数检验
3.期望为0的假设
(1)假设检验方法:(图形法)可以直接绘制散点图,查看残差是否对称分布在0的两侧;(统计检验)可以用假设检验 中的t检验方法,其原假设为H0:E=0,具体操作将在案例中展示。
(2)假设失效的影响:如果残差的期望不等于0,而等于其他的某个常数,那么这个常数就应该出现在多元线性回归的常 数项内。
(3)假设失效解决方法:如果失效,考虑是否强制将常数项设置为,或考虑异常值问题。
4.同方差假设
假设检验方法:(图形法)对残差以及因变量的拟合值作图。
如果没有异方差,那么残差和因变量拟合值构成的散点应该是完全 随机的,其趋势线应该是几乎是水平的。上图中间的趋势线存在弯 曲,即存在一定的异方差。
除了作图,我们也可以选择Breusch-Pagan检验,注意该检验的原假设是同方差,备择假设是异方差,这 样读者根据输出的P值就可以直观判断了。
假设失效的影响:如果误差是异方差的,那么OLS估计的标准误差将不可靠。
假设失效解决方法:克服异方差性的影响,我们可以尝试对因变量做一些非线性变换,如等等。
5.正态性假设
假设检验方法:(图形法)做QQ图。
QQ图的解读十分简单,如果散点在直线上或者直线附近,那么我 们就可以认为数据是正态分布的,否则就任务不是正态分布。 对于正态分布的统计检验,我们可以选择KS检验(Kolmogorov– Smirnov test),其原假设:数据是正态分布的。这样读者可以直 接根据输出的P值来对检验结果进行分析。
假设失效的影响:如果误差项不是正态分布的,则OLS估计的标准误差将不可靠。然而对于正态性假设对于线性回归的 重要性,目前各方还有一些有价值的观点。
假设失效解决方法:关注样本中两端的异常值是否合理,如异常值不合理,可以考虑删除异常值。也可以尝试对变量做 非线性变换。
6.横截面和时间序列数据在回归建模上的差异
横截面是指在同一时间平面上的数据,例如2013年各个上市公司的财报数据,如果研究其不同变量之间的线性关系,可 以用多元线性回归模型。但是如果数据包含时间趋势,例如2001-2018年全国各个省市的宏观经济指标数据,如果要研 究不同宏观指标之间的线性影响,就要用面板回归模型了(计量模型的一种)。
1.多元线性回归的参数估计
1. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为y=60+90x,下列判断正确的是( )?
A. 劳动生产率为1000元时,工资为50元
B. 劳动生产率提高1000元时,工资提高150元
C. 劳动生产率提高1000元时,工资提高90元
D. 劳动生产率为1000元时,工资为90元
答案:C 解析:根据回归直线方程 y=60+90x 得到,劳动生产率为1千元时,工人月工资=60+90*1=150元,劳动生产率提高1千元 时,工资提高90元。
2. 以下哪个假设不是线性回归分析的前提假设? A. 解释变量之间必须严格独立
B. 解释变量之间不能强线性相关
C. 扰动项独立同分布
D. 扰动项服从正态分布
答案:A 解析:回归分析的前提假设中,包含解释变量之间非线性相关、扰动项独立同分布,扰动项服从正态分布。
更多考试介绍及备考福利请点击:CDA 认证考试中心官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04