京公网安备 11010802034615号
经营许可证编号:京B2-20210330
多变量分析:多元回归分析
多元回归分析(Multiple Regression Analysis)是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作也是比较简单的,但能够知道多元回归分析的适用条件或是如何将回归应用于实践,可能还要真正领会回归分析的基本思想和一些实际应用手法! 下面我们就来谈谈多元回归分析,这张图是利用多元线性回归制作的策略分析图,你可以理解X轴是重要性,Y轴是表现;
首先,多元回归分析应该强调是多元线性回归分析!强调线性是因为大部分人用回归都是线性回归,线性的就是直线的,直线的就是简单的,简单的就是因果成比例的;理论上讲,非线性的关系我们都可以通过函数变化线性化,就比如:Y=a+bLnX,我们可以令 t=LnX,方程就变成了 Y=a+bt,也就线性化了。
一般我们采用的变化要根据数据分布特征来进行,下表是常用的变化方法:
当然,变化的主要目的是线性化,同时期望数据分布是近似正态分布!
第二,线性回归思想包含在其它多变量分析中,例如:判别分析的自变量实际上是回归,尤其是Fisher线性回归方程;Logistics回归的自变量也是回归,只不过是计算线性回归方程的得分进行了概率转换;甚至因子分析和主成分分析最终的因子得分或主成分得分也是回归算出来的;当然,还有很多分析最终也是回归思想!
第三:什么是“回归”,回归就是向平均靠拢。
第四:如果你用线性回归方式去解释过去,你只能朝着一个趋势继续,但未来对过去的偏离有无数种可能性;
第五:线性回归方程纳入的自变量越多,越应该能够反应现实,但解释起来就越困难;
第六:统计学家往往追求的是简约的模型和更高的解释度,往往关注模型R平方,共线性和回归诊断问题;
第七:市场研究人员往往注重模型的解释合理性,是否与预设的直觉一直,是否支持了我的市场假设等;
下面我们从市场研究人员的角度看看如何利用多元线性回归:
多元线性回归分析的主要目的是:解释和预测
假设我们收集了100个企业客户经理对我产品的总体满意度和分项指标的满意度评价,我期望知道,什么分项指标对我总体满意度有重要影响,它的改进更能够提升总体满意度;如果建立预测模型,我期望知道了分项指标的评价就能够预测总体满意度数值;
在SPSS中选择回归分析后,把X10作为因变量,X1到X7作为自变量
一般选择自变量进入方程的方法,可以先采用逐步回归,让计算机程序帮助确定变量的重要性,这在统计层面非常好,但是如果针对我现在的研究我需要采用Enter全部进入,如果某个指标不显著,就不在方程中了我如何与客户说呢?(假设他不懂统计,并且我需要完成上面的策略图);
选择相应的统计参数和输出结果,注意:多变量分析都需要考虑缺省值问题,逐步回归中我们可以得到R平方的变化对我们理解方程有帮助!(Enter方法不需要)
R平方是我们最需要关注的,该值说明了方程的拟合好坏,R平方=0.80非常不错了,说明:1)总体满意度的80%的变差都可以由7个分项指标解释,或者说,7个分项指标可以解释总体满意度80%的变差!2)R平方如果太大,大家不要高兴太早,社会科学很少有那么完美的预测或解释,一定存在了共线性!
方程分析表的显著性表明了回归具有解释力!
线性回归方程给出可预测的计算系数,但是,社会科学很少进行预测,重要的是解释;
这里要注意的是如果自变量的测量尺度是统一的话,我们可以直接比较系数的大小,但是如果自变量的测量尺度不统一的话,我们必须看标准化回归系数,标准化回归系数去掉的量纲,且反应了重要性!我们就是需要重要性测量!
当然,这个时候,研究人员应该关注每个指标的回归系数是否真的等于零,要进行假设检验!
我这里就直接应用了,我们可以把7个自变量指标的均值作为表现,7个自变量的标准化相关系数作为重要性,完成散点图!重要的指标,表现差当然是我们急需改进的了,这就是前面策略图了。
我这是典型的市场研究思维方式,不太关注统计意义,而且我将所有的坐标轴和坐标数值都让你看不到,我只是表现了测量,或许对市场洞察足够了;但记住统计学家不能这样!如果你是关注统计思想的人,应该要理解下面这张回归解释图!
线性回归:提及因果关系, 必须非常谨慎!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12