回归分析的认识及简单运用-CDA数据分析师官网

热线电话：13121318867

回归分析的认识及简单运用

2015-10-13

回归分析的认识及简单运用

回归分析（regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，分为回归和多重回归分析；按照自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多重线性回归分析。

定义

回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系，以分析数据内在规律，并可用于预报、控制等问题。

方差齐性

线性关系

效应累加

变量无测量误差

变量服从多元正态分布

观察独立

模型完整（没有包含不该进入的变量、也没有漏掉应该进入的变量）

误差项独立且服从（0，1）正态分布。

现实数据常常不能完全符合上述假定。因此，统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

研究一个或多个随机变量Y1 ，Y2 ，…，Yi与另一些变量X1、X2，…，Xk之间的关系的统计方法，又称多重回归分析。通常称Y1，Y2，…，Yi为因变量，X1、X2，…，Xk为自变量。回归分析是一类数学模型，特别当因变量和自变量为线性关系时，它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量，且它们大体上有线性关系，这叫一元线性回归，即模型为Y=a+bX+ε，这里X是自变量，Y是因变量，ε是随机误差，通常假定随机误差的均值为0，方差为σ^2（σ^2大于0）σ^2与X的值无关。若进一步假定随机误差遵从正态分布，就叫做正态线性模型。一般的情形，它有k个自变量和一个因变量，因变量的值可以分解为两部分：一部分是由于自变量的影响，即表示为自变量的函数，其中函数形式已知，但含一些未知参数；另一部分是由于其他未被考虑的因素和随机性的影响，即随机误差。当函数形式为未知参数的线性函数时，称线性回归分析模型；当函数形式为未知参数的非线性函数时，称为非线性回归分析模型。当自变量的个数大于1时称为多元回归，当因变量个数大于1时称为多重回归。

回归分析的主要内容为：

①从一组数据出发，确定某些变量之间的定量关系式，即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中，判断哪个（或哪些）自变量的影响是显著的，哪些自变量的影响是不显著的，将影响显著的自变量入模型中，而剔除影响不显著的变量，通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。

在回归分析中，把变量分为两类。一类是因变量，它们通常是实际问题中所关心的一类指标，通常用Y表示；而影响因变量取值的的另一类变量称为自变量，用X来表示。

回归分析研究的主要问题是：

（1）确定Y与X间的定量关系表达式，这种表达式称为回归方程；

（2）对求得的回归方程的可信度进行检验；

（3）判断自变量X对因变量Y有无影响；

（4）利用所求得的回归方程进行预测和控制。

回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。

众多回归的名称张口即来的就有一大片，线性回归、logistic回归、cox回归、poission回归、probit回归等等等等，可以一直说的你头晕。为了让大家对众多回归有一个清醒的认识，这里简单地做一下总结：

1、线性回归，这是我们学习统计学时最早接触的回归，就算其它的你都不明白，最起码你一定要知道，线性回归的因变量是连续变量，自变量可以是连续变量，也可以是分类变量。如果只有一个自变量，且只有两类，那这个回归就等同于t检验。如果只有一个自变量，且有三类或更多类，那这个回归就等同于方差分析。如果有2个自变量，一个是连续变量，一个是分类变量，那这个回归就等同于协方差分析。所以线性回归一定要认准一点，因变量一定要是连续变量。

2、logistic回归，与线性回归并成为两大回归，应用范围一点不亚于线性回归，甚至有青出于蓝之势。因为logistic回归太好用了，而且太有实际意义了。解释起来直接就可以说，如果具有某个危险因素，发病风险增加2.3倍，听起来多么地让人通俗易懂。线性回归相比之下其实际意义就弱了。logistic回归与线性回归恰好相反，因变量一定要是分类变量，不可能是连续变量。分类变量既可以是二分类，也可以是多分类，多分类中既可以是有序，也可以是无序。二分类logistic回归有时候根据研究目的又分为条件logistic回归和非条件logistic回归。条件logistic回归用于配对资料的分析，非条件logistic回归用于非配对资料的分析，也就是直接随机抽样的资料。无序多分类logistic回归有时候也成为多项logit模型，有序logistic回归有时也称为累积比数logit模型。

3、cox回归，cox回归的因变量就有些特殊，因为他的因变量必须同时有2个，一个代表状态，必须是分类变量，一个代表时间，应该是连续变量。只有同时具有这两个变量，才能用cox回归分析。cox回归主要用于生存资料的分析，生存资料至少有两个结局变量，一是死亡状态，是活着还是死亡？二是死亡时间，如果死亡，什么时间死亡？如果活着，从开始观察到结束时有多久了？所以有了这两个变量，就可以考虑用cox回归分析。

4、poisson回归，poisson回归相比就不如前三个用的广泛了。但实际上，如果你能用logistic回归，通常也可以用poission回归，poisson回归的因变量是个数，也就是观察一段时间后，发病了多少人？或者死亡了多少人？等等。其实跟logistic回归差不多，因为logistic回归的结局是是否发病，是否死亡，也需要用到发病例数、死亡例数。大家仔细想想，其实跟发病多少人，死亡多少人一个道理。只是poission回归名气不如logistic回归大，所以用的人也不如logistic回归多。但不要因此就觉得poisson回归没有用。

5、probit回归，在医学里真的是不大用，最关键的问题就是probit这个词太难理解了，通常翻译为概率单位。probit函数其实跟logistic函数十分接近，二者分析结果也十分接近。可惜的是，probit回归的实际含义真的不如logistic回归容易理解，由此导致了它的默默无名，但据说在社会学领域用的似乎更多一些。

6、负二项回归。所谓负二项指的是一种分布，其实跟poission回归、logistic回归有点类似，poission回归用于服从poission分布的资料，logistic回归用于服从二项分布的资料，负二项回归用于服从负二项分布的资料。说起这些分布，大家就不愿意听了，多么抽象的名词，我也很头疼。如果简单点理解，二项分布你可以认为就是二分类数据，poission分布你可以认为是计数资料，也就是个数，而不是像身高等可能有小数点，个数是不可能有小数点的。负二项分布呢，也是个数，只不过比poission分布更苛刻，如果你的结局是个数，而且结局可能具有聚集性，那可能就是负二项分布。简单举例，如果调查流感的影响因素，结局当然是流感的例数，如果调查的人有的在同一个家庭里，由于流感具有传染性，那么同一个家里如果一个人得流感，那其他人可能也被传染，因此也得了流感，那这就是具有聚集性，这样的数据尽管结果是个数，但由于具有聚集性，因此用poission回归不一定合适，就可以考虑用负二项回归。既然提到这个例子，用于logistic回归的数据通常也能用poission回归，就像上面案例，我们可以把结局作为二分类，每个人都有两个状态，得流感或者不得流感，这是个二分类结局，那就可以用logistic回归。但是这里的数据存在聚集性怎么办呢，幸亏logistic回归之外又有了更多的扩展，你可以用多水平logistic回归模型，也可以考虑广义估计方程。这两种方法都可以处理具有层次性或重复测量资料的二分类因变量。

7、weibull回归，有时中文音译为威布尔回归。weibull回归估计你可能就没大听说过了，其实这个名字只不过是个噱头，吓唬人而已。上一篇说过了，生存资料的分析常用的是cox回归，这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着，而且其实很有生命力，只是国内大多不愿用而已。weibull回归就是其中之一。cox回归为什么受欢迎呢，因为它简单，用的时候不用考虑条件（除了等比例条件之外），大多数生存数据都可以用。而weibull回归则有条件限制，用的时候数据必须符合weibull分布。怎么，又是分布？！估计大家头又大了，是不是想直接不往下看了，还是用cox回归吧。不过我还是建议看下去。为什么呢？相信大家都知道参数检验和非参数检验，而且可能更喜欢用参数检验，如t检验，而不喜欢用非参数检验，如秩和检验。那这里的weibull回归和cox回归基本上可以说是分别对应参数检验和非参数检验。参数检验和非参数检验的优缺点我也在前面文章里通俗介绍了，如果数据符合weibull分布，那么直接套用weibull回归当然是最理想的选择，他可以给出你最合理的估计。如果数据不符合weibull分布，那如果还用weibull回归，那就套用错误，肯定结果也不会真实到哪儿去。所以说，如果你能判断出你的数据是否符合weibull分布，那当然最好的使用参数回归，也就是weibull回归。但是如果你实在没什么信心去判断数据分布，那也可以老老实实地用cox回归。cox回归可以看作是非参数的，无论数据什么分布都能用，但正因为它什么数据都能用，所以不可避免地有个缺点，每个数据用的都不是恰到好处。weibull回归就像是量体裁衣，把体形看做数据，衣服看做模型，weibull回归就是根据你的体形做衣服，做出来的肯定对你正合身，对别人就不一定合身了。cox回归呢，就像是到商场去买衣服，衣服对很多人都合适，但是对每个人都不是正合适，只能说是大致合适。至于到底是选择麻烦的方式量体裁衣，还是图简单到商场直接去买现成的，那就根据你的喜好了，也根据你对自己体形的了解程度，如果非常熟悉，当然就量体裁衣了。如果不大了解，那就直接去商场买大众化衣服吧。

8、主成分回归。主成分回归是一种合成的方法，相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如你要分析的自变量中同时有血压值和血糖值，这两个指标可能有一定的相关性，如果同时放入模型，会影响模型的稳定，有时也会造成严重后果，比如结果跟实际严重不符。当然解决方法很多，最简单的就是剔除掉其中一个，但如果你实在舍不得，毕竟这是辛辛苦苦调查上来的，删了太可惜了。如果舍不得，那就可以考虑用主成分回归，相当于把这两个变量所包含的信息用一个变量来表示，这个变量我们称它叫主成分，所以就叫主成分回归。当然，用一个变量代替两个变量，肯定不可能完全包含他们的信息，能包含80%或90%就不错了。但有时候我们必须做出抉择，你是要100%的信息，但是变量非常多的模型？还是要90%的信息，但是只有1个或2个变量的模型？打个比方，你要诊断感冒，是不是必须把所有跟感冒有关的症状以及检查结果都做完？还是简单根据几个症状就大致判断呢？我想根据几个症状大致能能确定90%是感冒了。不用非得100%的信息不是吗？模型也是一样，模型是用于实际的，不是空中楼阁。既然要用于实际，那就要做到简单。对于一种疾病，如果30个指标能够100%确诊，而3个指标可以诊断80%，我想大家会选择3个指标的模型。这就是主成分回归存在的基础，用几个简单的变量把多个指标的信息综合一下，这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。

9、岭回归。岭回归的名称由来我也没有查过，可能是因为它的图形有点像岭。不要纠结于名称。岭回归也是用于处理自变量之间高度相关的情形。只是跟主成分回归的具体估计方法不同。线性回归的计算用的是最小二乘估计法，当自变量之间高度相关时，最小二乘回归估计的参数估计值会不稳定，这时如果在公式里加点东西，让它变得稳定，那就解决了这一问题了。岭回归就是这个思想，把最小二乘估计里加个k，改变它的估计值，使估计结果变稳定。至于k应该多大呢？可以根据岭迹图来判断，估计这就是岭回归名称的由来。你可以选非常多的k值，可以做出一个岭迹图，看看这个图在取哪个值的时候变稳定了，那就确定k值了，然后整个参数估计不稳定的问题就解决了。

10、偏最小二乘回归。偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是，偏最小二乘回归可以用于例数很少的情形，甚至例数比自变量个数还少的情形。听起来有点不可思议，不是说例数最好是自变量个数的10倍以上吗？怎么可能例数比自变量还少，这还怎么计算？可惜的是，偏最小二乘回归真的就有这么令人发指的优点。所以，如果你的自变量之间高度相关、例数又特别少、而自变量又很多（这么多无奈的毛病），那就现在不用发愁了，用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像，也是提取自变量的部分信息，损失一定的精度，但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析，而是用反映因变量和自变量部分信息的新的综合变量来分析，所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点，那就是可以用于多个因变量的情形，普通的线性回归都是只有一个因变量，而偏最小二乘回归可用于多个因变量和多个自变量之间的分析。因为它的原理就是同时提取多个因变量和多个自变量的信息重新组成新的变量重新分析，所以多个因变量对它来说无所谓。

看了以上的讲解，希望能对大家理解回归分析的运用有些帮助。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；