wo5656500

2020-04-17   阅读量: 2347

统计学

回归模型假设那么多条件,不满足一条怎么办

扫码加入数据分析学习群

1. 模型建立正确

what?模型建立正确是进一步研究分析模型的基础,这是大前提,严格说不属于假设,不过很重要。

why?第一,在做回归分析前,需要先做相关分析。即使是不相关的杂乱无章的数据,也可以求得回归方程,但是是否显著、是否有意义就未知,所以需要先确保存在相关才能进行回归分析。第二,需要考虑经济意义,通过研究经济理论、选择合理的变量及函数、收集整理统计数据而建立的。因为回归分析结果和检验结果只有统计意义,不表示在实际意义。比如某人的身高和某棵树的高度,都是逐年增加的,可能会存在相关关系及回归方程的显著,但是这两个变量从常识上来看也许具有相关关系,但是不具有因果关系,不能说因为我长高导致了树的长高,这样没有现实意义。所以,一个结果显著的回归分析能否说自变量x和自变量y之间就一定存在某种显著关系,还要看实际意义,统计只是帮助分析的工具。

how?经济理论、选择哪些有意义的变量,是在建立模型时需要考虑的问题,如果不满足则没有分析的必要。

可检验的是① 相关分析:求样本相关系数并对其进行显著性检验(t 检验);② 模型的拟合优度,也即样本回归线对样本观察数据拟合的程度,可用两个统计量的大小衡量,分别为,判定系数R^2(或调整的多重判定系数Ra^2)、估计标准误差Se。

3. x 非随机,y 随机

what?线性关系是给了x对y影响形式做了一个界定,认为这种影响是线性的,指每变动1单位的x时,y平均变动β(回归系数,是常数)单位。

why?这使得该方程具有比较简单的形式,此时误差函数始终是凸函数,找到它的极值(最小方差点)是比较容易的,所以总可以得到最优参数,再去估计、预测该问题的除了样本观察值以外的数据点。但是如果不满足,会导致很大的泛化误差。

注:泛化误差,用来刻画一个机器学习方法的泛化能力(用该方法学习到的模型对未知数据的预测能力)。泛化误差就是所学习到的模型的期望风险,可理解为,这个模型去估计、预测未知数据时的偏差程度。也就是说如果不满足线性关系,很可能预测其他未知数据时就有很大误差,因为使用了错误的线性模型。

凸函数👉《什么是“线性”回归模型》

其实“线性方程”有两层含义,该函数不仅与自变量x成线性关系(x是一次的),而且与参数a、b成线性关系(参数是一次的)。但是我们回归分析的假设仅仅是针对y与x间的线性关系,而计量经济学中多针对的是参数线性,具体区别见下面的文章。

参数线性👉《计量经济学中,关于“线性”概念》

4

《最小二乘估计量的性质》包括线性、无偏、最小方差,证明了系数是 Yi 的线性组合,也是 ξi 的线性组合(这是估计量的线性特性,注意区分)。证明线性时用到了∑ei=0(残差和);证明无偏用到了 xi 是外生性变量所以E(xi·ξi)=Exi·Eξi,以及Eξi=0;证明最小方差用到了正态性假定及G-M定理。

《最小二乘的估计性质解析》证明了各性质(但没说系数与 ξi),以及小样本时要研究一致性、渐近无偏性、渐近有效性,研究了参数估计量的概率分布,随机误差项方差的估计。

泛化误差👉《回归分析的五个基本假设》,翻译自《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》

how?F检验、t检验(待更)

4. x 非随机,y 随机

what?该假定是研究回归问题时对变量的要求,可通过观察研究问题得知,如果不满足,则不能选用回归分析研究。

5. 误差项零均值

why?此时,β0 和 β1 都是常数,有 E(β0)=β0,E(β0)=β0,则对于给定的x值,E(y)=β0+β1x,也即假定模型的形式为一条直线。

how?无需检验,对序列中心化处理即可,或者说把误差中的常数值放到回归函数的其他部分里。

6. 误差项同方差-未完

what?对所有x,误差项的方差都相同,为一个常数σ^2。对每一个x,ξi 均满足均值为0的正态分布,异方差表示 ξi 围绕均值0的分散程度不同(即对于不同的x,随机误差项不同)。

why出现异方差?

① 模型中省略的解释变量有着差异性的影响,该影响被包含在 ξi 中,剔除变量消除共线性时应注意;

② 模型函数形式设定错误,如非线性设定为线性;

③ 测量误差,因为自变量取值越大,测量误差越大,且随时间变化,技术和仪器也不同;

④ 截面数据中总体各单位的差异。

异方差后果?

① OLS估计不具有有效性,虽然是无偏的,但不是最小方差线性无偏估计;

② 参数的显著性检验失效,置信区间不可靠,本应该接受的H0被错误拒绝,即本来不重要的解释变量被错误地保留;

③ 回归方程应用效果不好。

how?检验思路:检验 ξi 的异方差性,就是检验 ξi 的方差与解释变量观测值 xi 间的相关性及相关的“形式”。如何表示方差:采用OLS法估计模型,求得 ξi 的估计量,用  表示。,用  表示随机误差项的方差。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
3.9304 1 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子