多元线性回归_CDA答疑社区

多元线性回归（MLR）是一种用于模拟因变量（目标）与一个或多个自变量（预测变量）之间的线性关系的方法。

MLR基于普通最小二乘法（OLS），该模型拟合使得观察值和预测值的差的平方和最小化。

MLR模型基于若干假设（例如，误差通常以零均值和恒定方差分布）。如果满足假设，则回归估计器在其无偏，有效且一致的意义上是最优的。无偏意味着估计量的期望值等于参数的真值。有效意味着估计量的方差小于任何其他估计量。一致意味着当样本大小接近无穷大时，估计量的偏差和方差接近于零。

模型有多好？

R²也称为确定系数，总结了回归模型的解释力，并根据平方和项计算。

R²描述了由回归模型解释的因变量的方差比例。如果回归模型是“完美的”，则SSE为零，并且R²为1.如果回归模型是完全失败，则SSE等于SST，通过回归不解释方差，并且R²为零。重要的是要记住，高R²和因果关系之间没有直接关系。

模型有多重要？

F-比率估计回归模型的统计显着性，并根据ANOVA表中的均方项计算。通过使用两个自由度（df_MSR，df_MSE）参考F分布表来获得F比的重要性。p是独立变量的数量（例如，p是简单线性回归的一个）。

F比率优于R²的优点在于F比率在评估回归模型的显着性时结合了样本大小和预测因子的数量。模型可以具有高R²并且仍然不具有统计显着性。

系数有多重要？

如果回归模型非常好，我们可以使用t检验来估计每个系数的统计显着性。

多重共预测变量之间的高度多线性产生不可靠的回归系数估计。多媒体的迹象包括：

预测变量对之间的高度相关性。
R 符号系数，其符号或幅度不具有良好的物理意义。
ŝ 上重要的预测没有显着tatistically回归系数。
回归系数的符号或幅度对预测变量的插入或删除的极端敏感性。

（X'X）^-1矩阵中的对角线值称为方差膨胀因子（VIF），它们是多线性的非常有用的度量。如果任何VIF超过5，则多重性是一个问题。型号选择数据挖掘中的一个常见问题是避免对模型预测没有显着贡献的预测变量。首先，已经表明，丢弃具有不显着系数的预测变量可以减少预测的平均误差。其次，由于具有许多变量的模型中的多重共线性，回归系数的估计可能是不稳定的。最后，一个更简单的模型是一个更好的模型，可以更深入地了解模型中预测变量的影响。模型选择有两种主要方法：

正向选择，最佳预测变量将逐一输入模型中。
向后消除，最糟糕的预测因子逐一从模型中消除。