从一个R语言案例学线性回归-CDA数据分析师官网

热线电话：13121318867

从一个R语言案例学线性回归

2016-01-26

数据分析师用r语言做数据分析的时候会很多，也有很多数据分析师对于用r语言不是很了解，下面就谈论一下？

线性回归简介：如下图所示，如果把自变量（也叫independent variable）和因变量（也叫dependent variable）画在二维坐标上，则每条记录对应一个点。线性回规最常见的应用场景则是用一条直线去拟和已知的点，并对给定的x值预测其y值。而我们要做的就是找出一条合适的曲线，也就是找出合适的斜率及纵截矩。

SSE & RMSE

上图中的SSE指sum of squared error，也即预测值与实际值之差的平方和，可由此判断该模型的误差。但使用SSE表征模型的误差有些弊端，比如它依赖于点的个数，且不好定其单位。所以我们有另外一个值去称量模型的误差。RMSE（Root-Mean-Square Error）。

由N将其标准化，并且其单位与变量单位相同。

案例

许多研究表明，全球平均气温在过去几十年中有所升高，以此引起的海平面上升和极端天气频现将会影响无数人。本文所讲案例就试图研究全球平均气温与一些其它因素的关系。

本例我们以1983年5月到2006年12月的数据作为训练数据集，以之后的数据作为测试数据集。

数据

首先加载数据

temp <- read.csv("climate_change.csv")

数据解释

Year 年份 M

Month 月份 T

emp 当前周期内的全球平均气温与一个参考值之差

CO2, N2O，CH4,CFC.11，CFC.12：这几个气体的大气浓度 Aerosols

模型选择

线性回归模型保留两部分。

"数据分析师'选择目标feature。我们数据中，有多个feature，但并非所有的feature都对预测有帮助，或者并非所有的feature都需要一起工作来做预测，因此我们需要筛选出最小的最能预测出接近事实的feature组合。

确定feature系数（coefficient）。feature选出来后，我们要确定每个feature对预测结果所占的权重，这个权重即为coefficient

结合实例选择模型

初始选择所有feature
选择所有feature作为第一个model1，并使用summary函数算出其Adjusted R2为0.7371。

model1 <- lm(Temp ~ MEI + CO2 + CH4 + N2O + CFC.11 + CFC.12 + TSI + Aerosols, temp) summary(model1)

逐一去掉feature

在model1中去掉任一个feature，并记下相应的Adjusted R2如下

Feature	Adjusted R2
CO2 + CH4 + N2O + CFC.11 + CFC.12 + TSI + Aerosols	0.6373
MEI + CH4 + N2O + CFC.11 + CFC.12 + TSI + Aerosols	0.7331
MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols	0.738
MEI + CO2 + CH4 + CFC.11 + CFC.12 + TSI + Aerosols	0.7339
MEI + CO2 + CH4 + N2O + CFC.12 + TSI + Aerosols	0.7163
MEI + CO2 + CH4 + N2O + CFC.11 + TSI + Aerosols	0.7172
MEI + CO2 + CH4 + N2O + CFC.11 + CFC.12 + Aerosols	0.697
MEI + CO2 + CH4 + N2O + CFC.11 + CFC.12 + TSI	0.6883

本轮得到Temp ~ MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols

从model2中任意去掉1个feature，并记下相应的Adjusted R2如下

Feature	Adjusted R2
CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols	0.6377
MEI + N2O + CFC.11 + CFC.12 + TSI + Aerosols	0.7339
MEI + CO2 + CFC.11 + CFC.12 + TSI + Aerosols	0.7346
MEI + CO2 + N2O + CFC.12 + TSI + Aerosols	0.7171
MEI + CO2 + N2O + CFC.11 + TSI + Aerosols	0.7166
MEI + CO2 + N2O + CFC.11 + CFC.12 + Aerosols	0.698
MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI	0.6891