斯坦福机器学习实现与分析之二（线性回归）-CDA数据分析师官网

斯坦福机器学习实现与分析之二（线性回归）

2017-03-15

斯坦福机器学习实现与分析之二（线性回归）

回归问题提出

首先需要明确回归问题的根本目的在于预测。对于某个问题，一般我们不可能测量出每一种情况（工作量太大），故多是测量一组数据，基于此数据去预测其他未测量数据。

比如课程给出的房屋面积、房间数与价格的对应关系，如下表：

若要测量出所有情况，不知得测到猴年马月了。有了上面这一组测量数据，我们要估计出一套房子（如2800平方英尺5个房间）的价格，此时回归算法就可以荣耀登场了。

回归算法推导

有了上面这个问题，如何来估计房子的价格呢？首先需要建立模型，一种最简单的模型就是线性模型了，写成函数就是：

其中x1x1是房子面积，x2x2是房间数，hh是对应的房子面积，θjθj就是我们需要求的系数。

对于每个具体问题，需要根据测量数据的情况来确定是否为线性。这里假设为线性模型会限制适用范围，如果房屋面积与价格不是线性关系，则此模型估计的房子价格可能会偏差很大。因此实际上这里也可以假设为其他关系（如指数、对数等），那么估计结果可能就极度不准确了，当然那也就不是线性回归，这里就不必讨论。具体为什么选择线性模型，将在后面广义回归模型中来解答。

上面公式写成向量形式，则为

其中

那么上面的测量数据可以表示为，其中的y为测量的房屋面积。这样如何根据这m个测量数据来求解参数θθ就是我们需要解决的问题了。

我们可以通过保证此组测量的预测误差最小来约束求解。代价函数为

该代价函数表达的是测量数据的均方误差和。通过最小化该代价函数，即可估计出参数θθ。前面那个1/2并没有实质意义，主要为了后面求导方便加的；实际上为1/m更具有绝对意义。

回归算法求解

如何求解上述问题？主要有梯度下降法，牛顿迭代法，最小二乘法。这里主要讲梯度下降法，因为该方法在后面使用较多，如神经网络、增强学习等求解都是使用梯度下降。

函数在沿着其梯度方向增加最快的，那么要找到该函数的最小值，可以沿着梯度的反方向来迭代寻找。也就是说，给定一个初始位置后，寻找当前位置函数减小最快的方向，加上一定步长即可到达下一位置，然后再寻找下一位置最快的方向来到达再下一个位置……，直至其收敛。上述过程用公式表达出来即如下所示：

根据上述表达式，可以求得代价函数的偏导数为：

这样，迭代规则为

这个公式即是所谓的批量梯度下降。仔细观察该公式，每次迭代都需要把m个样本全部计算一遍，如果m很大时，其迭代将非常慢，因此一种每次迭代只计算1个样本的随机梯度下降（或增量梯度下降）可以极大减少运算量，其迭代如下：

若所有样本迭代完成后还未收敛，则继续从第1个样本开始迭代。

算法实现与结果

首先使用下面代码生成一组数据，为了后续显示方便，数据为一条直线上叠加一定噪声：　

View Code

数据显示出来如下图：

线性回归函数使用梯度下降求解：

View Code

测试函数：

View Code

实际上上述代码中真正涉及算法求解的不多，其他都是保存中间结果和绘图等用于调试分析的。回归结果如图，蓝色点为上面保存的数据，红色直线是回归拟合的直线：

其中每次迭代后，代价函数J的变化则如下图（考虑其范围过大，绘制的是其对数图）：

可以看出，当迭代超过1000次时，代价函数已经基本不变了。梯度下降迭代过程如下左图，xy坐标分别为θ0和θ1θ0和θ1，z轴为对应θθ的代价函数值，图中心的红色小块是真实的最优值，绿色方块是每次迭代的位置，可以看到迭代过程是不断靠近最优解。由于图中绿色方块重叠过多导致绘图出来中间部分显示为黑色了，右图为局部放大的结果。

算法分析

1. 梯度下降法中，BatchSize为一次迭代使用的样本数量，当其为m时，即为批量梯度下降，为1时即是随机梯度下降。实验效果显示，BatchSize越大，迭代越耗时，但其收敛越稳定；反之，则迭代越快，而易产生振荡现象；具体可修改测试代码中的BatchSize来看实验结果。

2. 关于步长的选择。在梯度下降法中，步长的影响是非常大的，步长过小会导致收敛非常慢，过大则容易导致不收敛。上述程序中的步长是经过若干次运行修改的，换一组其他数据可能不收敛，这是该程序存在的问题，待回归算法完结后将专门来一篇分析该问题，并给出解决方法。

线性回归最小二乘神经网络偏差机器学习

数据分析咨询请扫描二维码

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

斯坦福机器学习实现与分析之二（线性回归）

考试指南

报考指南

热门栏目