从曲线拟合问题窥视机器学习中的相关概念-CDA数据分析师官网

热线电话：13121318867

从曲线拟合问题窥视机器学习中的相关概念

2017-03-20

从曲线拟合问题窥视机器学习中的相关概念

一直徘徊在机器学习的边缘未敢轻易造次并畏惧其基本原理思想，从每一本厚厚的参考资料中都可以看出机器学习是一门跨越概率论、决策论、信息论以及最优化的学科的综合学科，今天终于鼓足勇气向其挑战，选择该领域经典书籍PRML研读，希望能有点收获。后面的一系列的文章都是从一个初学者的角度来学习机器学习领域的知识。

1. 曲线拟合问题

定义：给定一系列输入xi以及目标值ti，目标是找到一个关于x的函数f(x)能够比较好的拟合给定的输入，并且能够对新给出的x值预测其输出。

问题本身就是一个学习问题，那什么是机器学习呢？通过有限的输入数据以及对应的目标值（也称训练数据）学习到一个模型或者推断函数，并且利用这个模型或者推断函数对新数据进行预测。这里的机器学习一般是指统计机器学习，即基于数据和统计方法。统计学习方法是基于数据构建统计模型从而对数据进行预测与分析，可以分为：监督学习和非监督学习。

a)监督学习：训练数据包括给定的输入及其相应的输出，可以根据输入和输出的类型分为分类问题、标注问题和回归问题。

1) 分类问题：输出变量为有限个离散变量的预测问题，可以根据离散变量k的个数分为二分类问题（k=2）和多分类问题（k>2），常用方法包括k近邻法、感知机、朴素贝叶斯、决策树等

2) 回归问题：输入变量和输出变量均为连续变量的预测问题，可以根据参数的系数k分为线性回归（k=1）和非线性回归（k>1）。

3) 标注问题：输入变量和输出变量均为变量序列的预测问题，常用方法包括隐马尔科夫模型（HMM）、条件随机场（CRF）

b)非监督学习：训练数据仅包括输入没有指定相应的输出。

1)聚类：在杂乱的数据中发现相似的簇或者数据集合

2)密度估计：发现输入数据的概率密度函数

3)可视化：通过降维实现数据可视化

2. 曲线拟合数据源

在实验中训练数据的来源是人工生成的，即根据某个函数按照一定的分布随机抽取N个数据以及对应的函数值作为训练数据。然后一般真实数据由于种种原因均会产生一定的误差，不会与一个分布完全吻合，所以目标值一般加上一个随机误差（误差分布满足高斯分布）。

本例中选取f(x)=sin(2πx)，按照均匀分布随机选取N个数据。

其中绿色曲线为sin(2πx)，蓝色圆圈为加上随机误差后的结果。

3. 多项式拟合

首先选择一个比较简单的模型进行学习和预测，即多项式曲线，

y(x,w)=w0+w1x+w2x2+...+wmxM

其中w为自变量x的系数，M为自变量x的项数，也是整个多项式最大的项。学习的目标是找到合适的w和M，使其能够更好的拟合训练数据。由于不同的w和M值对应不同的曲线，即不同的模型或者推断函数，如何去衡量生成的模型好坏呢？

误差函数（error function）：用于衡量不同模型的优劣，即度量预测错误的程度，也称之为损失函数或者代价函数，一般有以下几种：

a)0-1损失函数

L(y,f(x))=1,y != f(x);0,y=f(x)

b)平方损失函数

L(y,f(x))=(y-f(x))2

c)绝对损失函数

L(y,f(x))=|y-f(x)|

d)对数损失函数

L(y,f(x))=-log(p(y|x))

模型选择：选择使得误差函数最小的参数。

在本例中选择平方和作为误差函数，即。

由于本例选择的误差函数为w单调的函数，肯定存在最优解w*使得E(w)最小。

下图为M为0、1、3、9时求到的最优w*，红色曲线为求到的多项式曲线。

从上图可以看出，当M为0时曲线的拟合程度最差，M为9时拟合程度最好，即完全拟合使得E(w)为0，这种情况称之为过拟合。

由于机器学习的目的是对新给定的数据进行预测，即不仅仅是完全拟合训练数据，也要对新数据给出一个很好的预测。学习的泛化能力（generalization ability）：是指某方法学习到的模型对为知数据预测的能力，是学习方法本质上的重要性质。如果一味的追求对训练数据的预测能力，学习到的模型往往会比真实模型复杂度高，即出现过拟合。

一般通过测试误差来评价学习方法的泛化能力，这里使用残留均方差进行评价（root mean-square）：，下图展示了M为0-9时，最优模型在训练数据和测试数据上的测试误差，可以看出当M=9时，对训练数据的误差为0，而对测试数据的误差飙升到最大。分析其本质原因是当M为9时，模型为了更好的拟合数据w取值的波动性非常大。