机器学习：关于最小二乘法基本概念的理解-CDA数据分析师官网

热线电话：13121318867

首页大数据时代机器学习：关于最小二乘法基本概念的理解

机器学习：关于最小二乘法基本概念的理解

2020-07-01

今天小编给大家分享一下最小二乘法的一些内容。

一、最小二乘法概念

最小二乘法Least Square Method，做为分类回归算法的基础，有着悠久的历史(由马里·勒让德于1806年提出)。主要是通过最小化误差的平方以及最合适数据的匹配函数。

作用：(1)利用最小二乘法可以得到位置数据(这些数据与实际数据之间误差平方和最小)(2)也可以用来曲线拟合

二、最小二乘法的一般提法为：

已知 n 组观测数据(x1.y1),(x2.y2)...........(xn,yn)，可认为它们满足某一模型 y=g(x)+ε(x)，其中 y=g(x)是函数，ε(x)=y-g(x)是观测值与函数值得误差，称为误差函数。那么有 yi是观测值，εi=yi-g(xi)是观测误差。设 g (x)是含有 p 个参数的拟合函数，则 ε(x)=y- g (x)，εi=yi- g (xi)，要确定 g (x)中 p 个参数的值，就要使得ni = 1Σεi2=ni = 1Σ(yi- g (xi))2达到最小。这一方法称为最小二乘法。特别的，假设拟合函数为：

y*=a1φ1(x)+a2φ2(x)+........asφs(x)

其中 φ1(x),φ2(x)............φs(x)为所选定的基函数，ai(i=1.2.....s)为待定系数，要确定系数 ai(i=1.2.....s)，使得 y*与 n 组观测数据的距离的平方和尽可能小，也就是取最小值。

三、最小二乘法的适用场景

当样本量m很少，小于特征数n的时候，这时拟合方程是欠定的，需要使用LASSO。当m=n时，用方程组求解。当m>n时，拟合方程是超定的，我们可以使用最小二乘法。

四、最小二乘法局限性

首先，最小二乘法需要计算(XTX)−1逆矩阵，有可能逆矩阵不存在，这样就没有办法直接用最小二乘法。

第二，当样本特征n非常的大的时候，计算逆矩阵是一个非常耗时的工作，甚至不可行。建议不超过10000个特征。

第三，如果拟合函数不是线性的，这时无法使用最小二乘法，需要通过一些技巧转化为线性才能使用。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；