热线电话:13121318867

登录
2020-03-01 阅读量: 1129
为什么加了松弛变量,损失函数是这个

一、问题描述

为什么加了松弛变量,损失函数是这个变成求L最大值,之前不是损失函数求最小值么

二、问题解答

在线性可分的情况下,我们就是要求||w||^2的最小值。但是在线性不可分的情况下,无论你怎么划分,总是会有点不符合限制条件,也就是说,总有些点y(wx+b) < 1,明明是这个类的却跑到平面的另一边。这样的情况,我们无法求解。于是我们放宽条件,只需要y(wx+b) >= 1 - ε 就行了,也就是说,容许部分点有ε的错判 ,当然原先本来就符合分类的点还是保持以前的限制条件,对他们来说ε = 0。 从图上来看,一个判错的点到自己的类的支撑平面的距离可以看作是ε。光放宽条件当然不行,所以我们对两个平面的间隔距离也要做修正,每出现一个错误,我们就将||w||减去ε*C,为什么要乘以C呢? 因为(1/2)*||w||^2本来就不是两个类之间的距离,而只是一个衡量距离的指标而已。同时我们认为的指定一个C,可以按我们的要求改变对错误分类的容忍能力。当C很大的时候,分错的点就会更少,但是过拟合的情况可能会比较严重,当C很小的时候,分错的点可能会很多,不过可能由此得到的模型也会不太正确,所以如何选择C是有很多学问的,在大部分情况下就是通过经验尝试得到的。

    引入乘法函数后,我们的目标变为了上图

的公式。我们同样对这个工作加上拉格朗日乘子,并且做对偶变换。然后我们会发现,处理后的对偶问题和没有引入乘法函数之前,紧紧是a变量多了一个上界,而且这个上界是我们指定的常量。

0.0000
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子