感知机算法:
用一条线来做分类,线的上方属于一类,下方属于另一类
感知机的结果是通过一条线将测试集百分之百的分开
对于非线性不可分的数据及来说,是找到一条高维的曲线来将类别分开
是一种有监督模型
超平面:
超平面就是
超平面在一维和二维空间下就是一条线
xgboost安装:pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple
对于感知机来说初始的参数值不一样,最后的结果也不一样,感知机的结果可能是无数个
只要数据集线性可分,就算有噪音点,感知机肯定能找到超平面,算法一定能收敛
如果数据集线性不可分,那么感知机算法一直收敛不了,会一直跑下去,所以这种情况下不能用
如果想知道感知及是否线性可分,则每次必须画图,所以这个算法不是很好,但是其优化算法svm很不错
对偶形式:
从单样本的梯度下降衍生出来的结果,可以处理线性把不可分的问题
在对偶形式中,离超平面越近的位置,被利用的次数越多,超平面有一大部分是由接近边界的点决定的。这个结论和svm非常相似
对偶形式中的a值代表的是该样本更新参数的次数,对偶形式是一种无参数的模型
1. 越远的点,超平面越能有确信度的将这些点分开,所以它们在单样本梯度下降当中,被更新的次数特别少,甚至不被更新
2. 离最终超平面越近的点,这些点最难被分开,超平面最不确信能它们成功分开,所以需要更新很多次
3. 同个w和b的值可以看出,更新次数最多的那些点,这些点的信息在w中占比是最大的
4. w和b的值最终决定了超平面的位置
5. 这些非常靠近超平面位置的点,这些点的信息在w和b中占比最大
6. 暗示着这些点最终决定了超平面的位置
感知机缺点:
如果是超平面是非线性的,那么模型不能收敛
受噪音点的影响很大,是一个过拟合的模型
没有最优的结果,有很多种解
拉格朗日乘子>=0








暂无数据