一、线性支持向量机的概念
线性支持向量机是针对线性不可分的数据集的,这样的数据集可以通过近似可分的方法实现分类。对于这样的数据集,类似线性可分支持向量机,通过求解对应的凸二次规划问题,也同样求得分离超平面
以及相应的分类决策函数
二、与线性可分支持向量机的比较
线性支持向量机与线性可分支持向量机最大的不同就是在处理的问题上,线性可分支持向量机处理的是严格线性可分的数据集,而线性支持向量机处理的是线性不可分的数据集,然而,在基本的原理上他们却有着想通之处。这里的线性不可分是指数据集中存在某些点不能满足线性可分支持向量机的约束条件:。
具体来讲,对于特征空间上的训练数据集,且不是线性可分的,即存在某些特异点不满足的约束条件,若将这些特异点去除,那么剩下的数据点是线性可分的,由此可见,线性可分支持向量机是线性支持向量机的特殊情况。为了解决这样的问题,对每个样本点引入一个松弛变量,且,则上述的约束条件被放宽,即:
此时目标函数变为:
其中称为惩罚参数,且。在线性支持向量机中加入了惩罚项,与线性可分支持向量的应间隔最大化相对应,在线性支持向量机中称为软间隔最大化。数据分析师培训
三、线性支持向量机的原理
由上所述,我们得到线性支持向量机的原始问题:
接下来的问题就变成如何求解这样一个最优化问题(称为原始问题)。引入拉格朗日函数:
其中,。
此时,原始问题即变成
利用拉格朗日函数的对偶性,将问题变成一个极大极小优化问题:
首先求解,将拉格朗日函数分别对求偏导,并令其为0:
即为:
将其带入拉格朗日函数,即得:
第二步,求,即求:
由可得,因为在第二步求极大值的过程中,函数只与a有关。
将上述的极大值为题转化为极小值问题:
这就是原始问题的对偶问题。
四、线性支持向量机的过程
1、设置惩罚参数,并求解对偶问题:
假设求得的最优解为;
2、计算原始问题的最优解:
选择中满足的分量,计算:
3、求分离超平面和分类决策函数:
分离超平面为:
分类决策函数为:
五、实验的仿真
1、解决线性可分问题
与博文“简单易学的机器学习算法——线性可分支持向量机”实验一样,其中取中的最大值。
MATLAB代码为
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% 线性支持向量机
% 清空内存
clear all;
clc;
%简单的测试数据集
X = [3,3;4,3;1,1];
y = [1,1,-1];%标签
A = [X,y'];
m = size(A);%得到训练数据的大小
% 区分开特征与标签
X = A(:,1:2);
Y = A(:,m(1,2))';
for i = 1:m(1,1)
X(i,:) = X(i,:)*Y(1,i);
end
%% 对偶问题,用二次规划来求解
H = X*X';
f = ones(m(1,1),1)*(-1);
B = Y;
b = 0;
lb = zeros(m(1,1),1);
% 调用二次规划的函数
[x,fval,exitflag,output,lambda] = quadprog(H,f,[],[],B,b,lb);
% 定义C
C = max(x);
% 求原问题的解
n = size(x);
w = x' * X;
k = 1;
for i = 1:n(1,1)
if x(i,1) > 0 && x(i,1)<C
b(k,1) = Y(1,i)-w*X(i,:)'*Y(1,i);
k = k +1;
end
end
b = mean(b);
% 求出分离超平面
y_1 = [0,4];
for i = 1:2
y_2(1,i) = (-b-w(1,1)*y_1(1,i))./w(1,2);
end
hold on
plot(y_1,y_2);
for i = 1:m(1,1)
if A(i,m(1,2)) == -1
plot(A(i,1),A(i,2),'og');
elseif A(i,m(1,2)) == 1
plot(A(i,1),A(i,2),'+r')
end
end
axis([0,7,0,7])
hold off
实验结果为:
(线性可分问题的分离超平面)
2、解决线性不可分问题
问题为:
(线性不可分问题)
MATLAB代码:
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% 线性支持向量机
% 清空内存
clear all;
clc;
% 导入测试数据
A = load('testSet.txt');
% 处理数据的标签
m = size(A);%得到训练数据的大小
for i = 1:m(1,1)
A(i,m(1,2)) = A(i,m(1,2))*2-1;
end
% 区分开特征与标签
X = A(:,1:2);
Y = A(:,m(1,2))';
for i = 1:m(1,1)
X(i,:) = X(i,:)*Y(1,i);
end
%% 对偶问题,用二次规划来求解
H = X*X';
f = ones(m(1,1),1)*(-1);
B = Y;
b = 0;
lb = zeros(m(1,1),1);
% 调用二次规划的函数
[x,fval,exitflag,output,lambda] = quadprog(H,f,[],[],B,b,lb);
% 定义C
% C = mean(x);
C = max(x);
% 求原问题的解
n = size(x);
w = x' * X;
k = 1;
for i = 1:n(1,1)
if x(i,1) > 0 && x(i,1)<C
b(k,1) = Y(1,i)-w*X(i,:)'*Y(1,i);
k = k +1;
end
end
b = mean(b);
% 求出分离超平面
y_1 = [-4,4];
for i = 1:2
y_2(1,i) = (-b-w(1,1)*y_1(1,i))./w(1,2);
end
hold on
plot(y_1,y_2);
for i = 1:m(1,1)
if A(i,m(1,2)) == -1
plot(A(i,1),A(i,2),'og');
elseif A(i,m(1,2)) == 1
plot(A(i,1),A(i,2),'+r')
end
end
hold off
实验结果为:
(线性不可分问题的分离超平面)
注:这里的的取值很重要,的取值将决定分类结果的准确性。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14