登录
首页大数据时代半监督学习的种类都有哪些?
半监督学习的种类都有哪些?
2020-07-14
收藏

半监督学习(SSL),全称Semi-Supervised Learning,类属于机器学习(Machine Learning,ML)。在只有少量标记样本,大部分样本都是无标记的情况下,可以使用半监督学习方法,根据无标记样本与标记样本间的相似度、以及无标记样本潜在的分布,这两个核心思想,对无标记的样本进行标记。下面介绍一下半监督学习的种类:

1 生成式方法

生成式方法(generative methods)是直接基于生成式模型的方法,这一方法是假设所有数据(无论是有标记还是没有标记)都是由同一潜在的模型生成的。这个假设利用潜在模型的参数,将未标记数据与学习目标联系起来,而未标记数据的标记能够当作模型的缺失参数,然后基于EM算法,进行极大似然估计求解。生成式方法的重点在于生成式模型的假设,不同的模型假设会产生不同的方法。当然这一方法的关键也就是这个模型假设必须是准确的,也就是假设的生成式模型必须是与真实数据分布相吻合的;不然利用未标记数据反而会降低泛化性能。生成式方法方法实现简单,但是在实际应用中,事先很难做出准确的模型假设。

2半监督支持向量机

半监督支持向量机,Semi-Supervised Vector Machin,是支持向量机半监督学习上的推广。在不考虑未标记样本的情况下,支持向量机试图找到最大间隔划分超平面;在考虑未标记样本的情况下,半监督支持向量机试图找到,能将两类有标记样本区分开,并且穿过数据低密度区域的划分超平面。低密度分隔(low-densityseparation)假设是聚类假设在考虑了线性超平面划分后的推广。TSVM是采用局部搜索的策略来进行迭代求解,也就是首先使用有标记样本集训练出一个初始SVM,接着通过该学习器对未标记样本进行打标,这样使得所有样本都有了标记,并基于这些有标记的样本重新训练SVM,之后再寻找易出错样本不断调整。

3协同训练(基于分歧的方法)

协同训练基于大量模型,让每一个模型去寻找最有把握的样本,并作为其他模型的训练样本,这一互相学习、共同进步的过程不断迭代,直到两个分裂期不再变化。不同的视图、不同的算法、不同的数据、不同的参数都是产生差异的渠道。协同训练能够通过将样本集拆分成不同的子样本集,并分别在子样本集上训练模型,就会产生多个模型;也可以对样本集建立不同的分类模型,通过各个模型决定样本的置信度,与集成学习类似。

4图半监督学习

5半监督聚类

聚类是无监督学习任务,为了利用现实任务中获得的监督信息,提出半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的效果。

聚类任务中获得的监督信息分两种:1)有必连(must-link)和勿连(cannot-link)约束,必连是指样本必属于同一个簇,勿连是指样本必不属于同一个簇;2)含有少量的有标记样本。

数据分析咨询请扫描二维码

客服在线
立即咨询