热线电话:13121318867

登录
2020-08-11 阅读量: 2598
有监督学习和无监督学习的区别

对比一 : 有标签 vs 无标签

有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。

而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,

但不予以某种预先分类标签对上号为目的。


对比二 : 分类 vs 聚类

有监督机器学习的核心是分类,无监督机器学习的核心是聚类(将数据集合分成由类似的对象组成的多个类)。有监督的工作是选择分类器和确定权值,

无监督的工作是密度估计(寻找描述数据统计值),这意味着无监督算法只要知道如何计算相似度就可以开始工作。


对比三 : 同维 vs 降维


有监督的输入如果是n维,特征即被认定为n维,也即y=f(xi)或p(y|xi), i =n,通常不具有降维的能力。而无监督经常要参与深度学习,做特征提取,

或者干脆采用层聚类或者项聚类,以减少数据特征的维度。


对比四 :分类同时定性 vs 先聚类后定性


有监督的输出结果,也就是分好类的结果会被直接贴上标签,是好还是坏。也即分类分好了,标签也同时贴好了。类似于中药铺的药匣,药剂师采购回来一批药材,

需要做的只是把对应的每一颗药材放进贴着标签的药匣中。无监督的结果只是一群一群的聚类,就像被混在一起的多种中药,一个外行要处理这堆药材,

能做的只有把看上去一样的药材挑出来聚成很多个小堆。如果要进一步识别这些小堆,就需要一个老中医(类比老师)的指导了。

因此,无监督属于先聚类后定性,有点类似于批处理。


对比五 :独立 vs 非独立

不管训练样本(有监督),还是待分类的数据(无监督),并不是所有数据都是相互独立分布的。或者说,数据和数据的分布之间存在联系。

作为训练样本,大的偏移很可能会给分类器带来很大的噪声,而对于无监督,情况就会好很多。可见,独立分布数据更适合有监督,非独立数据更适合无监督。


对比六 : 不透明 vs 可解释性

有监督算法的分类原因是不具有可解释性的,或者说,是不透明的,因为这些规则都是通过人为建模得出,及其并不能自行产生规则。

而无监督的聚类方式通常是有很好的解释性的,你问无监督,为什么把他们分成一类?无监督会告诉你,他们有多少特征有多少的一致性,所以才被聚成一组。

于是,进一步可以讲这个特征组总结成规则。


35.0655
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子