有监督学习和无监督学习的区别

zjjwf

2020-08-11 阅读量: 3116

有监督学习和无监督学习的区别

对比一：有标签 vs 无标签

有监督学习的方法就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。

而非监督学习方法只有要分析的数据集的本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，

但不予以某种预先分类标签对上号为目的。

对比二：分类 vs 聚类

有监督机器学习的核心是分类，无监督机器学习的核心是聚类（将数据集合分成由类似的对象组成的多个类）。有监督的工作是选择分类器和确定权值，

无监督的工作是密度估计（寻找描述数据统计值），这意味着无监督算法只要知道如何计算相似度就可以开始工作。

对比三：同维 vs 降维

有监督的输入如果是n维，特征即被认定为n维，也即y=f(xi)或p(y|xi), i =n，通常不具有降维的能力。而无监督经常要参与深度学习，做特征提取，

或者干脆采用层聚类或者项聚类，以减少数据特征的维度。

对比四：分类同时定性 vs 先聚类后定性

有监督的输出结果，也就是分好类的结果会被直接贴上标签，是好还是坏。也即分类分好了，标签也同时贴好了。类似于中药铺的药匣，药剂师采购回来一批药材，

需要做的只是把对应的每一颗药材放进贴着标签的药匣中。无监督的结果只是一群一群的聚类，就像被混在一起的多种中药，一个外行要处理这堆药材，

能做的只有把看上去一样的药材挑出来聚成很多个小堆。如果要进一步识别这些小堆，就需要一个老中医（类比老师）的指导了。

因此，无监督属于先聚类后定性，有点类似于批处理。

对比五：独立 vs 非独立

不管训练样本（有监督），还是待分类的数据（无监督），并不是所有数据都是相互独立分布的。或者说，数据和数据的分布之间存在联系。

作为训练样本，大的偏移很可能会给分类器带来很大的噪声，而对于无监督，情况就会好很多。可见，独立分布数据更适合有监督，非独立数据更适合无监督。

对比六：不透明 vs 可解释性

有监督算法的分类原因是不具有可解释性的，或者说，是不透明的，因为这些规则都是通过人为建模得出，及其并不能自行产生规则。

而无监督的聚类方式通常是有很好的解释性的，你问无监督，为什么把他们分成一类？无监督会告诉你，他们有多少特征有多少的一致性，所以才被聚成一组。

于是，进一步可以讲这个特征组总结成规则。

35.0655

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子