数据挖掘总结之分类与聚类的区别-CDA数据分析师官网

数据挖掘总结之分类与聚类的区别

2018-06-07

数据挖掘总结之分类与聚类的区别

分类与聚类的区别

Classification (分类)：

一个 classifier会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做 supervised learning (监督学习)。所谓分类，简单来说，就是根据文本的特征或属性，划分到已有的类别中。

常用的分类算法包括：决策树分类法，朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器，神经网络法，k-最近邻法(k-nearest neighbor，kNN)，模糊分类法等。分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。

Clustering(聚类)：

简单地说就是把相似的东西分到一组，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在Machine Learning中被称作unsupervised learning (无监督学习)。聚类分析目的在于将相似的事物归类，同一类中的个体有较大的相似性，不同类的个体差异性很大。

支持向量机无监督学习无监督神经网络 SVM 特征决策树数据挖掘

数据分析咨询请扫描二维码

上一篇2018年区块链高考统一试题（全国卷）

下一篇认为你的公司需要数据科学家？你可能错了

数据挖掘总结之分类与聚类的区别

考试指南

报考指南

热门栏目