数据挖掘中的经典算法都有哪些（一）-CDA数据分析师官网

热线电话：13121318867

数据挖掘中的经典算法都有哪些（一）

2019-01-21

数据挖掘中的算法有很多，而不同的算法有着自己的优势，它们在数据挖掘领域都产生了极为深远的影响。那么大家知道不知知道数据挖掘中的经典算法都有哪些呢？在这篇文章中我们就给大家介绍一下数据挖掘的算法，希望能够给大家带来帮助。

首先给大家说一下The k-means algorithm算法，也就是K-Means算法，k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k大于n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。这种算法在数据挖掘中是十分常见的算法。

而Support vector machines就是支持向量机，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，这种方法广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。这些优点也就成就了这种算法。

然后我们给大家说一下C4.5算法，C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并对ID3算法进行了改进，这种改进具体体现在四个方面，第一就是在树构造过程中进行剪枝，第二就是能够完成对连续属性的离散化处理，第三就是用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足，第四就是能够对不完整数据进行处理。那么这种算法的优点是什么呢？优点就是产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

在这篇文章中我们就给大家介绍了三种经典的算法，分别是The k-means algorithm算法、Support vector machines、C4.5算法，由于篇幅原因我们就给大家介绍到这里了，在下一篇文章中我们继续给大家介绍出更多的数据挖掘中的经典算法，不要走开，我们下期见。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；