机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting

机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting

2019-04-03

大家都知道，机器学习中有很多算法，比如说决策树，随机森林，线性回归等等，其实这些算法都是有很多优点，同时也是有很多的缺点。我们在这篇文章中给大家介绍一下ID3、C4.5算法、CART分类与回归树和Adaboosting算法的优缺点，希望这篇文章能够更好的帮助大家理解机器学习。

首先我们给大家介绍一下ID3、C4.5算法，其实ID3算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法，是ID3算法的改进，改进方面有四方面，第一就是用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足。第二就是在树构造过程中进行剪枝。第三就是能处理非离散的数据。第四就是能处理不完整的数据。

那么这种算法的优点是什么呢？优点很明显，那就是产生的分类规则易于理解，准确率较高。而缺点就是在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。同时C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

那么什么是CART分类与回归树呢？其实这两种算法就是一种决策树分类方法，采用基于最小距离的基尼指数估计函数，用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的，称为分类树；如果目标变量是连续的，称为回归树。分类树是使用树结构算法将数据分成离散类的方法。

这种算法的优点体现在两方面，第一就是这种算法非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。第二就是在面对诸如存在缺失值、变量数多等问题时CART显得非常稳健。

最后我们给大家介绍一下Adaboosting ，其实Adaboost是一种加和模型，每个模型都是基于上一次模型的错误率来建立的，过分关注分错的样本，而对正确分类的样本减少关注度，逐次迭代之后，可以得到一个相对较好的模型。该算法是一种典型的boosting算法，其加和理论的优势可以使用Hoeffding不等式得以解释。而这种算法的优点就是具有很高精度的特性。这种算法可以使用各种方法构建子分类器，Adaboost算法提供的是框架。同时，当使用简单分类器时，计算出的结果是可以理解的，并且弱分类器的构造极其简单。而简单也是其中一个特点，不用做特征筛选。最后就是不易发生overfitting。而缺点只有一个，那就是对outlier比较敏感。

在这篇文章中我们给大家介绍了关于机器学习算法的优缺点，具体就是ID3、C4.5算法、CART分类与回归树和Adaboosting算法，其实这些算法都是十分实用的，所以说我们在学习机器学习的时候一定不要忽视这些算法的学习。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；