机器学习：谈谈决策树-CDA数据分析师官网

机器学习：谈谈决策树

2017-11-27

机器学习：谈谈决策树

今天，我们继续开启分类算法之旅，它是一种高效简介的分类算法，后面有一个集成算法正是基于它之上，它是一个可视化效果很好的算法，这个算法就是决策树。

1 一个例子

有一堆水果，其中有香蕉，苹果，杏这三类，现在要对它们分类，可以选择的特征有两个：形状和大小，其中形状的取值有个：圆形和不规则形，大小的取值有：相对大和相对小。现在要对其做分类，我们可以这样做：

首先根据特征：形状，如果不是圆形，那么一定是香蕉，这个就是叶子节点;

如果是圆形，

再进一步根据大小这个特征判断，如果是相对大的，则是苹果，如果否，则是杏子，至此我们又得到两个叶子节点，并且到此分类位置，都得到了正确划分三种水果的方法。

大家可以体会刚才这个过程，这就是一个决策分类，构建树的一个过程，说成是树，显得有点高大上，再仔细想想就是一些列 if 和 else 的嵌套，说是树只不过是逻辑上的一种神似罢了。

刚才举的这个例子，有两个特征：形状和大小，并且选择了第一个特征：形状作为第一个分裂点，大小作为第二个分裂点，那么不能选择第二个特征作为第一分裂点吗? 这样选择有没有公式依据呢?

2 分裂点选择依据

在上个例子中，有三类水果，现在假设杏都被我们家的宝宝吃完了，现在手里只有香蕉和苹果这两类水果了，并且这个时候要对它们做分类，此时机灵的你，一定会根据特征：形状对它们分类了，因为这样一下就会把它们分开了，此时我们说这类集合的纯度更高，与之前的那三类水果在形状这个特征上。

纯度这个概念是很好的理解的，种类越少纯度越高，自然两类纯度更高。此时有人提出了一个和它相反的但是不那么容易理解的概念：熵。它们是敌对双方：熵越大，纯度越低;熵越小，纯度越高。

这是一种概念，那么如何用公式量化熵呢：

其中 i 等于苹果，香蕉，杏，P(i)是集合中取得某一个水果的概率。

试想一下，如果我们想更好地对某个集合完成分类，会怎么做呢?我们一定会优先选择一个特征，使得以这个特征做分类时，它们能最大程度的降低熵，提高分类的纯度，极限的情况是集合中100个元素(集合中只有两类水果)，根据某个最优特征，直接将分为两类，一类都是苹果，一类都是杏，这样熵直接等于0。

这个特点就是所谓的信息增益，熵降低的越多，信息增益的就越多。很多时候都不会发生上述说的这个极限情况，就像文章一开始举的例子，根据形状划分后，熵变小了，但是未等于0，比如刚开始三类水果的熵等于0.69，现在根据形状分裂后，熵等于了0.4，所以信息增益为0.69 – 0.4 = 0.29 。如果根据大小划分，信息增益为0.1，那么我们回考虑第一个分裂特征：形状。

这种方法有问题吗?

3 信息增益越大，分类效果越好?

这是只根据信息增益选择分裂特征点的bug，请看下面举例。

如果某个特征是水果的唯一标示属性：编号，那么此时如果选择这个特征，共得到100个叶子节点(假设这堆水果一共有100个)，每个叶子节点只含有1个样本，并且此时的信息增益最大为 0.69 – 0 = 0.69 。

但是，这是好的分类吗? 每一个样本作为单独的叶子节点，当来了101号水果，都不知道划分到哪一个叶子节点，也就不知道它属于哪一类了!

因此，这个问题感觉需要除以某个变量，来消除这种情况的存在。

它就是信息增益率，它不光考虑选择了某个分裂点后能获得的信息增益，同时还要除以分裂出来的这些节点的熵值，什么意思呢? 刚才不是分裂出来100个节点吗，那么这些节点自身熵一共等于多少呢：

再除以上面这个数后，往往信息增益率就不会那么大了。这就是传说中的从ID3 到 C4.5 的改进。

4 与熵的概念类似的基尼系数

只需要知道基尼系数和熵差不多的概念就行了，只不过量化的公式不同而已，这就说明理解了，至于公式长什么样子，用的时候去查就行了。

让我们看一下远边的大海，和海边优美的风景，放松一下吧!

5 展望

以上介绍了决策树的一些概念和分裂点选取的基本方法。

特征决策树集成算法 D3 机器学习

数据分析咨询请扫描二维码

上一篇Excel-漏斗图分析（差异分析）

下一篇CDA题库-CDA考试题目练习

机器学习：谈谈决策树

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...