机器学习：谈谈决策树-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读机器学习：谈谈决策树

机器学习：谈谈决策树

2017-11-27

机器学习：谈谈决策树

今天，我们继续开启分类算法之旅，它是一种高效简介的分类算法，后面有一个集成算法正是基于它之上，它是一个可视化效果很好的算法，这个算法就是决策树。

1 一个例子

有一堆水果，其中有香蕉，苹果，杏这三类，现在要对它们分类，可以选择的特征有两个：形状和大小，其中形状的取值有个：圆形和不规则形，大小的取值有：相对大和相对小。现在要对其做分类，我们可以这样做：

首先根据特征：形状，如果不是圆形，那么一定是香蕉，这个就是叶子节点;

如果是圆形，

再进一步根据大小这个特征判断，如果是相对大的，则是苹果，如果否，则是杏子，至此我们又得到两个叶子节点，并且到此分类位置，都得到了正确划分三种水果的方法。

大家可以体会刚才这个过程，这就是一个决策分类，构建树的一个过程，说成是树，显得有点高大上，再仔细想想就是一些列 if 和 else 的嵌套，说是树只不过是逻辑上的一种神似罢了。

刚才举的这个例子，有两个特征：形状和大小，并且选择了第一个特征：形状作为第一个分裂点，大小作为第二个分裂点，那么不能选择第二个特征作为第一分裂点吗? 这样选择有没有公式依据呢?

2 分裂点选择依据

在上个例子中，有三类水果，现在假设杏都被我们家的宝宝吃完了，现在手里只有香蕉和苹果这两类水果了，并且这个时候要对它们做分类，此时机灵的你，一定会根据特征：形状对它们分类了，因为这样一下就会把它们分开了，此时我们说这类集合的纯度更高，与之前的那三类水果在形状这个特征上。

纯度这个概念是很好的理解的，种类越少纯度越高，自然两类纯度更高。此时有人提出了一个和它相反的但是不那么容易理解的概念：熵。它们是敌对双方：熵越大，纯度越低;熵越小，纯度越高。

这是一种概念，那么如何用公式量化熵呢：

其中 i 等于苹果，香蕉，杏，P(i)是集合中取得某一个水果的概率。

试想一下，如果我们想更好地对某个集合完成分类，会怎么做呢?我们一定会优先选择一个特征，使得以这个特征做分类时，它们能最大程度的降低熵，提高分类的纯度，极限的情况是集合中100个元素(集合中只有两类水果)，根据某个最优特征，直接将分为两类，一类都是苹果，一类都是杏，这样熵直接等于0。

这个特点就是所谓的信息增益，熵降低的越多，信息增益的就越多。很多时候都不会发生上述说的这个极限情况，就像文章一开始举的例子，根据形状划分后，熵变小了，但是未等于0，比如刚开始三类水果的熵等于0.69，现在根据形状分裂后，熵等于了0.4，所以信息增益为0.69 – 0.4 = 0.29 。如果根据大小划分，信息增益为0.1，那么我们回考虑第一个分裂特征：形状。

这种方法有问题吗?

3 信息增益越大，分类效果越好?

这是只根据信息增益选择分裂特征点的bug，请看下面举例。

如果某个特征是水果的唯一标示属性：编号，那么此时如果选择这个特征，共得到100个叶子节点(假设这堆水果一共有100个)，每个叶子节点只含有1个样本，并且此时的信息增益最大为 0.69 – 0 = 0.69 。

但是，这是好的分类吗? 每一个样本作为单独的叶子节点，当来了101号水果，都不知道划分到哪一个叶子节点，也就不知道它属于哪一类了!

因此，这个问题感觉需要除以某个变量，来消除这种情况的存在。

它就是信息增益率，它不光考虑选择了某个分裂点后能获得的信息增益，同时还要除以分裂出来的这些节点的熵值，什么意思呢? 刚才不是分裂出来100个节点吗，那么这些节点自身熵一共等于多少呢：