决策树-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

sunjiawei321

# 1. 模型是对训练集里面的数据进行训练，以树的方式归纳出了X和Y之间的规律# 2. 学习的过程中，如果不控制我们的树的话，树会不断的学习，生成的模型，会尝试将每一个训练样本都预测正确# 3. 问题是训练集当中，很可能有噪音，如果噪音呢，决策树也会尝试将这部分信息给学习进去# 4. 导致模型特别的复杂，枝叶特别的多，深度特别生# 5. 该模型虽然在训练集下表现非常不错，但是也将噪音误以为是X和Y

19.8851

2

0

0

关注作者

收藏

陈革007

机器学习: 决策树的剪枝策略及其优缺点

决策树的剪枝方法主要分为两大类：预剪枝和后剪枝两种。预剪枝：当最优分裂点对应的增益值为负值是停止分裂。它的优点是，计算时间上能保证最优；缺点则是将来的某个时刻也许能够获取更高的增益，也就是说它不能保证最优。后剪枝：将决策树增长到它的最大深度，递归的进行剪枝，剪去那些使得增益值为负值的叶子节点。它的优点是能够保证决策树最优；缺点是比预剪枝计算复杂度高很多。

22.7699

6

4

0

关注作者

收藏

anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度？基尼不纯度是什么？

绝大部分情况下熵（entropy）和基尼指数（Gini Index）在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数（impurity）有三种（假设有k个类别）：不难看出，三个函数均为凸函数。只不过误分率（函数1）是分段线性函数（piece-wise linear），有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段，它们的优势如下：二者

14.4630

4

2

0

关注作者

收藏

anranhui

树算法：ID3，C4.5，C5.0和CART¶的相互关系

ID3（迭代二分法3）由Ross Quinlan于1986年开发。该算法创建多路树，为每个节点（即，以贪婪的方式）找到分类特征，该分类特征将为分类目标产生最大的信息增益。将树长到最大大小，然后通常应用修剪步骤以提高树概括未见数据的能力。C4.5是ID3的后继版本，并通过动态定义离散属性（基于数字变量）来消除要素必须分类的限制，该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树（即

14.3059

2

4

0

关注作者

收藏

anranhui

决策树的优缺点

决策树（DT）是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树的一些优点是：易于理解和解释。树木可以可视化。需要很少的数据准备。其他技术通常需要数据规范化，需要创建伪变量并删除空白值。但是请注意，此模块不支持缺少的值。使用树的成本（即预测数据）与用于训练树的数据点数量成对数。能够处理数字和分类数据。其他

14.3059

2

0

0

关注作者

收藏

CDA考试动态

CDA报考指南