sunjiawei321

决策树

# 1. 模型是对训练集里面的数据进行训练,以树的方式归纳出了X和Y之间的规律# 2. 学习的过程中,如果不控制我们的树的话,树会不断的学习,生成的模型,会尝试将每一个训练样本都预测正确# 3. 问题是训练集当中,很可能有噪音,如果噪音呢,决策树也会尝试将这部分信息给学习进去# 4. 导致模型特别的复杂,枝叶特别的多,深度特别生# 5. 该模型虽然在训练集下表现非常不错,但是也将噪音误以为是X和Y

19.8851 2 0
  • 关注作者
  • 收藏
陈革007

机器学习: 决策树的剪枝策略及其优缺点

决策树的剪枝方法主要分为两大类:预剪枝和后剪枝两种。预剪枝: 当最优分裂点对应的增益值为负值是停止分裂。它的优点是,计算时间上能保证最优;缺点则是将来的某个时刻也许能够获取更高的增益,也就是说它不能保证最优。后剪枝: 将决策树增长到它的最大深度,递归的进行剪枝,剪去那些使得增益值为负值的叶子节点。它的优点是能够保证决策树最优;缺点是比预剪枝计算复杂度高很多。

22.7699 6 4
  • 关注作者
  • 收藏
anranhui

决策树中经常用熵作为判别条件而不是基尼不纯度?基尼不纯度是什么?

绝大部分情况下熵(entropy)和基尼指数(Gini Index)在决策树节点分裂时做出的决策都是等价的。先看一下如何定义节点分裂时的不纯度函数(impurity)有三种(假设有k个类别): 不难看出,三个函数均为凸函数。只不过误分率(函数1)是分段线性函数(piece-wise linear),有时候节点分裂会无法降低不纯度。所以函数2和3一般是常采用的手段,它们的优势如下:二者

14.4630 4 2
  • 关注作者
  • 收藏
anranhui

树算法:ID3,C4.5,C5.0和CART¶的相互关系

ID3(迭代二分法3)由Ross Quinlan于1986年开发。该算法创建多路树,为每个节点(即,以贪婪的方式)找到分类特征,该分类特征将为分类目标产生最大的信息增益。将树长到最大大小,然后通常应用修剪步骤以提高树概括未见数据的能力。C4.5是ID3的后继版本,并通过动态定义离散属性(基于数字变量)来消除要素必须分类的限制,该离散属性将连续属性值划分为离散的间隔集。C4.5将训练后的树(即

14.3059 2 4
  • 关注作者
  • 收藏
anranhui

决策树的优缺点

决策树(DT)是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。决策树的一些优点是:易于理解和解释。树木可以可视化。需要很少的数据准备。其他技术通常需要数据规范化,需要创建伪变量并删除空白值。但是请注意,此模块不支持缺少的值。使用树的成本(即预测数据)与用于训练树的数据点数量成对数。能够处理数字和分类数据。其他

14.3059 2 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据