2018-10-31
阅读量:
1577
非参数监督学习方法——决策树(DT)
决策树(DT)是用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。
例如,在下面的示例中,决策树从数据中学习以使用一组if-then-else决策规则来近似正弦曲线。树越深,决策规则越复杂,模型越适合。
决策树的一些优点是:
- 易于理解和解释。树木可以看到。
- 需要很少的数据准备。其他技术通常需要数据规范化,需要创建虚拟变量并删除空值。但请注意,此模块不支持缺失值。
- 使用树的成本(即,预测数据)是用于训练树的数据点的数量的对数。
- 能够处理数字和分类数据。其他技术通常专门用于分析仅具有一种变量类型的数据集。有关更多信息,请参阅算法
- 能够处理多输出问题。
- 使用白盒模型。如果在模型中可以观察到给定的情况,则可以通过布尔逻辑轻松解释条件。相反,在黑盒模型中(例如,在人工神经网络中),结果可能更难以解释。
- 可以使用统计测试验证模型。这使得可以考虑模型的可靠性。
- 即使其假设在某种程度上违反了生成数据的真实模型,也表现良好。
决策树的缺点包括:
决策树学习者可以创建过于复杂的树,这些树不能很好地推广数据。这称为过度拟合。修剪(当前不支持),设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的。
决策树可能不稳定,因为数据中的小变化可能导致生成完全不同的树。通过在集合内使用决策树来减轻此问题。
已知在最优性的几个方面甚至对于简单的概念,学习最优决策树的问题是NP完全的。因此,实际的决策树学习算法基于启发式算法,例如贪婪算法,其中在每个节点处进行局部最优决策。这种算法不能保证返回全局最优决策树。这可以通过在集合学习器中训练多个树来减轻,其中特征和样本随替换而随机采样。
有些概念很难学习,因为决策树不容易表达它们,例如XOR,奇偶校验或多路复用器问题。
如果某些类占主导地位,决策树学习者会创建偏向的树。因此,建议在拟合决策树之前平衡数据集。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论