非参数监督学习方法——决策树（DT）

809669515

2018-10-31 阅读量: 1577

非参数监督学习方法——决策树（DT）

决策树（DT）是用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。

例如，在下面的示例中，决策树从数据中学习以使用一组if-then-else决策规则来近似正弦曲线。树越深，决策规则越复杂，模型越适合。

决策树的一些优点是：

决策树的缺点包括：

决策树学习者可以创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪（当前不支持），设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的。

决策树可能不稳定，因为数据中的小变化可能导致生成完全不同的树。通过在集合内使用决策树来减轻此问题。

已知在最优性的几个方面甚至对于简单的概念，学习最优决策树的问题是NP完全的。因此，实际的决策树学习算法基于启发式算法，例如贪婪算法，其中在每个节点处进行局部最优决策。这种算法不能保证返回全局最优决策树。这可以通过在集合学习器中训练多个树来减轻，其中特征和样本随替换而随机采样。

有些概念很难学习，因为决策树不容易表达它们，例如XOR，奇偶校验或多路复用器问题。

如果某些类占主导地位，决策树学习者会创建偏向的树。因此，建议在拟合决策树之前平衡数据集。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子