2018-11-15
阅读量:
1172
决策树在机器学习和数据挖掘中的运用
决策树还可用于帮助构建自动预测模型,其在机器学习,数据挖掘和统计中具有应用。 这种方法称为决策树学习,它考虑了有关项目的预测,以预测该项目的价值。
在这些决策树中,节点代表数据而不是决策。 这种类型的树也称为分类树。 每个分支包含一组属性或分类规则,这些属性或分类规则与特定类标签相关联,该标签位于分支的末尾。
这些规则也称为决策规则,可以用if-then子句表示,每个决策或数据值构成一个子句,例如,“如果满足条件1,2和3,则结果x将是肯定的结果。“
每增加一条数据有助于模型更准确地预测相关主题属于哪一组有限值。 然后,该信息可以用作更大决策模型的输入。
有时预测变量将是实数,例如价格。 具有连续,无限可能结果的决策树称为回归树。
为了提高准确性,有时在集合方法中使用多个树:
- Bagging通过重新采样源数据创建多个树,然后让这些树投票达成共识。
- 随机森林分类器由多个树组成,旨在提高分类率
- 可以用于回归和分类树的提升树。
- 旋转森林中的树木都是通过对数据的随机部分使用PCA(主成分分析)进行训练的
当决策树表示具有最少数量的级别或问题的大多数数据时,它被认为是最佳的。 旨在创建优化决策树的算法包括CART,ASSISTANT,CLS和ID3 / 4/5。 还可以通过构建关联规则来创建决策树,将目标变量放在右侧。
每种方法都必须确定哪种方法是在每个级别拆分数据的最佳方法。这样做的常用方法包括测量基尼杂质,信息增益和方差减少。
在机器学习中使用决策树有几个优点:
- 使用树来预测数据的成本随着每个附加数据点而降低
- 适用于分类或数字数据
- 可以用多个输出建模问题
- 使用白盒模型(使结果易于解释)
- 可以测试和量化树的可靠性
- 无论是否违反源数据的假设,都趋于准确
但它们也有一些缺点:
- 在处理具有多个级别的分类数据时,信息增益偏向于具有最多级别的属性。
- 在处理不确定性和许多相关结果时,计算可能变得复杂。
- 节点之间的连接限于AND,而决策图允许通过OR链接的节点。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论