在这些决策树中,节点代表数据而不是决策。 这种类型的树也称为分类树。 每个分支包含一组属性或分类规则,这些属性或分类规则与特定类标签相关联,该标签位于分支的末尾。
这些规则也称为决策规则,可以用if-then子句表示,每个决策或数据值构成一个子句,例如,“如果满足条件1,2和3,则结果x将是肯定的结果。“
每增加一条数据有助于模型更准确地预测相关主题属于哪一组有限值。 然后,该信息可以用作更大决策模型的输入。
有时预测变量将是实数,例如价格。 具有连续,无限可能结果的决策树称为回归树。
为了提高准确性,有时在集合方法中使用多个树:
当决策树表示具有最少数量的级别或问题的大多数数据时,它被认为是最佳的。 旨在创建优化决策树的算法包括CART,ASSISTANT,CLS和ID3 / 4/5。 还可以通过构建关联规则来创建决策树,将目标变量放在右侧。
每种方法都必须确定哪种方法是在每个级别拆分数据的最佳方法。这样做的常用方法包括测量基尼杂质,信息增益和方差减少。
在机器学习中使用决策树有几个优点:
但它们也有一些缺点: