决策树中要解决的问题（一）

詹惠儿

2018-11-15 阅读量: 1342

决策树中要解决的问题（一）

决策树虽然理解起来简单，操作也不难，但有3个一定要注意的问题。

一. 避免过度拟合

由于ID3算法继续拆分属性，直到它对所有数据点进行分类或者没有更多属性要进行拆分。结果，通过以相对于整个数据分布的准确性为代价在训练数据上执行得非常好，易于创建过度拟合的决策树。

通常，有两种方法可以在决策树中避免这种情况： - 允许树生长直到它过度生长然后修剪它。 - 在完全分类训练数据之前，通过停止树来防止树长得太深。

决策树的增长是根据允许的层数或深度来指定的。可用于训练决策树的数据被分成训练和测试数据，然后借助于训练数据创建各种大小的树并在测试数据上进行测试。交叉验证也可以用作此方法的一部分。另一方面，修剪树涉及测试原始树对其修剪版本。只要被修剪的树在测试数据上比较大的树执行得更好，叶子节点就从树中移除。

二. 结合连续值属性

我们对ID3的初始定义仅限于采用一组离散值的属性。使ID3算法对连续变量更有用的一种方法是在某种程度上将它们转换为离散变量。假设在我们的Play Badminton示例中温度是连续的，我们可以测试温度值的某些分区的信息增益，例如温度> 42.5。通常，每当分类从“否”变为“是”或“是”变为“否”时，将两个温度的平均值视为潜在的分区边界。

因为42对应于否，43对应于是，42.5成为候选。如果任何分区最终显示出最大的信息增益，则将其用作属性，并从要分离的潜在属性集中移除温度。