由于ID3算法继续拆分属性,直到它对所有数据点进行分类或者没有更多属性要进行拆分。 结果,通过以相对于整个数据分布的准确性为代价在训练数据上执行得非常好,易于创建过度拟合的决策树。
通常,有两种方法可以在决策树中避免这种情况: - 允许树生长直到它过度生长然后修剪它。 - 在完全分类训练数据之前,通过停止树来防止树长得太深。
决策树的增长是根据允许的层数或深度来指定的。 可用于训练决策树的数据被分成训练和测试数据,然后借助于训练数据创建各种大小的树并在测试数据上进行测试。 交叉验证也可以用作此方法的一部分。 另一方面,修剪树涉及测试原始树对其修剪版本。 只要被修剪的树在测试数据上比较大的树执行得更好,叶子节点就从树中移除。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar