詹惠儿

2018-12-25   阅读量: 626

数据分析师

决策树的过度拟合问题

扫码加入数据分析学习群

由于ID3算法继续拆分属性,直到它对所有数据点进行分类或者没有更多属性要进行拆分。 结果,通过以相对于整个数据分布的准确性为代价在训练数据上执行得非常好,易于创建过度拟合的决策树。

通常,有两种方法可以在决策树中避免这种情况: - 允许树生长直到它过度生长然后修剪它。 - 在完全分类训练数据之前,通过停止树来防止树长得太深。

决策树的增长是根据允许的层数或深度来指定的。 可用于训练决策树的数据被分成训练和测试数据,然后借助于训练数据创建各种大小的树并在测试数据上进行测试。 交叉验证也可以用作此方法的一部分。 另一方面,修剪树涉及测试原始树对其修剪版本。 只要被修剪的树在测试数据上比较大的树执行得更好,叶子节点就从树中移除。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子