詹惠儿

2018-12-25   阅读量: 493

数据分析师

决策树模型要注意什么

扫码加入数据分析学习群

结合连续值属性

我们对ID3的初始定义仅限于采用一组离散值的属性。 使ID3算法对连续变量更有用的一种方法是在某种程度上将它们转换为离散变量。 假设在我们的Play Badminton示例中温度是连续的,我们可以测试温度值的某些分区的信息增益,例如温度> 42.5。 通常,每当分类从“否”变为“是”或“是”变为“否”时,将两个温度的平均值视为潜在的分区边界。

因为42对应于否,43对应于是,42.5成为候选。 如果任何分区最终显示出最大的信息增益,则将其用作属性,并从要分离的潜在属性集中移除温度。

过拟合

决策树的增长是根据允许的层数或深度来指定的。 可用于训练决策树的数据被分成训练和测试数据,然后借助于训练数据创建各种大小的树并在测试数据上进行测试。 交叉验证也可以用作此方法的一部分。 另一方面,修剪树涉及测试原始树对其修剪版本。 只要被修剪的树在测试数据上比较大的树执行得更好,叶子节点就从树中移除。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 6 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子