guuggu

2020-06-18   阅读量: 927

决策树之信息增益理解

扫码加入数据分析学习群

最开始,我认为信息增益指的是误差大小,学习过后才知道信息增益指的是同一类别里,决策树上下节点间同一特征下的期望误差,该误差值越大,则代表这条信息流里需要解释的信息量越多


我知道这很绕,之所以我会纠结这个点,是因为gda的公式里,是上个节点的h值减去下节点的h值取最大,而通常对于h值的理解是越大越好,而gda反而要求下节点的h值越小越好,这里就很奇怪,后来问了同学,被他的一句话提醒了

----'我们希望决策树的分支节点包含的样本尽可能属于同一类别,也就是纯度高; 信息熵是度量纯度的标准 信息熵越小,纯度越高'

这正印证了我的想法,也是我要寻找的答案,有了这句话,一切都说得通了,下面附上图解

决策树之信息增益的理解.png

途中所画圈的点集,始终让H值保持最大,即为ID3算法下的最优决策点

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
23.0062 5 4 关注作者 收藏

评论(0)


暂无数据

推荐课程