zxq997

2019-06-13   阅读量: 726

决策树修改局部最优条件

扫码加入数据分析学习群

在C4.5中,首先通过引入分支度(IV:Information Value)(在《数据挖掘导论》一书中被称为划分信息度)的概

念,来对信息增益的计算方法进行修正,简而言之,就是在信息增益计算方法的子节点总信息熵的计算方法中添加了

随着分类变量水平的惩罚项。而分支度的计算公式仍然是基于熵的算法,只是将信息熵计算公式中的 (即某类别

样例占总样例数)改成了 ,即某子节点的总样本数占父节点总样本数的比例,这其实就是我们加权求和时的”权

重“。这样的一个分支度指标,让我们在切分的时候,自动避免那些分类水平太多,信息熵减小过快的特征影响模

型,减少过拟合情况。IV计算公式如下:

其中, 表示父节点的第 个子节点, 表示第 个子节点样例数, 表示第 个子节点拥有样例数占父节点总样例数

的比例。很明显,IV可作为惩罚项带入子节点的信息熵计算中。可以简单计算得出,当取ID字段作为切分字段时,IV

值为 。所以IV值会随着叶子节点上样本量的变小而逐渐变大,这就是说一个特征中如果标签分类太多,每个叶

子上的IV值就会非常大。

最终,在C4.5中,使用之前的信息增益除以分支度作为选取切分字段的参考指标,该指标被称作Gain Ratio(获利比

例,或增益率),计算公式如下:

增益比例是我们决定对哪一列进行分枝的标准,我们分枝的是数字最大的那一列,本质是信息增益最大,分支度又较

小的列(也就是纯度提升很快,但又不是靠着把类别分特别细来提升的那些特征)。IV越大,即某一列的分类水平越

多,Gain ratio实现的惩罚比例越大。当然,我们还是希望GR越大越好。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程