基尼指数算法的惩罚项是啥？

wo5656500

2020-04-29 阅读量: 1489

基尼指数算法的惩罚项是啥？

基尼不纯度指标

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。
假设y的可能取值为{1, 2, …, m},令fifi是样本被赋予i的概率，则基尼指数可以通过如下计算：
Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2kGini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2

cart分类书中的基尼指数

如果训练数据集D根据特征A是否取某一可能值a被分割为D1D1和D2D2两部分，则在特征A的条件下，集合D的基尼指数定义为
Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)
基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。基尼指数越大，样本的不确定性也就越大。

熵VS基尼指数

随机变量的熵表达形式
H(X)=∑Nn=1Pi∗logPiH(X)=∑n=1NPi∗logPi
随机变量的基尼系数表达形式
Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2kGini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2
主要区别在于，熵达到峰值的过程要相对慢一些。因此，熵对于混乱集合的判罚要更重一些。

21.0654

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子