ermutuxia

2021-11-15   阅读量: 25

Scikit-learn

熵和信息的概念

信息的基本作用就是减少人们对事物的不确定性,或者是增加对事物的确定性。

不确定性函数f是概率P的减函数

P增加——>不确定性 减少——>信息熵减少——>信息增益为正。

信息增益:熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度。

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

我们如何来衡量信息量的多少呢? 我们用信息熵来横向信息中包含的信息量的多少。

Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,信息熵简称为熵。

我们用一个随机变量来举例进行信息熵的概念。

比如我们有一个随机变量Y,Y只可能取两个值,我们把这两个取值称为两个事件,分别是事件1和事件2,在不给任何条件的情况下,Y取1的概率为P1=0.6,Y取2的概率为P2=0.4。

我们认为变量Y的不确定性可以用如下熵公式来衡量:

两个独立符号所产生的不确定性应等于各自不确定性之和

image.png 注:这里的log是以2为底的。

p越大,f(P)越小,f是P的减函数

事件1的不确定性是 -log0.6

事件2的不确定性是 -log0.4

随机变量Y的不确定性

=H(Y)

=事件1发生的概率*事件1的不确定性+事件2发生的概率*事件2的不确定性

=p1*(-log0.6)+p2*(-log0.4)

=0.9709505944546686

然后我们考虑两种比较极端的情况

1.如果事件1发生的概率为0.5,事件2发生的概率为0.5,则H(Y)=1

2.如果事件1发生的概率为1,事件2发生的概率为0,则H(Y)=0

接下来介绍一下信息增益

信息增益:熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度。

通俗地讲,Y(明天是否下雨)是一个随机变量,Y的熵可以算出来, X(明天是否阴天)也是随机变量,在给定X情况下Y的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。

Y的熵减去X条件下Y的熵,就是信息增益。

用具体的数值来举例说明,原本明天是否下雨的信息熵是0.9,给定X之后的条件熵是0.3,这样相减后为0.6。在获得X这个信息后,下雨信息不确定性减少了0.6,不确定减少了很多,所以信息增益大。也就是说,是否阴天这个信息对明天是否下雨这一推断来说非常重要。

所以在特征选择的时候常常用信息增益(IG),如果信息增益大的话,那么这个特征对于分类来说很重要,决策树就是这样来找特征的。






0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子