熵和信息的概念_CDA答疑社区

信息的基本作用就是减少人们对事物的不确定性，或者是增加对事物的确定性。

不确定性函数f是概率P的减函数

P增加——>不确定性减少——>信息熵减少——>信息增益为正。

p越大，不确定性越小，信息（惊奇度）越少

信息=惊奇度

信息增益：熵 - 条件熵。表示在一个条件下，信息不确定性减少的程度。

变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

我们如何来衡量信息量的多少呢？我们用信息熵来横向信息中包含的信息量的多少。

Shannon 借鉴了热力学的概念，把信息中排除了冗余后的平均信息量称为“信息熵”，信息熵简称为熵。

我们用一个随机变量来举例进行信息熵的概念。

比如我们有一个随机变量Y,Y只可能取两个值，我们把这两个取值称为两个事件，分别是事件1和事件2，在不给任何条件的情况下，Y取1的概率为P1=0.6，Y取2的概率为P2=0.4。

我们认为变量Y的不确定性可以用如下熵公式来衡量:

两个独立符号所产生的不确定性应等于各自不确定性之和

熵函数：

注：这里的log是以2为底的。

p越大，f(P)越小，f是P的减函数

熵函数f(P)的名字叫不确定性函数，它是关于P的减函数

事件1的不确定性是 -log0.6

事件2的不确定性是 -log0.4

随机变量Y的不确定性

=H(Y)

=事件1发生的概率*事件1的不确定性+事件2发生的概率*事件2的不确定性

=p1*(-log0.6)+p2*(-log0.4)

=0.9709505944546686

然后我们考虑两种比较极端的情况

1.如果事件1发生的概率为0.5，事件2发生的概率为0.5，则H(Y)=1

2.如果事件1发生的概率为1，事件2发生的概率为0，则H(Y)=0

接下来介绍一下信息增益

信息增益：熵 - 条件熵。表示在一个条件下，信息不确定性减少的程度。

通俗地讲，Y(明天是否下雨)是一个随机变量，Y的熵可以算出来， X(明天是否阴天)也是随机变量，在给定X情况下Y的信息熵我们如果也知道的话（此处需要知道其联合概率分布或是通过数据估计）即是条件熵。

Y的熵减去X条件下Y的熵，就是信息增益。

用具体的数值来举例说明，原本明天是否下雨的信息熵是0.9，给定X之后的条件熵是0.3，这样相减后为0.6。在获得X这个信息后，下雨信息不确定性减少了0.6，不确定减少了很多，所以信息增益大。也就是说，是否阴天这个信息对明天是否下雨这一推断来说非常重要。

所以在特征选择的时候常常用信息增益（IG），如果信息增益大的话,那么这个特征对于分类来说很重要，决策树就是这样来找特征的。