CDA持证人阿涛哥

2021-12-21   阅读量: 19686

数据分析师

关于信息熵

扫码加入数据分析学习群


信息熵的公式

先抛出信息熵公式如下:


其中[公式]代表随机事件X为[公式]的概率,下面来逐步介绍信息熵的公式来源!



信息量

信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?

多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生的地震了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(100%确定发生嘛,没什么信息量)。这很好理解!

因此一个具体事件的信息量应该是随着其发生概率而递减的(即信息熵与概率成反比),且不能为负。

但是这个表示信息量函数的形式怎么找呢?

随着概率增大而减少的函数形式太多了!不要着急,我们还有下面这条性质

如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:

h(x,y) = h(x) + h(y)

由于x,y是俩个不相关的事件,那么满足p(x,y) = p(x)*p(y).

根据上面推导,我们很容易看出h(x)一定与p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式,可以试试)。因此我们有信息量公式如下:

[公式]

下面解决俩个疑问?

(1)为什么有一个负号

其中,负号是为了确保信息一定是正数或者是0,总不能为负数吧!

(2)为什么底数为2

这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底!

信息熵

下面我们正式引出信息熵。

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即

[公式]

转换一下为:

最终我们的公式来源推导完成了。

这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。

如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。



添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.9499 4 7 关注作者 收藏

评论(6)

Still..
2021-12-22

我发不了言呀

0.0000 0 0 回复
Still..
2021-12-22

hi?有看到我说话吗?

0.0000 0 0 回复
Still..
2021-12-22

信息熵??

0.0000 0 0 回复
DA弯道超车
2021-12-22

不明觉厉

0.0000 0 0 回复
人脉引爆点
2021-12-22

有没有其他资料内容分享

0.0000 0 0 回复
CDA持证人阿涛哥
2021-12-22

有呀, 欢迎在CDA社区提问和发帖, 可以获得PGC币兑换通用积分,然后用积分去经管之家积分商城兑换礼品哦

0.0000 0 0 回复
人脉引爆点
2021-12-22

谢谢老师

0.0000 0 0 回复

推荐课程