信息熵与方差-联系与区别-CDA数据分析师官网

信息熵与方差-联系与区别

2016-04-05

熵的概念很早就在物理学中出现，热力学中的熵用于衡量物质状态的混乱程度。霍金在《时间简历》中也对熵有着有趣的表述：一个常有人打扫清洁的屋子，熵值低，一个不打扫的屋子，熵值就高，自然界的物质都倾向于向熵值高的方向运动…显然熵就是混乱程度的指标。
信息熵来源于香农的信息论，其含义与物理学的熵是近似的，也就是衡量信息的混乱程度，也是度量信息含量多少的重要指标。例如，北京动物园里有马、牛、蛇、羊四种动物，而上海动物园则只有马和牛两种动物，此时显然北京动物园动物品种更多，信息熵大，信息含量就比上海动物园大。下面是信息熵的计算公式：

方差来源于统计学家对于数据分布的研究，发现方差能够衡量一个随机变量的离散程度与信息量的多少。例如，北京人民身高的方差比全国人民小，说明同样是身高，全国人民比北京人民差异性更大，离散程度更高，当然信息量也就比北京人民大。下面是方差的计算公式：

这里，两个概念在信息量多少的表达上有着重叠的地方，而且在机器学习、数据挖掘的一些算法中，两者都有很多的运用。例如决策树算法使用信息熵之差信息增益来衡量自变量对于因变量的重要程度，文本挖掘中信息熵用来衡量单词是否具有代表性，主成份分析中协方差矩阵的特征根表达了信息量的大小，回归分析中(协)方差作为衡量变量间信息重叠的重要指标…貌似都是在说信息量…
那么两者到底是一回事还是有很大区别呢？这里，讲理论没有太好的效果，必须要动手算算才能理解两者的区别与联系。
这里在python中产生了三组服从正态分布的随机变量，样本含量都为10000，其标准差依次为15，20，25，30，35均值都为100，此时再计算这三组随机变量的信息熵，结果是此时信息熵和方差大小无关，这里说明了方差与信息熵在表达信息量大小时不能混用，有意思的是，在固定方差的情况下，信息熵却与样本含量有关,这里分样本量分别为2500，5000，7500，10000，12500：

究其原因，信息熵强调随机变量中元素类别的不一致性，而方差强调随机变量中元素取值的不一致性。在以上示例中，计算机随机生成的随机变量是一个连续变量，取值各不相同，在样本量一定的情况下，无论随机如何变化，方差如何变化，其类别均是一定的，每一个元素出现的概率都是一定的，即1/样本量，所以信息熵此时永远不变，但是样本量变化时(取值也各不一样)，类别也跟着变化，元素出现的概率跟着变化（1/样本量会变化），最终导致信息熵变化。
既然信息熵强调随机变量的类别，那么在分类型的随机变量中与方差有什么区别与连续呢？下面在python中生成了五组随机变量x1-x5，变量类型为二元型，具体取值见下图：

从X1到X5分别计算它们的信息熵和方差，结果如下:
信息熵与方差：

将信息熵与方差综合绘制到一张散点图上：

此时信息熵与方差呈现正向高度相关，此时，信息熵与方差在衡量随机变量信息量大小时，可以起到相同的作用。这时因为此时随机变量中，各个元素的取值与类别是一致的，取值大小和类别多少在这里是高度统一的，所以两者都可适用。
但是，需要特别注意的是，在很多二元乃至更多分类的随机变量中，类别本身拥有现实意义，但是类别的取值大小并没有现实意义。比如人口统计学指标中的性别，男和女抽象为0和1，仅仅是一种指代的符号，数值本身没有意义，类似的还有民族、居住地等，商业数据中，也有很多的例子，比如贷款类型、市场大区等。所以此时方差虽然可以计算，但无意义，衡量信息量大小只能用信息熵。
那么，有没有这么一种情况，随机变量本身既强调类别的含义，同时也强调类别本身取值的大小呢？当然有，最典型的例子就是对连续变量离散化(分箱)，在很多数据分析的情景中，需要对连续变量离散化以满足后续要求，比如年龄，在进行医学统计(药品疗效检验、病因分析)、商业统计(用户画像、客户细分)的研究中，一般会将年龄离散化为几个大类，比如18-24岁(0)，24-30岁(1)，30-40岁(2)，40-50岁(3)，50岁以上(4)等等，此时，不同的年龄聚集到相应的大类中，而年龄类别的取值越高，代表年龄越大。此时，方差便有了实际含义。

综上所述，信息熵与方差有着很大的区别，但是又有着一定的联系。在使用这两个概念时，需要对数据本身和两者区别有着深入的了解，否则会出现错误。

致敬知乎上的大神们的理解：http://www.zhihu.com/question/36481348，这篇文章是在他们的启发下创作。

python 散点图用户画像特征正态分布文本挖掘客户细分决策树

数据分析咨询请扫描二维码

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

信息熵与方差-联系与区别

考试指南

报考指南

热门栏目