熵与信息——信息熵

物理
熵与信息——信息熵

用户头像
Nature 更新于2023-3-19 15:33:26

我们知道,当今社会是信息社会,所谓信息就是描述事物的状态、存在方式和相互联系等的一组数字、文字、符号、语言、图像及情态等,即消除事物的不确定性的因素。信息与概率(即不确定性)紧密相关,若一件概率为p的事件发生了,那么这件事产生的信息为

$I=-\lg p$

即概率的负对数。信息的单位是位(bit),1个0或1就是一个二进制位。其中,lg是信息学中的常用对数,即以2为底的对数。比如我们抛硬币,结果可能是正面或反面,即0或1。每一个结果都有1/2的概率。这里我们可以看出,抛硬币这个行为会产生1bit的信息。显然地,概率越小的事情发生了,那么产生的信息量就越多。

很显然,我们可以将这些因素与热力学系统的微观态相类比。并将事物与热力学系统的宏观态相类比。设确定一事物的因素有Ω个,第i个因素出现的概率为$p_i$。信息论的创始人香农(C. E. Shannon)与1948年将热力学系统的熵概念推广,定义信息熵为

$S=-\sum\limits_{i=1}^\Omega p_i\lg p_i$

其单位为bit。显然,决定事物的因素越多,各个因素的概率越接近,信息熵越大。所以信息熵是无知或信息缺乏程度的度量。而一个因素的概率为1,其他因素概率都为0的状态,就完全确定,信息熵为0。

而信息可以造成信息熵的减少。$I\geq -\Delta S$,毕竟有一部分信息是对熵减没有贡献的,这部分信息称为无用信息。而导致熵减的那部分则称为有效信息。

早在香农明确提出信息熵的概念之前20年,类似的思想就被提了出来,并解决了麦克斯韦提出的关于热力学第二定律的一个诘难。1871年,麦克斯韦提出,存在小精灵可以不做功而区分出分子运动速度的大小。从而使温度均匀的系统变为温度不均匀的系统(这一小精灵常被称为麦克斯韦妖,Maxwell's demon),这一过程使得系统的熵减小。1929年,西拉德(L. Szilard, Z. Phys. 53 (1929), 840)指出,整个系统的熵不仅包含组成系统的无规则运动的分子的熵,还包括小精灵在区分分子速率时输入的标定信息的熵,因此系统的熵不会减少,从而解决了麦克斯韦妖的诘难。

关于有用和无用信息,这里有一个例子:猜数游戏。我在纸上写一个1~5之间的整数,你要来猜这个数是多少。那么现在你什么都不知道,概率的分布为$\{1/5,1/5,1/5,1/5,1/5\}$. 按照定义,信息熵为$S_i=\lg 5\approx 2.32\text{bit}$。你可以来问我问题,我只能回答『是』或『不是』,并且我的回答有1/2概率是错误的。现询问:答案小于4吗?回答:是。那么,一半的概率分别在小于4和不小于4的数均分。概率分布变为:$\{1/6,1/6,1/6,1/4,1/4\}$。此时的信息熵应当是$S_f=\cfrac{\lg 4+\lg 6}{2}\approx 2.29\text{bit}$。

其一,熵只减小了0.03bit。然而,回答『是』的概率是1/2,故这个回答其实给出了1bit的信息。1bit的信息只让熵减少了0.03bit!有大部分信息都是无用的,只有小部分信息有用。『关键』其实不在于信息的大小,在于信息的意义

其二,细思即恐:虽然只有0.03bit,但熵居然减小了??若回答『不是』,概率分布还是上面那个结果。回答根本没有用吗?『根据答案得到的信息』和『随便给出的信息』有何区别?1/2的概率回答错误,那这和直接抛硬币决定答案有什么区别?所以熵为什么会减少?这个问题我始终没有明白,求各位发表自己对于此问题的理解。希望这个问题可以得到解决。

简单理解熵
简单理解熵
收起
16
7
共1条回复
时间正序
用户头像
11月前

你前面都写的很好,但是在最后,回答完“是”之后,那里概率重排有点问题。因为对于你设定的情形,我能够回答“是”的情况有五种:(1,答对)(2,答对)(3,答对)(4,答错)(5,答错),这五种情况出现的概率都是一样的,所以在我回答了“是”之后,可能的结果分布依然是1-5,每个数字等可能。正如你所说,(一个正确度一半一半的回答和不回答有何区别)这从结果上看也是合理的。

3条评论
用户头像
Nature
11月前

为什么等可能呢?正确和错误的概率都是一半啊。

用户头像
回复 Nature
11月前

这个你要用条件概率去理解,现在需要计算的是在我给出的答案为“是”的情况下,实际的信号为 1 的概率,为 2 的概率……这样算的话应该就是1/5了

用户头像
回复 Nature
11月前

说白了就是你这个回答“是”或者“否”的这个操作其实是没有改变信息量的