第一节信息、信息熵、信息量
信息(information)是很抽象的概念。信息是事物及其属性标识的集合。信息能够帮你逐渐解开头脑中的疑团,消除你对某个事物认识上的不确定性,并由不确定性逐渐变成较为确定或确定。获得的信息越多,你对事物的了解就越全面,越准确。
信息源是信息的源泉或产生待传送的信息的实体,是提供信息的载体,它无处不在。信息源所涉及的范围十分广泛,不仅包括所有的知识,还包括通过我们五官感觉到的一切。任何事物都可以作为信息源。信息接收者(信宿)是信息的归宿。信息通道负责将信息源信息传送给信息接收者。
一、信息熵与互信息
信息是一个相对的概念,它自身不能单独存在,必须依附于一定的载体,而且还要和信息接收者及它所要达到的目的相联系,这样才可成为信息。信息论创始人香农()于1948年从信息接收者的角度定义:“信息是能够协助信息接收者消除事件不确定性的因素。”因此,信息的价值和大小首先应该是与信息源本身的特性有关的,同时还与具体的认识目的相联系,它应该能够为认识某个特定事物提供线索,另外,信息的传播途径应该也会影响它的最终价值。
那么,如何来衡量信息的价值大小呢?人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。从信息源的角度来说,依照信息论的认识,在日常生活中,极少发生的事件一旦发生是很容易引起人们关注的,如发生海啸,而司空见惯的事件并不会引起人们的注意,如太阳又从东方升起。也就是说,极少发生的事件所带来的信息价值越大。如果用统计学的术语来描述,就是发生概率小的事件信息量多。因此,事件发生的概率越小,信息量越大,即信息量的多少是与事件发生频率(即概率大小)成反比的。
1948年,香农提出了“信息熵”(informatioropy)的概念,是信息论中衡量某个事件自身信息大小的重要指标,也称香农熵。对于有n种可能取值的离散型随机变量X,香农熵的定义为:
P(xi)是变量X取值为xi的概率,b的取值可以是2、10或其他值。
信息量与信息熵在概念上是有区别的。信息熵是描述信息源本身统计特性的测量,它表示信息源的不确定度,不管有无接收者,它总是客观存在的量。信息接收者从作为发送者的信息源中获得的信息量是一个相对的量。信息量是指从多个可能事件中选出一个事件所需要的信息度量或含量。在信息论中,认为信息源输出的消息是随机的,即在信息接收者未收到消息之前,不能肯定信息源到底发送什么样的消息。而通信的目的就是使信息接收者在接收到消息后,尽可能多地解除接收者对信息源所存在的疑义(不确定度),这个被解除的不确定度实际上就是在通信中所要传送的信息量。因此,接收到的信息量在无干扰时,在数值上就等于信息源的信息熵。信息熵是状态量,其存在是绝对的;信息量是熵增,是过程量,是与信息传播行为有关的量,往往是针对接收者而言的,所谓接收者获得了信息,是指接收者收到消息后解除了对信息源的平均不确定度,它具有相对性。
对于信息熵和信息量的说明须引入互信息(mutualinformation,MI)的概念。在概率论和信息论中,互信息是用于描述两个随机变量之间相互依存关系的测量。具体来说,就是一个随机变量可以通过另一个随机变量获取的信息大小。对于离散型随机变量和,互信息的定义如下:
其中,P(x,y)是随机变量X和Y的联合概率函数,P(x)和P(y)分别是随机变量X和Y的边际概率分布函数。对于连续型随机变量,累加形式替换为积分形式,定义如下:
因此,互信息反映了随机变量X和Y共享信息的程度。也就是已知一个变量的条件下,能够消除关于另一个变量的不确定度的大小。如果变量X和Y相互独立,那么,X对于了解Y不会提供任何信息,反之亦然,这时两个变量之间的互信息为0。而当变量X是变量Y的确定性函数或变量Y是变量X的确定性函数时,那么两个变量之间共享所有信息,通过X就能够完全了解Y。其实在这种情形下,变量X和Y的互信息就等于各自的信息熵。
根据以上描述,互信息还可以描述如下(具体推导过程请参看相关文献资料):
式子中,H(X|Y)和H(Y|X)称为条件熵,它表示已知Y(或X)以后,对X(或Y)仍存在的不确定度;与互信息相对应,有时候也称信息熵H(X)或H(Y)为自信息(self-information)或边际熵;H(X,Y)称为联合熵(joiropy),定义如下:
互信息具有以下三个基本性质。
①非负性:I(X;Y)≥0,即H(X)>H(X|Y),仅当变量Y与变量X统计独立时,互信息才为0。
②互信息不大于信息源的熵:I(X;Y)≤H(X),即接收者从信息源中所获得的信息必不大于信息源本身的熵。
③对称性:I(X;Y)=I(Y;X),即Y隐含X和X隐含Y的互信息是相等的。
描述信息贡献关系及其大小的方式还有很多种。除了上面介绍的信息熵、互信息以及本书前面介绍的AIC统计量、BIC统计量和DIC统计量外,下面再介绍几种在心理测量学理论中比较常见的一些有关衡量信息量的概念。
二、自信息
上面已经提到自信息(self-information)的概念,然而,与自信息的规范的定义有些差异。自信息反映了对某个随机变量进行抽样时的惊异度(surprise)。如果信息接收者预先完全掌握了接收的信息,那么,当你再次传递该信息时,对信息接收者来说就没有任何信息价值了。只有当信息接收者对即将接收的信息不完全了解时,该信息才有价值,才会产生惊异。自信息用来衡量某变量中单一事件发生时所包含的信息量的多少。
对于某变量X,事件xi∈X,其发生概率为P(xi),那么该事件的自信息定义为:
由此可知,事件xi发生的概率越小,那么,当该事件真实发生时,其传递的自信息量就越大。因此,自信息有时可叫惊异(surprisal)。
对于离散型随机变量,某个事件的自信息的期望(expectedvalue)就是信息熵,它反映了对一个随机变量进行抽样时产生的平均惊异(不确定度)。有时候,信息熵本身也会叫自信息,这可能是因为信息熵满足以下条件:H(X)=I(X;X),I(X;X)代表了变量X自身的互信息。
三、KL散度
KL散度(Kullback-Leiblerdivergeiveentropy,S。Kullback&R。Leibler,1951)是用于描述两个概率分布差异的一种方法,它描述了某概率分布拟合理论真实概率分布的程度。概率分布Q拟合理论真实概率分布P的KL散度一般表示为DKL(P‖Q)。从贝叶斯推理理论来说,DKL(P‖Q)可以表示用后验概率分布P代替先验概率分布Q所获得的增量信息,也就是当用Q来估计P时可能带来的信息损失量,在这里,P代表了真实的数据观察,而Q代表了一个理论估计或P的近似估计。在信息论中,DKL(P‖Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗。
对于两个离散变量概率分布Q和P,KL散度定义为:
对于两个连续变量概率分布Q和P,KL散度定义为: