1.1 信息的概念及其测度

在当今“信息社会”中,人们在各种生产、科学研究和社会活动中,无处不涉及信息的交换和利用。迅速获取信息、正确处理信息、充分利用信息、可以促进科学技术和国民经济的飞跃发展。可见,信息的重要性是不言而喻的。

那么,什么是信息呢?

1.1.1 信息的概念

“信息”一词在英文、法文、德文、西班牙文中均是“Information”,日文中为“情报”,我国台湾称之为“资讯”,我国古代用的是“音信”。作为科学术语,“信息”这一概念最早出现在哈特莱(R.V.L. Hartley)于1928年撰写的《信息传输》一文中,他认为,发信者所发出的信息,就是他在通信符号表中选择符号的具体方式,并主张用所选择的自由度来度量信息。此后,许多研究者从各自的研究领域出发,给出了不同的定义,具有代表意义的表述如下:

信息论的奠基人香农(C.E.Shannon)在1948年发表的一篇著名论文《通信的数学理论》中,从研究通信系统传输的实质出发,给出了信息的科学定义,并进行了定性和定量的描述。他认为“信息是事物运动状态或存在方式的不确定性的描述”,这一定义被人们看作经典定义并加以引用。

控制论创始人维纳(Norbert Wiener)认为“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”,它也被作为经典定义加以引用。

美国信息管理专家霍顿(F.W.Horton)给信息下的定义是:“信息是为了满足用户决策的需要而经过加工处理的数据。”简单地说,信息是经过加工的数据,或者说,信息是数据处理的结果。

经济管理学家认为“信息是提供决策的有效数据”。

电子学家、计算机科学家认为“信息是电子线路中传输的信号”。

我国著名的信息学专家钟义信教授认为“信息是事物存在方式或运动状态,以这种方式或状态直接或间接的表述”。

根据对信息的研究成果,科学的信息概念可以概括如下:

信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。”摘自百度百科

信息一般具有如下一些特征:

(1)可识别。

(2)可转换。

(3)可传递。

(4)可加工处理。

(5)可多次利用(无损耗性)。

(6)在流通中扩充。

(7)主客体二重性。信息是物质相互作用的一种属性,涉及主客体双方;信息表征信源客体存在方式和运动状态的特性,所以它具有客体性、绝对性;但接收者所获得的信息量和价值的大小,与信宿主体的背景有关表现了信息的主体性和相对性。

(8)信息的能动性。信息的产生、存在和流通,依赖于物质和能量,没有物质和能量就没有能动作用。信息可以控制和支配物质与能量的流动。

(9)可共享性。这是信息与物质和能量的主要区别。

信息是信息论中最基本、最重要的概念,它是一个既抽象又复杂的概念。信息既是通信系统传输和处理的对象,又泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通信和控制系统中,信息是一种普遍联系的形式。

1.1.2 信息的测度

根据香农有关信息的定义,信息如何测度呢?当人们收到一封电报,或听了广播,或看了电视,到底得到多少信息量呢?显然,信息量与不确定性消除的程度有关。消除多少不确定性,就获得多少信息量。那么,不确定性的大小能度量吗?

用数学的语言来讲,不确定性就是随机性,具有不确定性的事件就是随机事件。因此,可运用研究随机事件的数学工具——概率论和随机过程来测度不确定性的大小。直观来讲,不确定性的大小可以直观地看作事先猜测某随机事件是否发生的难易程度。

举个例子,我们知道气象的状态有许多种。但是1月份广州的天气,经常出现的是“晴”、“晴间多云”或“多云”,其次是“多云转阴”、“阴”或“阴有小雨”等,而“小雪”这种天气状态出现的概率极小,“大雪”的可能性几乎为零。因此,在听天气预报前,我们大体上能猜测出天气的状况。由于出现“晴”、“晴间多云”或“多云”的可能性大,我们就比较能确定这些天气状况的出现。所以,当预报明天白天“晴”或“晴间多云”,我们并不觉得稀奇,因为和我们猜测的基本一致,所消除的不确定性要小,获得的信息量就不大。而出现“小雪”的概率很小,我们很难猜测它是否会出现,所以该事件的不确定性很大;如果预报是“阴有小雪”,我们就会大吃一惊,感到气候反常,这时就获得了很大的信息量。出现“大雪”的概率更小,它的不确定性更大;如果出现“大雪”的气象预报,我们会万分惊讶,这时将获得更大的信息量。由此可知,某一事物状态出现的概率越小,其不确定性越大;反之,某一事物状态出现的概率接近于1,即预料中肯定会出现的事件,那它的不确定性就接近于零。

上面的例子告诉我们:某一事物状态的不确定性的大小,与该事物可能出现的不同状态数目以及各状态出现的概率大小有关。既然不确定性的大小能够度量,可见,信息是可以测度的。

1.自信息

“自信息”一词由香农提出,用来衡量单一事件发生时所包含的信息量多寡。

由于种种原因(例如噪声太大),收信者接收到受干扰的消息后,对某消息发生的不确定性依然存在或者一点也未消除时,则收信者获得较少的信息量或者说一点也没获得信息。因此,获得信息量的大小,是与不确定性消除的多少有关。我们直观地把信息量定义为:

收到某消息获得的信息量=不确定性减少的量

=(收到此消息前关于某事件发生的不确定性)-

(收到此消息后关于某事件发生的不确定性)

在无噪声传输信道中,可以完全不失真地收到所发的信息,所以收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得

收到某消息获得的信息量=收到消息前关于某事件发生的不确定性

=信源输出的某消息中所含有的信息量

我们已经知道,事件发生的概率越小,我们猜测它有没有发生的困难程度就越大,不确定性也就越大;而事件发生的概率越大,我们猜测这事件发生的可能性就越大,不确定性也就越小。对于发生概率等于1的必然事件,就不存在不确定性。因此,某事件发生所含有的信息量应该是该事件发生的先验概率的倒数的某一函数。

根据概率函数的性质条件,我们可以从数学上证明这种函数形式是对数形式,因此,事件发生所含有的信息量Iai)为:

代表两种含义:当事件ai发生以前,表示事件ai发生的不确定性,称为该事件ai自信息;当事件ai发生以后,表示事件ai所含有(或所提供)的信息量。在无噪声信道中,事件ai发生后,能正确无误地传输到收信者,所以Iai)可代表接收到消息ai后所获得的信息量。

自信息采用的单位取决于对数所选取的底。由于Pai)是小于1的正数,又根据实际情况知道自信息Iai)也必然是正数,所以对数的底应选取大于1的任意数。如果取以2为底,则所得的信息量单位称为比特(Bit, Binary Unit的缩写);如果采用以e为底的自然对数,则所得的信息量单位称为奈特(Nat, Na-ture Unit的缩写);若采取以10为底的对数,则所得的信息量单位称为哈特(Hart, Hartley的缩写)以纪念哈特莱首先提出用对数来度量信息。

一般情况,如果取以r为底的对数(r>1),则

通常都采用以2为底的对数,且为了书写简洁,把底数“2”略去不写。我们可以看到,如果Pai)= 1/2,则Iai)= 1比特。所以1比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。注意,这里的比特是抽象的信息量单位。与计算机术语中的“比特”的含义有所不同,它是代表二进制数字(Binary Digits)。这两种定义之间的关系是每个二进制数字所能提供的最大平均信息量为1比特。

】某离散信源离散是分散的意思,离散信源只能产生有限种符号,因此离散消息可以看作一种有限个状态的随机序列,如天气预报。由0,1,2,3四种符号组成,其概率场为

假定信源输出的每一个符号都是独立的,当信源输出的符号序列 S 为“113200”时,求其输出的信息量的大小。

解:根据式(1.1),信源输出的序列S的信息量为

上式中第二个等号成立是因为符号的出现具有独立性。

2.信息熵

自信息是指某一信源发出某一消息所含有的信息量,所发出的消息不同,它们所含有的信息量也就不同。所以自信息Iai)是一个随机变量,不能用它作为整个信源的信息测度。

我们定义自信息的数学期望(加权平均值)为信源的平均自信息量,

这个平均自信息量的表达式与统计物理学中热熵的表达式很相似。在统计物理学中,热熵是一个物理系统杂乱性(无序性)的度量,在概念上两者也有相似之处。因而借用“熵”这个词把HrX)称为信息熵。信息熵的单位由自信息的单位来决定,即取决于对数选取的底。一般选用以2为底时,信息熵写成HX)形式,其中变量X是指某随机变量的整体。

信息论利用统计热力学中熵的概念,建立了对信息的量度方法。在统计热力学中,熵是系统的无序状态的量度,即系统的不确定性的量度。一个系统越是有序,熵就越低;反之,一个系统越是混乱,熵就越高。所以,熵是系统有序化程度的一个度量。

信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体信息测度的。对于某特定的信源,其信息熵是一个确定的数值。不同的信源因统计特性不同,其熵也不同。信息熵具有以下三种物理含义:

第一,信息熵HX)是表示信源输出后,每个消息(或符号)所提供的平均信息量。

第二,信息熵HX)是表示信源输出前,信源的平均不确定性。例如有两个信源,其概率空间分别为

则信息熵分别为

HX)=-0.99log0.99-0.01log0.01 =0.08(比特/符号)

HY)=-0.5 log0.5-0.5 log0.5 = 1(比特/符号)

可见HY)>HX),信源Y比信源X的平均不确定性要大。

第三,用信息熵HX)来表征变量X的随机性。如上例中,变量Y中的两个事件是等概率的,所以其随机性大,而变量X中一个事件比另一个事件发生的概率大很多,这时变量X的随机性小。因此,信息熵HX)正是描述随机变量X所需的比特数。

应该注意的是:信息熵是信源的平均不确定性的描述。一般情况下,它并不等于平均获得的信息量。只有在无噪声情况下,接收者才能正确无误地接收到信源所发出的消息,全部消除了 HX)大小的平均不确定性,所以获得的平均信息量就等于HX)。

】离散信源与例1.1相同,(1)计算该离散信源的熵;(2)利用信源的熵估计序列S的信息量。

解:对于问题(1),根据式(1.3),该信源的熵

该离散信源只有四种状态(0,1,2,3)。利用信源的熵,可以很方便地估算发出的符号序列的信息总量。对于问题(2),信源的熵为1.906比特/符号,S序列共有6个符号,则S序列的总信息量为

该计算结果与例1.1中的结果相差无几误差的产生是因为信源只发出了6个符号,此时每个符号出现的频次与信源的概率场不符;当信源发出的符号越多,每个符号出现的频次越接近信源的概率场,这种估算就越精确。

1.1.3 信息论研究的对象和内容

1.信息论发展简史

信息论的创始人是美国贝尔电话研究所的数学家香农(C.E.Shannon),他为解决通信技术中的信息编码问题,把发射信息和接收信息作为一个整体的通信过程来研究,提出通信系统的一般模型;同时建立了信息量的统计公式,奠定了信息论的理论基础。1948年香农发表的《通讯的数学理论》一文,成为信息论诞生的标志。

香农创立信息论是在前人研究的基础上完成的。1922年卡逊(J.R.Carson)提出边带理论,指明信号在调制(编码)与传送过程中与频谱宽度的关系。

1928年哈特莱(R. V. Hartley)发表《信息传输》的文章,首先提出消息是代码、符号而不是信息内容本身,使信息与消息区分开来,并提出用消息可能数目的对数来度量消息中所含有的信息量,为信息论的创立提供了思路。

图1-1 C.E.Shannon

美国统计学家费希尔(R. A. Fisher)从古典统计理论角度研究了信息理论,苏联数学家柯尔莫戈洛夫(A.N.Kolmogorov)也对信息论做过研究。控制论创始人维纳(N.Wiener)建立了维纳滤波理论和信号预测理论,也提出了信息量的统计数学公式,甚至有人认为维纳也是信息论创始人之一。

在信息论的发展中,还有许多科学家对它作出了卓越的贡献。法国物理学家布里渊(L.Brillouin)在1956年发表《科学与信息论》专著,从热力学和生命等许多方面探讨信息论,把热力学熵与信息熵直接联系起来,使热力学中争论了一个世纪之久的“麦克斯韦尔妖”的假设问题得到了满意的解释。英国神经生理学家W.B.Ashby于1964年发表的《系统与信息》等文章,还把信息论推广应用到生物学和神经生理学领域,也成为信息论的重要著作。这些科学家们的研究,以及后来从经济、管理和社会的各个部门对信息论的研究,使信息论远远地超越了通信的范围。

在技术信息论之后,信息研究又踏上了一个新的理论台阶,出现了语义信息论。语义信息论主要研究信息交流中被传输的符号怎样准确地传输欲表达的意义。1964年,卡尔纳普提出了信息所包含的意义问题,认为任何载体所发出的信息必须有一定的意义,如果用语言表述则指信息的含义,即语言的含义。1974年,哥宪格尔提出无概率(主观)信息的问题,认为人类通过语言表述的主观信息(语义)比起那些适合用通信技术传输的客观方面的信息要复杂得多,也是香农理论无法解决的。

2.信息论研究的对象

上节关于信息概念的讨论中,我们已经看到:各种通信系统,如电报、电话、电视、广播、遥测、遥控、雷达和导航等,虽然它们的形式和用途各不相同,但本质是相同的,都是信息的传输系统。为了便于研究信息传输和处理的共同规律,我们将各种通信系统中具有共同特性的部分抽取出来,概括成统一的理论模型,如图1-2所示,通常称它为通信系统模型。

图1-2 通信系统模型

信息论的研究对象正是这种统一的通信系统模型。人们通过系统中消息的传输和处理来研究信息传输和处理的共同规律。这个模型主要分成信源、编码、信道、译码和信宿五个部分。该模型将传播视为一种连续性的过程:“消息源(信源)”首先选择某个“消息”,然后加以编码(信源编码),再经过信道编码,以“信号”的形式“传送”,通过“传播渠道(信道)”到达“接收者”,由他将信号经信道译码、信源译码转化为信息,到达目的地(信宿)。设计这种模式是为了说明传送的信息和接收的信息之间的差异,这些差异主要来自于渠道中的“噪声或干扰”。

近年来,互联网的发展对信息传输的质量要求更高。不但要求快速、有效、可靠地传递信息,而且还要求信息传递过程中保证信息的安全保密,不被伪造和篡改。因此,在编码器这一环节中还需要加入加密编码;相应地,在译码器中加入解密译码。

3.信息论研究的内容

信息论是一门用数理统计方法来研究信息的度量、传递和变换规律的科学。它主要是研究通信和控制系统中普遍存在着的信息传递的共同规律以及研究最佳解决信息的获取、度量、变换、储存和传递等问题的基础理论。

目前,对信息论研究的内容一般有以下三种理解:

(1)狭义信息论,也称经典信息论,又称香农基本理论,是一门应用数理统计方法来研究信息处理和信息传递的科学。它的研究存在于通信和控制系统中普遍存在着的信息传递的共同规律,以及如何提高各信息传输系统的有效性和可靠性。

(2)一般信息论,主要是研究通信问题,除此之外还包括噪声理论、信号滤波与预测、调制与信息处理以及保密理论等问题的研究。这一部分内容以美国科学家维纳(N.Wiener)为代表。

(3)广义信息论不仅包括狭义信息论和一般信息论的问题,而且还包括所有与信息有关的领域,如心理学、语言学、神经心理学、语义学,甚至包括社会学等。它就是新兴的信息科学理论。

4.信息论对传播学发展的贡献

回顾大众传播几十年的发展历程,我们可以看到传播学研究基本上从三个方面在努力建立自己的学科理论体系,即信息和传播的本体研究,传播与接受效果中受众的心理研究,媒介与社会、文化发展之间关系的研究。用麦奎尔的区分方式便是“结构的”、“行为的”和“文化的”这三种不同的传统和途径。

香农的信息工程传播或技术传播理论,以其纯粹的数学方式理解和诠释了信息发生、传播中的一些基本方式和原理。其中以信息熵、噪音、冗余、反馈等概念为核心,通过数学公式描述了信息传播中的一些基本规律,确定了许多主要概念和基本观点,为传播领域提供了基本的范式,指明了新的研究方向和课题。20世纪60年代以来美国和西欧的学者已经开始吸收信息科学,运用信息论方法来研究传播系统、传播过程和传播行为,并不断探讨传播学基础理论的构建,以期望对传播实践做出明确而有力的指导。从香农时代开始,信息科学就已经成为传播学赖以发端作为量化研究的基础。

为什么人咬狗是新闻,而狗咬人不是新闻?这是传播学和新闻学上一个古老的命题,但人们不知其所以然。香农的公式解释了这一点,因为前者的概率更低一些,不确定性更高,信息量更大。信息公式成了人们对于传播内容价值判定的一个有效的参考手段。

数学、生物学、心理学、经济学、社会学等当今诸多的学科转向了不确定性的研究,都在关注着混沌的概念,这些学科现今所关注的不再是建立一种确定性的变量关系,而是建立一种概率性的变量之间的联系,为当代的传播学找到可供借鉴的新的思维方式。当代物理学科对于自组织理论和耗散结构的研究正在打开通往熵的本质探索的大门,它意味着概率式的研究将成为研究的主导方向。而传播学在某种意义上来说,正是在社会科学研究中与信息研究最接近的学科。

延伸阅读

香农三大定理

香农三大定理是信息论的基础理论。香农三大定理是存在性定理,虽然并没有提供具体的编码实现方法,但为通信信息的研究指明了方向。香农第一定理是可变长无失真信源编码定理;香农第二定理是有噪信道编码定理;香农第三定理是保失真度准则下的有失真信源编码定理。具体如下:

(1)香农第一定理(可变长无失真信源编码定理)

设离散无记忆信源X包含N个符号 {X1, X2, …, Xi, …, XN},信源发出K重符号序列,则此信源可发出NK个不同的符号序列消息,其中第j个符号序列消息的出现概率为PKj,其信源编码后所得的二进制代码组长度为Bj,代码组的平均长度B

K趋于无限大时,BHX)之间的关系为B/K=HX)(K趋近无穷)

香农第一定理又称为无失真信源编码定理或变长码信源编码定理。

香农第一定理的意义:将原始信源符号转化为新的码符号,使码符号尽量服从等概分布,从而每个码符号所携带的信息量达到最大,进而可以用尽量少的码符号传输信源信息。

(2)香农第二定理(有噪信道编码定理)

有噪信道编码定理告诉我们:当信道的信息传输率不超过信道容量时,采用合适的信道编码方法可以实现任意高的传输可靠性,但若信息传输率超过了信道容量,就不可能实现可靠的传输。

设某信道有r个输入符号,s个输出符号,信道容量为C,当信道的信息传输率RC,码长N足够长时,总可以在输入的集合中(含有rN个长度为N的码符号序列),找到MM≤2N(C-a), a为任意小的正数)个码字,分别代表M个等可能性的消息,组成一个码以及相应的译码规则,使信道输出端的最小平均错误译码概率Pmin达到任意小。

公式:

注:B为信道带宽;S/N为信噪比,通常用分贝(dB)表示。

(3)香农第三定理(保失真度准则下的有失真信源编码定理)

保真度准则下的信源编码定理,或称有损信源编码定理。只要码长足够长,总可以找到一种信源编码,使编码后的信息传输率略大于率失真函数,而码的平均失真度不大于给定的允许失真度,即D′D

RD)为一离散无记忆信源的信息率失真函数,并且选定有限的失真函数,对于任意允许平均失真度D≥0,和任意小的a>0,以及任意足够长的码长N,则一定存在一种信源编码W,其码字个数为M≤ eN[R(D)+a],而编码后码的平均失真度D′W)≤D+a