版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-信息量

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

信息量是指信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設(shè)想,他將消息數(shù)的對(duì)數(shù)定義為信息量。若信源有m種消息,且每個(gè)消息是以相等可能產(chǎn)生的,則該信源的信息量可表示為I=logm。但對(duì)信息量作深入而系統(tǒng)研究,還是從1948年C.E.仙農(nóng)的奠基性工作開(kāi)始的。在信息論中,認(rèn)為信源輸出的消息是隨機(jī)的。即在未收到消息之前,是不能肯定信源到底發(fā)送什么樣的消息。而通信的目的也就是要使接收者在接收到消息后,盡可能多的解除接收者對(duì)信源所存在的疑義(不定度),因此這個(gè)被解除的不定度實(shí)際上就是在通信中所要傳送的信息量。

歷史1928年,R.V.L.哈特萊提出了信息定量化的初步設(shè)想,他將符號(hào)取值數(shù)m的對(duì)數(shù)定義為信息量,即I=log2m。對(duì)信息量作深入、系統(tǒng)研究的是信息論創(chuàng)始人C.E.仙農(nóng)。1948年,仙農(nóng)指出信源給出的符號(hào)是隨機(jī)的,信源的信息量應(yīng)是概率的函數(shù),以信源的信息熵表示,即 ,其中Pi表示信源不同種類符號(hào)的概率,i= 1,2,…,n。

例如,若一個(gè)連續(xù)信源被等概率量化為4層,即4 種符號(hào)。這個(gè)信源每個(gè)符號(hào)所給出的信息最應(yīng)為 ,與哈特萊公式I=log2m=log24=2bit一致。實(shí)質(zhì)上哈特萊公式是等概率時(shí)仙農(nóng)公式的特例。

基本內(nèi)容 實(shí)際信源多為有記憶序列信源,只有在掌握全部序列的概率特性后,才能計(jì)算出該信源中平均一個(gè)符號(hào)的熵HL(U)(L為符號(hào)數(shù)這通常是困難的。如果序列信源簡(jiǎn)化為簡(jiǎn)單的一階、齊次、遍歷馬氏鏈,則比較簡(jiǎn)單。根據(jù)符號(hào)的條件概率Pji(即前一符號(hào)為i條件下后一符號(hào)為j的概率),可以求出遍歷信源的穩(wěn)定概率Pi,再由Pi和Pji求出HL(U)。即如圖1 。

其中H(U|V)稱為條件熵,即前一符號(hào)V已知時(shí)后一符號(hào)U的不確定度。

信息量與信息熵在概念上是有區(qū)別的。在收到符號(hào)之前是不能肯定信源到底發(fā)送什么符號(hào),通信的目的就是使接收者在收到符號(hào)后,解除對(duì)信源存在的疑義(不確定度),使不確定度變?yōu)榱?。這說(shuō)明接收者從發(fā)送者的信源中獲得的信息量是一個(gè)相對(duì)的量(H(U)-0)。而信息熵是描述信源本身統(tǒng)計(jì)特性的物理量,它表示信源產(chǎn)生符號(hào)的平均不確定度,不管有無(wú)接收者,它總是客觀存在的量。

從信源中一個(gè)符號(hào)V中獲取另一符號(hào)u的信息

量可用互信息表示,即

I(U;V)= H(U)-H(U|V)

表示在收到V以后仍然存在對(duì)信源符號(hào)U的疑義(不確定度)。一般情況下

I(U;V)≤H(U)

即獲得的信息量比信源給出的信息熵要小。

連續(xù)信源可有無(wú)限個(gè)取值,輸出信息量是無(wú)限大,但互信息是兩個(gè)熵值之差,是相對(duì)量。這樣,不論連續(xù)或離散信源,接收者獲取的信息量仍然保持信息的一切特性,且是有限值。

信息量的引入,使通信、信息以及相關(guān)學(xué)科得以建立在定量分析的基礎(chǔ)上,為各有關(guān)理論的確立與發(fā)展提供了保證1。

簡(jiǎn)介所謂信息量是指從N個(gè)相等可能事件中選出一個(gè)事件所需要的信息度量或含量,也就是在辯識(shí)N個(gè)事件中特定的一個(gè)事件的過(guò)程中所需要提問(wèn)"是或否"的最少次數(shù).

香農(nóng)(C. E. Shannon)信息論應(yīng)用概率來(lái)描述不確定性。信息是用不確定性的量度定義的.一個(gè)消息的可能性愈小,其信息愈多;而消息的可能性愈大,則其信息愈少.事件出現(xiàn)的概率小,不確定性越多,信息量就大,反之則少。

信息現(xiàn)代定義。[2006年,醫(yī)學(xué)信息(雜志),鄧宇等].

信息是物質(zhì)、能量、信息及其屬性的標(biāo)示。逆維納信息定義

信息是確定性的增加。逆香農(nóng)信息定義

信息是事物現(xiàn)象及其屬性標(biāo)識(shí)的集合。2002年

在數(shù)學(xué)上,所傳輸?shù)南⑹瞧涑霈F(xiàn)概率的單調(diào)下降函數(shù)。如從64個(gè)數(shù)中選定某一個(gè)數(shù),提問(wèn):“是否大于32?”,則不論回答是與否,都消去了半數(shù)的可能事件,如此下去,只要問(wèn)6次這類問(wèn)題,就可以從64個(gè)數(shù)中選定一個(gè)數(shù)。我們可以用二進(jìn)制的6個(gè)位來(lái)記錄這一過(guò)程,就可以得到這條信息。

信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設(shè)想,他將消息數(shù)的對(duì)數(shù)定義為信息量。若信源有m種消息,且每個(gè)消息是以相等可能產(chǎn)生的,則該信源的信息量可表示為I=logm。但對(duì)信息量作深入而系統(tǒng)研究,還是從1948年C.E.香農(nóng)的奠基性工作開(kāi)始的。

信息的統(tǒng)計(jì)特征描述是早在1948年香農(nóng)把熱力學(xué)中熵的概念與熵增原理引入信息理論的結(jié)果。先行考察熵增原理。熱力學(xué)中的熵增原理是這樣表述的:存在一個(gè)態(tài)函數(shù)-熵,只有不可逆過(guò)程才能使孤立系統(tǒng)的熵增加,而可逆過(guò)程不會(huì)改變孤立系統(tǒng)的熵。從中可以看出:一、熵及熵增是系統(tǒng)行為;二、這個(gè)系統(tǒng)是孤立系統(tǒng);三、熵是統(tǒng)計(jì)性狀態(tài)量,熵增是統(tǒng)計(jì)性過(guò)程量。討論信息的熵表述時(shí),應(yīng)充分注意這些特征的存在。并且知道,給定系統(tǒng)中發(fā)生的信息傳播,是不可逆過(guò)程。

在信息論中,認(rèn)為信源輸出的消息是隨機(jī)的。即在未收到消息之前,是不能肯定信源到底發(fā)送什么樣的消息。而通信的目的也就是要使接收者在接收到消息后,盡可能多的解除接收者對(duì)信源所存在的疑義(不定度),因此這個(gè)被解除的不定度實(shí)際上就是在通信中所要傳送的信息量。因此,接收的信息量在無(wú)干擾時(shí),在數(shù)值上就等于信源的信息熵,式中P(xi)為信源取第i個(gè)符號(hào)的概率。但在概念上,信息熵與信息量是有區(qū)別的。信息熵是描述信源本身統(tǒng)計(jì)特性的一個(gè)物理量。它是信源平均不定度,是信源統(tǒng)計(jì)特性的一個(gè)客觀表征量。不管是否有接收者它總是客觀存在的。信息量則往往是針對(duì)接收者而言的,所謂接收者獲得了信息,是指接收者收到消息后解除了對(duì)信源的平均不定度,它具有相對(duì)性。對(duì)于信息量的說(shuō)明須引入互信息的概念。

在信息論中,互信息的定義是:I(X;Y)=H(X)-H(X|Y),數(shù)式右邊后一項(xiàng)稱為條件熵,對(duì)離散消息可表示,它表示已知Y以后,對(duì)X仍存在的不定度。因此,互信息I(X;Y)是表示當(dāng)收到Y(jié)以后所獲得關(guān)于信源X的信息量。與互信息相對(duì)應(yīng),常稱H(X)為自信息?;バ畔⒕哂腥齻€(gè)基本性質(zhì)。

①非負(fù)性:I(X;Y)≥0,僅當(dāng)收到的消息與發(fā)送的消息統(tǒng)計(jì)獨(dú)立時(shí),互信息才為0。

②互信息不大于信源的熵:I(X;Y)≤H(X),即接收者從信源中所獲得的信息必不大于信源本身的熵。僅當(dāng)信道無(wú)噪聲時(shí),兩者才相等。

③對(duì)稱性:I(X;Y)=I(Y;X),即Y隱含X和X隱含Y 的互信息是相等的。

對(duì)于連續(xù)信源的互信息,它仍表示兩個(gè)熵的差值,所以也可直接從離散情況加以推廣,并保持上述離散情況的一切特性,即 實(shí)際信源是單個(gè)消息信源的組合,所以實(shí)際信源的互信息I(X;Y)也可以直接從上述單個(gè)消息的互信息I(X;Y)加以推廣,即I(X;Y)=H(X)-H(X│Y)。配圖相關(guān)連接

計(jì)算方法信息論創(chuàng)始人C.E.Shannon,1938年首次使用比特(bit)概念:1(bit)= 。它相當(dāng)于對(duì)二個(gè)可能結(jié)局所作的一次選擇量。信息論采用對(duì)隨機(jī)分布概率取對(duì)數(shù)的辦法,解決了不定度的度量問(wèn)題。

m個(gè)對(duì)象集合中的第i個(gè)對(duì)象,按n個(gè)觀控指標(biāo)測(cè)度的狀態(tài)集合的

全信息量TI=

從試驗(yàn)后的結(jié)局得知試驗(yàn)前的不定度的減少,就是申農(nóng)界定的信息量,即

自由信息量FI=-∑pi ,(i=1,2,…,n)。

式中pi是與隨機(jī)變量xi對(duì)應(yīng)的觀控權(quán)重,它趨近映射其實(shí)際狀態(tài)的分布概率。由其內(nèi)在分布構(gòu)成引起的在試驗(yàn)前的不定度的減少,稱為先驗(yàn)信息或謂約束信息量。風(fēng)險(xiǎn)是潛藏在隨機(jī)變量尚未變之前的內(nèi)在結(jié)構(gòu)能(即形成該種結(jié)構(gòu)的諸多作用中還在繼續(xù)起作用的有效能量)中的。可以顯示、映射這種作用的是

約束信息量BI=TI-FI。

研究表明,m個(gè)觀控對(duì)象、按n個(gè)觀控指標(biāo)進(jìn)行規(guī)范化控制的比較收益優(yōu)選序,與其自由信息量FI之優(yōu)選序趨近一致;而且各觀控對(duì)象“愈自由,風(fēng)險(xiǎn)愈小”;約束信息量BI就是映射其風(fēng)險(xiǎn)的本征性測(cè)度,即風(fēng)險(xiǎn)熵。

把信息描述為信息熵,是狀態(tài)量,其存在是絕對(duì)的;信息量是熵增,是過(guò)程量,是與信息傳播行為有關(guān)的量,其存在是相對(duì)的。在考慮到系統(tǒng)性、統(tǒng)計(jì)性的基礎(chǔ)上,認(rèn)為:信息量是因具體信源和具體信宿范圍決定的,描述信息潛在可能流動(dòng)價(jià)值的統(tǒng)計(jì)量。本說(shuō)法符合熵增原理所要求的條件:

一、“具體信源和信宿范圍”構(gòu)成孤立系統(tǒng),信息量是系統(tǒng)行為而不僅僅是信源或信宿的單獨(dú)行為。

二、界定了信息量是統(tǒng)計(jì)量。此種表述還說(shuō)明,信息量并不依賴具體的傳播行為而存在,是對(duì)“具體信源和具體信宿”的某信息潛在可能流動(dòng)價(jià)值的評(píng)價(jià),而不是針對(duì)已經(jīng)實(shí)現(xiàn)了的信息流動(dòng)的。由此,信息量實(shí)現(xiàn)了信息的度量2。

計(jì)算過(guò)程如何計(jì)算信息量的多少?在日常生活中,極少發(fā)生的事件一旦發(fā)生是容易引起人們關(guān)注的,而司空見(jiàn)慣的事不會(huì)引起注意,也就是說(shuō),極少見(jiàn)的事件所帶來(lái)的信息量多。如果用統(tǒng)計(jì)學(xué)的術(shù)語(yǔ)來(lái)描述,就是出現(xiàn)概率小的事件信息量多。因此,事件出現(xiàn)得概率越小,信息量愈大。即信息量的多少是與事件發(fā)生頻繁(即概率大?。┏煞幢取?/p>

⒈如已知事件Xi已發(fā)生,則表示Xi所含有或所提供的信息量

H(Xi) = ?

例題:若估計(jì)在一次國(guó)際象棋比賽中謝軍獲得冠軍的可能性為0.1(記為事件A),而在另一次國(guó)際象棋比賽中她得到冠軍的可能性為0.9(記為事件B)。試分別計(jì)算當(dāng)你得知她獲得冠軍時(shí),從這兩個(gè)事件中獲得的信息量各為多少?

H(A)=- ≈3.32(比特)

H(B)=- ≈0.152(比特)

⒉統(tǒng)計(jì)信息量的計(jì)算公式為:

Xi —— 表示第i個(gè)狀態(tài)(總共有n種狀態(tài));

P(Xi)——表示第i個(gè)狀態(tài)出現(xiàn)的概率;

H(X)——表示用以消除這個(gè)事物的不確定性所需要的信息量。

例題:向空中投擲硬幣,落地后有兩種可能的狀態(tài),一個(gè)是正面朝上,另一個(gè)是反面朝上,每個(gè)狀態(tài)出現(xiàn)的概率為1/2。如投擲均勻的正六面體的骰子,則可能會(huì)出現(xiàn)的狀態(tài)有6個(gè),每一個(gè)狀態(tài)出現(xiàn)的概率均為1/6。試通過(guò)計(jì)算來(lái)比較狀態(tài)的不肯定性與硬幣狀態(tài)的不肯定性的大小。

H(硬幣)= -(2×1/2)× ≈1(比特)

H(骰子)= -(1/6×6)× ≈2.6(比特)

由以上計(jì)算可以得出兩個(gè)推論:

[推論1] 當(dāng)且僅當(dāng)某個(gè)P(Xi)=1,其余的都等于0時(shí), H(X)= 0。

[推論2]當(dāng)且僅當(dāng)某個(gè)P(Xi)=1/n,i=1, 2,……, n時(shí),H(X)有極大值log n。

發(fā)展過(guò)程如今被稱為信息化社會(huì),現(xiàn)代情報(bào)學(xué)理論及其應(yīng)用,非常注重信息量化測(cè)度。1980年代,英國(guó)著名情報(bào)學(xué)家B.C.布魯克斯,在闡述人之信息(情報(bào))獲取過(guò)程時(shí),深入研究了感覺(jué)信息的接收過(guò)程,并將透視原理──對(duì)象的觀察長(zhǎng)度Z與從觀察者到被觀察對(duì)象之間的物理距離X成反比,引入情報(bào)學(xué),提出了Z= 的對(duì)數(shù)假說(shuō)。用此能較好地說(shuō)明信息傳遞中,情報(bào)隨時(shí)間、空間、學(xué)科(行業(yè))的不同而呈現(xiàn)的對(duì)數(shù)變換。然而,關(guān)于用戶的情報(bào)搜尋行為,在其信息來(lái)源上,“獲取距離最近的比例最高,最遠(yuǎn)的比例最低”的結(jié)論,在跨域一體、存在國(guó)際互聯(lián)網(wǎng),需要有新的理論進(jìn)行新的概括。對(duì)數(shù)透視變換,源于實(shí)驗(yàn)心理物理學(xué)。1846年德國(guó)心理學(xué)家E.H.Weber提出了韋伯公式:△I/I=k。這里,△I代表剛可感覺(jué)到的差別閾限,I代表標(biāo)準(zhǔn)刺激物理量,k是小于1的常數(shù)。后來(lái),F(xiàn)echner把這個(gè)關(guān)于差別閾限的規(guī)律稱之為韋伯定律,并于1860年在此基礎(chǔ)上提出了著名的費(fèi)肯納對(duì)數(shù)定律:心理的感覺(jué)量值S是物理刺激量I的對(duì)數(shù)函數(shù),即S=cLogI,c是由特殊感覺(jué)方式確定的常數(shù)。

1957年Stevens提出冪定律:S=bIa,a與b為特征常數(shù)。心理物理函數(shù)究竟是服從冪定律還是服從對(duì)數(shù)定律?W.S.Togerson認(rèn)為,這不能通過(guò)實(shí)驗(yàn)解決,而是一個(gè)在實(shí)驗(yàn)中進(jìn)行選擇的問(wèn)題。G.Ekman在假定Fechner的對(duì)數(shù)定律是普遍正確的前提下,推導(dǎo)出冪定律是對(duì)數(shù)定律的一個(gè)特例。

中國(guó)有突出貢獻(xiàn)的科學(xué)家程世權(quán),在1990年出版的《模糊決策分析》一書(shū)中,評(píng)介引述于宏義等對(duì)“系統(tǒng)的定性和定量轉(zhuǎn)化,總結(jié)歸納出了一種方便可行、科學(xué)可靠的定性排序與定量轉(zhuǎn)化的方法”。于宏義等之方法,在利用顯在的頻數(shù)信息的同時(shí),巧妙利用了潛在的泛序信息——權(quán)數(shù),使模糊系統(tǒng)簡(jiǎn)便有效地轉(zhuǎn)化成明晰的工程系統(tǒng)。其測(cè)度模式是:

F(I)=Ln(max{I}-I+2)/Ln(max{I}+1)。

式中,I為所論對(duì)象按一定指標(biāo)的排序序號(hào),F(xiàn)(I)為其隸屬度。實(shí)際應(yīng)用中巧妙運(yùn)用“自動(dòng)連鎖”機(jī)制,確實(shí)簡(jiǎn)便、實(shí)用、有效。所謂“自動(dòng)連鎖”機(jī)制,就是“評(píng)價(jià)者在評(píng)價(jià)他人他事他物的同時(shí),不能不表現(xiàn)自身,不能不被評(píng)價(jià)”3。

本詞條內(nèi)容貢獻(xiàn)者為:

胡啟洲 - 副教授 - 南京理工大學(xué)