這個世界最偉大的不變永遠是本質。——坤鵬論
昨天《是信息熵越大,信息量越多?還是信息熵越大,信息量越少?》發布後,有網友和坤鵬論進行了討論。
坤鵬論琢磨了一晚上,連做夢都在琢磨。
實話說,這半個多月時間來,信息熵已經把我折磨到寢食難安了。
一、通信系統只是訊息的搬運工
我們在理解信息熵時,一定要牢記:
香農解決的是通信系統中的訊息如何既高效又準確地傳輸的問題。
它不是人們所想的——使自己的意圖被人理解,傳遞意義。
香農根本就不關心所傳輸的訊息的意義。
「對於資訊理論的研究而言,訊息的『意義』基本上無關。」
因為,「通信的基本問題是,在一點精確地或近似地復現在另一點所選取的訊息。」
不過,香農還是給「意義」下了科學家的定義:
「這些訊息往往都帶有意義,也就是說,根據某種體系,它們指向或關聯了特定的物理或概念實體。」
就在定義之後,他又將其客氣地請出了資訊理論:
「但通信的這些語義因素,與它們的工程學問題無關。」
通信系統其實和快遞很相似,一個是傳輸訊息,一個是傳輸實物。
快遞公司不創造包裹;
通信系統也不創造訊息。
就像農夫山泉那句廣告詞一樣:我們不生產水,我們是大自然的搬運工。
當它們開始傳輸的時候,包裹和訊息就已經存在了。
既然訊息已經存在,它的信息熵也就能夠直接計算出來。
恰如坤鵬論所說,信息熵是過去時的。
而它們的最終目標都是,要將包裹或訊息完整、準確地送達接收者——也就是使接收者達到完全的確定性。
它們都不可能做那種送到一半就不送的事。
所以,資訊理論的信息量都是講從現在的不確定到未來完全的確定性,還需要輸入多少信息。
那麼,像「信息量 = 獲取信息前事件的信息熵 - 獲取信息後事件的信息熵」,這樣的公式就不太正確了。
因為如果在獲取信息後,還有信息熵,那就是沒有到達完全的確定性,顯然,這個相減的結果,就不是資訊理論的信息量。
而且,在資訊理論中,訊息都是已經在那裡的,在進入到通信系統時,它的不確定性程度就被計算出來了。
既然訊息已經在那裡了,為什麼還要說,訊息是被選取出來的呢?
對此,我們不要脫離開信息熵的根本作用去理解它,否則,很容易陷入思維困境。
信息熵的根本作用之一就是,去除訊息中的冗餘,使得其體積變小,並且還要保證傳輸到接收者那裡後,沒有損失或近似沒有損失。
那麼該如何去除冗餘?
其實就是在已有的訊息中選擇,傳輸什麼,不傳輸什麼。
選擇標準就是信息熵。
這裡提醒大家,資訊理論看到的訊息,都是一個個字符,頂多是一個個字符組合(單詞),它不懂也不想懂它們的意義!
比如:一段文字中有100個「中華人民共和國」,那麼可以指定華=中華人民共和國,並通過將其寫在譯編碼中告訴傳輸模型中的解碼器,只要見到「華」,就譯成「中華人民共和國」,也就是只選擇傳輸「華」,其他六個字不傳輸。
或者,就像如果給你看「中華人__共__國」,你基本就能猜出空格的兩個字是「民」、「和」,因為它們出現在這個組合中的概率非常高,信息熵低,不確定性弱,證明它們的確定性極強,那麼這兩個字就是冗餘的,就可以不傳輸。
同時,就像快遞包裹,是以個為單位,不管裡面有多少東西。
所以,一個包裹可以小到巴掌大,也可以大到整個貨櫃。
訊息也一樣,以條為單位,一條訊息可以是一個字符,也可以是一整本書。
「通信的基本問題是,在一點精確地或近似地復現在另一點所選取的訊息。」
這裡的「點」字用得特別好。
它意味著,訊息的信源和信宿可以在空間或時間上相分隔。
那麼,信息的存儲,比如:唱片,也可以算是一種通信。
二、為什麼漢字的信息熵大,表現出來的卻是言簡意賅?
這也一個困擾很多人的經典問題。
特別是在理解了信息熵是不確定性的程度之後。
比如有人會這樣琢磨:
「如果漢字的平均信息熵高,說明它的不確定性大,那麼由它組成的信息,應該不確定性更大,只有輸入更多信息才能消除不確定性呀。」
在對這個問題進行分析時,為了完整與溫故而知新,坤鵬論會把昨天文章的意思一併複習一遍。
第一,我們一定要明白,不確定性是接收者對漢字的不確定性,而不是漢字本身的不確定性。
這是一個相對關係,因為漢字就是一個符號,如果孤立地看它,它什麼也不是。
只有在被人為地賦予了含義後,它才具有了承載信息的功能。
正如幹事業,總是趕時髦,追流行、愛變化,最終就成了被別人牽著鼻子走,跟在別人屁股後面吃土的宿命,很難成功。
想想看,愛情中,最難成的往往是男方落花特別有意,拼命追求逢迎,女方反而越來越流水非常無情。
所以,想得到什麼,王道永遠是以我為本,改變別人都不如改變自己,先讓自己配得上……
這裡面揭示的道理就是以不變應萬變。
這個世界最偉大的不變永遠是本質。
在信息傳輸系統中,最多變的是訊息;最不變的是接收者。
第二,信息的本質就是讓接收者做出選擇。
香農的資訊理論將接收者定義為,只計字數不管內容的客觀存在物,並且在做出選擇後便被消除記憶。
那麼只有緊緊圍繞接收者,這件事就不會跑偏,才能一直穩穩踩在陽光大道上。
所以,漢字的平均信息熵,也就是平均不確定性的程度,都是對於接收者來說的。
比如:我們說「打」這個字的信息熵高。
其中要表達的是,當」打「這個字擺在面前時,接收者不能確切地知道它要傳遞什麼信息。
因為它能和非常多的字或詞,通過在前或在後的組合,衍生出更多的含義。
比如:「打人」、「打電話」、「打工」、「打掃」、「打針」、打球「、」列印「……
那麼,接收者此時此刻根本無法確定它要表達的意思,也就無法作出選擇,只能等待」還能說什麼「的信息輸入。
第三,那為什麼又說,信息熵高,信息量大呢?
這個理解起來很簡單。
正因為可能性太多,對於接收者來說,」還能說什麼「的」什麼「太多了。
既然這裡的」什麼「是信息,自然」還能說的什麼「的」什麼「的數量就會很多,這就是資訊理論角度的信息量大。
這是因為資訊理論中默認的接收者,就像麥克斯韋妖,它沒有分析能力,它只能靠提回答是或否的問題來猜。
所以,對它來說,只能問答案是「是或否」的問題。
比如:如果是四種可能,就是四選一,你平均需要問兩個問題就能得到確定答案。
如果是八種可能,就是八選一,你則需要平均問三個問題能得到確定答案。
通過問這樣的問題,對一條未知訊息從猜不出來到猜出來所需要問的問題的平均數目,就是信息熵。
顯然,概率越小,信息熵越大,得到確定答案需要問的問題越多,這就是所謂的信息量越大。
在《是信息熵越大,信息量越多?還是信息熵越大,信息量越少?》中,我們已經知道,信息、信息熵、信息量是同一時間點定義和計算出來的。
簡單說,就是一個」過去已過去,未來還未來「的時間點,這時候所說的信息就是」還能說什麼「,信息量則為」還能說多少「。
那麼,說漢字因為信息熵高,所以信息量大,沒毛病。
或者我們這樣理解可能更容易明白,漢字因為信息熵高,所以接收者在看到單個漢字時,不能確定它要表達的意思,對它的不確定性高,那麼,還能說的可能性很多,(未來可以接收的)信息量大。
第四,那為什麼又說,文字系統的平均信息熵越高,越言簡意賅呢?
思考這個問題最好脫離開單個漢字,而是以一個信息集合,比如:一段話、一篇文章、一本書等來考慮。
這時候,除了單個漢字的信息熵外,上下文的關聯度也會起到關鍵作用,畢竟任何文字系統的作用都是組合在一起傳遞信息。
坤鵬論琢磨了很久怎麼找個形象的比喻來解釋這點,最後終於想到一個比較恰當的例子。
我們可以把文字系統中每個字符想像成是一個個具有多功能的零件,有的功能是5種,有的功能是10種。
顯然,功能越多,零件的不確定性越強,也就是我們不知道它在未來組成的機器中的具體是什麼,因為可能性很多。
不過,可以肯定的是,製造同樣的機器,肯定是由功能多的零件組成的機器,更節省零件。
或者還可以假設你是一名維修工,如果一個零件的功能多,那麼,你外出維修時,需要帶的零件就會大大減少。
亦或者我們可以把每個字符當成一個個人。
有的人是一個人幹一個人的活;
有的人能力強、多面手,一個人能幹四個人的活。
如果把兩種人分別組成公司,完成同樣的工作和工作量。
前者組成的公司如果是20個人,後者組成的公司則只要5個人足矣。
功能多,會的多,就是信息熵高。
就像那句話說的——未來不可限量。
這是因為能力強、能力全面,能勝任的工作多,幹什麼都可能很厲害。
於是,未來到底會在哪方面脫穎反而難以說清,不確定性很強。
對於這樣的人,我們總會情不自禁地感嘆道:他的故事一定很多。
看,這不就是信息量多嗎?!哈哈!
漢字信息熵大,信息量大,表現出來就是言簡意賅,這樣造成說出來的每個字都很重要,冗餘度小,難猜,所以,中國人說話的聲音就會偏大。
本文由「坤鵬論」原創,轉載請保留本信息
請您關注本百家號,坤鵬論自2016年初成立至今,創始人為封立鵬、滕大鵬,是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者,目前已累計發表原創文章與問答6000餘篇。