坤鵬論:為什麼漢字信息熵大,表現出來的卻是言簡意賅?

2020-12-05 坤鵬論

這個世界最偉大的不變永遠是本質。——坤鵬論

昨天《是信息熵越大，信息量越多？還是信息熵越大，信息量越少？》發布後，有網友和坤鵬論進行了討論。

坤鵬論琢磨了一晚上，連做夢都在琢磨。

實話說，這半個多月時間來，信息熵已經把我折磨到寢食難安了。

一、通信系統只是訊息的搬運工

我們在理解信息熵時，一定要牢記：

香農解決的是通信系統中的訊息如何既高效又準確地傳輸的問題。

它不是人們所想的——使自己的意圖被人理解，傳遞意義。

香農根本就不關心所傳輸的訊息的意義。

「對於資訊理論的研究而言，訊息的『意義』基本上無關。」

因為，「通信的基本問題是，在一點精確地或近似地復現在另一點所選取的訊息。」

不過，香農還是給「意義」下了科學家的定義：

「這些訊息往往都帶有意義，也就是說，根據某種體系，它們指向或關聯了特定的物理或概念實體。」

就在定義之後，他又將其客氣地請出了資訊理論：

「但通信的這些語義因素，與它們的工程學問題無關。」

通信系統其實和快遞很相似，一個是傳輸訊息，一個是傳輸實物。

快遞公司不創造包裹；

通信系統也不創造訊息。

就像農夫山泉那句廣告詞一樣：我們不生產水，我們是大自然的搬運工。

當它們開始傳輸的時候，包裹和訊息就已經存在了。

既然訊息已經存在，它的信息熵也就能夠直接計算出來。

恰如坤鵬論所說，信息熵是過去時的。

而它們的最終目標都是，要將包裹或訊息完整、準確地送達接收者——也就是使接收者達到完全的確定性。

它們都不可能做那種送到一半就不送的事。

所以，資訊理論的信息量都是講從現在的不確定到未來完全的確定性，還需要輸入多少信息。

那麼，像「信息量 = 獲取信息前事件的信息熵 - 獲取信息後事件的信息熵」，這樣的公式就不太正確了。

因為如果在獲取信息後，還有信息熵，那就是沒有到達完全的確定性，顯然，這個相減的結果，就不是資訊理論的信息量。

而且，在資訊理論中，訊息都是已經在那裡的，在進入到通信系統時，它的不確定性程度就被計算出來了。

既然訊息已經在那裡了，為什麼還要說，訊息是被選取出來的呢？

對此，我們不要脫離開信息熵的根本作用去理解它，否則，很容易陷入思維困境。

信息熵的根本作用之一就是，去除訊息中的冗餘，使得其體積變小，並且還要保證傳輸到接收者那裡後，沒有損失或近似沒有損失。

那麼該如何去除冗餘？

其實就是在已有的訊息中選擇，傳輸什麼，不傳輸什麼。

選擇標準就是信息熵。

這裡提醒大家，資訊理論看到的訊息，都是一個個字符，頂多是一個個字符組合（單詞），它不懂也不想懂它們的意義！

比如：一段文字中有100個「中華人民共和國」，那麼可以指定華＝中華人民共和國，並通過將其寫在譯編碼中告訴傳輸模型中的解碼器，只要見到「華」，就譯成「中華人民共和國」，也就是只選擇傳輸「華」，其他六個字不傳輸。

或者，就像如果給你看「中華人__共__國」，你基本就能猜出空格的兩個字是「民」、「和」，因為它們出現在這個組合中的概率非常高，信息熵低，不確定性弱，證明它們的確定性極強，那麼這兩個字就是冗餘的，就可以不傳輸。

同時，就像快遞包裹，是以個為單位，不管裡面有多少東西。

所以，一個包裹可以小到巴掌大，也可以大到整個貨櫃。

訊息也一樣，以條為單位，一條訊息可以是一個字符，也可以是一整本書。

「通信的基本問題是，在一點精確地或近似地復現在另一點所選取的訊息。」

這裡的「點」字用得特別好。

它意味著，訊息的信源和信宿可以在空間或時間上相分隔。

那麼，信息的存儲，比如：唱片，也可以算是一種通信。

二、為什麼漢字的信息熵大，表現出來的卻是言簡意賅？

這也一個困擾很多人的經典問題。

特別是在理解了信息熵是不確定性的程度之後。

比如有人會這樣琢磨：

「如果漢字的平均信息熵高，說明它的不確定性大，那麼由它組成的信息，應該不確定性更大，只有輸入更多信息才能消除不確定性呀。」

在對這個問題進行分析時，為了完整與溫故而知新，坤鵬論會把昨天文章的意思一併複習一遍。

第一，我們一定要明白，不確定性是接收者對漢字的不確定性，而不是漢字本身的不確定性。

這是一個相對關係，因為漢字就是一個符號，如果孤立地看它，它什麼也不是。

只有在被人為地賦予了含義後，它才具有了承載信息的功能。

正如幹事業，總是趕時髦，追流行、愛變化，最終就成了被別人牽著鼻子走，跟在別人屁股後面吃土的宿命，很難成功。

想想看，愛情中，最難成的往往是男方落花特別有意，拼命追求逢迎，女方反而越來越流水非常無情。

所以，想得到什麼，王道永遠是以我為本，改變別人都不如改變自己，先讓自己配得上……

這裡面揭示的道理就是以不變應萬變。

這個世界最偉大的不變永遠是本質。

在信息傳輸系統中，最多變的是訊息；最不變的是接收者。

第二，信息的本質就是讓接收者做出選擇。

香農的資訊理論將接收者定義為，只計字數不管內容的客觀存在物，並且在做出選擇後便被消除記憶。

那麼只有緊緊圍繞接收者，這件事就不會跑偏，才能一直穩穩踩在陽光大道上。

所以，漢字的平均信息熵，也就是平均不確定性的程度，都是對於接收者來說的。

比如：我們說「打」這個字的信息熵高。

其中要表達的是，當」打「這個字擺在面前時，接收者不能確切地知道它要傳遞什麼信息。

因為它能和非常多的字或詞，通過在前或在後的組合，衍生出更多的含義。

比如：「打人」、「打電話」、「打工」、「打掃」、「打針」、打球「、」列印「……

那麼，接收者此時此刻根本無法確定它要表達的意思，也就無法作出選擇，只能等待」還能說什麼「的信息輸入。

第三，那為什麼又說，信息熵高，信息量大呢？

這個理解起來很簡單。

正因為可能性太多，對於接收者來說，」還能說什麼「的」什麼「太多了。

既然這裡的」什麼「是信息，自然」還能說的什麼「的」什麼「的數量就會很多，這就是資訊理論角度的信息量大。

這是因為資訊理論中默認的接收者，就像麥克斯韋妖，它沒有分析能力，它只能靠提回答是或否的問題來猜。

所以，對它來說，只能問答案是「是或否」的問題。

比如：如果是四種可能，就是四選一，你平均需要問兩個問題就能得到確定答案。

如果是八種可能，就是八選一，你則需要平均問三個問題能得到確定答案。

通過問這樣的問題，對一條未知訊息從猜不出來到猜出來所需要問的問題的平均數目，就是信息熵。

顯然，概率越小，信息熵越大，得到確定答案需要問的問題越多，這就是所謂的信息量越大。

在《是信息熵越大，信息量越多？還是信息熵越大，信息量越少？》中，我們已經知道，信息、信息熵、信息量是同一時間點定義和計算出來的。

簡單說，就是一個」過去已過去，未來還未來「的時間點，這時候所說的信息就是」還能說什麼「，信息量則為」還能說多少「。

那麼，說漢字因為信息熵高，所以信息量大，沒毛病。

或者我們這樣理解可能更容易明白，漢字因為信息熵高，所以接收者在看到單個漢字時，不能確定它要表達的意思，對它的不確定性高，那麼，還能說的可能性很多，（未來可以接收的）信息量大。

第四，那為什麼又說，文字系統的平均信息熵越高，越言簡意賅呢？

思考這個問題最好脫離開單個漢字，而是以一個信息集合，比如：一段話、一篇文章、一本書等來考慮。

這時候，除了單個漢字的信息熵外，上下文的關聯度也會起到關鍵作用，畢竟任何文字系統的作用都是組合在一起傳遞信息。

坤鵬論琢磨了很久怎麼找個形象的比喻來解釋這點，最後終於想到一個比較恰當的例子。

我們可以把文字系統中每個字符想像成是一個個具有多功能的零件，有的功能是5種，有的功能是10種。

顯然，功能越多，零件的不確定性越強，也就是我們不知道它在未來組成的機器中的具體是什麼，因為可能性很多。

不過，可以肯定的是，製造同樣的機器，肯定是由功能多的零件組成的機器，更節省零件。

或者還可以假設你是一名維修工，如果一個零件的功能多，那麼，你外出維修時，需要帶的零件就會大大減少。

亦或者我們可以把每個字符當成一個個人。

有的人是一個人幹一個人的活；

有的人能力強、多面手，一個人能幹四個人的活。

如果把兩種人分別組成公司，完成同樣的工作和工作量。

前者組成的公司如果是20個人，後者組成的公司則只要5個人足矣。

功能多，會的多，就是信息熵高。

就像那句話說的——未來不可限量。

這是因為能力強、能力全面，能勝任的工作多，幹什麼都可能很厲害。

於是，未來到底會在哪方面脫穎反而難以說清，不確定性很強。

對於這樣的人，我們總會情不自禁地感嘆道：他的故事一定很多。

看，這不就是信息量多嗎？！哈哈！

漢字信息熵大，信息量大，表現出來就是言簡意賅，這樣造成說出來的每個字都很重要，冗餘度小，難猜，所以，中國人說話的聲音就會偏大。

本文由「坤鵬論」原創，轉載請保留本信息

請您關注本百家號，坤鵬論自2016年初成立至今，創始人為封立鵬、滕大鵬，是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者，目前已累計發表原創文章與問答6000餘篇。

坤鵬論:為什麼漢字信息熵大,表現出來的卻是言簡意賅?

相關焦點

坤鵬論:信息是熵?錯!

坤鵬論:為什麼同一本書中文版比英文版薄?

坤鵬論:沒有信息熵,就不可能在電腦和手機上聽音樂、看電影?

坤鵬論:熵,粉墨登場!

坤鵬論:香農說,信息是能夠用來消除不確定性的東西

坤鵬論:語言系統的信息熵到底有什麼意義?

坤鵬論:人類就是麥克斯韋妖

漢語的「信息熵」劣勢

坤鵬論:人類為何如此奇妙?因為我們以負熵為食!

坤鵬論:如果生命可以永恆熱力學第二定律就是個笑話

坤鵬論:為什麼周金濤的2019康波預言要落空?

坤鵬論:你可以不懂物理但不能不明白能量守恆定律

坤鵬論:滿滿哲學味道的熱力學第二定律它是宇宙級的基本規律

坤鵬論:瑪麗的房間和哲學殭屍心靈哲學二元論派的詰問

坤鵬論:人類的教授教鳥兒如何飛翔!

坤鵬論:不是還原論不明白,只是這個非線性的世界太複雜

坤鵬論:芝諾的悖論(上)

信息熵是怎樣煉成的 | 紀念資訊理論之父香農

坤鵬論:柏拉圖的著作原本只是為了普及哲學?

坤鵬論:為什麼漢字信息熵大,表現出來的卻是言簡意賅?

相關焦點

坤鵬論:信息是熵?錯!

坤鵬論:為什麼同一本書中文版比英文版薄?

坤鵬論:沒有信息熵,就不可能在電腦和手機上聽音樂、看電影?

坤鵬論:熵,粉墨登場!

坤鵬論:香農說,信息是能夠用來消除不確定性的東西

坤鵬論:語言系統的信息熵到底有什麼意義?

坤鵬論:人類就是麥克斯韋妖

漢語的「信息熵」劣勢

坤鵬論:人類為何如此奇妙?因為我們以負熵為食!

坤鵬論:如果生命可以永恆 熱力學第二定律就是個笑話

坤鵬論:為什麼周金濤的2019康波預言要落空?

坤鵬論:你可以不懂物理 但不能不明白能量守恆定律

坤鵬論:滿滿哲學味道的熱力學第二定律 它是宇宙級的基本規律

坤鵬論:瑪麗的房間和哲學殭屍 心靈哲學二元論派的詰問

坤鵬論:人類的教授教鳥兒如何飛翔!

坤鵬論:不是還原論不明白,只是這個非線性的世界太複雜

坤鵬論:芝諾的悖論(上)

信息熵是怎樣煉成的 | 紀念資訊理論之父香農

坤鵬論:柏拉圖的著作原本只是為了普及哲學?

坤鵬論:如果生命可以永恆熱力學第二定律就是個笑話

坤鵬論:你可以不懂物理但不能不明白能量守恆定律

坤鵬論:滿滿哲學味道的熱力學第二定律它是宇宙級的基本規律

坤鵬論:瑪麗的房間和哲學殭屍心靈哲學二元論派的詰問