坤鵬論:為什麼漢字信息熵大,表現出來的卻是言簡意賅?

2020-12-05 坤鵬論

這個世界最偉大的不變永遠是本質。——坤鵬論

昨天《是信息熵越大,信息量越多?還是信息熵越大,信息量越少?》發布後,有網友和坤鵬論進行了討論。

坤鵬論琢磨了一晚上,連做夢都在琢磨。

實話說,這半個多月時間來,信息熵已經把我折磨到寢食難安了。

一、通信系統只是訊息的搬運工

我們在理解信息熵時,一定要牢記:

香農解決的是通信系統中的訊息如何既高效又準確地傳輸的問題。

它不是人們所想的——使自己的意圖被人理解,傳遞意義。

香農根本就不關心所傳輸的訊息的意義。

「對於資訊理論的研究而言,訊息的『意義』基本上無關。」

因為,「通信的基本問題是,在一點精確地或近似地復現在另一點所選取的訊息。

不過,香農還是給「意義」下了科學家的定義:

「這些訊息往往都帶有意義,也就是說,根據某種體系,它們指向或關聯了特定的物理或概念實體。」

就在定義之後,他又將其客氣地請出了資訊理論:

「但通信的這些語義因素,與它們的工程學問題無關。」

通信系統其實和快遞很相似,一個是傳輸訊息,一個是傳輸實物。

快遞公司不創造包裹;

通信系統也不創造訊息。

就像農夫山泉那句廣告詞一樣:我們不生產水,我們是大自然的搬運工。

當它們開始傳輸的時候,包裹和訊息就已經存在了。

既然訊息已經存在,它的信息熵也就能夠直接計算出來。

恰如坤鵬論所說,信息熵是過去時的。

而它們的最終目標都是,要將包裹或訊息完整、準確地送達接收者——也就是使接收者達到完全的確定性。

它們都不可能做那種送到一半就不送的事。

所以,資訊理論的信息量都是講從現在的不確定到未來完全的確定性,還需要輸入多少信息。

那麼,像「信息量 = 獲取信息前事件的信息熵 - 獲取信息後事件的信息熵」,這樣的公式就不太正確了。

因為如果在獲取信息後,還有信息熵,那就是沒有到達完全的確定性,顯然,這個相減的結果,就不是資訊理論的信息量。

而且,在資訊理論中,訊息都是已經在那裡的,在進入到通信系統時,它的不確定性程度就被計算出來了。

既然訊息已經在那裡了,為什麼還要說,訊息是被選取出來的呢?

對此,我們不要脫離開信息熵的根本作用去理解它,否則,很容易陷入思維困境。

信息熵的根本作用之一就是,去除訊息中的冗餘,使得其體積變小,並且還要保證傳輸到接收者那裡後,沒有損失或近似沒有損失。

那麼該如何去除冗餘?

其實就是在已有的訊息中選擇,傳輸什麼,不傳輸什麼。

選擇標準就是信息熵。

這裡提醒大家,資訊理論看到的訊息,都是一個個字符,頂多是一個個字符組合(單詞),它不懂也不想懂它們的意義!

比如:一段文字中有100個「中華人民共和國」,那麼可以指定華=中華人民共和國,並通過將其寫在譯編碼中告訴傳輸模型中的解碼器,只要見到「華」,就譯成「中華人民共和國」,也就是只選擇傳輸「華」,其他六個字不傳輸。

或者,就像如果給你看「中華人__共__國」,你基本就能猜出空格的兩個字是「民」、「和」,因為它們出現在這個組合中的概率非常高,信息熵低,不確定性弱,證明它們的確定性極強,那麼這兩個字就是冗餘的,就可以不傳輸。

同時,就像快遞包裹,是以個為單位,不管裡面有多少東西。

所以,一個包裹可以小到巴掌大,也可以大到整個貨櫃。

訊息也一樣,以條為單位,一條訊息可以是一個字符,也可以是一整本書。

「通信的基本問題是,在一點精確地或近似地復現在另一點所選取的訊息。」

這裡的「點」字用得特別好。

它意味著,訊息的信源和信宿可以在空間或時間上相分隔。

那麼,信息的存儲,比如:唱片,也可以算是一種通信。

二、為什麼漢字的信息熵大,表現出來的卻是言簡意賅?

這也一個困擾很多人的經典問題。

特別是在理解了信息熵是不確定性的程度之後。

比如有人會這樣琢磨:

「如果漢字的平均信息熵高,說明它的不確定性大,那麼由它組成的信息,應該不確定性更大,只有輸入更多信息才能消除不確定性呀。」

在對這個問題進行分析時,為了完整與溫故而知新,坤鵬論會把昨天文章的意思一併複習一遍。

第一,我們一定要明白,不確定性是接收者對漢字的不確定性,而不是漢字本身的不確定性。

這是一個相對關係,因為漢字就是一個符號,如果孤立地看它,它什麼也不是。

只有在被人為地賦予了含義後,它才具有了承載信息的功能。

正如幹事業,總是趕時髦,追流行、愛變化,最終就成了被別人牽著鼻子走,跟在別人屁股後面吃土的宿命,很難成功。

想想看,愛情中,最難成的往往是男方落花特別有意,拼命追求逢迎,女方反而越來越流水非常無情。

所以,想得到什麼,王道永遠是以我為本,改變別人都不如改變自己,先讓自己配得上……

這裡面揭示的道理就是以不變應萬變。

這個世界最偉大的不變永遠是本質。

在信息傳輸系統中,最多變的是訊息;最不變的是接收者。

第二,信息的本質就是讓接收者做出選擇。

香農的資訊理論將接收者定義為,只計字數不管內容的客觀存在物,並且在做出選擇後便被消除記憶。

那麼只有緊緊圍繞接收者,這件事就不會跑偏,才能一直穩穩踩在陽光大道上。

所以,漢字的平均信息熵,也就是平均不確定性的程度,都是對於接收者來說的。

比如:我們說「打」這個字的信息熵高。

其中要表達的是,當」打「這個字擺在面前時,接收者不能確切地知道它要傳遞什麼信息。

因為它能和非常多的字或詞,通過在前或在後的組合,衍生出更多的含義。

比如:「打人」、「打電話」、「打工」、「打掃」、「打針」、打球「、」列印「……

那麼,接收者此時此刻根本無法確定它要表達的意思,也就無法作出選擇,只能等待」還能說什麼「的信息輸入。

第三,那為什麼又說,信息熵高,信息量大呢?

這個理解起來很簡單。

正因為可能性太多,對於接收者來說,」還能說什麼「的」什麼「太多了。

既然這裡的」什麼「是信息,自然」還能說的什麼「的」什麼「的數量就會很多,這就是資訊理論角度的信息量大。

這是因為資訊理論中默認的接收者,就像麥克斯韋妖,它沒有分析能力,它只能靠提回答是或否的問題來猜。

所以,對它來說,只能問答案是「是或否」的問題。

比如:如果是四種可能,就是四選一,你平均需要問兩個問題就能得到確定答案。

如果是八種可能,就是八選一,你則需要平均問三個問題能得到確定答案。

通過問這樣的問題,對一條未知訊息從猜不出來到猜出來所需要問的問題的平均數目,就是信息熵。

顯然,概率越小,信息熵越大,得到確定答案需要問的問題越多,這就是所謂的信息量越大。

在《是信息熵越大,信息量越多?還是信息熵越大,信息量越少?》中,我們已經知道,信息、信息熵、信息量是同一時間點定義和計算出來的。

簡單說,就是一個」過去已過去,未來還未來「的時間點,這時候所說的信息就是」還能說什麼「,信息量則為」還能說多少「。

那麼,說漢字因為信息熵高,所以信息量大,沒毛病。

或者我們這樣理解可能更容易明白,漢字因為信息熵高,所以接收者在看到單個漢字時,不能確定它要表達的意思,對它的不確定性高,那麼,還能說的可能性很多,(未來可以接收的)信息量大。

第四,那為什麼又說,文字系統的平均信息熵越高,越言簡意賅呢?

思考這個問題最好脫離開單個漢字,而是以一個信息集合,比如:一段話、一篇文章、一本書等來考慮。

這時候,除了單個漢字的信息熵外,上下文的關聯度也會起到關鍵作用,畢竟任何文字系統的作用都是組合在一起傳遞信息。

坤鵬論琢磨了很久怎麼找個形象的比喻來解釋這點,最後終於想到一個比較恰當的例子。

我們可以把文字系統中每個字符想像成是一個個具有多功能的零件,有的功能是5種,有的功能是10種。

顯然,功能越多,零件的不確定性越強,也就是我們不知道它在未來組成的機器中的具體是什麼,因為可能性很多。

不過,可以肯定的是,製造同樣的機器,肯定是由功能多的零件組成的機器,更節省零件。

或者還可以假設你是一名維修工,如果一個零件的功能多,那麼,你外出維修時,需要帶的零件就會大大減少。

亦或者我們可以把每個字符當成一個個人。

有的人是一個人幹一個人的活;

有的人能力強、多面手,一個人能幹四個人的活。

如果把兩種人分別組成公司,完成同樣的工作和工作量。

前者組成的公司如果是20個人,後者組成的公司則只要5個人足矣。

功能多,會的多,就是信息熵高。

就像那句話說的——未來不可限量。

這是因為能力強、能力全面,能勝任的工作多,幹什麼都可能很厲害。

於是,未來到底會在哪方面脫穎反而難以說清,不確定性很強。

對於這樣的人,我們總會情不自禁地感嘆道:他的故事一定很多。

看,這不就是信息量多嗎?!哈哈!

漢字信息熵大,信息量大,表現出來就是言簡意賅,這樣造成說出來的每個字都很重要,冗餘度小,難猜,所以,中國人說話的聲音就會偏大。

本文由「坤鵬論」原創,轉載請保留本信息

請您關注本百家號,坤鵬論自2016年初成立至今,創始人為封立鵬、滕大鵬,是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者,目前已累計發表原創文章與問答6000餘篇。

相關焦點

  • 坤鵬論:信息是熵?錯!
    要想正確理解香農的信息熵,一定要時刻提醒自己,香農他老人家只關心字數,而不關注信息內容和質量。——坤鵬論再次對今天的文章修訂的時候,坤鵬論發現,「信息不是說了什麼,而是還能說什麼。」這個總結簡直絕妙、經典至極。
  • 坤鵬論:為什麼同一本書中文版比英文版薄?
    信息熵高,不代表說的話、寫的文字的品質和內涵就比別人高。——坤鵬論一、香農如何計算文字系統的信息熵?在只關心文字數量不考慮內容的香農眼中,管它是英文字母,還是漢字,都只是一個符號而已。這就是坤鵬論早先提到的,很多看似複雜無解的事情,只有敢於用奧卡姆剃刀披荊斬棘般地精簡後,才能找到清晰的路徑。
  • 坤鵬論:沒有信息熵,就不可能在電腦和手機上聽音樂、看電影?
    ——坤鵬論一、信息熵為了讓信息壓縮得更小通過前面幾天坤鵬論的分享學習,相信大家已經明白了信息熵在通信系統中的核心作用之一——如何把信息量最大化。漢字的信息熵比英文字母的高很多,而信息熵表示的是可以輸入的信息量。因此,同樣長度的一句中文和英文,中文的信息量就會高出許多。同樣一本書,如果翻譯成中文,就會薄出許多。很有趣的是,正因為英文字母的信息熵相對小,可輸入信息少。
  • 坤鵬論:熵,粉墨登場!
    ——坤鵬論網上有很多關於熵的文章,寓意豐富,總是讓人浮想聯翩,心馳神往。其實,熵最初被克勞修斯提出來的時候,真沒那麼多涵義。在熱力學中,它可以表示為:終態值≠初態值二、克勞修斯的態函數熵1.熱力學第二定律為什麼需要數學公式?溫故一下《「熵」晦澀難懂?
  • 坤鵬論:香農說,信息是能夠用來消除不確定性的東西
    從宣傳角度看,許多時候,不一定是事情本身大,只是它被重複的次數夠多。——坤鵬論前兩天,我們充分討論了信息的特徵。今天,坤鵬論主要講幾個與資訊理論、信息熵相關的基本概念,如果沒有它們作為基礎,理解後面的內容會比較困難些。同時,再講一下香農給信息的定義是什麼。
  • 坤鵬論:語言系統的信息熵到底有什麼意義?
    但凡稱之為系統,幾乎所有都是由微觀個體組成,而系統的狀態只不過是微觀個體自組織行為的概率表現。——坤鵬論一、計算語言系統的信息熵到底有什麼意義?通俗地講,在資訊理論中,就是該語言中每個字符轉化為二進位表達平均需要幾個比特。再聯繫信息熵的計算方法,我們不難得出,一個語言系統的字符種類越多,使用頻率越平均,那需要用來表達每個字符所要使用的平均比特數也就越高。那比特數,或者說二進位表達的意義是什麼?
  • 坤鵬論:人類就是麥克斯韋妖
    ——坤鵬論坤鵬論在《熵這隻時間之矢要將宇宙帶向死寂?》、《物理學神獸之拉普拉斯獸和薛丁格的貓》講了物理界的三隻神獸。今天就再好好說說麥克斯韋妖,這個我們就算把四隻神獸收集齊了。就是這個有限的存在物,使熱量自動從低溫部分傳向高溫部分,改變了普通概率,系統的熵降低了。熱力學第二定律受到了挑戰。讓我們想想看,這個有限的存在物為什麼能夠改變概率?
  • 漢語的「信息熵」劣勢
    有人為漢字信息量大而驕傲,殊不知它使得中文信息管理和傳遞的成本增加,困難加大。★中文信息產業基礎建設的中心課題,就是要利用信息熵的基本原理和方法來提高中文的效率。美國的信息產業能有今天的稱雄世界的實力,能接連不斷地產生新的技術產品,是跟堅實的基礎建設分不開的。
  • 坤鵬論:人類為何如此奇妙?因為我們以負熵為食!
    ——坤鵬論一、熵,不是混亂,是混亂程度熵,這個詞至今已經近166歲了。但是,它似乎有著一種迷惑思維的魔力。生命有機體活的關鍵則為,因為能量的不可用程度會自發增加,這是不可逆的,只有持續地從外部汲取有序、可用能量,才能抵抗熵增,實現熵減。如果你跟著坤鵬論學習下來,到這裡,就會明白,這段話也像生命在於運動一樣,並不新鮮。
  • 坤鵬論:如果生命可以永恆 熱力學第二定律就是個笑話
    ——坤鵬論隨著對於熱力學第二定律以及熵的學習,坤鵬論越來越覺得人懂得概率論的基本概念是多麼重要。所以,坤鵬論這部分會放慢些節奏,通過這個機會一起鞏固一下對概率的認識。一、統計學的靈魂之前,坤鵬論比較詳細地講過概率論的發展史。
  • 坤鵬論:為什麼周金濤的2019康波預言要落空?
    ——坤鵬論一、為什麼努力追隨康波,仍然沒有賺到錢?這兩天,有段話在朋友圈傳呀傳:「最近很多年輕人都很焦慮,主要是之前尼古拉斯·金濤預言:1985年之後出生的人,人生第一次機遇只會在2019年出現。二、2019年為什麼沒有應驗周天王的預測?在去世之前9個月,周金濤曾有一場題為《人生就是一場康波》的演講,至今餘音嫋嫋。2017年、2018年、2019年,每到年底年初,該演講就會被人們拿出來刷屏,接受焦慮的頂禮膜拜。
  • 坤鵬論:你可以不懂物理 但不能不明白能量守恆定律
    ——坤鵬論不管是複雜性科學的混沌,還是《從自然界的未解之謎到流動裡面的人生哲理》所說的湍流等概念,它們背後都暗含著一個現象——從有序到無序、混亂。這個現象不得不讓人想起了——熵。清華大學科學史系首席主任吳國盛表示:「如果物理學只能留一條定律,我會留熵增定律。」坤鵬論在較為系統地學習了其入門知識後,也深刻地體會到了,為什麼很多人對熵增定律推崇備至,甚至有種頓悟的暢快。因為,它已經突破了熱力學界限,揭示了宇宙級的規律。
  • 坤鵬論:滿滿哲學味道的熱力學第二定律 它是宇宙級的基本規律
    ——坤鵬論一、逆向而行,好好學習,天天向上!昨晚,WTI原油期貨歷史首次收於負值!今天,坤鵬論繼續分享對於熱力學第二定律的學習。熱力學第二定律,以抽象、難以理解著稱。但是,它確實是一個很有哲學意味的定律。不僅表明了熱量轉換的定律,熱機效率的限制,能量質量概念的引入,以及由此而引出的熵的概念。
  • 坤鵬論:瑪麗的房間和哲學殭屍 心靈哲學二元論派的詰問
    ——坤鵬論隨著不斷地學習、思考,坤鵬論越來越感覺到,很多我們所謂的常識真的經不起推敲和深究,甚至只要稍稍用簡單的邏輯拷問,便會敗下陣來。今天,坤鵬論繼續分享心靈哲學的另一派——二元論,看過後,相信你會對上面這段話更有感觸。心靈哲學的二元論包括實體二元論和性質二元論。
  • 坤鵬論:人類的教授教鳥兒如何飛翔!
    ——坤鵬論前面的文章講了人類的兩種知識,一個是實踐出真知,一個是學校裡學會的東西。本來人類一直靠著前者進步到現在,結果當今的知識型社會卻主要被後者所統治。為什麼人們會接受和認同第二種知識呢?今天就來講講塔勒布對此的分析以及坤鵬論的思考。一、人類的教授教鳥類如何飛翔為什麼人們會接受和認同第二種知識?這就牽扯到了副現象。
  • 坤鵬論:不是還原論不明白,只是這個非線性的世界太複雜
    ——坤鵬論在閱讀和分享《反脆弱》時,坤鵬論的腦海中總是不斷閃現複雜性科學的相關知識。兩相驗證,總會心有戚戚然。所以,在分享之初,我就和大家約定了,最後一定要重溫複雜性科學。前幾天,從科學之母的哲學開始講起,我們應該大致明白了,為什麼當今科學界與學科界都如此盛行數學模型?
  • 坤鵬論:芝諾的悖論(上)
    ——坤鵬論 坤鵬論的建議是,學其論證分析,通過思考內化,將其轉化為自己的思想,並也能如此這般這般如此地推演出來。 只要慢慢地耐心積累,你心中的孰是孰非,自然也就逐漸清晰起來了。 一、什麼是悖論? 悖論也稱為佯謬或詭局。
  • 信息熵是怎樣煉成的 | 紀念資訊理論之父香農
    撰文 | 丁玖(南密西西比大學數學教授)紀念"資訊理論之父"香農的最好方式,莫過於重溫一下他怎樣定義信息熵的數學思想,去理解現代資訊理論這個基本概念——僅用初等代數即可推導,令人賞心悅目,流連忘返!確定性過程在數學裡是司空見慣的現象。
  • 坤鵬論:柏拉圖的著作原本只是為了普及哲學?
    ——坤鵬論一、對話坤鵬論之前曾講過,哲學家如果加持了文學天賦,那簡直是不想出名,不想留芳百世,都難。蘇格拉底在自我意識對普遍概念的確證中,從「思」、從「大」開始陶鑄自己。孔子則在強調群體意識中,在「齊之以禮」的躬行中,從「始於足下」的行起表現出自己。蘇格拉底側重於啟示人怎樣思,孔子側重於告誡人如何行。