坤鵬論:語言系統的信息熵到底有什麼意義?

2020-12-12 坤鵬論

但凡稱之為系統，幾乎所有都是由微觀個體組成，而系統的狀態只不過是微觀個體自組織行為的概率表現。——坤鵬論

一、計算語言系統的信息熵到底有什麼意義？

通俗地講，在資訊理論中，就是該語言中每個字符轉化為二進位表達平均需要幾個比特。

再聯繫信息熵的計算方法，我們不難得出，一個語言系統的字符種類越多，使用頻率越平均，那需要用來表達每個字符所要使用的平均比特數也就越高。

那比特數，或者說二進位表達的意義是什麼？

——是作為描述信息的一種通用的方式。

香農的資訊理論採用的是電報局的辦法，只計字數不問內容。

但是，這也會遇到問題。

那就是字數和所採用的符號系統（語言文字）密切相關，而各種符合系統的情況又千差萬別。

比如：一段中文，由許多漢字所組成，每個漢字又是從上萬個漢字中挑選出來的，其概率約為1/10；

但是，將其拼音出來，它就變成了一串包括空格的字母，每一個字母則是在26個拉丁字母和一個空格間抉擇的結果，其概率是1/27；

如果我們再將其翻譯成摩斯電碼，每一個電碼，只有兩種可能性，一划或一點，二者必居其一，其概率是1/2。

當然如果再精確些講，摩斯電碼還包括兩種停頓，一共算是有四個符號，概率是1/4。

所以，要定義信息量，必須擺脫具體符號系統的限制，從根本上考慮。

正是基於此，香農提出了信息的統計理論，也就是信息熵公式。

同時，他給出了一個規範化的信息表達系統——二進位。

正所謂站在同一起跑線才能公平競爭。

自此，一切其他語言系統都能計算其轉化為二進位的難易程度，這樣才能夠進行科學的比較。

信息熵告訴我們，一條訊息裡面有多少比特的不確定性，要想清除這些不確定性，就得再輸入相應多少比特的信息。

二、只計字數背後是從連續到離散

在信息傳輸過程中，噪聲是個避無可避的存在。

而且，噪聲並非我們日常所說的噪聲，它涵蓋了一切會削弱信號的東西。

比如：多餘的附近加信號、明顯的錯誤、隨機幹擾、靜電、失真等。

這裡面最麻煩的是，有些可以事先預測，有些則不可預測，而在這個概率的世界裡，永遠存在著不可預測，除非你什麼都不做。

香農把各不相同的通信系統大致分為三類：

連續的；

離散的；

混合的。

在離散的系統中，訊息和信號由獨立的個體符號組成，比如：字符、數字或點劃。

但是，在當時除了電報之外，工程師每天面對的大多是連續系統，其中的訊息和信號被視為連續函數。

那麼，如果要在一個信道中傳輸更多信息，工程師通常會選擇增大輸出功率。

但是，這個方法在遠距離通信中會失效，因為一次又一次地放大信號，只會導致噪聲的逐漸積累。

香農想到避免這個問題的辦法就是，像電報那樣，把信號視為一串離散符號。

這樣，訊息發送者就可以不用增加輸出功率，而是增加額外符號的辦法來進行糾錯，從而克服噪聲的幹擾。

這就像非洲鼓語，在遠距離溝通時，鼓手並不是更加用力地擊鼓，而是為自己的鼓語增加額外的字詞。

而且，把訊息拆成離散的個體符號看待，不僅可以應用在傳統通信領域，還能應用於當時新興的小眾領域——計算機器理論。

離散是什麼意思？

離散的意思就是不連續。

整個數學體系可以粗分為兩類：連續和不連續。

一般的數學的數據範圍都是連續的，比如初高中那些函數，通常都說在某某區間內。

而離散數學則是不連續的數，比如：1和2，中間的如1.1、1.11、1.1111等數都沒有連續，所以叫做離散數學。

離散數學也可以說是計算機科學系的基礎核心學科，它可以看成是構築在數學和計算機科學之間的橋梁。

三、我們這個世界是離散的還是連續的呢？

這又是一個燒腦的話題。

如果從物理的角度講，世界是由物質組成的，而物質又是由極小的粒子組成，粒子是離散的。

在物質波理論、量子力學那裡，粒子通過波構成我們眼前物質，就像水面的漣漪，那就是一種波。

水波由水分子這種物質組成，但水波卻又不是水分子。

比如：我們說100人組成了一個方陣，但方陣並不是100人，只是100個人的排列方式。

法國理論物理學家、物質波理論的創立者、量子力學的奠基人之一路易·維克多·德布羅意認為，物質其實也是波，只是波長特別短，所以你看不到它。

比如：你眼前的桌子看起來是物質，它沒有擾動，其實它是波，它在擾動，只是波長太短以至於你沒法看見。

而這個觀點挑戰了「世界是由物質組成」這個主張，因為波不是物質，波是場的擾動。

場又是什麼？

還沒有人知道。

如果深入地了解物理學，你就會發現，如同信息熵，物理學所描述的世界和我們常識中的世界非常的不一樣。

在物理的世界中，很多概念都沒有意義了。

德布羅意也是愛因斯坦時代的一位牛人，他關于波和量子的論文被愛因斯坦青睞——「這是天才的一筆，揭開了偉大帷幕的一角！」並在自己的論文中專門加入了介紹德布羅意工作的內容。

後來薛丁格發表他的波動力學論文時，明確表示：「這些考慮的靈感，主要歸因於路易·維克多·德布羅意先生的獨創性的論文。」

在得到電子衍射實驗的證實後，1929年，德布羅意因提出物質波理論而獲諾貝爾物理學獎。

後來，德國物理學家玻恩又提出物質波是概率波的見解：

波函數的絕對值的平方，就是微觀粒子在某一時刻出現在某處的概率。

看，又到概率了！

微觀世界裡我們只能用概率描述事件，這就是量子力學描述微觀世界的物理語言。

比如：就像你我，也有可能出現在月球上，但是，和你我坐在電腦前的概率相比，那是非常非常小，以至於生命有限的我們不可能看到這種情況。

這些都是量子力學的基本概念。

也就是說，量子力學認為物質沒有確定的位置，它表現出的宏觀看起來的位置其實是對機率波函數的平均值，在不測量時，它出現在哪裡都有可能，一旦測量，就得到它的平均值和確定的位置。

在《物理學神獸之拉普拉斯獸和薛丁格的貓》中（建議讀，正好可以普及一下量子力學的基礎知識），坤鵬論曾講過丹麥物理學家尼爾斯·玻爾對於電子運動的描述：

「它是一個粒子，同時出現在雲中的所有位置，當我們要測量它的時候它會隨機選一個位置出現，告訴我們它在哪。」

意思就是，沒有觀測時，電子可能會在雲中的任何位置，只有觀測的那一刻，你才知道電子在哪裡；電子在你沒有觀測它時，它是一片雲，在你觀測的那一刻，它是一粒電子。

也就是，微觀物質有不同的存在形式，即粒子和波（雲）。

為此愛因斯坦沒少和玻爾打嘴仗，提出一個又一個思想試驗證明玻爾的矛盾和錯誤。

而薛丁格的貓這隻物理學四大神獸之一，就是薛丁格助力愛因斯坦的思想實驗。

通過複雜性科學的學習，我們知道了，所有系統都是由微觀個體組成，系統的狀態只不過是微觀個體自組織行為的概率表現。

就像黑天鵝事件，它出現的稀少並不代表它不存在。

而塔勒布《反脆弱》之所以有用，關鍵就在於黑天鵝不僅存在，而且發生的概率絕對比我們預想的高得多，甚至根本用不著活久見。

所以，我們的世界歸根結底就是概率的世界，概率是它運轉的最高法則。

那麼，《反脆弱》叫《如何在概率世界更好地生存？》應該更加貼切。

當琢磨明白這個問題後，也就同時踏上了哲學的道路，所以很多大物理學家也同樣可以稱為哲學家。

也是，畢竟所有科學都誕生於哲學，是哲學下的蛋，它們不過是哲學發展出來探究這個世界的方法論。

本文由「坤鵬論」原創，轉載請保留本信息

請您關注本百家號，坤鵬論自2016年初成立至今，創始人為封立鵬、滕大鵬，是包括百度百家、頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者，目前已累計發表原創文章與問答6000餘篇。

相關焦點

坤鵬論:是信息熵越大,信息量越多?還是信息熵越大,信息量越少?

第四，討論信息熵的人多、文章更多，但是人們理解的層次不同，於是正錯糾纏，讓人難以分辨。今天和明天，坤鵬論根據自身學習過程中的從疑惑到解惑，講幾個信息熵學習中最常見的迷惑。今天先講最經典的——到底是信息熵越大，信息量越多？還是信息熵越大，信息量越少？很多人很難理解的是——信息熵越大，信息量越多。
信息熵≠信息量輕鬆讀懂什麼是信息熵

許多人會說，當然是第二條，因為第一條是什麼玩意兒，亂碼嗎？不是人話呀！但是，第二條只是你認為相對第一條更有意義，只是因為你看得懂，而並非信息量更大。並且，第二條還有不少多餘的字，即使把它們去掉，留下空白，你也能猜到它們是什麼。比如：五一佳__，我__司休__五__ ，如有__事給我打____ ，祝節__快__。
信息熵是什麼,為啥漢語被稱為信息熵最大的語言?最普及的英語呢

在1949年外國學者發表了一篇論文，讓人們進入了一個信息化的時代，所有發生的事件都可以用信息的單位來度量，很多人就提出，語言作為人與人進行溝通的必須手段，裡面的信息量應該很大吧，到底有多少？經過各學者多年的探究和各種語言的統計，得出一個結果，漢語是世界上信息熵最大的語言。那麼這個信息熵是什麼呢？
坤鵬論:語言是思想的邊界哲學最難是語言(下)

當然漢字因為屬於象形文字，更具有承載藝術的空間，所以，書法成了中國漢字特有的一種傳統藝術，被譽為：無言的詩，無形的舞；無圖的畫，無聲的樂……語言呢。它的藝術性，需要從小在相應的語言文字環境中成長，並且還要有系統的學習和應用才能充分理解和體會。
什麼是信息?什麼是信息熵?

言下之意，「信息」本身的定義，似乎成了一個無需多餘解釋的公理式的存在。但如果真的追問道：到底什麼是信息？答案似乎並沒想像中的那般簡單明了。事實上，倘若去查詢關於信息的定義，表述也是紛繁多樣的。「信息是對物質和能量的認識」而信息，則不算是一種客觀存在，因為信息一定會牽扯到一個主體的主觀認知。以一顆純天然生長的樹為例，從物質和能量層面看，它是一種客觀存在，因為它的物質構成和它所蘊含的能量，都是客觀本質的存在，不管有沒有人或動物注意到它。但是在人類的眼中，這顆樹卻可以蘊藏著大量的信息。例如樹幹和樹葉是什麼顏色？屬於什麼品種？
軟核科普:什麼是信息熵?

而我所要講的信息熵和這個熱力學上的熵本質上並不是一個東西，但有一點聯繫，（就一點）通俗來講：熵就是用來衡量物質的混亂程度，（我高中化學老師就是這麼跟我說的）而在資訊理論上來講，熵是對信息量大小的度量，而什麼又是『信息量』呢？
「熵」什麼意思?它的變化有什麼意義?

談一下個人的視角，熵這個字比較偏，很多人不會讀，它的拼音【[shāng]】，是指一個封閉系統的混亂程度，今天著重談一下熵[shāng]對我們有什麼啟發的意義。談意義之前，我們要建立對熵的一種認知。這就是熵增，你什麼都沒做，隨著時間的流逝，事物會自動熵增【混亂更大程度】的方向變化。再舉個例子：你在外地工作，離開老家之前，把房子收適得很乾淨，窗明几淨，然後封裝所有的門窗，去外地了。隔了幾個月，你回到老家。整體房間，都會布滿了灰塵，還有難聞的味道，對於一個封裝系統，如果你什麼都不做，這個封裝系統【房間】會自動的朝著熵增【混亂程度增加】的方向變化。
到底什麼是「熵」?----熵的概念辨析(5)

到底什麼是「熵」？以前的介紹：熵的世界你不懂？----熵的概念辨析（1）熵（傷）腦筋？
坤鵬論:沒有信息熵,就不可能在電腦和手機上聽音樂、看電影?

——坤鵬論一、信息熵為了讓信息壓縮得更小通過前面幾天坤鵬論的分享學習，相信大家已經明白了信息熵在通信系統中的核心作用之一——如何把信息量最大化。所以，信息熵的作用顯而易見，就是為了讓信息壓縮得更小。怎麼變得更小，信息熵提供了方法和度量。香農研究的重點是，在通信中，信息以多長的一組編碼為合理，太短，無法正確還原，太長，就有冗餘，損失效率。
幾乎支撐著科學的半壁江山的「熵」到底是什麼?深入討論熵理論

為了完全理解熵是什麼，我們需要知道它是從哪裡來的。最早提出熵概念的是拉扎爾·卡諾，他以研究發動機和領導法國革命軍而聞名。拉扎爾對輸入系統的功和輸出系統的功的比較之間的關係非常感興趣。他把輸出的功稱為「有用的功」，而把損失的功稱為「轉換能」。這就是後來的熵。
通俗理解信息熵

本文轉載自：自然語言處理與機器學習供稿人：憶臻決策樹算法中，在特徵的選擇過程，我們會使用到信息增益的概念。
機器學習入門 12-2 信息熵

什麼是信息熵？信息熵是資訊理論中的一個基礎概念 (資訊理論是一個專門的領域)。信息熵表示的是隨機變量的不確定度，簡單來說，數據不確定性越高 (或越隨機)，相對應數據的信息熵就越大；數據不確定性越低 (或越確定)，相對應數據的信息熵就越小；「熵是從物理熱力學中引申出來的概念：熵越大，熱力系統中的粒子無規則的運動越劇烈，粒子的狀態不確定性越高；熵越小，熱力系統中的粒子越傾向於靜止狀態，粒子的狀態確定性越高；」
坤鵬論:語言就是修辭(下)

四、真實早就成了死概念接著，尼採從語言發生學的角度指出，詞語只不過是「以聲音為媒介，對神經所感受到的刺激加以複製」。由於神經的感受本身就「全然是一種主觀刺激」，它和事物的客觀本質絕對是兩回事。因此，詞語和真相之間有著不可逾越的雙重隔閡。他認為，從嚴格意義上講，任何詞語都只是一個概念。
1000個硬幣的正反面有多少種組合?答案會讓你明白熵與信息的含義

這說明了什麼？從物理學的角度來說，這表明了這1000個看似整齊的硬幣所組成的系統，其中還隱藏著很大的熵！我們知道，熵是一種用來描述一個系統無序程度的物理量。在上面這個場景中，熵可以定量地描述一個系統的微觀組分在保持其宏觀性質不變時所具有的排列組合數目，這些排列組合數目就是其中隱藏的微觀細節的額外信息，如果你能得到這些信息，那麼你就能夠區分宏觀上看起來相似、但微觀上卻有差異的不同組態。事實上，在上面的硬幣的例子中，我們很容易計算它的熵。如果硬幣只有2個，那麼就會有四種組態，即正-正、正反、反-正、反-反。
科普,熵到底是什麼?

本文會在數理層面對它進行一個解讀，釐清它在邏輯上到底是什麼。很多科普文章中，都提到熵是用來度量混亂的。比如下面這幅動圖，單詞「Entropy」（熵的英文）可見的時候，熵最小，這個時候最有秩序；而被打亂的時候，熵開始增大，直到最後一片混亂，熵變成最大：熵之所以很重要，是因為它總結了宇宙的基本發展規律：宇宙中的事物都有自發變得更混亂的傾向，也就是說熵會不斷增加，這就是熵增原理。
信息熵是怎樣煉成的 | 紀念資訊理論之父香農

不確定性作為自然的基本屬性，應該怎樣用數學的語言去刻畫呢？「熵」就是關於不確定性的一個極好的數學描述。歷史上的熵概念起源於熱力學。凡是學過熱力學、統計物理或物理化學的人對「熵」這一術語都不陌生，但是這一概念發展的初始階段卻跟混沌思想並無任何歷史瓜葛。
熵:傷腦筋的熵-虎嗅網

你會發現中文熱力學教科書熱衷於在那兒來回搗鼓麥克斯韋關係式，但到底那些微分表示在什麼情況下才是真正有意義的物理量，一個麥克斯韋關係表示的是什麼物質體系的哪些物理量在什麼條件下的關聯，作者們似乎懶得理會。甚至各種自由能啊熱力學勢啊是針對什麼樣的體系提出的，是否都是基於同樣地也需要證明和辯護的熱力學第二定律，也是一筆糊塗帳。
熵的世界你不懂?----熵的概念辨析(1)

網上流行的一個笑話：青年：「大師，我期末辛苦準備了很久成績卻還是不好，GPA降了好多，有什麼方法能讓我GPA只升不降麼？」　　禪師淺笑，答：「潮漲潮落，月圓月缺，這世上可有什麼規律是一直增長卻斷然不會下降的？」　　青年略一沉吟說：「熵」。那麼請問該青年在回答中體現了一個什麼規律？答曰：熵增原理。
生活中的熵增定律&信息維度的熵減

關鍵詞：熵、熵增、熵減、信息工具。解答問題：為什麼生活中有那麼多越來越亂的現象？人為什麼需要自律？前言：前段時間，看到了一篇熵增定律的文章，也算是首次接觸「熵」這個概念吧，不明覺厲，本來是個比較難懂的物理學概念，不過原文生活化的例子還是令我看完了，並且也查了下相關資料，算是對這個概念有了一些些了解吧，結合自己公號主題，分享下，說不定會與某些大神來個更有深度的碰撞。
熵:傷腦筋的熵|賢說八道

你會發現中文熱力學教科書熱衷於在那兒來回搗鼓麥克斯韋（James Clerk Maxwell）關係式，但到底那些微分表示在什麼情況下才是真正有意義的物理量，一個麥克斯韋關係表示的是什麼物質體系的哪些物理量在什麼條件下的關聯，作者們似乎懶得理會。甚至各種自由能啊熱力學勢啊是針對什麼樣的體系提出的，是否都是基於同樣地也需要證明和辯護的熱力學第二定律，也是一筆糊塗帳。

坤鵬論:語言系統的信息熵到底有什麼意義?

相關焦點

坤鵬論:是信息熵越大,信息量越多?還是信息熵越大,信息量越少?

信息熵≠信息量 輕鬆讀懂什麼是信息熵

信息熵是什麼,為啥漢語被稱為信息熵最大的語言?最普及的英語呢

坤鵬論:語言是思想的邊界 哲學最難是語言(下)

什麼是信息?什麼是信息熵?

軟核科普:什麼是信息熵?

「熵」什麼意思?它的變化有什麼意義?

到底什麼是「熵」?----熵的概念辨析(5)

坤鵬論:沒有信息熵,就不可能在電腦和手機上聽音樂、看電影?

幾乎支撐著科學的半壁江山的「熵」到底是什麼?深入討論熵理論

通俗理解信息熵

機器學習入門 12-2 信息熵

坤鵬論:語言就是修辭(下)

1000個硬幣的正反面有多少種組合?答案會讓你明白熵與信息的含義

科普,熵到底是什麼?

信息熵是怎樣煉成的 | 紀念資訊理論之父香農

熵:傷腦筋的熵-虎嗅網

熵的世界你不懂?----熵的概念辨析(1)

生活中的熵增定律&信息維度的熵減

熵:傷腦筋的熵|賢說八道

信息熵≠信息量輕鬆讀懂什麼是信息熵

坤鵬論:語言是思想的邊界哲學最難是語言(下)