https://www.quantamagazine.org/how-claude-shannons-information-theory-invented-the-future-20201222/
David Tse
編譯:文龍
科學是在尋求自然界的基本規律,數學是在原有定理的基礎上尋找新的定理,工程學是在構建解決人類需求的系統。這三個學科雖相互依存但又截然不同。因此,很少有人能夠同時為這三個學科做出重大貢獻,而克勞德·香農(Claude Shannon)就是其中之一。你可能從未聽過Claude Shannon這個名字,但我們現在所處的信息化時代背後的整個通信基礎架構,正是基於他七十多年前發表的一篇富有開創性的論文。
1916年,Shannon在密西根州出生,他的父母是當地的商人和教師。從密西根大學獲得電子工程和數學雙學士學位後,Shannon進入麻省理工學院開始了研究生的學習。在其碩士論文中,他將布爾代數這一數學方法應用到電子領域中的開關電路的分析和綜合問題中。正是這一變革性的工作,將電路設計從一門藝術變成了一門科學,被認為是數字電路的開端。
在此之後,Shannon將目光投向了一個更大的領域:通信。通信是人類最基本的需求之一。從烽火預警到飛鴿傳書,再到電話、電視、網絡的出現,人類一直在探索能夠讓信息傳遞得更遠、更快、更可靠的通信方式。但是,無論哪種方式,通信系統總是與信號來源以及物理介質相關聯。Shannon卻想打破這一限制,探尋通信的大一統理論。他在1939年給導師Vannevar Bush的信中概述了自己的一些初步設想,並最終在1948年發表了著名的論文,「關於通信的數學理論(A Mathematical Theory of Communication)「。
Shannon通信模型的示意圖,取自他的論文。
Shannon提出的理論的核心是一個簡單卻十分通用的通信模型:發送器將信息編碼為信號,該信號會受噪聲影響,然後由接收器解碼。模型雖然簡單但卻包含了兩個十分關鍵的要素:將信號源和噪聲源從要設計的通信系統中剝離,並對這兩個源分別進行概率建模。
在Shannon的理論提出之前,通信問題通常被視為確定性信號的重建問題:如何轉換受物理介質扭曲的接收信號,以儘可能準確地重建原始信號。而Shannon的才智體現在他認為通信的關鍵是信號的不確定性。他假設信號源會生成許多種可能的信息進行通信,每條信息都有一定的概率;而概率噪聲進一步增加了接收器解碼的隨機性。正是這一假設將通信問題從物理層面轉移到了抽象的數學層面,使得Shannon可以使用概率對不確定性進行建模。所以不確定性才是通信的魅力。畢竟,如果我在寫這篇專欄的時候你已經知道我要寫什麼了,那一切便失去了意義。
在這篇具有裡程碑意義的論文中,Shannon分三部分系統地給出了通信的基本限制。有一個概念貫穿始終,那就是「bit(比特)」:用來描述不確定性的基本單位,可以是1或0。儘管Shannon表示這一單詞是由數學家John Tukey(約翰·圖基)在其備忘錄中首先使用的,但他仍是第一個在論文中提出並使用這個詞的人。
首先,Shannon提出了一個用於
表示信息的每秒最小比特數的公式,他稱之為entropy rate(熵率), H。該數量化了特定信號源將生成哪種消息的不確定程度。熵率越低,不確定性就越小,因此更容易將信息壓縮成更短的東
西。
例如,以每分鐘100個英文字母的速度發簡訊意味著每分鐘發送26的100次方
條
可能的消息,每條消息由100個字母序列表示。
,因此,人們可以將所有的這些可能性編碼成470比特。
如果序列的可能性相同,那麼由Shannon的公式可以得出熵率是每分鐘470比特。
實際上,某些序列比其他序列出現的可能性要大得多,熵率也低得多,從而可以進行更大程度上的壓縮。
其次,Shannon給出了一個可以在有噪聲情況下進行可靠通信的每秒最大比特數的公式,他稱之為系統的容量, C。該數表示接收器可以解析信息不確定性的最大速率,可以視為通信的速度極限。
最後,Shannon表示,只有當H<C時,來自信號源的信息才能在有噪聲的情況下進行可靠的通信。我們可以將信息類比成水流,只有當水流的流速小於管道的容量時,水流才能在管道內正常地流通,信息也是一樣。
Shannon在工作中也有好玩的一面,圖為Shannon與他為電子鼠建造的迷宮(Theseus)的合影
以上理論雖然是一種通信理論,但同時也是信息產生和傳輸的理論。因此,Shannon也被認為是"資訊理論之父"。
Shannon的理論也得出了一些與直覺相悖的結論。假設你在一個非常嘈雜的環境說話,確保你的信息傳達的最佳方法是什麼?你的第一反應或許是重複多次,但事實證明,這不是很有效。當然,重複的次數越多,信息傳達越可靠。但是,為了可靠性,你犧牲了速度。Shannon的理論告訴我們:重複信息是使用代碼傳輸信息的示例,通過使用不同且更複雜的代碼,可以在保持給定可靠性的同時快速通信(直到達到速度極限C)。實際上,目前推出的5G標準使用的是兩套實用的代碼,證實可以達到Shannon的速度極限。
Shannon的理論得出的另一個結論是,無論信息的性質是什麼,在傳輸之前,將其編碼為比特總是最有效的。因此,在無線電系統中,即使原始聲音和通過空中發送的電磁信號都是模擬波形式,Shannon的理論告訴我們,最好先將聲波數位化成比特,然後再將這些比特映射到電磁波中。這一意想不到的結論正是現代數字資訊時代的基石,在這個時代,比特早已成為信息的通用貨幣。
Shannon是一名科學家,他的理論像物理定律一樣具有根本性;Shannon也是一名數學家,他創造了新的數學概念來闡述通信原理,並且這些思想已廣泛應用於數學的其他分支當中;Shannon更是一名工程師,他的理論是受到實際的工程問題的啟發,並且這一理論已經成為現代通信系統的基礎框架。
儘管Shannon於2001年去世,但他遺留的財富仍然存在於構成我們現代世界的技術和他創造的設備(如圖中這種遠程控制線)中。
「最好的研究是修剪已有的知識樹而不是去發展它。」儘管在70多年前,Shannon的理論對於絕大部分工程師來說是難以理解的,但是現在,這一理論已經成為現代通信系統的基礎框架。他是如何做到的呢?通過堅持不懈地專注於問題的基本特徵,而不是問題的各個方面;通過專注於可能的事情,而不是立即可行的事情。Shannon這一統一工作將通信領域的知識枝條修剪成了一棵連貫且整齊的知識樹,為後面幾代科學家、數學家、工程師帶來了累累碩果。