昨天,坤鵬論在《什麼熵?什麼信息熵?都不過是概率下的蛋!》中提到了,不管是熱力學的熵,還是資訊理論的熵,都因為抓住了這個世界背後運轉的真理——概率,所以才會有如此巨大的成就。
有人對此還不理解。
沒關係,不理解是理解的開始。
最怕的是,你連理解都不想去理解。
人生最好的財富永遠是智慧而不是金錢,金錢和它,對人的意義隨著年齡增長此消彼長。
基本可以肯定的是,人越老,智慧越重要。
既然概率如此重要,那麼,香農是如何對語言系統的概率進行統計的呢?
為此,坤鵬論特意進行了學習,並Get到了一個新知識——統計結構。
今天就大致分享給大家。
藉此我們還可以體會概率的魅力,以及香農天才般的洞見。
一、溫故:資訊理論的兩個偉大結論
前面介紹過,1948年,香農在論文《通信的數學原理》中提出了兩個堪稱偉大的結論:
第一,信道容量是任何信道的信息傳輸速率的上限(現在被直接稱為香農極限,香農直接給出了計算公式);
第二,只要信息傳輸速率沒有超過該上限,就總是存在一種糾錯編碼方案,可以克服任何程度的噪音,使得錯誤概率任何小。
雖然,發送者可能需要越來越多的比特用來糾錯,並使傳輸速率越來越慢,但訊息最終總能完成傳遞。
儘管香農並沒有指出如何設計這樣的編碼方案,並只證明了這種方案是可能的。
但是,就像基礎科學貌似枯燥無用,卻永遠是科技大廈的地基。
它們如果漆黑中的一盞明燈,始終為人們照亮著前行的正確道路。
後來,幾乎所有現代通信理論都是基於香農的這兩大結論。
而香農能夠獲得如此巨大的成就,也在於他抓住了這個世界運轉的本質——概率,並進行了必要的研究。
什麼樣的研究呢?
可以說,無論是消除冗餘以提升效率,還是增加冗餘以糾正錯誤,以及編碼方案的設計,都要依賴於語言系統統計結構的研究與分析。
二、什麼是統計結構分析?
統計結構分析,就是用統計的方法對概率進行研究和分析,最終給出推斷或預測。
坤鵬論在《「熵」晦澀難懂?那是因為沒學習這幾個名詞!》專門講過統計這個詞。
從字面上,其實就很清晰:
統——總括,總起來;
計——計算;謀劃;考慮;考察。
說白了,統計就是儘可能收集所有與觀察相關的數據,然後利用概率論建立的數學模型,進行量化計算,接著對結果進行分析和總結,最後進行推斷和預測,為相關決策提供依據和參考。
「結構」是什麼?
只有整體、系統才會有結構。
結構,組成整體的各部分的搭配和安排。
將「統計」和「結構」的定義連在一起,我們就能明白「統計結構」的主要意思了——對組成系統的各部分的搭配和安排進行分析。
而各部分的搭配和安排是如何形成的呢?
自然是概率。
所以,坤鵬論對統計結構分析的理解,就是對組成系統的各部分的概率分布進行研究和分析。
想想統計力學中的微觀態和宏觀態。
再想想資訊理論中語言系統的信息熵。
為什麼熱力學的熵和信息熵的公式一樣?
因為它們的方法是一樣的,都是將各部分的概率分布進行加權平均後,就是整個系統的狀態。
因此,不管是統計力學,還是資訊理論,它們都要先匯集組成系統的各部分的概率,虛擬地將它們組合到一起,構成一個看不見、摸不著的系統的另一個狀態。
這個狀態全由概率組成,可以稱為概率的空間。
到這裡,我們就可以得出統計結構分析的基本步驟:
首先,作為概率研究的出發點,先要構建一個帶有隨機性的事物的概率的空間,其中包含著該事物所有可能的概率的分布狀態;
接著,用統計的方法(主要是數學模型)研究這個概率空間的各種狀態,再加上人們對它的一些認識,形成數理統計研究的出發點;
然後,通過分析,對所考慮的問題作出統計推斷或預測。
如今,統計結構分析法被廣泛應用到其他學科,比如:社會科學等。
它已經成為一種通過剖析系統內在結構認識系統特性及其本質的思維方法。
其實,坤鵬論一直推崇的「總—分—總」分析法,就算是統計結構分析法的通俗版。
對事物按一定的分類方法拆解成最細小的零件,然後再匯總出事物的本質特徵,並據此找出應對策略以及方法。
在有了策略和方法後, 繼續對策略和方法一一地進行「總—分—總」,最終一般都能得到最優解法。
通過統計結構分析的定義,我們不難發現它也揭示了統計力學的基本原理:
「宏觀的物質(物體)由大量微觀粒子,如分子、原子等組成,而物質的宏觀特性(宏觀態)是這些大量微觀粒子作無規則微觀運動(微觀態)的集體體現,物質或物體的宏觀物理量是相應微觀物理量的統計平均值。」
到這裡,坤鵬論已經明顯感覺到統計力學已經在某種程度上與複雜性系統驚人相似了。
這也是我非常佩服玻爾茲曼的主要原因。
當年在還沒有證明原子存在的情況下,他就堅信著原子論,認定了宏觀由微觀構成,宏觀的表現總是微觀整體平均值決定的。
換言之,微觀決定宏觀,而非宏觀決定微觀,但是,宏觀會對微觀有負回饋效應。
而且,玻爾茲曼還創造了偉大的熵公式,將概率引入進行統計分析,這讓統計力學一問世,便篤定位列十九世紀物理學最高成就之一。
無它,只因為從概率入手,就相當手握、背靠著最偉大的法則,不牛才怪!
三、相空間、集合與大數法則
上面說的概率空間,在數學和物理學中被稱為相空間。
它包含了一個系統所有可能的狀態,每個可能的狀態都有一個相對應的相空間的點。
相同空間這個概念到了資訊理論後,被香農稱為集合。
也就是某個事物所有信息的集合,一條確定性的信息會減少這個集合的熵。
有人說了,分子、原子不計其數,你怎麼可能算得清?
就算是語言系統,雖然字母、單詞並不像分子那麼數不清,但是,人類創造的信息卻一樣浩如煙海呀!
好在天才雅各布·伯努利為概率論貢獻了偉大的大數法則。
他當年研究出這個法則,就是為了解決在海量樣本的情況下,如何用有限次的觀察估計出實際比例。
「這個估計比例不完全準確,但從現實的角度而言已經足夠接近。」伯努利自信地說。
四、香農如何做語言系統的統計?
從上面對統計結構分析的講解,我們可以得知,這是個辛苦的工作,特別是那個計算機科學剛誕生不久的時代。
所以,也就不難理解,為什麼香農曾對追資訊理論「時髦」並搭便車的人不滿意,並表示,有些人連在「自家院子的工作」都沒做,就出去借著資訊理論到處闡釋自己理論。
「自家院子」指的是自己的專業領域。
工作呢?
主要還是統計工作。
我們已經知道,香農借鑑的是統計力學的方法論和術語。
統計力學的術語就是熵。
統計力學的方法論是什麼呢?
就是統計結構分析的方法論。
更確定地說,就是研究隨機過程的方法論(物理學中隨機過程,小的如布朗運動,大的如恆星動力學等)。
什麼叫隨機過程?
就是存在概率的過程——下一個事件不能被確定性地計算出來,但也不是完全不受約束地隨機發生。
那它受什麼影響和支配呢?
絕絕絕大多數情況下,一個事件受到組成它的微觀個體的平均概率支配。
同時,每個事件的概率,不僅可能取決於系統當前的狀態,還可能取決於它此前的歷史。
其實,在坤鵬論看來,當我們說現在和當前時,其實都已經是過去時了。
所以,1705年,雅各布·伯努利曾說出了一句極牛的概率名言:「在類似條件下,一件事情未來的發生(或不發生)頻率將會與過去得出的情況保持一致。」
它其實就是統計、統計力學等學科成立的意義所在。
當然,就像《如果生命可以永恆 熱力學第二定律就是個笑話》所說,如果你擁有無限,比如:無限的生命或是無限的金錢,許多所謂的法則和規律,就成了笑話。
所以,雅各布·伯努利也明確表示過,「就算你無法直接得知一件事的真實概率,也能在觀察了足夠多次的結果後大致估計出這件事的發生概率如何。」
請注意,他用的是「大致」一詞,嚴謹呀!
而且,雅各布·伯努利早早就預言——概率論是人類了解高深知識的捷徑。
其實何止是高深知識,保險、賭博、投資、詐騙……這些充滿了暴利的生意或是違法犯罪,背後支撐它們的都是概率。
就像一直存在的詐騙電話,你可能會認為騙子怎麼這麼傻,因為那樣的騙術,誰會信呢!
但是,人家騙子早就純熟地運用了概率,特別是大數法則。
他們從一開始就清楚地知道,打多少電話會多少比率的人上當。
而且以前是這樣的比率,現在也是,未來還會是。
每每想起寫到時,坤鵬論都不自覺地對雅各布·伯努利心生崇拜之情!
讓我們繼續將話題回到語言系統的統計結構分析。
如果把「事件」換成「符號」,像英語或漢語這樣的自然的書面語言,完全可以視為一個隨機過程。
同樣,量化後的語音和電視信號,也是一個隨機過程。
香農先是完整地分析了電報。
學習到這裡坤鵬論先補充幾句,因為自己之前對電報的認知不夠,在描述時不夠嚴謹。
就像香農所指出的,電報並不是只有點、劃兩個符號。
它還有兩種停頓:
字符間停頓;
詞之間停頓。
停頓的作用和意義基本和英文單詞之間的空格類似。
這樣加起來,電報其實一共有四種符號,不過,它們的出現位置和出現概率並不均等。
香農在精確地推導出了電報系統信息內容和信道容量的正確方程式後,便將注意力集中到了訊息所使用語言的統計結構及其產生的效應上。
在接下來的研究中,他發現,正是因為語言中存在著統計結構,才使得人們能夠節省時間,或者說可以節省信道容量。
比如:字母e的出現頻率比q高,字母組合th出現的頻率比xp高。
再比如:我們經常使用的那些縮略語——不明覺厲、細思恐極、人艱不拆等。
就像坤鵬論在之前講過的,中文信息熵高,可輸入信息多,很少的字就能使信息的確定性增強,所以,中文更傾向於精煉。
於是,中國的縮略語多如牛毛,最典型的非成語莫屬,基本每個成語背後都有一個典故。
另外,還有各行業的專業名詞也是典型代表。
香農發現,電報已經對語言的統計結構進行了有限應用。
例如:人們用最短的一個點來代表英語中最常見的字母E,用更長的點劃組合代表比較罕見的字母Q、X和Z。
上面提到的是字母層面的統計結構。
但是,我們平時遇到的基本都是文本而非獨立的字符。
如果是在普通文本中,對單詞層面進行考察,顯然比在字母層面上進行考察更合適。
而這時候就又有了新情況,香農發現:
在某些詞之後的位置,有些單詞的出現概率較高,但有些則幾近於零;
在an後面,以輔音字母開頭的單詞的出現概率極小;
如果一個單詞以字母u結尾,它很可能是you。
在一條包含「奶牛」一詞的訊息中,即使後面隔了不少其他字符,再次出現「奶牛」一詞的概率仍然相對較高。
香農認為,一條訊息就像一個動力系統,它的未來走向會受到過去歷史的影響。
這就是我們常說的上下文關聯度。
以上這些工作,都是建立在統計結構分析之上的,而香農為此做了大量的觀察。
之前坤鵬論講過,香農估計,英語內的冗餘度約為50%,信息中每個字母所含的信息熵大致只有2.3比特。
如果考慮更大範圍的統計效應,擴展到句和段落的層面,他估計冗餘度能升高到75%。
但是,隨著文本的長度增加,這種估計會波動得更劇烈,不確定性更大,並且嚴重地依賴於所涉及的文本類型。
為此,香農使用了類似心理學測試的方法來度量冗餘度。
比如:他從書架上抽出一本書,隨機指一個短小的段落,請其妻子貝蒂逐個猜其中的字母。
如果猜錯了,他會告知正確答案,然後繼續猜。
這個測試為的是量化語言系統的可預測性和冗餘度。
香農發現,「錯誤最常出現在單詞和音節的開頭處,因為思路在這些地方有更多分岔的可能。」
這其實是度量信息內容的另一種方式,也是概率論的重要作用——猜!
如果一個字母能夠根據先前的內容猜出來,證明它是冗餘的,如果是冗餘的,說明它沒有提供新的信息。
1949年,香農用鉛筆在一張紙上,自上而下畫了一條豎線。
接著,他在線的左側依次寫下了10的冪,從10²到10¹⁴,他稱這條坐標軸為比特存儲容量。
然後,他在線的右側對應寫了一些可以用來儲存信息的東西。
比如:10³,寫上了打孔卡片;
比如:10⁵附近,寫了人類的基因構成……
這簡直有些神奇。
因為,詹姆斯·杜威·沃森當時才21歲,離他發現DNA結構的1953年還有幾年。
這應該是人類首次提出,基因組是個信息倉庫,並可以用比特來度量。
不過,跟著坤鵬論一路學習下來的朋友應該記得,1943年,薛丁格曾在一次講座講到了「生命以負熵為食」,並發明了「非周期性晶體」這個術語,作為遺產密碼的大膽設想。
後來該講座還被整理成了《生命是什麼?》的小冊子,被許多人認為,正是它引發了人類歷史的一場生物學革命。
而且,香農確實涉獵過遺傳學,這個在《香農八年磨一劍,磨出一個撬動地球的支點》講過。
1938年,香農寫出了碩士畢業論文——《繼電器與開關電器的符號分析》。
被哈佛大學的霍華德·加德納教授評價為:「這可能是本世紀最重要、最著名的一篇碩士論文。」
該論文掀起數字電路革命,並一舉奠定了今天數字電路的理論基礎。
後來,香農的導師範內瓦·布希建議他把自己的研究與孟德爾的遺傳學結合起來——以數學方法分析遺傳。
不到一年時間,香農就已經學會了足夠多的遺傳學知識。
1940年,他憑藉《理論遺傳學的代數學》論文獲得了麻省理工大學博士學位。
現在,再看這張紙,顯然香農的猜測還是偏保守,起碼比後來的現實低了四個數量級。
比如:最上面的10¹⁴,他寫下的是美國國會圖書館。
不過,話說回來,美國國會圖書館確實很牛,當年巴菲特想學賭馬時,就請他父親從該圖書館借相關的圖書,竟然有400多本之多!
本文由「坤鵬論」原創,轉載請保留本信息
請您關注坤鵬論微信公眾號:kunpenglun。坤鵬論自2015年底2016年初成立至今,創始人為:封立鵬、滕大鵬,是包括今日頭條、雪球、搜狐、網易、新浪等多家著名網站或自媒體平臺的特約專家或特約專欄作者,目前已累計發表原創文章與問答6000餘篇,文章傳播被轉載量超過800餘萬次,文章總閱讀量近20億。