前言
數學一詞在西方源於古希臘語μαθημα,意思是通過學習獲得的知識的意思,因此早期的數學涵蓋的範圍比我們今天講的數學要廣得多,和人類的生活也更接近些。在古代最重要的知識,除了對世界的認識和了解,就是人之間的互通和交流了,我們把它稱為廣義上的通信。本書的內容也將從這裡開始。
早期的數學遠不如今天神秘,它是非常真實的。但是和任何事物一樣,數學也在不斷地演化,而這個發展過程使得數學變得高深起來。數學演化的過程實際上是將我們生活中遇到的具體物質以及他們運動的規律不斷抽象化的過程。經過幾千年的抽象化,大家頭腦裡能想像的數學只剩下數字、符號、公式和定理了。這些東西和我們的生活似乎漸漸疏遠了,甚至在表面上毫不相關了。今天,除了初等數學,大家一般對數學尤其是純粹數學(Pure Mathematics) 的用途甚至產生了懷疑。很多大學生畢業後,在大學所學的數學可能一輩子都沒有機會應用,幾年後就忘得差不多了。因此,很多人也產生了為什麼要學習數學的疑問。更加不幸的是,數學專業的畢業生就連就業也頗為困難,在中國和美國都是如此。在很多人眼裡,數學家都是陳景潤那樣帶著厚厚的眼鏡、行為木訥的人。因此,無論是這些抽象的數字、符號、公式和定理,還是研究他們的數學家和美也似乎沒有聯繫。
事實上數學的用途遠不止人們的想像,甚至可以說在我們生活中是無所不在。且不說那些和我們生活相對聯繫較少的領域,比如原子能和航天, 那裡需要用到大量的數學知識。就說我們天天用的產品和技術,背後都有支持它們的數學基礎。作為一名工作了20 多年的科學工作者,我在工作中經常驚嘆於數學語言應用於解決實際問題上時的魔力。我也希望把這種神奇講解給大家聽。
從工業社會起,通信佔據了人們生活的大量時間。當人類進入電的時代後,通信的擴展不僅拉近了人與人的距離,而且是帶動世界經濟增長的火車頭。今天通信和它相關的產業可能佔到我們世界GDP 很大的一部分。今天城市裡的人花時間最多無非是在電視機前,網際網路上,電話上(不論是固定電話還是手機),這些都是這樣或者那樣的通信。甚至原本必須人到現場的很多活動比如購物,也被建立在現代通信基礎之上的電子商務逐漸取代。而現代通信,追溯到10 0 多年前的莫爾斯電報碼和貝爾的電話,再回到今天的電視,手機和網際網路,都遵循資訊理論的規律,而整個資訊理論的基礎就是數學。如果往更遠看,我們自然語言和文字的起源背後都受著數學規律的支配。
「信」字作為「通信」一詞的50%,表明了信息處理存儲、傳輸、處理和理解的重要性。我們今天每個人都使用的搜索,以及我們都覺得很神奇的語音識別、機器翻譯和自然語言處理也被包括在其中。也許大家不相信,數學是解決這些問題的最好工具。它不僅能夠非常清晰地用一些通用的模型來描述這些領域的看似不同的實際問題,而且能給出非常漂亮的解決辦法。每當人們應用數學工具解決一個個和信息處理有關的問題時,總會感嘆數學之美。雖然人類的語言有成百上千種,但處理它們的數學模型卻是相同的或者相似的,這種一致性也是數學之美的表現。在這本書中,我們將介紹一些數學工具,看看我們是如何利用這些工具來處理信息,開發我們每天生活中都使用的產品。
數學常常給人一種深奧和複雜的感覺,但是它的本質常常是很簡單而直接的。英國哲學家弗朗西斯. 培根在論美德時講「美德就如同華貴的寶石,在樸素的襯託下最顯華麗。」(Virtue is like a rich stone,best plain set.),數學的妙處也恰恰在於一個好的方法,常常是最簡單明了的方法。因此,我會將簡單即是美的思想貫穿全書。
最後,要說明一下本書為什麼花了相當的篇幅介紹很多我所熟知的自然語言處理和通信的世界級專家。他們來自世界不同的國家,屬於不同的民族,但是他們都有一個共同的特點就是數學非常好,同時解決了很多實際問題。通過介紹他們日常的工作和生活,希望讀者對真正的世界級學者有更多的了解。了解他們凡人的一面,了解他們成功的原因,了解真正懂得數學之美的人的美好人生。
吳軍
2012 年4 月於深圳
很多朋友問我,為什麼我會想起來寫這個系列?雖然谷歌黑板報的本意是希望我從一個Google 科學家的角度介紹一下Google 的技術,但是我更希望讓做工程的年輕人看到在信息技術行業正確的做事情方法。無論是在美國還是在中國,我經常看到大部分軟體工程師在一個未知領域都是從直觀感覺出發,用「湊」的方法來解決問題,在中國尤其如此。這樣的做法說得不好聽,就是山寨。我剛到Google 時,發現Google 早期的一些算法(比如拼寫糾錯)根本沒有系統的模型和理論基礎, 就是用的詞組或者詞的二元組湊出來的。這些方法比沒有做任何事情是好一些, 但是幾乎沒有完善和提高的可能, 而且使得程序的邏輯非常混亂。Google 成長壯大後, 漸漸有實力從世界上最好的大學招理論基礎非常好的工程師,工程的正確性得到了很好保證。2006 年後, 我指導了三四個美國名校的研究生, 把Google 的拼寫糾錯模型用隱含馬爾可夫模型的框架統一起來。在那幾年裡,Google 對幾乎所有項目的程序進行了重寫,山寨的東西基本上看不到了。但是在其它公司裡,包括在美國一些還掛著高科技頭銜的二流IT 公司裡, 這種情況依然很普遍。在國內, 創業的小公司做事情重量不重質,倒也無可厚非;但是,上了市、有了錢甚至利潤成為了在世界上也數得上的公司,做事情依然如此,就讓人覺得境界低。另一方面,這些公司在蓋大樓和裝修高管的辦公室上很快超越了世界上的跨國公司。這就像一個人有了錢,穿金戴銀,內在的學問和修養卻沒有提高一樣。因此我寫這些東西也是希望我們這些IT 公司的工程主管們能夠帶領自己的部門提高工程的水平。
(無意中)採用錯誤的模型在特定的場合,或許勉強有效,就比如我們介紹的地心說一樣,畢竟也使用了幾千年。但是,錯誤的模型終究是遠離真理的,其負面影響會漸漸表現出來。其結果不僅僅在於遠離了正確的結果,而且常常把原本簡單的事情弄得很複雜,以至於最終要崩潰(地心說對於日心說就是如此)。
正確的理論和方法有一個被認識的過程。任何事物都有它的發展規律,而這些規律都是可以認識的,在信息科學領域也不例外。當我們認識了規律後,就應該自覺地在工作中遵循規律而不要違背規律。香農博士就是揭示了信息科學發展規律的人,它的資訊理論在很大程度上指出了我們今天信息處理和通信根本的規律性。這裡,通信包括人類的一切交流,包括自然語言處理的所有應用。而當初我寫這個系列博客,就是要介紹這些信息處理的規律性。
當然,將數學的東西講清楚讓外行都能讀懂是一件非常難的事情。我自認為自己是一個能深入淺出的人,但是當我第一次將所寫的幾章送給非工程專業的讀者閱讀時,他們還是表示非常費勁。因此,我後來下了很多功夫將這個系列寫得淺顯易懂,這樣很多細節只能省略,我並不滿意。離開Google 後,寫作起來約束相對少了些,因此這次改寫成實體書時,可以多介紹一些細節。同時,由於篇幅不受約束,我也可以多提供一些細節,以照顧一下工程背景較好的、願意了解細節的讀者。當我完成這本實體書時,我發現全書的內容完全重寫了一遍。
對於非IT 的從業人員,我也希望這本書能夠成為他們茶餘飯後消遣的科普讀物。透過對IT 規律性的認識,讀者可以舉一反三地總結、學習、認識和自覺使用自己工作中的規律性,這樣有助於將自己的境界提升一個層次。
對我這次寫作幫助最大的是兩本書和一個節目。我在初中時讀了《從1到無窮大》1,介紹宇宙的科普讀物。作者G•伽莫夫(George Gamow)是美籍俄裔著名物理學家,他花了很多時間創作科普讀物,影響了一代人。第二本書是物理學家霍金的《時間簡史》,霍金把深奧的宇宙學原理用最簡單的語言講出來,讓這部科普讀物稱為全球的暢銷書。影響我的一個節目是美國主持人摩根•弗裡曼的「穿越蟲洞」。我的寫作大多是在飛機上完成的,寫作累了便看看電視節目,一次碰巧找到「穿越蟲洞」這個節目。弗裡曼把當今最前沿的物理學做成了用每個人都能懂的節目。節目中有包括很多諾貝爾獎在內的一流物理學家和數學家介紹他們的工作,這些人有一個共同的本領,就是把他們自己領域最深奧的道理用很簡單的比喻介紹清楚。我想這可能是他們成為世界頂級科學家的原因,他們一方面對自己的領域非常精通,同時他們能把道理講清楚。世界上最好的學者總是可以深入淺出把大道理講給外行聽,而不是故弄玄虛把簡單的問題複雜化。因此,在寫這本書的時候,我自己一直以霍金、伽莫夫為榜樣,力圖將數學之美展現給所有的,而不僅僅是專業的讀者。為了方便讀者利用茶前飯後的時間閱讀,我儘可能地做到每一章之間相對獨立自成一體,這樣讀起來不會太累,我知道讓大部分讀者從頭到尾讀一本以數學為主的書是幾乎不可能的。
——《浪潮之巔》與《數學之美》作者 吳軍