前不久,中國語言文字研究所研究員、計算語言學家馮志偉先生在接受中國社會科學院訪談時呼籲計算語言學的發展應將基於規則的理性主義和基於統計的經驗主義相結合。馮志偉先生在另一篇文章中對計算語言學/自然語言處理發展過程中的經驗主義和理性主義做了非常高屋建瓴的解讀和詳細深刻的闡釋,本文就對這篇文章進行梳理,回史望今,希望對理解當下自然語言處理的發展趨勢有所幫助。
以下內容來自馮志偉先生為中科院研究員宗慶成所著《統計自然語言處理》一書作的序。
美國計算機科學家馬納瑞斯(Bill Manaris)在1999年出版的《計算機進展》(Advanced in Computers)第47卷的《從人機互動的角度看自然語言處理》一文中給自然語言處理提出的如下定義:「自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科。自然語言處理要研製表示語言能力(linguistic competence)和語言應用(linguistic performance)的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷地完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的評測技術。」根據這個定義,自然語言處理要研究「在人與人交際中以及在人與計算機交際中的語言問題」,既要研究語言,又要研究計算機。因此,它是一門交叉學科,它涉及語言學、計算機科學、數學、自動化技術等不同的學科。
隨著近年來大數據技術的發展,基於統計和機器學習的自然語言處理發展迅速,取得了令人矚目的成績,在文字識別、語音合成、機器翻譯等領域的技術已經達到了實用化的水平。並進一步應用到網絡內容管理、網絡信息監控、不良信息的過濾和預警等方面,並且與網絡技術、圖像識別和理解技術、情感計算(affection computing)技術結合起來,由此而產生了一些新的研究方向,在現代信息科學的發展中,起著越來越重要的作用。隨著移動網際網路時代的到來,自然語言處理在電子商務等領域的應用也日益成熟,產品推薦、客服機器人等應用場景已成為日常生活習以為常又不可缺少的一部分。
面對基於數據統計和機器學習算法的自然語言處理取得的這些令人鼓舞的輝煌成績,有些學者的頭腦開始發熱起來,他們輕視自然語言處理中基於規則的方法,甚至貶低那些從事研究基於規則的自然語言處理的學者。
IBM公司的傑裡內克(Fred Jelinek)是一位使用統計方法研究語音識別與合成的著名學者,他在統計自然語言處理研究中取得的成績是人所共知的,可是他卻看不起使用規則方法研究自然語言處理的人。他於1988年12月7日在自然語言處理評測討論會上表述了這樣的意思:每當一個語言學家離開我們的研究組,語音識別率就提高一步(Anytime a linguist leave, the group the recognition rate goes up) 。根據一些參加這個會議的人回憶,傑裡內克原話很尖刻,他說:「每當我解僱一個語言學家,語音識別系統的性能就會改善一些("Every time I fire a linguist, the performance of the recognizer improves")。傑裡內克的這些話,把基於規則的自然語言處理研究貶低到了一無是處的程度,把從事基於規則的自然語言處理研究的人,貶低到了一文不值的程度,對於基於規則的自然語言處理,採取嗤之以鼻的態度。
2000年在美國約翰·霍普金斯大學的暑期機器翻譯討論班(workshop)上,來自南加州大學、羅切斯特大學、約翰·霍普金斯大學、施樂公司、賓夕法尼亞州立大學、史丹福大學等學校的研究人員,對於基於統計的機器翻譯進行了討論,以德國亞琛大學年輕的博士研究生奧赫(Pram Josef Och)為主的13位科學家寫了一個總結報告,報告的題目是「統計機器翻譯的句法」(Syntax for Statistical Machine Translation),提出了統計機器翻譯的基本框架。奧赫在國際計算語言學2002年的會議(ACL 2002 )上又發表論文,題目是:「統計機器翻譯的分辨訓練與最大熵模型」(Discriminative Training and Maximum Entropy Models for Statistical Machine Translation),進一步提出統計機器翻譯的系統性方法,獲ACL 2002大會最佳論文獎。2003年7月,在美國馬裡蘭州巴爾的摩(Baltimore, Maryland)由美國商業部國家標準與技術研究所NIST/TIDES( National Institute of Standards and Technology)主持的機器翻譯評比中,奧赫獲得了最好的成績,他使用統計方法從雙語語料庫中自動地獲取語言知識,建立統計機器翻譯的規則,在很短的時間之內就構造了阿拉伯語和漢語到英語的若干個機器翻譯系統。偉大的希臘科學家阿基米德(Archimedes) 說過:「只要給我一個支點,我就可以移動地球。」("Give me a place to stand on, and I will move the world. ") 而奧赫也模仿著阿基米德說:「只要給我充分的並行語言數據,那麼,對於任何的兩種語言,我就可以在幾小時之內給你構造出一個機器翻譯系統。」("Give me enough parallel data, and you can have translation system for any two languages in a matter of hours. ") 奧赫在統計機器翻譯方面的成就使我們高興,使我們看到了未來的機器翻譯的曙光,令人鼓舞。可是,2006年6月奧赫在西班牙巴巴塞隆納舉行的TC-STAR機器翻譯系統評測研討會上的特邀報告「機器翻譯的挑戰」( Challenges in Machine Translation)中卻認為:在統計機器翻譯中,語料庫的規模起著舉足輕重的作用,而詞法、句法和語義等語言學知識對於機器翻譯系統的性能幾乎沒有什麼幫助,甚至有些語言知識還會起副作用,幫倒忙。他也開始貶低語言規則在自然語言處理中的正面作用。
傑裡內克和奧赫都是在自然語言處理中卓有成就的學者,他們上述的言論值得人們注意和深思。
自然語言處理領域的兩種思潮:
基於統計的經驗主義與基於規則的理性主義
早期自然語言處理研究,帶有鮮明的經驗主義色彩
➡ 馬爾可夫手工查頻研究普希金長詩元音和輔音的出現頻度
➡ 香農手工統計英語字母概率測定英語字母不等概率零階熵
20世紀60年代到80年代,轉向基於規則的理性主義
➡ 喬姆斯基的形式語言理論
20世紀80年代後期,採用經驗主義方法,從大規模真實語料中獲取語言信息
➡ IBM公司華生研究中心的語音識別概率模型
20世紀90年代後期,概率和數據驅動的方法幾乎成為自然語言處理標準方法
21世紀以來,使用神經網絡和深度學習方法自動提取語言特徵
使用概率或隨機的方法來研究語言,建立語言的概率模型
符號主義方法,以「物理符號系統假設」為基本依據,主張人類的智能行為可以使用物理符號系統來模擬
隱馬爾可夫模型、最大熵模型、n元語法、概率上下文無關語法、噪聲信道理論、貝葉斯方法、最小編輯距離算法、Viterbi算法、A*搜索算法、雙向搜索算法、加權自動機、支持向量機等
有限狀態轉移網絡、有限狀態轉錄機、遞歸轉移網絡、擴充轉移網絡、短語語法結構、自底向上剖析、自頂向下剖析、左角分析法、Earley算法、CYK算法、富田算法、複雜特徵分析法、合一算法、依存算法、一階謂詞演算、語義網絡、框架網絡等
基於統計的自然語言處理的理論基礎是哲學中的經驗主義,基於規則的自然語言處理的理論基礎是哲學中的理性主義。這些問題說到底,是關於如何處理經驗主義和理性主義關係的問題。為了追本溯源,先回顧一下哲學中的經驗主義與理性主義,並且考察一下它們對於語言學和自然語言處理的影響,這樣,也許能夠幫助我們更清楚地認識到這個問題的實質。
自從人類有哲學以來,在認識論中就產生了經驗主義(empiricism)和理性主義(rationalism)這樣兩種不同的傾向。在歐洲哲學史上,當近代哲學家把這兩種傾向的衝突以及解決這兩種衝突的不懈努力提到全部哲學的中心地位上來之前,無數的哲學家就已經對此進行了艱苦卓絕的研究,走過了崎嶇漫長的探索道路。
人類哲學從它產生的第一天起,就在自身之內包含著一個深刻的矛盾:哲學來自經驗,但它又是超越經驗的結果;哲學思想的發展是理性思維、範疇和概念的運動,但又只有經驗才能推動它。感性與理性的這種矛盾實質上也就是經驗主義和理性主義的矛盾,它作為存在和思維的矛盾在認識論方面的一個表現,自開始的時候起,就是人類哲學思想發展的內在動力之一。
這種矛盾在人們的思想中有不同程度、不同形式的表現,但是,經驗主義和理性主義作為比較典型的認識論的理論,形成了兩個既互相對立、互相鬥爭,又互相影響、互相滲透的哲學流派而在哲史上出現,並且在西歐早期資產階級反封建革命時期前後,成為16世紀末期到18世紀中期重要的歷史現象。
在16世紀末期到18世紀中期的歐洲,經驗主義哲學以培根(Francis Bacon, 1561-1626)、霍布斯(Thomas Hobbes, 1588-1679)、洛克(John Locke, 1632-1704)、休謨(David Hume, 1711-1776)為代表,他們都是英國哲學家,因此經驗主義也被稱為「英國經驗主義」。培根批評「理性派哲學家只是從經驗中抓到一些既沒有適當審定也沒有經過仔細考察和衡量的普遍例證,而把其餘的事情都交給了玄想和個人的機智活動。」他提出「三表法」,制定了經驗歸納法,建立了歸納邏輯體系,對於經驗自然科學起到了理論指導作用。霍布斯認為歸納法不僅包含分析,而且也包含綜合,分析得出的普遍原因只有通過綜合才能成為研究對象的特殊原因。洛克把理性演繹隸屬於經驗歸納之下,對演繹法作了經驗主義的理解,他認為,一切知識和推論的直接對象是一些個別、特殊的事物,我們獲取知識的正確途徑只能說從個別、特殊進展到一般,他說:「我們的知識是由特殊方面開始,逐漸才擴展到概括方面的。只是再後來,人民就採取了另一條相反的途徑,它要盡力把它的知識形成概括的命題。」休謨運用實驗推理的方法來剖析人性,試圖建立一個精神哲學體系,他指出「一切關於事實的推理,似乎都建立在因果關係上面,只要依照這種關係來推理,我們便能超出我們的記憶和感覺的見證以外」,他認為「原因和結果的發現,是不能通過理性,只能通過經驗的」,經驗是我們關於因果關係的一切推論和結論的基礎。
現代自然科學的代表人物牛頓(Isaac Newton,1642-1727)建立了經典力學的基本定律,即牛頓三大定律和萬有引力定律,使得經典力學的科學體系臻於完善。他的哲學思想也帶有明顯的經驗主義傾向,他認為自然哲學只能從經驗事實出發去解釋世界事物,因而經驗歸納法是最好的論證方法。他說:「雖然用歸納法來從直言和觀察中進行論證不能算是普遍的結論,但它是事物本性所許可的最好的論證方法,並隨著歸納的愈為普遍,這種論證看起來也愈有力。」他把經驗歸納作為科學研究的一般方法論原理,認為「實驗科學只能從現象出發,並且只能用歸納來從這些現象中推演出一般的命題」。正是由於牛頓遵循經驗歸納法,才在物理學取得了劃時代的偉大成就。
法國啟蒙運動的代表人物伏爾泰(Voltaire,1694-1778)也有明顯的經驗主義傾向。他以洛克的經驗主義為武器去反對教會至上的權威,否定神的啟示和奇蹟,否認靈魂不死。他讚美經驗主義哲學家洛克:「也許從來沒有一個人比洛克頭腦更明智,更有條理,在邏輯上更為嚴謹「。他積極地把英國經驗主義推廣到法國,推動了法國的啟蒙運動。
哲學中的這種經驗主義深刻地影響到自然語言處理中基於統計的經驗主義方法,它是自然語言處理中經驗主義方法的哲學基礎。
在自然語言處理中,除了基於統計的經驗主義方法之外,還同時存在著基於規則的理性主義方法。自然語言處理中的理性主義來源於哲學中的理性主義。
在歐洲,這種理性主義源遠流長,到了16世紀末至18世紀中期更加成熟,出現了笛卡爾(Rene Descartes,1596-1650)、斯賓諾莎(Benetict de Spinoza,1632-1677)、萊布尼茨(Cottfried Wilhelm Leipniz,1646-1716)等傑出的理性主義哲學家。笛卡爾改造了傳統的演繹法,制定了理性的演繹法,他認為,任何真理性的認識,都必須首先在人的認識中找到一個最確定、最可靠的支點,才能保證由此推出的知識也是確定可靠的。他提出在認識中應當避免偏見,要把每一個命題都儘可能地分解成細小的部分,直待能夠圓滿解決為止,要按照次序引導我們地思想,從最簡單地對象開始,逐步上升到對複雜事物地認識。斯諾賓沙把幾何學方法用於論理學研究,使用幾何學的公理、定義、命題、證明等步驟來進行演繹推理,在他的《論理學》的副標題中明確標示「依幾何學方式證明」。萊布尼茨把邏輯學高度地抽象化、形式化、精確化,使邏輯性成為一種用符號進行演算的工具。笛卡爾是法國哲學家,斯諾賓沙是荷蘭哲學家,萊布尼茨是德國哲學家,他們崇尚理性,提倡理性的演繹法。他們都居住在歐洲大陸,因此理性主義也被稱為「大陸理性主義」。
在哲學領域中,始終都存在著經驗主義和理性主義的矛盾和鬥爭。這種矛盾和鬥爭,當然也會反映到自然語言處理中來。
早期自然語言處理研究的經驗主義色彩
1931年,俄國科學家馬爾可夫(A. Markov, 1856-1922)使用手工查頻的方法,統計了普希金長詩《歐根·奧涅金》中元音和輔音的出現頻度,提出了馬爾可夫隨機過程理論,建立了馬爾可夫模型,他的研究是建立在對於俄語的元音和輔音的統計數據的基礎之上的,採用的方法主要是基於統計的經驗主義的方法。
1948年,美國科學家香農(Shannon)把離散馬爾可夫過程的概率模型應用於描述語言的自動機。他把通過諸如通信信道或聲學語音這樣的媒介傳輸語音的行為比喻為「噪聲通道」(noisy channel)或者「解碼」(decoding)。香農還用熱力學的術語「熵」(entropy)作為測量信道的信息能力或者語言的信息量的一種方法,並且他採用手工方法來統計英語字母的概率,然後使用概率技術首次測定了英語字母的不等概率零階熵為4.03比特。香農的研究工作基本上是基於統計的,也帶有明顯的經驗主義傾向。
經驗主義的興起
在20世紀50年代末期到60年代中期,自然語言處理中的經驗主義興盛起來。注重語言事實的傳統重新抬頭,學者們普遍認為:語言學的研究必須以語言事實作為依據,必須詳盡大量的佔有材料,才有可能在理論上得出比較可靠的結論。基於統計的方法最早在文字識別領域中取得很大成功,後來在語音合成和語音識別中大顯身手,接著又擴充到自然語言處理的其他應用領域。
這個時期自然語言處理中的經驗主義派別,主要是一些來自統計學專業和電子學專業的研究人員。在20世紀50年代後期,貝葉斯方法開始應用於解決最優字符識別的問題。1959年,布萊德索(Bledsoe)和布羅寧(Browning)建立了用於文本識別的貝葉斯系統,該系統使用了一部大詞典,計算詞典中單詞所觀察的字母系列的似然度,把單詞中每一個字母的似然度相乘,就可以求出字母系列的似然度來。
20世紀50年代還建立了世界上第一個聯機語料庫——布朗美國英語語料庫。這個語料庫包含100萬單詞的語料,樣本來自不同文體的500多篇書面文本,涉及的文體有新聞、中篇小說、寫實小說、科技文章等。這些語料是布朗大學在1963年至1964年收集的。隨著語料庫的出現,使用統計方法從語料庫自動地獲取語言知識,成為自然語言處理研究的一個重要方面。
20世紀60年代,統計方法在語音識別算法的研製中取得成功,其中特別重要的是隱馬爾科夫模型(Hidden Markov Model, HMM)和噪聲信道與解碼模型。這些模型是分別獨立地由兩支隊伍研製的。一支是傑裡內克(Jelinek)、巴勒(Bahl)、梅爾塞(Mercer)和IBM公司華生研究中心的研究人員,另一支是卡內基-梅隆大學的拜克(Baker)等。AT&T的貝爾實驗室也是語音識別和語音合成的中心之一。
不過,在20世紀60年代至80年代初期的這一時期,自然語言處理領域的主流方法仍然是基於規則的理性主義方法,經驗主義方法並沒有受到特別的重視。
「重回經驗主義」的反思
這種情況在20世紀80年代初期發生了變化。在1983年至1993年的10年中,自然語言處理研究者對於過去的研究歷史進行了反思,發現過去被忽視的有限狀態模型和經驗主義方法仍然有其合理的內核。在這10年中,自然語言處理的研究又回到了20世紀50年代末期到60年代初期幾乎被否定的有限狀態模型和經驗主義方法上去。
這種反思的第一個傾向是重新評價有限狀態模型。由於卡普蘭(Kaplan)和凱依(Kay)在有限狀態音系學和形態學方面的工作,以及丘奇(Church)在句法的有限狀態模型方面的工作,顯示了有限狀態模型仍然有著強大的功能,因此,這種模型又重新得到自然語言處理學界的注意。
這種反思的第二個傾向是所謂的「重新回到經驗主義」。特別值得注意的是語音和語言處理的概率模型的提出,這樣的模型受到IBM公司華生研究中心的語音識別概率模型強烈的影響。這些概率模型和其他數據驅動的方法還傳播到了詞類標註、句法剖析、名詞短語附著歧義的判定以及從語音識別到語義學的聯接主義方法的研究中去。
經驗主義成為主流
從20世紀90年代開始,自然語言處理進入了一個新的階段。1993年7月在日本神戶召開的第四屆機器翻譯高層會議上,英國著名學者哈欽斯(J. Hutchins)在他的特邀報告中指出:自1989年以來,機器翻譯的發展進入了一個新紀元。這個新紀元的重要標誌是,在基於規則的技術中引入了語料庫方法,其中包括統計方法,基於實例的方法,通過預料加工手段使語料庫轉化為語言知識庫的方法等。這種建立在大規模真實文本處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它也將自然語言處理推向一個嶄新的階段。
在20世紀90年代的最後5年,自然語言處理的研究發生了很大的變化,出現了空前繁榮的局面。概率和數據驅動的方法幾乎成為自然語言處理的標準方法。句法剖析、詞類標註、參照消解和話語處理的算法全都開始引入概率,並且採用從語音識別和信息檢索系統借過來的評測方法,統計方法已經滲透到了機器翻譯、文本分類、信息檢索、問答系統、信息抽取、語言知識挖掘等自然語言處理的應用系統中去,基於統計的經驗主義方法逐漸成為自然語言處理研究的主流。
基於規則的理性主義的盛行始於喬姆斯基(Noam Chomsky)時代。
喬姆斯基的「笛卡爾語言學」
1956年,喬姆斯基從香農的工作中吸取了有限狀態馬爾可夫過程的思想,首先把有限狀態自動機作為一種工具來刻畫語言的語法,並且把有限狀態語言定義為有限狀態語法生成的語言,建立了自然語言的有限狀態模型。喬姆斯基根據數學中的公理化方法來研究自然語言,採用代數和集合論把形式語言定義為符號的序列,從形式描述的高度,分別建立了有限狀態語法、上下文無關語法、上下文有關語法和0型語法的數學模型,並且在這樣的基礎上來評價有限狀態模型的局限性,喬姆斯基斷言:有限狀態模型不適合用來描述自然能語言。這些早期的研究工作產生了「形式語言理論」這個新的研究領域,為自然語言和形式語言找到了一種統一的數學描述理論,形式語言理論也成為計算機科學最重要的理論基石。
喬姆斯基在他的著作中明確地採用理性主義的方法,他高舉理性主義大旗,把自己的語言學稱之為「笛卡爾語言學」。喬姆斯基完全排斥經驗主義的統計方法,在1969年的「Quine’s Empirical Assumptions」一文中,他說:「應當認識到,『句子的概率』這個概念,在任何已知的對於這個術語的解釋中,都是一個完全無用的概念」。他主張採用公理化、形式化的方法,嚴格按照一定的規則來描述自然語言的特徵,試圖使用有限的規則描述無限的語言現象,發現人類普遍的語言機制,建立所謂的「普遍語法」(universal grammar)。轉換生成語法在20世紀60年代末到70年代在國際語言學界風靡一時,轉換生成語法作為自然語言的形式化描述方法,為計算機處理自然語言提供了有力的武器,推動了自然語言處理的研究和發展。
理性主義受挫
轉換生產語法的研究途徑在一定程度上克服了傳統語言學的某些弊病,推動了語言學理論和方法論的進步,但它認為統計只能解釋語言的表面現象,不能解釋語言的內在規則或生成機制,遠離了早期自然語言處理的經驗主義途徑。這種轉換生產語法的研究途徑實際上全盤繼承了理性主義的哲學思潮。1959年喬姆斯基對於斯金納(Skinner)的「言語行為」(Verbal Behavior)的很有影響力的評論在20世紀80年代和90年代之交遭到了學術界在理論上的強烈反對,人民開始注意到基於規則的理性主義方法的缺陷。
過去長期一段時間,絕大多數學者基本上採用基於規則的理性主義方法,這種方法主張,智能的基本單位是符號,認知過程就是在符號的表徵下進行符號運算,因此思維就是符號運算。
著名語言學家弗託(J. A. Fodor)在Representations一書中說:「只要我們認為心理過程是計算過程(因此是由表徵式定義的形式操作),那麼,除了將心靈看作別的之外,還自然會把它看作一種計算機。也就是說,我們會認為,假設的計算過程包含哪些符號操作,心靈也就進行哪些符號操作。因此,我們可大致上認為,心理操作跟圖靈機的操作十分類似。」弗託的這種說法代表了自然語言處理中的基於規則(符號操作)的理性主義觀點。
這樣的觀點受到了學者們的批評。舍爾(J. R. Searle)在他的論文「Minds, Brains and Programmes」中提出了所謂的「中文屋子」的質疑。他提出,假設有一個懂得英文但是不懂中文的人被關在一個屋子中,在他面前是一組用英文寫的指令,說明英文符號和中文符號之間的對應和操作關係。這個人要回答用中文書寫的幾個問題,為此,他首先要根據指令規則來操作問題中出現的中文符號,理解問題含義,然後再使用指令規則把他的答案用中文一個一個寫出來。比如對於中文書寫的問題Q1用中文寫出答案A1,對於中文熟悉的問題Q2,用中文寫出答案A2等等。這顯示是非常困難的,而且幾乎是不能實現的事情,而且即使這個人做成了,也並不能證明他懂得中文,只是說明他善於根據規則做機械的操作而已。舍爾的批評使基於規則的理性主義的方法受到了普遍的懷疑。
可以看出,在自然語言處理發展的過程中,始終充滿了基於規則的理性主義方法和基於統計的經驗主義方法之間的矛盾,這種矛盾時起時伏,此起彼伏。自然語言處理也就在這樣的矛盾中逐漸成熟起來。
自然語言處理既有深層次的現象,也有淺層次的現象;既有遠距離的依存關係,也有近距離的依存關係;自然語言處理中既要使用演繹法,也要使用歸納法。因此,自然語言處理的研究應把理性主義和經驗主義結合起來,把基於規則的方法和基於統計的方法結合起來,過於強調一種方法,反對另一種方法,都是片面的,都無助於自然語言處理的發展。