這篇短文刊載於《術語標準化與信息技術》2001第一期,至今已有20年了。這是我業餘研習語言學時期發表的最後一篇文章。這篇文章不僅標誌著我語言研究愛好者身份的結束,也開啟了我的語言學職業生涯。20年前的夏天,我在北京廣播學院主樓三樓會議室,見到了劉繼南校長,在座的還有播音學院院長李曉華教授和當時北廣的人事處處長和組織部部長。2002年,我入職北廣播音學院應用語言學系。這篇短文同時也開啟了我語言研究方法的轉型之路。業餘時間,由於條件限制,我的所謂研究大多是思辨性的,或者拿幾個語例,用自己的腦子處理一下,寫一點感想。這篇短文對某些語言基本問題的反思,使我感覺到,作為一個職業語言學家,如果還這樣繼續下去,那我折騰個什麼勁呢?
記得幾年前,在一次述職答辯會上,有位專家建議我作為一名資深學者,不應老搞這些基於數據的實證研究,可以適當從哲學等角度來做一點什麼,我說,那是我業餘時期搞過的。回到這篇文章的內容來看,許多問題對今天仍然有現實意義,當然也已有一些想法已經成為今天的自然語言處理的主流,比如,基於用法論的NLP,人機智能綜合體等。而我們自己在二十年裡,也通過真實的語料發現了不少有趣的人類語言運作規律,這些規律能更好地反映人類的現實,因此也在人工智慧、二語習得、特殊人群語言等領域得到了一定的應用。我們近年來對人工智慧時代語言研究的一些思考,可見文末的擴展閱讀部分。智能時代,語言智能,沒有語言也難言智能,但這不意味著語言學家就必然有用,因為人的智能不等於人工智慧。
1、語言和智能
利用人造物來模仿人類某些智能行為的思想,可以上溯到16、17世紀。語言作為反映人類智能行為最重要的特質和智能的外化,長期以來一直被人們認為是認識和揭開人類智能之謎的一把鑰匙。早在計算機問世以前,人們就力圖通過計算的或機械的方式來解決只有人才能完成的某些語言處理功能。本世紀40年代計算機作為擴展人類智力的工具問世之後,第一個在人文領域應用的項目——機器翻譯——也是與語言有關的,這絕非偶然,而只是人類在這一領域研究探索的必然結果。通過計算機來模仿人類語言處理能力的努力,在計算機科學和語言學中都產生了專門的分支:自然語言處理和計算語言學。二者的本質是基本相同的,區別可能僅僅在於自然語言處理更注重實踐,而計算語言學較重視理論。也可以說,計算語言學是建構自然語言處理系統的理論基礎,本文為方便起見,在使用時對此術語不作區分。應該說,人們利用計算機處理自然語言幾十年來,人已取得了一定的成績,這些成果反過來對於人類了解自己的語言也有極大的幫助,但是總的進展不容樂觀,還有許多問題有待於解決,還有許多的認識需要明辨。為了能夠更好地解決這一問題,認識到其癥結所在,我們有必要開闊眼界,從多角度、多學科去研究、思考這一問題。
人工智慧是利用計算的思想和方法來研究智能的學科,換言之,人工智慧是利用計算機等人造物對人類智能行為的仿真研究。目前我們對人類智能的機理還不是很清楚,這便帶來對這種行為仿真的困難。人是語言的動物,語言是人區別於其他動物的特徵之一,也是人類表達知識、傳遞知識和交流思想的最重要工具,或者說語言是人類最明顯的一種智能行為。因此有的學者提出了「對語言的解析過程就是對人類本身的解剖過程,是對人類智能機理的分析和認識過程」這樣一種看法。自然語言處理作為人工智慧領域最有意義、同時也是最困難的分支,多年來吸引了眾多的研究者們。為了仿真人類的語言處理能力,我們有必要對語言現象作本質的理解,按照我們的理解,一個沒有語言學理論作為建構基礎的自然語言處理系統很難成為真正意義上的對人類語言處理機制的仿真系統。但是在仔細閱讀、分析了大量的語言學及其他相關學科的文獻後,我們發現問題不是如此簡單,它涉及到大量哲學、邏輯學、心理學等學科。對這一問題的思考,只能將它放入人類認識自己的歷史長河中去考慮。
語言和人類思維有著密切的關係,這一點已被大量的有關領域研究所證實。在某些學者看來,語言不僅僅是人類交流知識的工具,而且是知識的主要載體,甚至也是人類的知識界定器。在這裡我們不可能討論這種說法是否過於強調了語言對於人類的重要性,但毫無疑問的是對語言的研究有助於對人類智能奧秘的破譯。
2、語言是可以計算的嗎?
為什麼我們認為計算機可以仿真人類的語言處理機制、乃至人類的整個智能行為呢?將計算機作為一種定性的、離散的機器來處理語言材料就必需首先懂得語言的結構及其他特徵,這就要求人們能把語言的結構和其他所需的材料精確地改寫成計算機可以理解的程序和數據結構。顯然這一思想的理論依據可能在於「世界是由大量的離散事實組成的」,換言之,有關世界上萬事萬物的知識可以用所謂的「知識因子」來描述。支持這種說法的哲學論斷可以上溯到柏拉圖的有關學說,後又有著名的人物萊布尼茲、休謨、羅素和前期的維根斯坦搖旗吶喊。由於有了理想的處理離散事實的裝置(計算機)和這些哲學理論的支持,人們便認為我們可以構造出柏拉圖所探索的那一個世界:一個明晰性、確定性和控制都已得到保證的世界。在人工智慧研究者的眼中就是一個由數據結構、決策理論和自動化構成的世界。然而,在還沒有得到完全明晰表達的這種確定性的時候,哲學家自己已經開始懷疑這些說法了,這其中最具傳奇色彩的是維根斯坦,在其後期的「哲學研究」一書中,他對自己早期在「邏輯哲學論」中所提出的論點進行了深刻的、嚴厲的批判。維根斯坦的這種轉變是當代哲學研究的「語言轉向」中的重要事件。如果哲學界可以開始脫離基於分解、離散的研究導向,根據這一思想發展起來的人工智慧(自然語言處理)界是否也應該反思一下自己呢?
對於語言的計算機處理而言,首先我們要問的是「語言是可以計算的嗎?」,這是自然語言處理和計算語言學的基本問題。可計算首先需要語言是可分解的,最早觀察到語言的這種特性的是德國學者洪堡特,他說:「語言面對的是一個無限的、無邊無際的領域,即一切可思維對象的總和,因此,語言必須無限地運用有限的手段,而思維的力量和語言的創造力量的同一性確保了語言能夠做到這一點」。事實上,我們今天對於洪堡特這一名言的理解主要是由於喬姆斯基(Chomsky)的推廣,喬氏在此基礎上構建了聞名於世的生成語法理論。從本世紀50年代開始,喬氏及其追隨者推出了許多生成語法理論的變種,其主要的目的之一就是限制生成語法過強的生成能力。由此,我們可以說,語言可以通過有限的規則來生成無限的語句,但我們對於這種生成機理的理解還不是很清楚。我們目前對於語言生成性理解的不足,導致了我們現在構建的自然語言處理系統存在這樣那樣的問題。借用自動化理論中的說法,就是由於對控制對象理解不透,建立的數學模型不能完全反映現實情況,從而導致系統精度下降。正如我國機器翻譯專家劉湧泉先生一篇文章標題所說的那樣,「機器翻譯歸根到底是個語言學問題」,他的這一句話也適合自然語言處理的其他領域。因為機器翻譯是集眾多自然語言處理技術於一身的研究領域。
雖然喬氏的理論到目前為止,只是部分證明了語言的可計算性。有趣的是,計劃語言的歷史完全證明了通過有限的語法規則和有限的詞彙是可以產生無限的語言文本的。雖然計劃語言可以證明這一點,但使用它的是人腦,而非電腦。於是,我們有理由說語言是可以計算的,但如何用人造物來仿真其運作機理還有待於進一步的研究探討。
3、語義和「分解」
如果說,從「分解」的思想我們得到了語言的「可計算性」,它也在一定程度上阻礙了我們對於語言「可計算性」的進一步理解和實際運用。通過有限的規則產生無限的文本,一般而言指的是語言作為一種符號系統的形式方面,即語言的句法方面。很自然的,人們也將在句法領域有效的「分解」思想用到了語言符號的內容方面,即語義領域。在語言學和計算語言學中,「分解」的思想產生了至今為止最大的語義處理方法,即「義素」法。集中於語義分解的理論和方法之實質是利用某些任意的「義素」或「語義標式」來描述意義的深層結構。從理論上說,如果有足夠的「義素」,就可以描述所有詞的全部意義。然而實際上要確定一個詞究竟含有多少成分,含有哪些成分,是很困難的。這是由於「語義」的根本屬性——模糊性和不界定性造成的,除此之外,各人對同一詞的理解不同,很難制訂出統一的語義標式和義素。一個詞形的不同解釋應看作一個連續集上的若干點——意義猶如一塊沒有明顯界限的無縫織物。意義的本質是不可分割的,或者說是不可量化的。對一種不能分割的東西採用分割的辦法來處理,結果可想而知。語言哲學家普特南說:「自然語言中的詞一般說來不能用是與否來劃界限:有些東西顯然可以稱為樹,有些東西顯然不可以稱為樹,然而還有一些屬於邊緣情況。更遭的是顯然和邊緣的分界本身也是不清楚的」。這可能說明採用語義分解技術本身是難有出路的,至少是不能完全處理語義問題的。
由於「義素」分析法所暴露出的問題和缺陷,語義研究的熱點已由過去的「義素」或「成分分析」轉向「語義場」。「語義場」研究的本質就是對人類知識的劃分和表示,而這種認識自然和表現世界的方法,在計劃語言中屢見不鮮。在計劃語言中,這種方案被稱之為先驗及表意型系統。在上百種表意型方案中,加工最為細緻的當推英國人 John Wilkins 於 1668 年公布的方案,他將整個世界劃分為40個大類。在 40 個大類下,進一步又劃分為子類和種。為了表示這些劃分出來的概念,他發明了一種稱之為 real character 的表意符號。在Wilkins 之後,出現過許許多多基於人類知識分類的計劃語言方案,表示的方法有數字、圖像、特製的符號等等。Wilkins 希望自己的方案能成為一種人類通用的知識表達和信息交流工具,但遺憾的是他和其他許多基於知識分類的作者一樣失敗了。順便說一下,Wilkins的以上方案一般被認為是17世紀人類企圖採用機械的方式來處理語言問題的代表。
人類對於世界的認識是不斷變化的,這種變化來自於人類本身的進步和社會的發展。隨著時間的推移,人類對知識的分類也是會變化的,我們認為「語義場」理論可能會解決某些語義方面的問題,但一定是有限的。因為和義素分析法一樣,也是基於知識是可分解的,是可離散化的基礎之上的。同時計劃語言的實踐證明了這種方法的局限性。
4、歧義和知識
如果我們無法用「分解」的方法來滿意地處理語義問題,這也並不意味著語義是完全不可計算的。實際上,我們說自然語言處理的問題是語言問題,那是由於在自然語言的各個層面均存在歧義問題。用一句並非誇張的話來說,自然語言處理界幾十年的發展歷史就是與歧義鬥爭的歷史。為什麼這些歧義問題對於人類沒有造成嚴重的問題,但卻讓計算機理解語言的研究止步不前呢?
歧義作為影響語言正確理解的最大障礙,於是理所當然便成為計算語言學中語義研究的重點。對於語義的研究導致了計算語義學的產生,它的目的在於研究自然語言語義形式化的理論和方法。狹義說計算語義學是將語義分析看作為一種演算過程,它通過邏輯的方法處理語義問題,而從廣義上講,計算語義學研究是利用計算機來處理和仿真人類語義處理機制的方法和理論,特別是歧義問題的處理和消解。
中國計算語言學家馮志偉先生根據歧義結構的特點提出了稱之為「潛在歧義論(PA)」的理論,該理論能客觀地解釋歧義的結構和歧義的消解過程,PA 比以往有關歧義問題的研究更深入了一步。自然語言本身是充滿歧義的,但它自己也提供了一定的歧義消解手段,否則語言難以成為人類傳遞和保存知識的重要工具。PA 理論在進一步細化詞類,或者說在詞類中引入語義信息的基礎上,將原有單從句法結構來描述的歧義格式發展到語義層次,這無疑前進了一大步,因為歧義現象原本就是一種語義層次的現象。一旦涉及到語義,難免會引出一些我們目前還不很清楚的東西,PA理論重視各種句法成分中的語義關係,可以說正是這些語義關係的存在支持著PA理論對歧義問題的新解釋。但是計算機如何理解和採用何種方法去處理這些語義關係,還有待於進一步研究。
如果承認計算語義學研究是人類語義處理機制的仿真,那麼分析人類對於語義的處理方式和消解過程可能是有益的。人類處理歧義問題的關鍵在於人的大腦中存有大量的知識,這些知識包括句法的、語義的和其他各類常識,利用這些知識人們可以很容易地理解對計算機來說有歧義的語句,正是這些知識在某種程度上支持了PA理論的正確性和可操作性。與人一樣為了較完美地解決這個難題,計算機必然需要大量的各種知識。由於計算機與人有著極大的不同,知識需顯式表示出來,然而許多知識是模糊的、難於量化的,換言之,尋求適宜的、有效的知識表示方法是利用現有計算資源實現自然語言處理系統的唯一途徑。理論上,我們不難把某些有關外部世界的知識授於計算機,難就難在世上的知識是無窮盡的,而我們還不十分清楚為了消除歧義,系統究竟需要什麼樣的知識。
語義的不可分解性和隱含性、歧義問題的複雜性、語言理解的無限性、語義的關聯性、大規模真實文本處理的迫切性等,所有這些因素交織在一起,使得我們必須尋求新的語義處理方法和機制。我們認為對於有歧義的語句,理解的任務就是從多種結構中選出最適宜的和最可能的結構,注意我們在這裡使用了「適宜」和「可能」這兩個非絕對的詞,目的在於說明在語言理解領域沒有什麼絕對的正確,而只有相對的「可能」。在這種思想的指導下,我們曾經提出過「意義等於它的語境關係的總和」的語義概念和「基於類比原則」的語義處理機制。目前國際計算語言學界頗為看重的「基於語料庫」的語言處理方法,其本質也是一種從定性到非定性的轉向。這種轉向是否暗合著我們上面所提到的哲學轉向?還有待於時間證明。
人類處理語言的能力是一種高度的智能行為,如果把智能理解為一種運用知識解決問題的能力,那麼構造任何基於知識的人工系統的過程就是收集知識、整理知識和計劃運用知識的策略。以人類現有的理論和技術水平而言,構造一個完全取代人類智能的機器是不可能的。我們認為現階段比較現實的研究目標是構建一種「人機智能綜合體」來解決一些需要人類知識,但又限於某些原因難以實現的問題。在「人機智能綜合體」中,人和機器(一般為計算機)能充分發揮各自的長處,共同努力使問題取得最優或可行的解。這說明構建一種基於「人機合作、互助」的語言自動處理系統的必要性和可行性。於是我們賦予「人是機器」這一名言以新的涵義,人和機器均是欲構建的智能處理系統的組成部分。
語言和知識具有極強的整體性、關聯性的這一特質,迫使我們在研究自然語言處理系統時,必須對此予以考慮,否則研製出的系統就會先天不足,難以處理眾多複雜的語言現象。語言及其人類語言的產品可以被認為是人類智能行為加工、處理的結果,是研究人類智能行為最大的原始資源。事實上,在人類悠長歷史發展中,語言(及其產品)是唯一看的見的知識載體和最重要的延續人類智能的東西。對於人類具體智能處理機制的無知和此機制本身的不可知性,使得我們只能從智能行為的產品和外特性著手,去仿真人類智能系統的處理機制。可以將其看做是一種介於白箱與黑箱之間的灰色仿真系統。語言學諸領域和認知心理學中的研究成果可以被認為是其主要的理論基礎,計算語言學中的許多理論和方法是系統實現的手段。
5、結語
綜觀人類對語言的研究可以發現,我們對於語言的認識和研究的深度是與社會的發展密切相關的,是與人類對整個世界的認識息息相關的。即:語言研究是有其時代特徵的。眾多的事實表明我們目前處於一個信息和知識趨於「爆炸」的時代,這一時期語言研究的特點是語言研究不僅僅考慮人類的需要,而也應該顧及到機器。研究「人機共用」的詞典、語法等便成為這一時期的語言研究的重點。計算機的普及和國際網際網路的出現,將人類推向一個新的階段。由於人與人之間的虛擬距離已經變的非常接近,人類不能再滿足於傳統的語言交流方式。為此,如何利用計算機來解決由於它的出現而變得日益嚴重的人類語言交流問題,就成為擺在許多學者面前的重要任務。遺憾的是,由於計算機的結構和處理問題的方式與人類有著本質的不同,加之我們人類對於自己處理語言的機理尚有許多不清楚的地方,於是雖然我們極力想通過計算機來仿真人的語言行為,但進展甚微。如果我們不是孤立地看待語言的自動處理問題,而是將它看作人類探索自身過程中的一個環節。我們就會對這一問題有新的認識。本文就是筆者結合其他領域,對語言的計算機處理問題的幾點思考。
參考文獻(略)
如需引用,請點擊「閱讀原文」連結。引用格式:劉海濤.關於自然語言計算機處理的幾點思考[J].術語標準化與信息技術,2001(01):23-27.
拓展閱讀:感興趣的朋友,也可以參閱作者近幾年發表的一些文章。《大數據時代語言研究的方法和趨向》《中國語言學建設兩大要務:成果國際化和方法科學化》《數據驅動的應用語言學研究》《大數據時代語言學理論研究的路徑與意義》。