計算語言學是近年日益受到重視的前沿交叉學科。教育部語言文字應用研究所研究員馮志偉主要研究計算語言學、語言學流派、語料庫語言學、術語學,他是我國最早從事計算語言學的學者之一,從20世紀50年代末在北京大學求學期間踏上計算語言學的學術道路,為我國計算語言學的發展作出了突出貢獻。作為中國計算語言學的主要開創者和發展見證者之一,已屆望九之年的馮志偉研究員仍治學不輟,為學科發展持續貢獻力量。在他看來,要讓下一代學者做好創新的準備,把基於語言大數據的經驗主義方法和基於語言規則的理性主義方法巧妙地結合起來,從而把計算語言學的研究推向深入。
中國社會科學網:您是我國最早從事計算語言學的學者之一,請您介紹下什麼是計算語言學,其跨學科特點主要體現在哪些方面?
馮志偉:計算語言學(computational linguistics)是用計算機研究和處理自然語言的一門新興的交叉學科。由於計算語言學的研究對象是自然語言,因此,語言學家把它算為語言學的一個分支;由於計算語言學採用先進的計算機科學技術來研究和處理自然語言,因此,計算機科學家把它算為計算機科學的一個分支;由於計算語言學要研究自然語言的形式結構和自然語言處理的算法,因此,數學家把它算為應用數學的一個分支。這種情況說明,計算語言學不是一門單純的學科,而是一門交叉學科,具有明顯的跨學科特點。
為什麼計算語言學會出現這樣的跨學科特點呢?這是由計算語言學的研究目標決定的。計算語言學的目標既然是研究和處理自然語言,那麼,它必定要認真地研究計算機處理自然語言的整個過程,提出行之有效的理論和方法。
一般地說,計算機對自然語言的研究和處理應當經過如下四個方面的過程:
第一,把需要研究的問題在語言學上加以形式化,建立語言的形式化模型,使之能以一定的數學形式,嚴密而規整地表示出來,這個過程可以叫做「形式化」。
第二,把這種嚴密而規整的數學形式表示為算法,這個過程可以叫做「算法化」。
第三,根據算法編寫電腦程式,使之在計算機上加以實現,建立各種實用的自然語言處理系統,這個過程可以叫做「程序化」。
第四,對於所建立的自然語言處理系統進行評測,使之不斷地改進質量和性能,以滿足用戶的要求,這個過程可以叫做「實用化」。
因此,為了從事計算語言學的研究,研究人員不僅要具備語言學知識,而且還要具備數學和計算機科學方面的知識,這樣,計算語言學就成為了介乎於語言學、數學和計算機科學之間的邊緣性的交叉學科,它同時涉及到文科、理科和工科三大領域,使得它具有跨學科的性質。
中國社會科學網:請簡要介紹下計算語言學的發展歷程。您從50年代末就開始接觸計算語言學,60多年過去了,現在回顧審視計算語言學的歷史與現狀您有哪些感受和認識?
馮志偉:1946年製造出第一臺電子計算機,3年之後,美國洛克菲勒基金會自然科學部主任韋弗(Weaver)於1949年7月15日發表了關於《翻譯》的備忘錄,提出用計算機來進行機器翻譯的思想,至今已經有71年了。
不過,計算語言學(computational linguistics)這個術語是1962年才出現的。早期的計算語言學研究主要是基於規則的,也就是根據語言學規則來編寫程序,帶有理性主義的色彩,用這種方法研製出來的系統難以應用於大規模的真實文本的自然語言處理。20世紀80年代後期計算語言學開始戰略轉移,採用經驗主義的方法,從大規模的真實的語料庫中獲取語言知識,提高了自然語言處理的效果,進入21世紀之後,計算語言學使用神經網絡的方法,不再用手工獲取自然語言的特徵,而是通過深度學習,讓計算機自動地從語料庫中獲取自然語言的特徵,自然語言處理的效果進一步提高。
我是1957年考入北京大學地球化學專業的,入學之後在北大圖書館看到了一篇使用數學方法研究自然語言的文章,產生了濃厚的興趣,於是毅然從理科轉到中文系學習語言學,後來又考上了研究生,走上了計算語言學研究的道路。我研究計算語言學已經63年的時間了。
我們這一代人正在一天天地變老;然而,我們如痴如醉地鍾愛著的計算語言學事業卻是一個新興的學科,她還非常年輕,充滿了青春的活力,儘管她還不夠成熟,但是她無疑地有著光輝的發展前景。我們個人的生命是有限的,而科學知識的探討和研究卻是無限的。我們個人渺小的生命與科學事業這棵常青的參天大樹相比較,有如滄海之一粟。我們應當加倍努力,在計算語言學的研究中實現自己渺小生命的價值。
中國社會科學網:計算語言學是否契合當前推進的「新文科」建設。
馮志偉:所謂「新文科」,是指在傳統文科的基礎之上進行的學科中不同專業的重組,形成文理交叉,把現代信息技術引入到文科的課程中,為學生提供跨學科學習,培養創新性的思維。計算語言學很自然地把語言學、數學和計算機科學結合在一起,是最為典型的「新文科」,而且早就存在了。在一定程度上講,加強計算語言學研究也就是加強了新文科的建設。
中國社會科學網:計算語言學的研究成果主要有哪些應用?
馮志偉:計算語言學的研究成果可以用於機器翻譯、信息自動檢索、信息抽取、自動文摘、自動閱讀理解、文本數據挖掘、智能問答、人機接口、計算機輔助語言教學、用戶偏好分析等領域,有很大的實用價值。所以,我們可以說:「大哉計算語言學之為用!」
中國社會科學網:您近期在做哪些相關研究工作?
馮志偉:我過去主要從事機器翻譯系統的研製,1978-1981年在法國格勒諾布爾大學應用數學研究所(法文Institut de Mathematique Appliquée de Grenoble,簡稱IMAG)研製過漢語翻譯為法語、英語、日語、俄語、德語5種語言的機器翻譯系統,把20多篇漢語的短文自動地翻譯成5種外語,這是世界上第一個把漢語自動地翻譯成多種外語的機器翻譯系統。此後我又分別研製了若干個外語翻譯成漢語的機器翻譯系統和中文術語資料庫,做了一些應用系統的開發研究。現在我已經進入望九之年,不再做應用系統的開發了。
近年來我的主要精力用於總結計算語言學的理論和方法,寫作專著和教材。我在2017年出版了《自然語言形式分析的理論與方法》一書,是113萬多字的大部頭專著。我還編寫計算語言學教材,出版了《自然語言處理簡明教程》,是87萬字的大部頭教材。
此外,我還把國外優秀的計算語言學著作翻譯成中文,翻譯過《自然語言處理綜論》《統計語言學習》等專著。
我已經出版專著38部,發表論文400多篇,著書立說成為我主要的工作內容。有朋友說我是「著作等身」了!
中國社會科學網:可否舉例介紹一些當前國際上計算語言學的前沿研究。
馮志偉:當前國際上計算語言學研究在機器翻譯方面取得了很大的成就,機器翻譯經歷了基於規則的機器翻譯、統計機器翻譯、神經機器翻譯等階段,現在正在實用化和商品化,機器翻譯已經從學者的夢想變成了活生生的現實。
計算語言學還可以分析用戶的偏好,促進商品的銷售。文本分析公司根據用戶在網際網路論壇和用戶群體組織中表現出來的意見、偏好、態度的自動測試結果,對用戶提供智能化、個性化的服務,幫助用戶在市場上挑選到符合他們要求的商品。
計算語言學的另一個前沿研究是文本的自動閱讀理解。在電影《她(HER)》中有這樣一幕:主人公是一位信件撰寫人,叫做薩曼莎的計算機自動閱讀理解系統在得到主人公的允許後閱讀他的電子郵件資料,總結出需要保留和刪除的電子郵件,幫助他修改信件草稿中的錯字,並且與他探討信件的片段。薩曼莎通過閱讀主人公的海量信息來了解信件撰寫人,也通過閱讀網際網路上的海量數據來了解世界。
這些計算語言學前沿研究的問題都很有趣,可以造福人類。
中國社會科學網:在您看來我國計算語言學學科發展目前主要存在哪些問題?
馮志偉:計算語言學越來越重要,很多語言學家也想參與到計算語言學的研究中來。但是,由於他們大多數是文科背景,不太懂數學和計算機科學,一旦他們參與計算語言學研究,往往感到力不從心。這種情況,也引起理工科背景的計算語言學家的不滿,他們感到很失望。這是我國計算語言學存在的一個主要問題。
著名語音識別專家、美國工程院院士賈裡尼克(F.Jelinek)於1988年12月7日在自然語言處理評測討論會上的發言中曾經說過這樣的話:「每當一個語言學家離開我們的研究組,語音識別率就提高一個臺階。」根據一些參加這次會議的人回憶,當時賈裡尼克的原話更為尖刻,他說:「每當我解僱一個語言學家,語音識別系統的性能就會得到一些改善。」賈裡尼克的這些話在我國語言學界廣為傳播,使得很多語言學家感到很茫然,覺得儘管資訊時代對語言學的發展寄予厚望,但是自己在資訊時代沒有什麼用處,有些灰溜溜的感覺。
賈裡尼克的這段名言說明,在信息網絡時代,如果語言學家不更新知識,仍然恪守於自己原來的知識領域故步自封,將有被時代拋棄的危險。
面對信息網絡時代的新要求,不少語言學家努力學習計算機自然語言處理的技術,不斷進行更新知識的再學習,成為兼通語言學、數學和計算機科學的新一代語言學家。
語言學家更新知識之後,賈裡尼克也改變了對於語言學家的成見。他在2004年發表了一次演講,演講的題目是「我的一些最好的朋友是語言學家」,他在演講的最後說:「物理學家研究物理現象,語言學家研究語言現象。工程師要學會利用物理學家的真知灼見,而我們則要學會利用語言學家的真知灼見。」可見賈裡尼克在16年前奚落的並不是所有的語言學家,而是那些故步自封並且不願意更新知識的語言學家。
由此看來,為了從事計算語言學的研究,語言學家很有必要更新知識,很有必要學習數學和計算機科學的知識。我覺得,這是語言學家從事計算語言學研究的最主要的問題。我希望對於計算語言學感興趣的語言學家應當與時俱進,進行更新知識的再學習,使自己適應計算語言學研究的要求。
中國社會科學網:您認為今後一個時期學界應從哪些方面進一步推進計算語言學研究?
馮志偉:目前,在計算語言學研究中,深度學習(神經網絡)方法成為了主流的方法,幾乎在計算語言學研究的所有領域都採用了深度學習(神經網絡)的方法,這是一種基於語言大數據的經驗主義方法,語言規則受到忽視。不過,我認為,深度學習(神經網絡)應當與語言學研究結合起來,基於語言大數據的經驗主義方法應當與基於語言規則的理性主義方法結合起來,相互促進,相得益彰,這樣才能推動計算語言學的進一步發展。
我們這一代學者趕上了基於語言大數據的經驗主義盛行的黃金時代,我們應當告誡下一代的學者,不要過分地迷信目前廣為流行的基於語言大數據的經驗主義方法,不要輕易地忽視目前受到冷落的基於語言規則的理性主義方法,要做好創新的準備,把基於語言大數據的經驗主義方法和基於語言規則的理性主義方法巧妙地結合起來,從而把計算語言學的研究推向深入。
圖靈獎獲得者辛頓(Hinton)認為,「深度學習的下一個大的進展應當是讓神經網絡真正理解文檔的內容」,他明確地指出了自然語言理解是深度學習(神經網絡)的發展方向,他的看法是語重心長的,值得我們深思。
馮志偉先生和他的部分學術著作