馮志偉談計算語言學

2020-12-13 中國社會科學網

  計算語言學是近年日益受到重視的前沿交叉學科。教育部語言文字應用研究所研究員馮志偉主要研究計算語言學、語言學流派、語料庫語言學、術語學,他是我國最早從事計算語言學的學者之一,從20世紀50年代末在北京大學求學期間踏上計算語言學的學術道路,為我國計算語言學的發展作出了突出貢獻。作為中國計算語言學的主要開創者和發展見證者之一,已屆望九之年的馮志偉研究員仍治學不輟,為學科發展持續貢獻力量。在他看來,要讓下一代學者做好創新的準備,把基於語言大數據的經驗主義方法和基於語言規則的理性主義方法巧妙地結合起來,從而把計算語言學的研究推向深入。

  中國社會科學網:您是我國最早從事計算語言學的學者之一,請您介紹下什麼是計算語言學,其跨學科特點主要體現在哪些方面?

  馮志偉:計算語言學(computational linguistics)是用計算機研究和處理自然語言的一門新興的交叉學科。由於計算語言學的研究對象是自然語言,因此,語言學家把它算為語言學的一個分支;由於計算語言學採用先進的計算機科學技術來研究和處理自然語言,因此,計算機科學家把它算為計算機科學的一個分支;由於計算語言學要研究自然語言的形式結構和自然語言處理的算法,因此,數學家把它算為應用數學的一個分支。這種情況說明,計算語言學不是一門單純的學科,而是一門交叉學科,具有明顯的跨學科特點。

  為什麼計算語言學會出現這樣的跨學科特點呢?這是由計算語言學的研究目標決定的。計算語言學的目標既然是研究和處理自然語言,那麼,它必定要認真地研究計算機處理自然語言的整個過程,提出行之有效的理論和方法。

  一般地說,計算機對自然語言的研究和處理應當經過如下四個方面的過程:

  第一,把需要研究的問題在語言學上加以形式化,建立語言的形式化模型,使之能以一定的數學形式,嚴密而規整地表示出來,這個過程可以叫做「形式化」。

  第二,把這種嚴密而規整的數學形式表示為算法,這個過程可以叫做「算法化」。

  第三,根據算法編寫電腦程式,使之在計算機上加以實現,建立各種實用的自然語言處理系統,這個過程可以叫做「程序化」。

  第四,對於所建立的自然語言處理系統進行評測,使之不斷地改進質量和性能,以滿足用戶的要求,這個過程可以叫做「實用化」。

  因此,為了從事計算語言學的研究,研究人員不僅要具備語言學知識,而且還要具備數學和計算機科學方面的知識,這樣,計算語言學就成為了介乎於語言學、數學和計算機科學之間的邊緣性的交叉學科,它同時涉及到文科、理科和工科三大領域,使得它具有跨學科的性質。

  中國社會科學網:請簡要介紹下計算語言學的發展歷程。您從50年代末就開始接觸計算語言學,60多年過去了,現在回顧審視計算語言學的歷史與現狀您有哪些感受和認識?

  馮志偉:1946年製造出第一臺電子計算機,3年之後,美國洛克菲勒基金會自然科學部主任韋弗(Weaver)於1949年7月15日發表了關於《翻譯》的備忘錄,提出用計算機來進行機器翻譯的思想,至今已經有71年了。

  不過,計算語言學(computational linguistics)這個術語是1962年才出現的。早期的計算語言學研究主要是基於規則的,也就是根據語言學規則來編寫程序,帶有理性主義的色彩,用這種方法研製出來的系統難以應用於大規模的真實文本的自然語言處理。20世紀80年代後期計算語言學開始戰略轉移,採用經驗主義的方法,從大規模的真實的語料庫中獲取語言知識,提高了自然語言處理的效果,進入21世紀之後,計算語言學使用神經網絡的方法,不再用手工獲取自然語言的特徵,而是通過深度學習,讓計算機自動地從語料庫中獲取自然語言的特徵,自然語言處理的效果進一步提高。

  我是1957年考入北京大學地球化學專業的,入學之後在北大圖書館看到了一篇使用數學方法研究自然語言的文章,產生了濃厚的興趣,於是毅然從理科轉到中文系學習語言學,後來又考上了研究生,走上了計算語言學研究的道路。我研究計算語言學已經63年的時間了。

  我們這一代人正在一天天地變老;然而,我們如痴如醉地鍾愛著的計算語言學事業卻是一個新興的學科,她還非常年輕,充滿了青春的活力,儘管她還不夠成熟,但是她無疑地有著光輝的發展前景。我們個人的生命是有限的,而科學知識的探討和研究卻是無限的。我們個人渺小的生命與科學事業這棵常青的參天大樹相比較,有如滄海之一粟。我們應當加倍努力,在計算語言學的研究中實現自己渺小生命的價值。

  中國社會科學網:計算語言學是否契合當前推進的「新文科」建設。

  馮志偉:所謂「新文科」,是指在傳統文科的基礎之上進行的學科中不同專業的重組,形成文理交叉,把現代信息技術引入到文科的課程中,為學生提供跨學科學習,培養創新性的思維。計算語言學很自然地把語言學、數學和計算機科學結合在一起,是最為典型的「新文科」,而且早就存在了。在一定程度上講,加強計算語言學研究也就是加強了新文科的建設。

  中國社會科學網:計算語言學的研究成果主要有哪些應用?

  馮志偉:計算語言學的研究成果可以用於機器翻譯、信息自動檢索、信息抽取、自動文摘、自動閱讀理解、文本數據挖掘、智能問答、人機接口、計算機輔助語言教學、用戶偏好分析等領域,有很大的實用價值。所以,我們可以說:「大哉計算語言學之為用!」

  中國社會科學網:您近期在做哪些相關研究工作?

  馮志偉:我過去主要從事機器翻譯系統的研製,1978-1981年在法國格勒諾布爾大學應用數學研究所(法文Institut de Mathematique Appliquée de Grenoble,簡稱IMAG)研製過漢語翻譯為法語、英語、日語、俄語、德語5種語言的機器翻譯系統,把20多篇漢語的短文自動地翻譯成5種外語,這是世界上第一個把漢語自動地翻譯成多種外語的機器翻譯系統。此後我又分別研製了若干個外語翻譯成漢語的機器翻譯系統和中文術語資料庫,做了一些應用系統的開發研究。現在我已經進入望九之年,不再做應用系統的開發了。

  近年來我的主要精力用於總結計算語言學的理論和方法,寫作專著和教材。我在2017年出版了《自然語言形式分析的理論與方法》一書,是113萬多字的大部頭專著。我還編寫計算語言學教材,出版了《自然語言處理簡明教程》,是87萬字的大部頭教材。

  此外,我還把國外優秀的計算語言學著作翻譯成中文,翻譯過《自然語言處理綜論》《統計語言學習》等專著。

  我已經出版專著38部,發表論文400多篇,著書立說成為我主要的工作內容。有朋友說我是「著作等身」了!

  中國社會科學網:可否舉例介紹一些當前國際上計算語言學的前沿研究。

  馮志偉:當前國際上計算語言學研究在機器翻譯方面取得了很大的成就,機器翻譯經歷了基於規則的機器翻譯、統計機器翻譯、神經機器翻譯等階段,現在正在實用化和商品化,機器翻譯已經從學者的夢想變成了活生生的現實。

  計算語言學還可以分析用戶的偏好,促進商品的銷售。文本分析公司根據用戶在網際網路論壇和用戶群體組織中表現出來的意見、偏好、態度的自動測試結果,對用戶提供智能化、個性化的服務,幫助用戶在市場上挑選到符合他們要求的商品。

  計算語言學的另一個前沿研究是文本的自動閱讀理解。在電影《她(HER)》中有這樣一幕:主人公是一位信件撰寫人,叫做薩曼莎的計算機自動閱讀理解系統在得到主人公的允許後閱讀他的電子郵件資料,總結出需要保留和刪除的電子郵件,幫助他修改信件草稿中的錯字,並且與他探討信件的片段。薩曼莎通過閱讀主人公的海量信息來了解信件撰寫人,也通過閱讀網際網路上的海量數據來了解世界。

  這些計算語言學前沿研究的問題都很有趣,可以造福人類。

  中國社會科學網:在您看來我國計算語言學學科發展目前主要存在哪些問題?

  馮志偉:計算語言學越來越重要,很多語言學家也想參與到計算語言學的研究中來。但是,由於他們大多數是文科背景,不太懂數學和計算機科學,一旦他們參與計算語言學研究,往往感到力不從心。這種情況,也引起理工科背景的計算語言學家的不滿,他們感到很失望。這是我國計算語言學存在的一個主要問題。

  著名語音識別專家、美國工程院院士賈裡尼克(F.Jelinek)於1988年12月7日在自然語言處理評測討論會上的發言中曾經說過這樣的話:「每當一個語言學家離開我們的研究組,語音識別率就提高一個臺階。」根據一些參加這次會議的人回憶,當時賈裡尼克的原話更為尖刻,他說:「每當我解僱一個語言學家,語音識別系統的性能就會得到一些改善。」賈裡尼克的這些話在我國語言學界廣為傳播,使得很多語言學家感到很茫然,覺得儘管資訊時代對語言學的發展寄予厚望,但是自己在資訊時代沒有什麼用處,有些灰溜溜的感覺。

  賈裡尼克的這段名言說明,在信息網絡時代,如果語言學家不更新知識,仍然恪守於自己原來的知識領域故步自封,將有被時代拋棄的危險。

  面對信息網絡時代的新要求,不少語言學家努力學習計算機自然語言處理的技術,不斷進行更新知識的再學習,成為兼通語言學、數學和計算機科學的新一代語言學家。

  語言學家更新知識之後,賈裡尼克也改變了對於語言學家的成見。他在2004年發表了一次演講,演講的題目是「我的一些最好的朋友是語言學家」,他在演講的最後說:「物理學家研究物理現象,語言學家研究語言現象。工程師要學會利用物理學家的真知灼見,而我們則要學會利用語言學家的真知灼見。」可見賈裡尼克在16年前奚落的並不是所有的語言學家,而是那些故步自封並且不願意更新知識的語言學家。

  由此看來,為了從事計算語言學的研究,語言學家很有必要更新知識,很有必要學習數學和計算機科學的知識。我覺得,這是語言學家從事計算語言學研究的最主要的問題。我希望對於計算語言學感興趣的語言學家應當與時俱進,進行更新知識的再學習,使自己適應計算語言學研究的要求。

  中國社會科學網:您認為今後一個時期學界應從哪些方面進一步推進計算語言學研究?

  馮志偉:目前,在計算語言學研究中,深度學習(神經網絡)方法成為了主流的方法,幾乎在計算語言學研究的所有領域都採用了深度學習(神經網絡)的方法,這是一種基於語言大數據的經驗主義方法,語言規則受到忽視。不過,我認為,深度學習(神經網絡)應當與語言學研究結合起來,基於語言大數據的經驗主義方法應當與基於語言規則的理性主義方法結合起來,相互促進,相得益彰,這樣才能推動計算語言學的進一步發展。

  我們這一代學者趕上了基於語言大數據的經驗主義盛行的黃金時代,我們應當告誡下一代的學者,不要過分地迷信目前廣為流行的基於語言大數據的經驗主義方法,不要輕易地忽視目前受到冷落的基於語言規則的理性主義方法,要做好創新的準備,把基於語言大數據的經驗主義方法和基於語言規則的理性主義方法巧妙地結合起來,從而把計算語言學的研究推向深入。

  圖靈獎獲得者辛頓(Hinton)認為,「深度學習的下一個大的進展應當是讓神經網絡真正理解文檔的內容」,他明確地指出了自然語言理解是深度學習(神經網絡)的發展方向,他的看法是語重心長的,值得我們深思。

馮志偉先生和他的部分學術著作

相關焦點

  • 計算語言學相關資料
    發展歷程通過這個定義,我們可以看出計算語言學是計算機科學、語言學等不同領域而又彼此交叉的學科。馮志偉於2011年在《外國語》第34卷第1期上發表了《計算語言學的歷史回顧與現狀分析》,簡要地介紹了計算語言學的發展歷程,從20世紀40年代到50年代末的萌芽,其中頗為有名的是1936年Turing給「可計算性」下的嚴格的數學定義,並提出了「圖靈機」[2](Turing Machine)的數學模型。
  • 計算語言學前景廣闊
    計算語言學是用計算機研究和處理自然語言的一門新興交叉學科。在近年推進新文科建設的背景下,計算語言學及其相關應用日益引起關注。計算語言學領域相關學者在接受本報記者採訪時表示,計算語言學方興未艾,應用廣泛,前景廣闊。
  • 計算語言學研究70年(一)
    第十三章 計算語言學研究70年第一節 引言計算語言學是利用計算機技術,從計算的角度出發,尋找自然語言的規律,以使得計算機系統能夠像人類那樣理解和生成自然語言的研究。計算語言學是一門交叉學科,它涉及語言學、數學以及計算機科學等。在計算機領域,被稱為自然語言處理。當處理的對象為中文時,稱中文信息處理。1950年提出的圖靈測試一般被認為是自然語言處理思想的發端。
  • 專訪馮志偉:NLP 研究尚處於初級階段,未來將屬於年輕一輩
    這是馮志偉教授今年獲得 CCF-NLPCC 傑出貢獻獎的得獎理由。作為中國最早進行計算語言學研究的元老級人物之一,馮志偉教授目前為北京大學、浙江大學、中國傳媒大學、大連海事大學兼職教授,杭州師範大學高端特聘教授。
  • 【學科】大哉,計算語言學之為用
  • 當前計算語言學發展的幾個特點
    計算語言學對人工智慧意義重大計算語言學是研製智能化電子計算機的一項基礎性工作,而人工智慧的研究又離不開對自然語言的處理,因此計算語言學的研究在人工智慧的研究中起著舉足輕重的作用。人們早已為計算機軟體設計了許多人工語言。
  • ——《計算語言學方法研究》成果選介
    中國共產黨新聞 >> 全國哲學社會科學規劃辦公室 >> 成果選介 >> 學科成果 >> 語言學 計算語言學方法研究 ——《計算語言學方法研究》成果選介
  • 計算語言學,iBrandUp人物
    點擊播放 GIF 0.0M- 這篇專訪將聚焦於計算語言學-△ 陳佳媛關鍵詞計算語言學、語言哲學、計算美學、AI設計研究領域是:計算語言學,計算美學、數字人文、語言哲學。△計算語言學的詞雲其中,計算語言學是一門跨學科的研究領域,試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析,理解和處理自然語言。
  • 關注人工智慧時代的語言學研究
    「從20世紀七八十年代開始,自然語言處理的研究方法從以語言學提供的形式理論和計算方法為主,轉向以基於統計方法的研究為主。但當前的研究仍然無法處理深層語義理解等問題。」首都師範大學國家語委中國語言智能研究中心主任周建設介紹稱,近年來,計算語言學等學科利用人工智慧技術,以語義分析中的指代、隱喻、情感分析等研究方向作為突破口,解釋自然語言處理過程中的語義理解等問題。越來越多的學者意識到,要真正解決語義理解問題,還應依靠傳統語言學的理論成果,單純依靠統計方法無法繼續取得跨越性的突破。
  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 計算語言學院校信息大匯總!丨語言學午餐
    之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。
  • 吉林大學語言學及應用語言學專業碩士研究生培養方案
    新東方網>大學教育>考研>考研資訊>招生信息>正文吉林大學語言學及應用語言學專業碩士研究生培養方案 2012-07-13 10:27 來源:中國研究生招生信息網
  • 計算社會語言學:是啥?咋搞?
    我們將計算社會語言學構建為一個有獨立目標的研究領域,包括開發支持社會語言學的工具,建立包含語言內容以及社會背景信息的數據建模和分析的新統計方法,以及基於社會語言學見解開發或改進NLP工具。1.2 討論範圍鑑於這一領域的廣度,我們將按如下方式限制本次調查的範圍。首先,社會語言學主題的覆蓋將是選擇性的,主要由計算語言學中涉及社會語言學主題的工作決定。
  • 計算語言學研究所:支流的風景一樣好
    在北大理科一號樓四層的一個走廊裡,「計算語言學研究所」的牌子安靜地掛著。徑直往裡走,便能看到辦公室裡學者們忙碌的身影。雖然隸屬於號稱「北大第一大院」的信息科學技術學院,但計算語言學研究所卻鮮為人知,「計算語言學」這個學科也被冠以「冷門」的名號。
  • 來自一個計算語言學的不完全指南
    】一、什麼是計算語言學?你只需要掌握相關的知識和技能來解決實際的語言學或應用問題即可,不必要糾結這些概念。計算語言學下面還細分語音處理、文本分析、機器翻譯、知識圖譜等具體方向。因為這三個術語或學科緊密相連,大致的區分按字面就能區分;但深入之後,它們有很多重合的部分。很多學者在理解上也是很有爭議的。甚至有人認為,計算語言學和自然語言處理只是在語言學和計算機科學的不同稱呼,實質相同。
  • 馮志偉:用數學方法來研究語言(簡體中文)、英文經典《自然語言處理綜論(第二版)》漢譯詳解附目錄[文末可下載2萬字PDF]
    ,杭州師範大學特聘教授,主要研究方向是自然語言處理、計算語言學、數理語言學、語料庫語言學、現代術語學。1978年至1981年,在法國格勒諾布爾理科醫科大學應用數學研究所(IMAG)自動翻譯中心(CETA)師從法國著名數學家、國際計算語言學委員會主席B. Vauquois教授,專門研究數理語言學和機器翻譯問題。回國後,先後擔任中國科學技術信息研究所計算中心機器翻譯研究組組長、教育部語言文字應用研究所計算語言學研究室主任、杭州師範大學外國語學院高端特聘教授。
  • 計算語言學與深度學習
    期《譯文》作者:克里斯多福·D.約瑟夫·雷辛格(Joseph Reisinger)在他的博客中寫道:「我經常會遇到那些推銷『通用機器學習』的創業公司,老實講這個創意很荒唐。機器學習不是無差別舉重項目,也不能像亞馬遜彈性計算雲EC2(Elastic Compute Cloud)那樣商品化(commoditizable),機器學習與其說是編程,不如說更像設計。」而從事語言學和自然語言處理的人正是設計師。
  • 華人計算語言學博士發明具人工智慧搜尋引擎
    華聲報訊:據英國廣播公司報導,華人計算語言學博士喬鴻亮發明了第三代搜尋引擎lexxe,其特徵是「語言計算」(linguistic computing)。  「語言計算」的優勢是具備人工智慧,能識別不同類型語句,進行語法分析,判斷用戶意圖,從而提供類似百科全書的直接有效答案。
  • 第十七屆中國計算語言學大會聚焦自然語言的處理
    中新社長沙10月21日電 (王昊昊 楊嘉儀)10月19日至21日,第十七屆中國計算語言學大會暨第六屆基於自然標註大數據的自然語言處理國際學術研討會在長沙理工大學召開,來自清華大學、北京大學、百度、搜狗等單位的逾800名計算語言學研究者和相關專家學者參會。
  • 會議 | 第十九屆中國計算語言學大會(CCL 2020)
    第十九屆中國計算語言學大會」(The Nineteenth