——《計算語言學方法研究》成果選介

2020-12-11 中國共產黨新聞網

中國共產黨新聞 >> 全國哲學社會科學規劃辦公室 >> 成果選介 >> 學科成果 >> 語言學

計算語言學方法研究

——《計算語言學方法研究》成果選介

  2011年05月15日16:51  

  教育部語言文字應用研究所馮志偉教授主持完成的國家社會科學基金項目《計算語言學方法研究》(批准號為03BYY019),最終成果為同名專著。課題組成員有:楊泉、胡鳳國、張和友。

  計算語言學(computational linguistics)是用計算機研究和處理自然語言的一門新興邊緣學科,涉及語言學、計算機科學、數學、心理學等部門。在計算語言學的發展過程中,提出了很多方法,這些方法,在理論上有一定的深度,在實踐上有實用價值,值得引起我們語言學研究者的重視。但是,國內計算語言學界對於這些方法的研究基本上是支離破碎的,缺乏系統的總結,更缺乏理論上的分析。本課題在全面調查國內外計算語言學各種方法的基礎上,對這些方法進行了系統的描述,並在理論上進行了深入的分析和概括,總結出規律性的具有方法論意義的認識。其主要內容分為七個部分。

  一、計算語言學的學科定位和主要方法

  這一部分首先從計算機處理自然語言的過程、計算語言學的範圍以及計算語言學的歷史三個角度來考察計算語言學的學科定位問題。從計算機處理自然語言的過程來考察它的學科定位,是從縱的角度來討論;從計算語言學的範圍來考察它的學科定位,是從橫的角度來討論。通過這種縱橫交錯的考察,我們對於計算語言學的學科定位就可以在共時的平面上得到比較清晰的認識。然後,我們再從計算語言學的歷史來考察,也就是從發展的角度來討論,這樣,我們對於計算語言學的學科定位就可以在歷時的平面上得到比較清晰的認識。

  對於計算語言學方法的研究,可以從方法論的角度來論述,也可以從語音、詞彙、形態、句法、語義、語用研究中使用的方法來論述。

  從方法論的角度,計算語言學方法可以分為基於規則的方法(rule-based approach)和基於統計的方法(statistics-based approach)兩個方面。基於規則的方法是理性主義的方法,基於統計的方法是經驗主義的方法。這兩種方法實際上並不是完全對立的,它們各有利弊,而且目前這兩種方法有合流的傾向,它們正在相互結合起來,取長補短,相得益彰。本項目如果把基於規則的方法和基於統計的方法分割開來研究,很多問題將會糾纏不清,不便於論述。因此,本項目不採取這樣的論述方式。

  本項目採取按照語言學學科分類的方式,從語音、詞彙、形態、句法、語義、語用研究中使用的計算語言學方法來加以論述。分別討論語音的自動處理方法、詞彙的自動處理方法、形態的自動處理方法、句法的自動分析方法、語義的自動處理方法、語用的自動處理方法。

  在論述時,首先對於各個領域內計算語言學方法的發展歷史進行簡要的回顧,然後,再對各種具體的方法進行論述和分析。這樣,計算語言學方法的研究便有了一個可靠的歷史背景,我們對於各種方法的來龍去脈也就更加清楚了。

  二、語音的自動處理方法

  文本-語音轉換(Text-to-Speech簡稱TTS)的核心任務是以文本中詞的序列作為輸入,產生聲學波形作為輸出。自動語音識別(Automatic Speech Recognition,簡稱ASR)的核心任務是以語音的聲學波形作為輸入,產生單詞串作為輸出。

  這一部分詳細討論了語音自動處理的主要方法:貝葉斯公式(Bayes formala)、噪聲信道模型(Noisy Channel Model)、N元語法(N-gram Grammar)、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)等。這些方法成為了計算語言學中各種統計方法的基礎。

  三、詞彙的自動處理方法

  語言中的詞彙具有高度系統化的結構,正是這種結構決定了單詞的意義和用法。這種結構包括單詞本身的固有的與上下文無關的語義特徵以在文本中單詞與單詞之間語義關係特徵。前者是單詞的靜態語義特徵,後者是單詞與單詞之間的動態語義特徵。

  對於單詞的靜態語義特徵,這一部分從知識本體(ontology)的高度出發,分析了美國普林斯頓大學研製的詞網(WordNet),指出了其優點和不足之處,並介紹了我國學者提出的Ontol-MT通用知識本體系統,說明了Ontol-MT在機器翻譯和歧義消解中的應用。

  對於單詞與單詞之間的動態語義特徵,這一部分介紹了美國語言學家Fillmore研製的框架網絡(FrameNet)。框架網絡的中心思想是詞的意義的描述必須與語義框架相聯繫。框架是信仰、實踐、制度、想像等概念結構和模式的圖解表徵,它為一定言語社團中意義的互動提供了基礎。

  由於多義詞是任何語言中都普遍存在的現象,而多義詞中諸多的詞義分布又很不容易找到一般的規律,多義詞的自動排歧涉及到上下文因素、語義因素、語境因素,還涉及到甚至日常生活中的常識,而這些因素的處理,恰恰是計算機最感棘手的問題。所以,詞義排歧(Word Sense Disambiguation,簡稱WSD)是計算語言學中的一個特別困難的問題。這一部分分析了英語中的詞彙歧義現象,介紹了幾種重要的詞義排歧方法。

  四、形態的自動處理方法

  不論是分析型語言、屈折型語言還是黏著型語言,都有形態自動分析的問題。形態分析主要採用有限狀態自動機和有限狀態轉移網絡來進行。這一部分詳細地介紹了有限狀態自動機和有限狀態轉移網絡的基本原理,通過大量實例來具體地說明自動形態分析的方法。

  漢語書面文本是連續的漢字串,單詞與單詞之間沒有空白,因此,漢語形態分析的主要任務就是自動切詞和自動詞性標註。這一部分還分析了漢語書面文本中確定切詞單位的某些形式因素,為自動切詞提供了比較可行的方法論基礎。

  五、句法的自動分析方法

  句法自動分析在計算語言學中叫做剖析(parsing)。所謂剖析,就是取一個輸入並產生出表示這個輸入的結構的過程。所謂句法剖析(syntactic parsing),就是計算機識別一個輸入句子並且給這個句子指派一個句法結構(例如,樹形圖,線圖)的過程。

  這一部分分別討論了目前在計算語言學中廣泛使用的基於轉移網絡的自動句法分析方法、基於上下文無關語法的自動句法分析方法、基於特徵結構的自動句法分析方法、基於依存語法的自動句法分析方法。

  六、語義的自動處理方法

  語言的意義可以使用形式化的方法來捕捉,這種形式化方法叫做「意義表示」(meaning representation)。之所以需要這樣的意義表示,其原因在於:不論是沒有加工過的語言輸入,還是用自動句法分析方法推導出來的結構,都不能形式化地表示出語言的意義。因此,這樣的「意義表示」能夠在從語言輸入到與語言輸入意義有關的各式各樣的具體任務所需要的非語言知識之間架起一座橋梁。我們取語言的輸入來構造意義表示,這樣的意義表示要使用那些與表示日常生活中的常識性的世界知識同樣的材料來構成。產生這樣的意義表示並且把它們指派給語言輸入的過程叫做「語義分析」(semantic analysis)。

  這一部分分別討論了語言意義的四種表示方法:一階謂詞演算(First Order Predicate Calculus,簡稱 FOPC)表示法,語義網絡(semantic network)表示法,概念依存圖(Conceptual Dependency diagram)表示法,基於框架的表示法(Frame-based Representation)。這些意義表示方法都可以把語言輸入同外界世界和我們關於外界世界的知識聯繫起來。

  這一部分還討論了句法驅動的語義自動分析方法、結構語義學、優選語義學、孟塔鳩語法以及意義文本理論。

  七、語用的自動處理方法

  語用學是對語言與使用環境之間關係的研究。使用環境包括像人和物這樣的本體,因此語用學涉及如何將語言用於指示(以及回指)人和物的研究。使用環境也包括話語的上下文,因此語用學也涉及話語結構的形成以及會話時聽話人如何理解談話對象的研究。

  語用的自動分析才剛剛開始,國外已經取得初步的成果,國內的研究還做得不多。這一部分主要討論所指判定和文本連貫的自動分析方法。

  本課題的目的在於總結國內外的計算語言學方法,使之系統化,理論化,具體化。由於方法的研究是自然語言處理系統(諸如機器翻譯、語料庫、信息檢索、信息抽取、文本分類等)的開發的關鍵問題,因此,本課題的研究成果,對於各種類型的自然語言處理實用系統的開發,在方法上具有普遍的指導意義,對於解決我國當前在自然語言信息處理中的理論和現實問題,具有重要的推動作用。

(責任編輯:陳葉軍)

相關焦點

  • 計算語言學研究70年(一)
    時至今日,圖靈測試的場景依然是計算語言學的主要研究對象,而研究方法則幾經變革。縱觀計算語言學研究方法的演化,我們可以將其歸納為規則、統計,以及深度學習三類。與此同時,計算語言學也經歷了從理性主義方法向經驗主義方法的演進,知識獲取的途徑由語言學家通過內省獲得,發展到由機器自動地從語料庫裡學習和提取。本文對新中國成立70年以來我國計算語言學的研究成果進行梳理。在國際計算語言學研究方法演化的大背景下,我國計算語言學的發展歷程,大致可以劃分為四個時期:漢字信息處理時期、規則時期、統計時期以及深度學習時期。
  • 馮志偉談計算語言學
    作為中國計算語言學的主要開創者和發展見證者之一,已屆望九之年的馮志偉研究員仍治學不輟,為學科發展持續貢獻力量。在他看來,要讓下一代學者做好創新的準備,把基於語言大數據的經驗主義方法和基於語言規則的理性主義方法巧妙地結合起來,從而把計算語言學的研究推向深入。
  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 當前計算語言學發展的幾個特點
    計算語言學對人工智慧意義重大計算語言學是研製智能化電子計算機的一項基礎性工作,而人工智慧的研究又離不開對自然語言的處理,因此計算語言學的研究在人工智慧的研究中起著舉足輕重的作用。人們早已為計算機軟體設計了許多人工語言。
  • 中國語言學研究70年
    改革開放掀起了介紹國外各語言學流派的熱潮。大量西方經典著作的翻譯或介紹讀物得以出版;借鑑國際前沿理論研究、解決漢語或中國境內語言問題的論著,在理論和方法傳播方面作用更加凸顯,在國內外學界產生廣泛影響。以語言學教學和交流為導向的人員往來日趨活躍,來華講學、出訪、留學、長期兼職等形式,成為促進中外語言學交流的強大動力。
  • 計算語言學前景廣闊
    計算語言學是用計算機研究和處理自然語言的一門新興交叉學科。在近年推進新文科建設的背景下,計算語言學及其相關應用日益引起關注。計算語言學領域相關學者在接受本報記者採訪時表示,計算語言學方興未艾,應用廣泛,前景廣闊。
  • 積極創新語言學研究方法
    11月14—15日,「第九屆中國語言學研究方法與方法論問題學術研討會」在西安召開。與會學者深入挖掘和弘揚中國語言學學術思想和優良學術傳統,圍繞「語言學的跨學科、跨文化研究」主題,積極探索如何創新語言學研究方法。
  • 關注人工智慧時代的語言學研究
    「從20世紀七八十年代開始,自然語言處理的研究方法從以語言學提供的形式理論和計算方法為主,轉向以基於統計方法的研究為主。但當前的研究仍然無法處理深層語義理解等問題。」首都師範大學國家語委中國語言智能研究中心主任周建設介紹稱,近年來,計算語言學等學科利用人工智慧技術,以語義分析中的指代、隱喻、情感分析等研究方向作為突破口,解釋自然語言處理過程中的語義理解等問題。越來越多的學者意識到,要真正解決語義理解問題,還應依靠傳統語言學的理論成果,單純依靠統計方法無法繼續取得跨越性的突破。
  • 生物語言學研究前景廣闊
    systems)、生物及神經基礎(biologgical and neurological foundations)、人類學背景(anthropological context)四個部分展示了人類語言進化研究的最新成果。
  • 計算語言學相關資料
    發展歷程通過這個定義,我們可以看出計算語言學是計算機科學、語言學等不同領域而又彼此交叉的學科。 再次,馮(2011)指出了當前的計算語言學發展的四個特點,其一是大規模真實文本的處理成為計算語言學的主要戰略目標;其二,計算語言學中越來越多地使用機器自動學習的方法來獲取語言知識;其三,計算語言學中越來越多地使用統計數學方法來分析語言數據;其四,計算語言學越來越重視詞彙的作用,出現了「詞彙主義」(lexicalism)的傾向。
  • 計算語言學研究所:支流的風景一樣好
    出人意料的是,計算語言學研究所的創始人不是進行計算機研究的學者,而是當時北大中文系的朱德熙教授。「朱先生很有眼光,他當時就意識到了計算語言學這個學科的重要性,與北大計算機系的馬希文教授合作,共同建立了計算語言學研究所。」在這樣的情形下,一個文科學者、一個理科學者,一個所長、一個副所長,計算語言學研究所便起步了。
  • 計算語言學院校信息大匯總!丨語言學午餐
    LTI 另外一個特點就是教授非常多(20位左右),所以在計算語言學上覆蓋的研究方向也更加全面。LTI 在計算語言學方面主要有兩個碩士項目(MLT和MIIS)和一個博士項目 (PhD in Lanaguge Technology)。 其中,MIIS是授課型碩士,課程內容主要圍繞 NLP 在業界的應用展開,無獎學金,對申請者的研究背景要求較低。
  • 計算社會語言學:是啥?咋搞?
    1.1 計算社會語言學調查的基本原理近些年出現了一股用計算的方法來研究社會現象的趨勢,即「計算社會科學」,這也是更大範圍的「多學科/跨學科/交叉學科」潮流的一部分。CS的出現也正是順應了這一潮流。2.1 建模方法的驗證特別是在過去十年中,計算語言學領域許多研究的核心是開發新的計算建模方法,例如概率圖形模型和神經網絡方法中的深度學習。這些新方法的價值不僅在於指導新模型結構規範的創造性,還在於對新推理方法的相應要求,以及對有正確答案概念的任務的預測準確性。
  • 李富強:生物語言學研究前景廣闊
    systems)、生物及神經基礎(biologgical and neurological foundations)、人類學背景(anthropological context)四個部分展示了人類語言進化研究的最新成果。
  • 神經語言學:語言學研究走進科學實驗室
    「在研究方法上,神經語言學將傳統的思辨式理論研究變為實證研究,語言學研究從此走進了科學實驗室。」江蘇師範大學語言科學學院副院長餘光武表示。  「神經語言學的早期成果絕大多數來源於醫生的實驗室,展現了明顯的多學科交叉性。」餘光武表示,在近二三十年來的快速發展中,神經語言學將傳統語言學研究帶進了科學實驗室,多學科交叉進行實證研究,促成了語言學發展的深刻革新。  革新的重要表現是研究方法論和範式實現了嬗變,不再停留於純粹理論性的思辨式探討。
  • 第九屆中國語言學研究方法與方法論問題學術研討會召開
    為深入探討語言學在跨學科、跨文化研究方面的新課題,2020年11月14日至15日,第九屆中國語言學研究方法與方法論問題學術研討會在西安召開
  • 淺析21世紀俄羅斯語言學創新研究方法
    扎列夫斯卡婭認為,創立心理語言學的主要目的不是兩門學科簡單相加或偶爾吸收相鄰知識領域的理論觀點和研究成果,而是分析新的科學方法,克服狹隘本位主義研究事實的局限性,用新方法理解、解釋事實。  心理語言學採用多種方法,斯捷潘諾夫認為,至少有四種方法是心理學學者和語言學學者研究語義單位近似性需要採用的,如:語義區分法、聯想法、替代法、分類法。其中聯想法使用最廣,起初只用於傳統實驗心理學,後來作為一種必須的研究方法應用在語言學領域。
  • 留美黨:美國語言學專業研究領域及十大名校全解析
    目前美國語言學專業的主要研究領域包括語言學史、句法學、語義學、心理語言學、社會語言學、歷史語言學、語言習得理論、計算語言學與人工智慧等。下面,就為大家介紹美國語言學專業研究領域和十大名校。美國語言學專業常見的研究領域計算語言學計算語言學(Computational Linguistics)指的是這樣一門學科,它通過建立形式化的數學模型,來分析、處理自然語言,並在計算機上用程序來實現分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的。
  • 計算語言學與深度學習
    而深度學習的第三位重要學者尤舒·本希奧(Yoshua Bengio),也逐漸將他課題組的研究轉向自然語言,最近在神經機器翻譯(neural machine translation)系統方面取得激動人心的成果。不是只有深度學習專家才有這樣的看法。
  • 「方法+對象」:一般性語言學交叉學科的定義方式
    這個定義和學術界的通常定義「社會語言學是用社會學的方法研究語言」看似不同,其實內涵一樣,研究本學科問題卻要藉助其他學科的方法,說明本學科的方法已經試過了,孤掌難鳴。換言之,「用社會學的方法研究語言」的預設是「已經在使用語言學方法了」。