聯合漢語分詞和依存句法分析的統一模型:當前效果最佳

2020-12-05 機器之心Pro

漢語 NLP 任務與英語不同,由於詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標註,再進行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務之間的共享知識無法充分利用。

對此,傳統的解決方案是採用基於轉換的聯合模型。但這些模型仍然具有不可避免的缺陷:特徵工程和巨大的搜索空間。因此,本文提出一種基於圖的統一模型來解決這些問題。

這種模型將漢語分詞和依存句法分析集成在一個分析模型中。它比以前的聯合模型性能更好,並在漢語分詞和依存句法分析中實現了當前最佳的結果。

與英語不同,漢語句子由連續的字符組成,詞語之間缺乏明顯的界限。由於詞語常被認為是最小語義單位,因此漢語分詞(CWS)成為下遊漢語自然語言處理的預處理步驟。

例如,基本的 NLP 任務——依存句法分析通常在詞級上定義。要分析一個中文句子,基本過程過程大致是:分詞、詞性標註和依存句法分析。

但是,這種 pipeline 方式總是存在以下局限:

誤差傳播。在這種方式中,一旦某些詞語被錯誤地分割,隨後的詞性標註和分析也會出錯。因此,pipeline 模型只能達到約 75%~80%的 dependency 分數 [1]。知識共享。這三個任務(分詞,詞性標註和依存句法分析)是密切相關的。漢語分詞的標準也取決於詞語在句子中的語法作用。因此,從這三個任務中學到的知識是可以共享的。

一項任務的知識可以幫助其它任務。然而,pipeline 方式分別單獨訓練三個模型,每個模型針對一個任務,不能充分利用三個任務之間的共享知識。

這種誤差傳播問題的傳統解決方案是使用聯合模型 [2,3,1]。這些聯合模型主要採用基於轉換的分析框架來集成分詞、詞性標註和依存句法分析。它們基於標準的順序 shift-reduce 轉換,為分詞和詞性標註設計了一些額外的動作。

雖然這些聯合模型比 pipeline 模型的性能更好,但它們仍具有兩個局限性:第一,巨大的搜索空間;第二,特徵工程(feature engineering)。

最近,基於圖的模型在依存語句法分析方面取得了很大進展 [4,5],它充分利用了注意力機制[7] 來捕捉句子中單詞之間的交互。

與基於轉換的模型不同,基於圖的模型為每個可能的弧分配一個分數或概率,然後根據這些加權弧來構建最大生成樹(MST)。

本文提出了一個統一的漢語分詞和依存語句分析模型,它將這兩個任務集成在一個基於圖的分析模型中。由於分割是字符級任務,而依存分析是詞級任務,因此研究人員首先將這兩個任務公式化為基於圖形的字符級分析框架。

詳細地說,本文模型包含(1)深度 BiLSTM 編碼器,它能夠捕獲每個字符的長期上下文特徵,(2)biaffine 注意力計分器(attentional scorer)[5],它統一預測字符級別的分割和依存分析關係。此外,與以前的聯合模型不同,該統一模型不依賴於詞性標註任務。

本文三項貢獻如下:

據研究人員所知,這是第一個將漢語分詞和依存句法分析集成在統一模型中的基於圖的方法。且提出的統一模型非常簡潔,易於實現。與之前基於轉換的聯合模型相比,本文提出的模型是基於圖的,這使得特徵工程的工作量減少。此外,此模型可以處理標記的依存句法分析任務,而這對於基於轉換的聯合模型來說並不容易。在數據集 CTB-5 和 CTB-7 上進行的實驗中,即使沒有 POS 信息,本文模型在聯合漢語分詞和依存句法分析中也達到了當前最先進的性能。

論文:A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

論文地址:https://arxiv.org/abs/1904.04697

漢語分詞和依存句法分析是漢語自然語言處理的兩個基本任務。依存句法分析是在詞級定義的,因此分詞是依存句法分析的前提條件,這使得依存句法分析受到誤差傳播的影響。

在本文中,我們提出了一個統一的模型來集成漢語分詞和依存句法分析。與以前的聯合模型不同,我們提出的模型是基於圖形的模型,它更加簡潔,從而減少了特徵工程的工作量。

我們的聯合模型比以前的聯合模型性能都更優,並在漢語分詞和依存句法分析中實現了當前最優的結果。

本文提出的模型

以前的聯合方法主要基於轉換的模型,它通過添加一些額外的操作(如「app」和「tag」)來修改標準的「shift-reduce」操作。與以前的方法不同,我們將分詞和依存句法分析集成到一個基於圖的統一分析框架中,這樣更簡單且更易於實現。

圖 1:聯合漢語分詞和依存分析的統一框架。綠色弧線表示詞級依賴關係。帶有「app」的藍色虛弧線表示連接的字符屬於同一個詞。

首先,我們將分詞轉換為特殊的弧預測問題。例如,中文單詞「金融業(financial sector)」有兩個詞內依存弧:「金←融」和「融←業」。這兩個詞內依存弧都有標籤「app」。

在本文中,我們只是將詞語中的最後一個字符定義為首字符,所有其它字符都依賴於它。

其次,我們將詞級依存弧轉換為字符級依存弧。假設在詞語 w1 = xi:j 和 w2 = xu:v 之間存在依存弧,其中 xi:j 表示句子中從 i 到 j 的連續字符,我們用此弧連接每個詞的最後字符 xj 和 xv。

例如,弧「發展 (develop)→金融業 (financial sector)」被轉換為「展→業」。圖 1 說明了聯合漢語分詞和依存句法分析的統一框架。

因此,我們可以使用基於圖的統一分析模型來執行這兩個任務。我們的模型包含兩個主要組成部分:(1) 深度 BiLSTM 編碼器,用於提取上下文特徵,它將給定句子的每個字符嵌入作為輸入並生成密集向量,(2)biaffine 注意力計分器 [5],將給定字符對的隱藏向量作為輸入並預測標籤得分向量。

圖 2 說明了聯合漢語分詞和依存句法分析的統一模型。具體說明如下。

圖 2:本文提出的聯合模型。為了簡單起見,我們省略了弧標籤的預測,它使用不同的 biaffine 分類器。

實驗

我們使用 Penn Chinese Treebank 5.0(CTB-5)和 7 個(CTB-7)數據集來評估我們的模型。

表 1:CTB-5 和 CTB-7 的數據統計

如表 3 所示,我們的聯合模型(倒數第二行)在漢語分詞和依存句法分析方面都大大超過了以前的方法,即使沒有(基於轉換的聯合模型中廣泛使用的)局部句法分析特徵。

表 3:主要結果

所有模型在漢語分詞中的性能如表 4 所示。前兩行顯示了是否在 MLP 頂部使用 CRF 的區別。表 4 的下半部分給出了對本文所提所有聯合模型的分段評估。聯合訓練漢語分詞和依存句法分析比單獨訓練漢語分詞效果更好。

表 4:漢語分詞結果

相關焦點

  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    伊瓢 發自 中關村量子位 報導 | 公眾號 QbitAI中文分詞的最佳效果又被刷新了。在今年的ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文中的模型,刷新了這一領域的成績。為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。實驗結果顯示,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績。
  • NLP推出兩款句法分析應用工具,助力下遊任務效果提升
    繼2020年8月份中文依存句法分析工具 DDParser 發布後,百度於近日發布兩款句法分析結果應用工具——基於句法分析的隱式向量表示工具和顯式結構表示工具。句法分析利用句子中詞與詞之間的關係來表示詞語的句法結構信息,如「主謂」、「動賓」、「定中」等。
  • 科學網—幫機器學會中文分詞和詞性標註
    ■本報記者 鄭金武
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 中文分詞新模型幫它進步
    這兩篇論文均聚焦自然語言處理中文分詞領域。據研究人員介紹,分詞及詞性標註是中文自然語言處理的基本任務,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。基於此,兩篇論文各自提出了鍵-值記憶神經網絡的中文分詞模型和基於雙通道注意力機制的分詞及詞性標註模型,將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    在語料預處理階段,分詞作為其中一個環節,其作用也是非常重要,但也受不同語言的限制,因而採取的方法有所不同,如中文和英文。中文分詞是將一個漢字序列進行切分,得到一個個單獨的詞,如「我住在朝陽區」,分詞後的結果為「我 / 住在 / 朝陽區」。如果分詞效果不好的話,可能會出現其他情況,比較極端的結果是全部分錯「我住 / 在朝 / 陽區」。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    鍵-值記憶神經網絡分詞模型在「他從小學電腦技術」 這句話中,對於有歧義的部分「從小學」(有「從/小學」和「從小/學」兩種分法),該模型能夠對「從小」和「學」分配更高的權重,而對錯誤的n元組——「小學」分配較低的權重。為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    ,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。基於此,兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    為了檢驗該模型的分詞效果,研究人員進行了嚴格的標準實驗和跨領域實驗,結果顯示,與前人的模型相比,該模型在 5 個中文分詞領域世界通用的標準數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F 值越高,性能越好),把中文分詞領域的性能刷到了新高度。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    機器之心報導參與:一鳴昨日,機器之心報導了 CMU 全新模型 XLNet 在 20 項任務上碾壓 BERT 的研究,引起了極大的關注。而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。
  • 哈工大 AAAI 2018 錄用論文解讀:基於轉移的語義依存圖分析 | 分享...
    :語義依存是中文語義的深層分析,完善的語義表示體系對語義依存分析有重要作用。轉移狀態包括一個保存正在處理中的詞的棧(Stack),一個保存待處理詞的緩存(Buffer),和一個記錄已經生成的依存弧的存儲器。
  • 離合詞與詞法句法的分工
    因此, 一種可行的處理方法就是在句法、 音系等不同層面討論「詞」的概念(Aronoff 1976)。漢語中, 許多量詞和副詞(如「匹、 群、 雙」等; 副詞「極」等)具有獨立的語義和語法功能, 認為它們是詞大概沒有什麼爭議, 但它們在句法層面是粘著的, 不能單獨使用, 這是句法決定的。
  • 海量新聞信息處理中的中文分詞算法研究
    二、社會化新聞中的中文分詞算法 當前計算機技術大氣候下,技術條件非常成熟。一方面各大門戶網站面臨激烈的市場競爭,社會和用戶對信息獲取的準確度和熱度的要求日漸嚴格和苛刻,另外一方面,由於客戶業務增長和歷史積累所導致的海量業務數據,網絡用語、機構簡稱等新名詞不斷增加,對分詞技術提出了新的挑戰。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。
  • 「八鬥之才」HMM模型在地址分詞中的應用
    HMM(隱馬爾科夫模型)是統計模型,它用來描述一個含有隱含未知參數的馬爾可夫過程。其難點是從可觀察的參數中確定該過程的隱含參數,然後利用這些參數來作進一步的分析,例如模式識別。HMM是自然語言處理中的一個基本模型,用途比較廣泛,如漢語分詞、詞性標註及語音識別等,在NLP中佔有很重要的地位。
  • NLP 句法結構解析樹
    句法解析是 NLP 中的一種關鍵技術,可以幫助分析句子的成分結構,以及單詞之間的依存關係。句法分析樹主要分兩大類:constituent tree 短語結構樹,dependency tree 依存結構樹。本文主要簡單介紹一下短語結構樹和依存結構樹的概念。