創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集

2020-12-06 騰訊網

出品 | AI科技大本營（ID:rgznai100）

中文分詞和詞性標註是中文自然語言處理的兩個基本任務。儘管以BERT為代表的預訓練模型大行其道，但事實上，中文中基於全詞覆蓋（whole word masking）的預訓練模型比直接使用單字編碼的效果更好，所以引入詞信息可能會達到更好的效果。

同時，尤其在工業場景對分詞有非常直接的訴求，比如，雖然字模型對於各種字的編碼器能夠達到非常好的效果，但是依然無法達到效率和性能的平衡，而且在很多場景下，需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案，而且中文分詞普遍存在歧義和未登錄詞的難題。

基於此，創新工場近日公布的兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」，將外部知識（信息）創造性融入分詞及詞性標註模型，有效剔除了分詞「噪音」誤導，大幅度提升了分詞及詞性標註效果。

這兩篇論文均聚焦中文分詞領域，將該領域近年來廣泛使用的各數據集上的分數全部刷至新高。值得一提的是，這兩篇論文已被ACL 2020收錄。

兩篇文章的作者有：華盛頓大學博士研究生、創新工場實習生田元賀，創新工場大灣區人工智慧研究院執行院長宋彥，創新工場科研合伙人張潼，創新工場CTO兼人工智慧工程院執行院長王詠剛等人。

在媒體溝通會上，宋彥詳細解讀了兩篇論文的內容。

利用記憶神經網絡，中文分詞性能刷新五大數據集

第一篇論文《Improving Chinese Word Segmentation with Wordhood Memory Networks》中，他們提出一個基於鍵-值記憶神經網絡的中文分詞模型（WMSeg），該模型使用wordhood記憶神經網絡（wordhood memory networks），來更好利用wordhood信息。

論文連結：

https://www.aclweb.org/anthology/2020.acl-main.734.pdf

中文分詞目的是在中文的字序列中插入分隔符，將其切分為詞。例如，「我喜歡音樂」將被切分為「我/喜歡/音樂」(「/」表示分隔符)。

中文語言因其特殊性，在分詞時面臨著兩個主要難點。一是歧義問題。由於中文存在大量歧義，一般的分詞工具在切分句子時可能會出錯。例如，「部分居民生活水平」，其正確的切分應為「部分/居民/生活/水平」，但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」，正確的分詞是：他/從小/學/電腦技術，但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表，或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞，或者是人名。這類問題在跨領域分詞任務中尤其明顯。

基於鍵-值記憶神經網絡的中文分詞模型利用n元組（即一個由連續n個字組成的序列，比如「居民」是一個2元組，「生活水平」是一個4元組）提供的每個字的構詞能力，通過加（降）權重實現特定語境下的歧義消解。並通過非監督方法構建詞表，實現對特定領域的未標註文本的利用，進而提升對未登錄詞的識別。

例如，在「部分居民生活水平」這句話中，到底有多少可能成為詞的組塊？單字可成詞，如「民」；每兩個字的組合可能成詞，如「居民」；甚至四個字的組合也可能成詞，例如「居民生活」。

「民」單字詞

「居民」詞尾

「民生」詞首

「居民生活」詞中

根據構詞能力，找到所有的成詞組合

把這些可能成詞的組合全部找到以後，加入到該分詞模型中。通過神經網絡，學習哪些詞對於最後完整表達句意的幫助更大，進而分配不同的權重。像「部分」、「居民」、「生活」、「水平」這些詞都會被突出出來，但「分居」、「民生」這些詞就會被降權處理，從而預測出正確的結果。

在「他從小學電腦技術」這句話中，對於有歧義的部分「從小學」（有「從/小學」和「從小/學」兩種分法），該模型能夠對「從小」和「學」分配更高的權重，而對錯誤的n元組——「小學」分配較低的權重。

宋彥解釋，一般的模型在處理如」部分居民生活水平「這樣帶有歧義的句子時，往往很難在這些有歧義的字序列中間找到一個非常好的切分點。而新模型在處理這樣的輸入時，能夠通過對」鍵-值記憶對「中所攜帶的，包含某個字的成詞功能的信息進行建模——用」鍵-值神經網絡「對這種信息加權，以達到在不同語境下，區別地利用這些信息，幫助模型性能的提升。

為了檢驗該模型的分詞效果，論文進行了嚴格的標準實驗和跨領域實驗。

實驗結果顯示，該模型在5個數據集（MSR、PKU、AS、CityU、CTB6）上的表現，均達了最好的成績（F值越高，性能越好）。

值得一提的是，在跨領域實驗中，由於原領域與目標領域往往或者面臨句法、句式、或語言的使用方式的不同，導致跨領域模型的效果大打折扣，但新模型使用網絡博客數據集（CTB7）測試，實驗結果顯示，在整體F值以及未登錄詞的召回率上新模型相對基礎模型都有比較大提升。

「雙通道注意力機制」，有效剔除「噪音」誤導

第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標註模型。

論文連結：

https://arxiv.org/pdf/1912.07849.pdf

中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中，給每一個詞標註其所屬的詞類，例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中，歧義仍然是個老大難的問題。例如，對於「他要向全班同學報告書上的內容」中，「報告書」的正確的切分和標註應為「報告_VV/書_N」。但由於「報告書」本身也是一個常見詞，一般的工具可能會將其標註為「報告書_NN」。

句法標註本身需要大量的時間和人力成本。在以往的標註工作中，使用外部自動工具獲取句法知識是主流方法。在這種情況下，如果模型不能識別並正確處理帶有雜音的句法知識，很可能會被不準確的句法知識誤導，做出錯誤的預測。

例如，在句子「他馬上功夫很好」中，「馬」和「上」應該分開（正確的標註應為「馬_NN/上_NN」）。但按照一般的句法知識，卻可能得到不準確的切分及句法關係，如「馬上」。

針對這一問題，該論文提出了一個基於雙通道注意力機制的分詞及詞性標註模型。該模型將中文分詞和詞性標註視作聯合任務，可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權，預測每個字的分詞和詞性標籤，不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權，從而識別特定語境下不同上下文特徵和句法知識的貢獻。

這樣一來，那些不準確的，對模型預測貢獻小的上下文特徵和句法知識就能被識別出來，並被分配小的權重，從而避免模型被這些有噪音的信息誤導。

基於「雙通道注意力機制」的分詞及詞性標註

即便自動獲取的句法知識不準確，該模型仍能有效識別並利用這種知識。例如，將前文有歧義、句法知識不準確的句子（「他馬上功夫很好」），輸入該雙通道注意力模型後，便得到正確的分詞和詞性標註結果。

分詞及詞性標註實例

為了測試該模型的性能，他們在一般領域和跨領域分別進行了實驗。

一般領域實驗結果顯示，該模型在5個數據集（CTB5，CTB6，CTB7，CTB9，Universal Dependencies）的表現（F值）優於史丹福大學的 CoreNLP 工具和伯克利大學的句法分析器。

即使是在與CTB詞性標註規範不同的UD數據集中，該模型依然能吸收不同標註帶來的知識，並使用這種知識，得到更好的效果。

CTB5（CTB5是使用最多的中文分詞和詞性標註的數據集）結果

而在跨領域的實驗中，和史丹福大學的 CoreNLP 工具相比，該模型也有近10個百分點的提升。

跨領域分詞實驗（對話測試集）的結果

主動引入和分辨知識，實現中文分詞技術突破

中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建，詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有，那麼模型死活都分不出來。

這種方式的局限性還在於，詞典和分詞兩件事情中間始終有一條鴻溝，儘管詞典可以編撰得非常全面，但在處理分詞的時候，因為每一句話都有上下文語境，往往會產生多種不同的切分方法，從而無法有效地在當前語境下對分詞結構進行恰當的指導。

從2003年開始，分詞方法出現了新的突破。研究人員提出了打標籤的方式，通過給每一個字打詞首、詞尾、詞中的標籤，不再需要構建詞典，大幅度提升了未登錄詞的召回效果。

到了2014年左右，深度學習和神經網絡開始被廣泛應用到中文分詞中，打標籤的模型從之前的淺層學習變成了深度學習，但算法本質沒有發生變化，所以提升作用並不太大。

近兩年，學界開始研究怎麼在打標籤的過程中加入外部知識和信息。創新工場的這兩篇文章沿著這個路徑，用記憶神經網絡的方式記錄對分詞結果有影響的n元組，並引入對詞性標註有影響的句法知識，將分詞結果和自動獲得的知識銜接起來，既發揮了神經網絡的優勢，也把知識的優勢用上，實現了分詞技術上小而有效的改進和突破。

那麼，這與通過知識圖譜的方法引入「知識」有什麼不同？

宋彥告訴AI科技大本營，「知識」可以分為自動獲取和人工構建兩類，他們研究的是用自動知識和非監督的方法把知識加入到一個模型框架，但只要找到一個非常合適的表徵方式，用知識圖譜所構建的知識也可以用類似的方法加入到模型中，未來，他們會嘗試把知識圖譜或者類似的知識庫加入到各類NLP的任務中。

宋彥總結了兩篇論文的技術創新。一是在現有技術的基礎上，建立了一個一體化的模型框架。通過非監督方法構建詞表，融入把知識（信息），使用更高層次的句法知識，來幫助詞性標註，起到'他山之石，可以攻玉』的效果。

二是主動吸收和分辨不同的外部知識（信息）。通過鍵-值記憶神經網絡和雙通道注意力機制，進行動態權重的分配，能夠有效分辨知識，區分哪些是有效的，哪些是無效的。雖然這些知識是自動獲取的、不準確的，但『三個臭皮匠，頂個諸葛亮』，經過有效利用，總能湊出一些有用的信息。如何實現模型的主動吸收和分辨，就變得更加重要。

從研究到應用場景銜接倆看，中文分詞和詞性標註是最底層的應用，文本分類、情感分析，文本摘要、機器翻譯等，分詞都不可或缺。

宋彥表示，在應用場景下，新模型在廣告匹配、內容推薦等其他NLP的應用端會提供比較好的基礎結果，尤其在命名實體識別這樣的特定任務，其結果可能會有效地提供一些命名實體識別的邊界信息。

最後，他強調了他們的研究在跨領域場景的落地意義。「在很多情況下，我們要需要進行跨領域的實驗，跨領域的實驗往往面對目標領域沒有數據，或數據沒有標註等情況，我們的模型能夠有效提升目標領域未登錄詞的召回率。」

目前，這兩篇論文的工具都已經開源，以下連結中可以找到對應的所有代碼和模型。

分詞工具：https://github.com/SVAIGBA/WMSeg

分詞及詞性標註工具：https://github.com/SVAIGBA/TwASP

創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集

相關焦點

中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題

創新工場提出中文分詞和詞性標註新模型可提升工業應用效率

創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高

科學網—幫機器學會中文分詞和詞性標註

創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高

中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網

創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度

中文分詞新模型幫它進步

聯合漢語分詞和依存句法分析的統一模型:當前效果最佳

「八鬥之才」HMM模型在地址分詞中的應用

每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能

海量新聞信息處理中的中文分詞算法研究

簡單有效的多標準中文分詞

從分詞、詞性到機器翻譯、對話系統

創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...

一篇文章教你用隱馬爾科夫模型實現中文分詞

中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型

專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡

Hanlp分詞之CRF中文詞法分析詳解

李航等提出多粒度AMBERT模型,中文提升顯著

創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集

相關焦點

中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題

創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率

創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高

科學網—幫機器學會中文分詞和詞性標註

創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高

中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網

創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度

中文分詞新模型幫它進步

聯合漢語分詞和依存句法分析的統一模型:當前效果最佳

「八鬥之才」HMM模型在地址分詞中的應用

每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能

海量新聞信息處理中的中文分詞算法研究

簡單有效的多標準中文分詞

從分詞、詞性到機器翻譯、對話系統

創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...

一篇文章教你用隱馬爾科夫模型實現中文分詞

中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型

專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡

Hanlp分詞之CRF中文詞法分析詳解

李航等提出多粒度AMBERT模型,中文提升顯著

創新工場提出中文分詞和詞性標註新模型可提升工業應用效率