創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集

2020-12-06 騰訊網

出品 | AI科技大本營(ID:rgznai100)

中文分詞和詞性標註是中文自然語言處理的兩個基本任務。儘管以BERT為代表的預訓練模型大行其道,但事實上,中文中基於全詞覆蓋 (whole word masking)的預訓練模型比直接使用單字編碼的效果更好,所以引入詞信息可能會達到更好的效果。

同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

基於此,創新工場近日公布的兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。

這兩篇論文均聚焦中文分詞領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高。值得一提的是,這兩篇論文已被ACL 2020收錄。

兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。

在媒體溝通會上,宋彥詳細解讀了兩篇論文的內容。

利用記憶神經網絡,中文分詞性能刷新五大數據集

第一篇論文《Improving Chinese Word Segmentation with Wordhood Memory Networks》中,他們提出一個基於鍵-值記憶神經網絡的中文分詞模型(WMSeg),該模型使用wordhood記憶神經網絡(wordhood memory networks),來更好利用wordhood信息。

論文連結:

https://www.aclweb.org/anthology/2020.acl-main.734.pdf

中文分詞目的是在中文的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」將被切分為「我/喜歡/音樂」(「/」表示分隔符)。

中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題。由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

基於鍵-值記憶神經網絡的中文分詞模型利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

例如,在「部分居民生活水平」這句話中,到底有多少可能成為詞的組塊?單字可成詞,如「民」;每兩個字的組合可能成詞,如「居民」;甚至四個字的組合也可能成詞,例如「居民生活」。

」 單字詞

「居」 詞尾

生」 詞首

「居生活」 詞中

根據構詞能力,找到所有的成詞組合

把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網絡,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像「部分」、「居民」、「生活」、「水平」這些詞都會被突出出來,但「分居」、「民生」這些詞就會被降權處理,從而預測出正確的結果。

在「他從小學電腦技術」 這句話中,對於有歧義的部分「從小學」(有「從/小學」和「從小/學」兩種分法),該模型能夠對「從小」和「學」分配更高的權重,而對錯誤的n元組——「小學」分配較低的權重。

宋彥解釋,一般的模型在處理如」部分居民生活水平「這樣帶有歧義的句子時,往往很難在這些有歧義的字序列中間找到一個非常好的切分點。而新模型在處理這樣的輸入時,能夠通過對」鍵-值記憶對「中所攜帶的,包含某個字的成詞功能的信息進行建模——用」鍵-值神經網絡「對這種信息加權,以達到在不同語境下,區別地利用這些信息,幫助模型性能的提升。

為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。

實驗結果顯示,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。

值得一提的是,在跨領域實驗中,由於原領域與目標領域往往或者面臨句法、句式、或語言的使用方式的不同,導致跨領域模型的效果大打折扣,但新模型使用網絡博客數據集(CTB7)測試,實驗結果顯示,在整體F值以及未登錄詞的召回率上新模型相對基礎模型都有比較大提升。

「雙通道注意力機制」,有效剔除「噪音」誤導

第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標註模型。

論文連結:

https://arxiv.org/pdf/1912.07849.pdf

中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中,歧義仍然是個老大難的問題。例如,對於「他要向全班同學報告書上的內容」中,「報告書」的正確的切分和標註應為「報告_VV/書_N」。但由於「報告書」本身也是一個常見詞,一般的工具可能會將其標註為「報告書_NN」。

句法標註本身需要大量的時間和人力成本。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

例如,在句子「他馬上功夫很好」中,「馬」和「上」應該分開(正確的標註應為「馬_NN/上_NN」)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如「馬上」。

針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標註模型。該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的信息誤導。

基於「雙通道注意力機制」的分詞及詞性標註

即便自動獲取的句法知識不準確,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(「他馬上功夫很好」),輸入該雙通道注意力模型後,便得到正確的分詞和詞性標註結果。

分詞及詞性標註實例

為了測試該模型的性能,他們在一般領域和跨領域分別進行了實驗。

一般領域實驗結果顯示,該模型在5個數據集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)優於史丹福大學的 CoreNLP 工具和伯克利大學的句法分析器。

即使是在與CTB詞性標註規範不同的UD數據集中,該模型依然能吸收不同標註帶來的知識,並使用這種知識,得到更好的效果。

CTB5(CTB5是使用最多的中文分詞和詞性標註的數據集)結果

而在跨領域的實驗中,和史丹福大學的 CoreNLP 工具相比,該模型也有近10個百分點的提升。

跨領域分詞實驗(對話測試集)的結果

主動引入和分辨知識,實現中文分詞技術突破

中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型死活都分不出來。

這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。

從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。

到了2014年左右,深度學習和神經網絡開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但算法本質沒有發生變化,所以提升作用並不太大。

近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和信息。創新工場的這兩篇文章沿著這個路徑,用記憶神經網絡的方式記錄對分詞結果有影響的n元組,並引入對詞性標註有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網絡的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。

那麼,這與通過知識圖譜的方法引入「知識」有什麼不同?

宋彥告訴AI科技大本營,「知識」可以分為自動獲取和人工構建兩類,他們研究的是用自動知識和非監督的方法把知識加入到一個模型框架,但只要找到一個非常合適的表徵方式,用知識圖譜所構建的知識也可以用類似的方法加入到模型中,未來,他們會嘗試把知識圖譜或者類似的知識庫加入到各類NLP的任務中。

宋彥總結了兩篇論文的技術創新。一是在現有技術的基礎上,建立了一個一體化的模型框架。通過非監督方法構建詞表,融入把知識(信息),使用更高層次的句法知識,來幫助詞性標註,起到'他山之石,可以攻玉』的效果。

二是主動吸收和分辨不同的外部知識(信息)。通過鍵-值記憶神經網絡和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但『三個臭皮匠,頂個諸葛亮』,經過有效利用,總能湊出一些有用的信息。如何實現模型的主動吸收和分辨,就變得更加重要。

從研究到應用場景銜接倆看,中文分詞和詞性標註是最底層的應用,文本分類、情感分析,文本摘要、機器翻譯等,分詞都不可或缺。

宋彥表示,在應用場景下,新模型在廣告匹配、內容推薦等其他NLP的應用端會提供比較好的基礎結果,尤其在命名實體識別這樣的特定任務,其結果可能會有效地提供一些命名實體識別的邊界信息。

最後,他強調了他們的研究在跨領域場景的落地意義。「在很多情況下,我們要需要進行跨領域的實驗,跨領域的實驗往往面對目標領域沒有數據,或數據沒有標註等情況,我們的模型能夠有效提升目標領域未登錄詞的召回率。」

目前,這兩篇論文的工具都已經開源,以下連結中可以找到對應的所有代碼和模型。

分詞工具:https://github.com/SVAIGBA/WMSeg

分詞及詞性標註工具:https://github.com/SVAIGBA/TwASP

相關焦點

  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    伊瓢 發自 中關村量子位 報導 | 公眾號 QbitAI中文分詞的最佳效果又被刷新了。在今年的ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文中的模型,刷新了這一領域的成績。創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」在跨領域實驗中,論文使用網絡博客數據集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。
  • 科學網—幫機器學會中文分詞和詞性標註
    > 新模型旨在提升科研效率和工業場景應用
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    基於此,兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來說有著十分可觀的應用前景。兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場 CTO 兼人工智慧工程院執行院長王詠剛等人。
  • 中文分詞新模型幫它進步
    據研究人員介紹,分詞及詞性標註是中文自然語言處理的基本任務,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。基於此,兩篇論文各自提出了鍵-值記憶神經網絡的中文分詞模型和基於雙通道注意力機制的分詞及詞性標註模型,將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    因此,本文提出一種基於圖的統一模型來解決這些問題。這種模型將漢語分詞和依存句法分析集成在一個分析模型中。它比以前的聯合模型性能更好,並在漢語分詞和依存句法分析中實現了當前最佳的結果。與英語不同,漢語句子由連續的字符組成,詞語之間缺乏明顯的界限。
  • 「八鬥之才」HMM模型在地址分詞中的應用
    可見狀態,隱含狀態,轉移概率,輸出概率,初始概率,且可見狀態和隱含狀態,隱含狀態和隱含狀態之間分別具有一定的關係,這些關係我們以相應的概率來表示。通過這些概念,我們在下面就可以定義出我們的HMM模型。HMM模型不僅可以用於解決上面的反推天氣序列的問題,還可以解決其他問題,如語音識別,詞性標註等,在此我們以詞性標註為例,說明HMM模型在詞性標註上的應用。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    機器之心報導作者:陳萍近日,小米開源了其自然語言處理平臺 MiNLP 的中文分詞功能,具備分詞效果好、輕量級、詞典可定製、多粒度切分以及調用更便捷等特點。在自然語言處理任務中,除了模型之外,底層的數據處理也是非常重要的。
  • 海量新聞信息處理中的中文分詞算法研究
    二、社會化新聞中的中文分詞算法 當前計算機技術大氣候下,技術條件非常成熟。一方面各大門戶網站面臨激烈的市場競爭,社會和用戶對信息獲取的準確度和熱度的要求日漸嚴格和苛刻,另外一方面,由於客戶業務增長和歷史積累所導致的海量業務數據,網絡用語、機構簡稱等新名詞不斷增加,對分詞技術提出了新的挑戰。
  • 簡單有效的多標準中文分詞
    本文介紹一種簡潔優雅的多標準中文分詞方案,可聯合多個不同標準的語料庫訓練單個模型,同時輸出多標準的分詞結果。通過不同語料庫之間的遷移學習提升模型的性能,在10個語料庫上的聯合試驗結果優於絕大部分單獨訓練的模型。模型參數和超參數全部共享,複雜度不隨語料庫種類增長。
  • 從分詞、詞性到機器翻譯、對話系統
    通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。
  • 創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...
    這篇論文的三位作者為:馮霽(創新工場南京國際人工智慧研究院執行院長)、蔡其志(創新工場南京國際人工智慧研究院研究員) 、周志華(南京大學人工智慧學院院長)。這篇論文圍繞現階段人工智慧系統的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓練樣本的方法 DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到「數據下毒」的目的。
  • 一篇文章教你用隱馬爾科夫模型實現中文分詞
    這類問題可以用Markov模型來描述。markov進一步,如果我們並不知道今天的天氣屬於什麼狀況,我們只知道今明後三天的水藻的乾燥溼潤狀態,因為水藻的狀態和天氣有關,我們想要通過水藻來推測這三天的真正的天氣會是什麼,這個時候就用HiddenMarkov模型來描述。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    為了利用這種思想提升預訓練模型在中文的表現,百度發布了知識增強的表示模型 ERNIE,在中文數據集的表現中超過了 BERT。近期,谷歌發布了基於全詞覆蓋(Whold Word Masking)的 BERT 預訓練模型,則進一步提升了 BERT 模型的性能水平。然而,由於全詞覆蓋的 BERT 模型的研究測試集中於國外公開數據集,缺乏一種中文語言的相關模型。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    作者:竹間智能自然語言與深度學習小組長期以來,中文自然語言處理(NLP)的研究遭遇瓶頸,其中一個重要原因就是中文的語言學基本無法遷移到已有的成熟的深度學習模型中,這也是中文 NLP 難於英文的重要原因之一。而竹間智能在自然語言處理的研究中,結合深度學習、語言學和心理學等,通過 NLU 來彌補傳統中文 NLP 在語言理解上的不足,取得了不錯的成果。
  • Hanlp分詞之CRF中文詞法分析詳解
    中文分詞訓練CRFSegmenter segmenter = new CRFSegmenter(null);segmenter.train("data/test/pku98/199801.txt");System.out.println(wordList);不傳入模型路徑時將默認加載配置文件指定的模型。
  • 李航等提出多粒度AMBERT模型,中文提升顯著
    近日,字節跳動 AI 實驗室李航等研究者提出了一種新型多粒度 BERT 模型,該模型在 CLUE 和 GLUE 任務上的性能超過了谷歌 BERT、Albert、XLNet 等。BERT 等預訓練語言模型在自然語言理解(Natural Language Understanding, NLU)的許多任務中均表現出了卓越的性能。