科學網—幫機器學會中文分詞和詞性標註

2020-12-05 科學網
幫機器學會中文分詞和詞性標註
新模型旨在提升科研效率和工業場景應用

 

本報記者 鄭金武

「部分居民生活水平」這樣的中文短語,人們理解起來沒有太大困難。但把這個短語交給機器,是理解成「部分/居民/生活/水平」,還是「部/分居/民生/活水/平」,卻是個問題。

在近日於線上舉行的自然語言處理(NLP)領域學術會議ACL 2020上,創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題提出新模型,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪聲」誤導,大幅度提升了分詞及詞性標註效果。

「中文的分詞和詞性標註是自然語言處理的基本任務,對於後續的應用和任務處理非常重要。」兩篇論文的作者之一、創新工場大灣區人工智慧研究院執行院長宋彥告訴《中國科學報》,對於文本分類、情感分析、文本摘要、機器翻譯等,分詞和詞性標註是不可或缺的基本「元件」。

刷新中文分詞新高度

中文分詞目的是在中文語句的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」,在機器中將被切分為「我/喜歡/音樂」。

宋彥介紹,在工業場景中,對中文的分詞和詞性標註有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

「由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。」宋彥說。例如機器對前文「部分居民生活水平」的理解;再如「他從小學電腦」,正確分詞是「他/從小/學/電腦」,但在機器裡會劃分出「小學」這種歧義詞。

未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞,例如經濟、醫療、科技等領域的專業術語或者社交媒體上的新詞,或者是人名。「這類問題在跨領域分詞任務中尤其明顯。」宋彥表示。

在論文中,宋彥等人提出了「基於鍵—值記憶神經網絡的中文分詞模型」。該模型利用「n元組」提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解,並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

在「部分居民生活水平」這一短語中,該模型通過神經網絡,學習哪些詞對於最後完整表達語意的幫助更大,進而分配不同的權重。像「部分」「居民」「生活」「水平」這些詞都會被突出,但「分居」「民生」這些詞會被降權處理,從而預測出正確結果。

為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。實驗結果顯示,該模型在5個數據集上均達到了最好的成績。

剔除「噪聲」誤導

宋彥指出,中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中,歧義仍然是個老大難問題。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有「噪聲」的句法知識,很可能會被不準確的句法知識誤導,做出錯誤預測。

針對這一問題,宋彥等人在論文中提出了一個「基於雙通道注意力機制的分詞及詞性標註模型」。該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。

模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

例如對「他馬上功夫很好」這句話,該模型通過識別這句話的語境和上下文特徵,對「馬上」二字分開識別成「馬/上」,而不是識別成「馬上」。

「這樣一來,那些不準確的、對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有『噪聲』的信息誤導。」宋彥說。

該模型在5個數據集的表現也都超過前人的工作,得到了較好的效果。

推動技術開源

中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。「這意味著,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。」宋彥說。

從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了機器對未登錄詞的理解效果。

近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和信息。「我們的兩篇文章就是沿著這個路徑,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網絡的優勢,也利用了知識優勢,實現了分詞技術上小而有效的改進和突破。」宋彥說。

宋彥表示,研究的主要目的是為了拓展其工業場景的應用,正確分詞能夠平衡應用開發的效率和性能,同時方便人工幹預及後續處理。

目前,這兩篇論文的分詞和詞性標註工具都已經開源,對應的代碼和模型向公眾開放,以方便學者提升相關領域科研效率和場景應用。

相關論文信息:https://www.aclweb.org/anthology/2020.acl-main.734/

https://www.aclweb.org/anthology/2020.acl-main.735/

《中國科學報》 (2020-07-15 第4版 綜合)

相關焦點

  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    另外,在詞性標註方面,TwASP模型同樣刷新了成績。中文分詞的SOTA中文分詞目的是在中文的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」將被切分為「我/喜歡/音樂」(「/」表示分隔符)。中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。在詞性標註中,歧義仍然是個老大難的問題。例如,對於「他要向全班同學報告書上的內容」中,「報告書」的正確的切分和標註應為「報告_VV/書_N」。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    基於此,創新工場近日公布的兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。
  • 中文分詞新模型幫它進步
    據研究人員介紹,分詞及詞性標註是中文自然語言處理的基本任務,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。基於此,兩篇論文各自提出了鍵-值記憶神經網絡的中文分詞模型和基於雙通道注意力機制的分詞及詞性標註模型,將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    基於此,兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來說有著十分可觀的應用前景。兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場 CTO 兼人工智慧工程院執行院長王詠剛等人。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    在語料預處理階段,分詞作為其中一個環節,其作用也是非常重要,但也受不同語言的限制,因而採取的方法有所不同,如中文和英文。中文分詞是將一個漢字序列進行切分,得到一個個單獨的詞,如「我住在朝陽區」,分詞後的結果為「我 / 住在 / 朝陽區」。如果分詞效果不好的話,可能會出現其他情況,比較極端的結果是全部分錯「我住 / 在朝 / 陽區」。
  • 海量新聞信息處理中的中文分詞算法研究
    HMM方法處理長距離關聯的不足和MEMM等模型中的標註偏置問題。 4.2.3 基於HMM模型的分詞算法改進策略: 本文經過調研找到了一種基於多重隱馬爾科夫模型(CHMM)的方法,旨在將漢語分詞、切分排歧、未登錄詞識別、詞性標註等詞法分析任務融合到一個相對統一的理論模型中。
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    漢語 NLP 任務與英語不同,由於詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標註,再進行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務之間的共享知識無法充分利用。對此,傳統的解決方案是採用基於轉換的聯合模型。但這些模型仍然具有不可避免的缺陷:特徵工程和巨大的搜索空間。
  • 從分詞、詞性到機器翻譯、對話系統
    通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。
  • 「八鬥之才」HMM模型在地址分詞中的應用
    HMM是自然語言處理中的一個基本模型,用途比較廣泛,如漢語分詞、詞性標註及語音識別等,在NLP中佔有很重要的地位。我們將以一個關於天氣和吃飯的例子來說明HMM模型。HMM模型不僅可以用於解決上面的反推天氣序列的問題,還可以解決其他問題,如語音識別,詞性標註等,在此我們以詞性標註為例,說明HMM模型在詞性標註上的應用。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    在此和大家分享一些竹間智能在中文自然語言交互研究中的經驗和思考。本文結合語言學和 NLP 的幾個基本任務,從理論上對中文 NLP 的特點進行說明,同時展望 NLU 在中文自然語言交互上的一些方向。1.中文分詞詞是最小的能夠獨立運用的語言單位。「詞」這個概念,是從西方引入的,在 1898 年《馬氏文通》出版之前,傳統的語言學研究對象是「字」,而不是「詞」。
  • 簡單有效的多標準中文分詞
    本文介紹一種簡潔優雅的多標準中文分詞方案,可聯合多個不同標準的語料庫訓練單個模型,同時輸出多標準的分詞結果。通過不同語料庫之間的遷移學習提升模型的性能,在10個語料庫上的聯合試驗結果優於絕大部分單獨訓練的模型。模型參數和超參數全部共享,複雜度不隨語料庫種類增長。
  • Hanlp分詞之CRF中文詞法分析詳解
    中文分詞訓練CRFSegmenter segmenter = new CRFSegmenter(null);segmenter.train("data/test/pku98/199801.txt詞性標註CRF詞性標註器的訓練與加載與中文分詞類似,對應CRFPOSTagger。命名實體識別CRF命名實體識別也是類似的用法,對應CRFNERecognizer。
  • Gse v0.30.0 發布, Go 高性能分詞, 增加 hmm 支持
    Go 語言高效分詞, 支持英文、中文、日文等詞典用雙數組 trie(Double-Array Trie)實現, 分詞器算法為基於詞頻的最短路徑加動態規劃。
  • 一篇文章教你用隱馬爾科夫模型實現中文分詞
    我們從如何進行中文分詞的角度來理解HMM根據可觀察狀態的序列找到一個最可能的隱藏狀態序列中文分詞,就是給一個漢語句子作為輸入,以「BEMS」組成的序列串作為輸出,然後再進行切詞,進而得到輸入句子的劃分。其中,B代表該字是詞語中的起始字,M代表是詞語中的中間字,E代表是詞語中的結束字,S則代表是單字成詞。
  • 2014年大學英語四六級 選詞填空預判詞性方法
    解答選詞填空的黃金步驟是:  第一步,標註詞性,預先分組;  第二步,瀏覽全文,預判詞性;  第三步,同性比較,選擇唯一;  第四步,帶入選項,通讀檢查。  對原文空缺處的單詞進行詞性預判,對15個選項進行詞性歸類後,可以將選擇範圍逐漸縮小為4選1,3選1,甚至是2選1,這是選詞填空解題的關鍵步驟,所以本文將介紹幾種預判詞性的方法,通過運用語法知識,為選詞填空提速~!  (一)如何預判名詞  名詞一般充當主語、賓語或表語。常見結構為:  結構1:冠詞+_______。