創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高

2020-12-06 TechWeb

【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。

這兩篇論文分別是《Improving Chinese Word Segmentation with Wordhood Memory Networks》和《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》,由華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人創作。

這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。

今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。宋彥本人有超過15年的NLP領域的科研經驗。

據宋彥介紹,中文分詞和詞性標註是中文自然語言處理的兩個基本任務。近年來,隨著預訓練模型的提出,有一些人提出質疑是否還有必要進行中文分詞的處理,對此我們提出了不同的意見,尤其考慮到詞彙級別的信息依然是中文信息處理最重要的基礎。一個例子就是,雖然BERT大行其道,但是在中文上基於全詞覆蓋 (whole word masking)的預訓練模型比直接使用單字編碼的效果更好。

而創新工場的這兩篇文章用記憶神經網絡的方式記錄對分詞結果有影響的 n元組,並引入對詞性標註有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網絡的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。

 「鍵-值記憶神經網絡的中文分詞模型」 刷新中文分詞歷史性能

宋彥介紹,通常而言,中文語言因其特殊性,在分詞時面臨著兩個主要難點。

一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

對此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》論文提出了基於鍵-值記憶神經網絡的中文分詞模型。

該模型利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

例如,在「部分居民生活水平」這句話中,到底有多少可能成為詞的組塊?單字可成詞,如「民」;每兩個字的組合可能成詞,如「居民」;甚至四個字的組合也可能成詞,例如「居民生活」。

把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網絡,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像「部分」、「居民」、「生活」、「水平」這些詞都會被突出出來,但「分居」、「民生」這些詞就會被降權處理,從而預測出正確的結果。

鍵-值記憶神經網絡分詞模型

在「他從小學電腦技術」 這句話中,對於有歧義的部分「從小學」(有「從/小學」和「從小/學」兩種分法),該模型能夠對「從小」和「學」分配更高的權重,而對錯誤的n元組——「小學」分配較低的權重。

為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。

實驗結果顯示,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,刷新最好成績(F值越高,性能越好)。

宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」

和前人工作的比較

在跨領域實驗中,論文使用網絡博客數據集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

基於雙通道注意力機制的分詞及詞性標註模型「有效剔除噪音誤導

第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標註模型。

宋彥介紹,中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。

在詞性標註中,歧義仍然是個老大難的問題。例如,對於「他要向全班同學報告書上的內容」中,「報告書」的正確的切分和標註應為「報告_VV/書_N」。但由於「報告書」本身也是一個常見詞,一般的工具可能會將其標註為「報告書_NN」。

利用句法知識進行正確的詞性標註

句法標註本身需要大量的時間和人力成本。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。

例如,在句子「他馬上功夫很好」中,「馬」和「上」應該分開(正確的標註應為「馬_NN/上_NN」)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如「馬上」。

史丹福大學的自動句法分析工具結果,分成了「馬上」

針對這一問題,創新工場的論文提出了一個基於雙通道注意力機制的分詞及詞性標註模型。

該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。

這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的信息誤導。

基於「雙通道注意力機制」的分詞及詞性標註

即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(「他馬上功夫很好」),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標註結果。     

分詞及詞性標註實例

為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。

一般領域實驗結果顯示,該模型在5個數據集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了史丹福大學的 CoreNLP 工具,和伯克利大學的句法分析器。

即使是在與CTB詞性標註規範不同的UD數據集中,該模型依然能吸收不同標註帶來的知識,並使用這種知識,得到更好的效果。

該模型在所有數據集上均超過了之前的工作

 

CTB5(CTB5是使用最多的中文分詞和詞性標註的數據集)結果

而在跨領域的實驗中,和史丹福大學的 CoreNLP 工具相比,該模型也有近10個百分點的提升。

跨領域分詞實驗(對話測試集)的結果

宋彥總結道,「從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(信息)融入進來,使用更高層次的句法知識,來幫助詞性標註,起到'他山之石,可以攻玉』的效果。二是主動吸收和分辨不同的外部知識(信息)。通過鍵-值記憶神經網絡和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但『三個臭皮匠,頂個諸葛亮』,經過有效利用,總能湊出一些有用的信息。如何實現模型的主動吸收和分辨,就變得更加重要。」

一直以來,創新工場致力於銜接科技創新和行業賦能,做嫁接科研和產業應用的橋梁,為行業改造業務流程、提升業務效率。對中文分詞技術的研究也是如此。

在宋彥看來,中文分詞和詞性標註是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本「元件」。

「在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。」宋彥強調。

宋彥以搜尋引擎的廣告系統為例向TechWeb介紹,論文提及的新模型可以有效地實現廣告在不同領域進行內容匹配的冷啟動。「以現有模型,比方說在新聞領域學到的模型,如果碰到一個體育領域的廣告,那麼這個時候其中很多詞會沒辦法正確切分出來。但是在使用我們的模型時候,在新領域進行廣告內容推薦,可以講新領域的知識和事先準備的關鍵詞等,加入我們的模型,從而把目標文本中一些比較有效的關鍵詞,通過更好的分詞結果呈現出來,而這些關鍵詞,可能會匹配到用戶輸入的一些詞,或者說用戶在特定的網頁瀏覽背景下面他所碰到的一些內容。所以如果分詞結果正確,就能夠有效的把這兩部分內的內容銜接,使得用戶在搜索的時候,得到的廣告內容跟搜索結果是匹配的。」

目前,這兩篇論文的工具都已經開源。

分詞工具: https://github.com/SVAIGBA/WMSeg

分詞及詞性標註工具: https://github.com/SVAIGBA/TwASP

相關焦點

  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    2020 年 7 月 5 日至 7 月 10 日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 通過線上舉行,公開數據顯示,今年大會投稿數量超過 3000 篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,疫情期間熱度有增無減。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    基於此,創新工場近日公布的兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 科學網—幫機器學會中文分詞和詞性標註
    > 新模型旨在提升科研效率和工業場景應用
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    伊瓢 發自 中關村量子位 報導 | 公眾號 QbitAI中文分詞的最佳效果又被刷新了。在今年的ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文中的模型,刷新了這一領域的成績。創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」在跨領域實驗中,論文使用網絡博客數據集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
  • 中文分詞新模型幫它進步
    新華社記者方喆攝本報記者 劉園園人工智慧經常「看不懂」中文句子,讓人哭笑不得。在日前舉行的自然語言處理領域(NLP)頂級學術會議ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領域。
  • 創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...
    這篇論文的三位作者為:馮霽(創新工場南京國際人工智慧研究院執行院長)、蔡其志(創新工場南京國際人工智慧研究院研究員) 、周志華(南京大學人工智慧學院院長)。這篇論文圍繞現階段人工智慧系統的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓練樣本的方法 DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到「數據下毒」的目的。
  • 從分詞、詞性到機器翻譯、對話系統
    通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。
  • FLAT:中文NER屠榜之作!復旦大學邱錫鵬團隊出品
    不同於英文NER,中文NER通常以字符為單位進行序列標註建模。這主要是由於中文分詞存在誤差,導致基於字符通常要好於基於詞彙(經過分詞)的序列標註建模方法。那中文NER是不是就不需要詞彙信息呢?答案當然是否定的。
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    漢語 NLP 任務與英語不同,由於詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標註,再進行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務之間的共享知識無法充分利用。對此,傳統的解決方案是採用基於轉換的聯合模型。但這些模型仍然具有不可避免的缺陷:特徵工程和巨大的搜索空間。
  • 海量新聞信息處理中的中文分詞算法研究
    」獲獎名單揭曉 2012年度「人民網優秀論文獎」獲獎名單10月30日揭曉,北京郵電大學計算機學院劉健、於淼同學的作品《海量新聞信息處理中的中文分詞算法研究》獲得人民網優秀技術課題二等獎,以下是論文全文: 一、研究題目現實意義 人民網作為國際網際網路上最大的綜合性網絡媒體之一,對信息的時效性把控也越來越高。
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    在語料預處理階段,分詞作為其中一個環節,其作用也是非常重要,但也受不同語言的限制,因而採取的方法有所不同,如中文和英文。中文分詞是將一個漢字序列進行切分,得到一個個單獨的詞,如「我住在朝陽區」,分詞後的結果為「我 / 住在 / 朝陽區」。如果分詞效果不好的話,可能會出現其他情況,比較極端的結果是全部分錯「我住 / 在朝 / 陽區」。
  • 簡單有效的多標準中文分詞
    本文介紹一種簡潔優雅的多標準中文分詞方案,可聯合多個不同標準的語料庫訓練單個模型,同時輸出多標準的分詞結果。通過不同語料庫之間的遷移學習提升模型的性能,在10個語料庫上的聯合試驗結果優於絕大部分單獨訓練的模型。模型參數和超參數全部共享,複雜度不隨語料庫種類增長。
  • 7 Papers & Radios | ACL 2020獲獎論文;貝葉斯深度學習綜述
    /anthology/2020.acl-main.442.pdf摘要:儘管衡量留出(held-out)準確率是評估模型泛化性能的主要方法,但它通常會高估 NLP 模型的性能,而其他評估模型的替代性方法要麼專注於單項任務,要麼只看特定行為。
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    在 EMNLP 2018,兩篇同樣來自這兩個團隊的論文(https://arxiv.org/abs/1809.01272)顯著改進了之前的方法,讓無監督的機器翻譯取得了進展。代這兩者都表明,機器學習本身就提供了接近最新技術的詞義消歧和詞性標註性能。
  • 百度多篇論文入選NeurIPS 2020,機器學習領先算法、理論「強輸出」
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 好未來7篇學術論文學術論文被四大國際頂級會議收錄
    近日,好未來AI工程院機器學習團隊的7篇學術論文連續入選國際人工智慧教育大會(AIED 2020)、教育數據挖掘國際會議(EDM 2020)、國際聲學、語音與信號處理會議(ICASSP 2020)、國際網際網路大會(WWW 2020)等多個國際頂級學術會議,向世界展示了中國AI+教育的發展潛力