創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率

2020-12-06 站長之家

DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。因此,在「鍵-值記憶神經網絡的中文分詞模型」的模型中,利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

在算法實驗中,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均刷新歷史成績。

創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」在基於雙通道注意力機制的分詞及詞性標註模型中,將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻,從而降低了「噪音」。創新工場介紹,在和史丹福大學的 CoreNLP 工具的相比中,該模型有近10個百分點的提升。

在場景應用上,創新工場主要希望解決工業場景的突破,宋彥表示,「在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。」創新工場介紹,「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」兩篇文章,已經入選自然語言處理領域(NLP)頂級學術會議 ACL 2020。(完)

相關焦點

  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 科學網—幫機器學會中文分詞和詞性標註
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」在跨領域實驗中,論文使用網絡博客數據集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來說有著十分可觀的應用前景。兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場 CTO 兼人工智慧工程院執行院長王詠剛等人。
  • 中文分詞新模型幫它進步
    新華社記者方喆攝本報記者 劉園園人工智慧經常「看不懂」中文句子,讓人哭笑不得。在日前舉行的自然語言處理領域(NLP)頂級學術會議ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領域。
  • 「八鬥之才」HMM模型在地址分詞中的應用
    其難點是從可觀察的參數中確定該過程的隱含參數,然後利用這些參數來作進一步的分析,例如模式識別。HMM是自然語言處理中的一個基本模型,用途比較廣泛,如漢語分詞、詞性標註及語音識別等,在NLP中佔有很重要的地位。我們將以一個關於天氣和吃飯的例子來說明HMM模型。
  • 海量新聞信息處理中的中文分詞算法研究
    二、社會化新聞中的中文分詞算法 當前計算機技術大氣候下,技術條件非常成熟。一方面各大門戶網站面臨激烈的市場競爭,社會和用戶對信息獲取的準確度和熱度的要求日漸嚴格和苛刻,另外一方面,由於客戶業務增長和歷史積累所導致的海量業務數據,網絡用語、機構簡稱等新名詞不斷增加,對分詞技術提出了新的挑戰。
  • Hanlp分詞之CRF中文詞法分析詳解
    中文分詞訓練CRFSegmenter segmenter = new CRFSegmenter(null);segmenter.train("data/test/pku98/199801.txtjava -cp hanlp.jar com.hankcs.hanlp.model.crf.crfpp.crf_learn -T cws.bin cws.txt與CRF++兼容由於C++的運行效率和內存效率優於Java,所以推薦直接利用CRF++執行大規模訓練
  • 每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能
    機器之心報導作者:陳萍近日,小米開源了其自然語言處理平臺 MiNLP 的中文分詞功能,具備分詞效果好、輕量級、詞典可定製、多粒度切分以及調用更便捷等特點。在自然語言處理任務中,除了模型之外,底層的數據處理也是非常重要的。
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    漢語 NLP 任務與英語不同,由於詞語缺乏明顯邊界,漢語需要先依次分詞、詞性標註,再進行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個小任務之間的共享知識無法充分利用。對此,傳統的解決方案是採用基於轉換的聯合模型。但這些模型仍然具有不可避免的缺陷:特徵工程和巨大的搜索空間。
  • 簡單有效的多標準中文分詞
    本文介紹一種簡潔優雅的多標準中文分詞方案,可聯合多個不同標準的語料庫訓練單個模型,同時輸出多標準的分詞結果。通過不同語料庫之間的遷移學習提升模型的性能,在10個語料庫上的聯合試驗結果優於絕大部分單獨訓練的模型。模型參數和超參數全部共享,複雜度不隨語料庫種類增長。
  • 從分詞、詞性到機器翻譯、對話系統
    其中,對話交互系統已經成為一個重要的應用研究領域,2017 年的自然語言對話系統,將開創一個新的人機互動時代。通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。
  • 最新中文NLP開源工具箱來了!支持6大任務,面向工業應用|資源
    為此,可以通過基於深度學習的語義模型和大規模數據挖掘解決上述兩個問題。百度研發的中文特色情感傾向分析模型(Sentiment Classification,簡稱Senta)針對帶有主觀描述的中文文本,可自動判斷該文本的情感極性類別並給出相應的置信度。情感類型分為積極、消極。情感傾向分析能夠幫助企業理解用戶消費習慣、分析熱點話題和危機輿情監控,為企業提供有利的決策支持。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    在此和大家分享一些竹間智能在中文自然語言交互研究中的經驗和思考。本文結合語言學和 NLP 的幾個基本任務,從理論上對中文 NLP 的特點進行說明,同時展望 NLU 在中文自然語言交互上的一些方向。1.中文分詞詞是最小的能夠獨立運用的語言單位。「詞」這個概念,是從西方引入的,在 1898 年《馬氏文通》出版之前,傳統的語言學研究對象是「字」,而不是「詞」。
  • 螞蟻工場亮相2020中國工業網際網路大會
    本次論壇以「數位化助力機加工產業升級」為主題,聚焦機加工產業集群數位化轉型生態,旨在幫助行業提升精工技術與智能科技的融合度,構建起機加工產業與數位化智能科技連接的橋梁。  深圳螞蟻工場科技有限公司董事長蔡茂林受邀參加本次機加工論壇並發表講話,探討行業發展痛點,剖析創新發展思路,為機加工數位化產業轉型發掘更多可能路徑。
  • 一篇文章教你用隱馬爾科夫模型實現中文分詞
    我們從如何進行中文分詞的角度來理解HMM根據可觀察狀態的序列找到一個最可能的隱藏狀態序列中文分詞,就是給一個漢語句子作為輸入,以「BEMS」組成的序列串作為輸出,然後再進行切詞,進而得到輸入句子的劃分。其中,B代表該字是詞語中的起始字,M代表是詞語中的中間字,E代表是詞語中的結束字,S則代表是單字成詞。
  • Gse v0.30.0 發布, Go 高性能分詞, 增加 hmm 支持
    Go 語言高效分詞, 支持英文、中文、日文等詞典用雙數組 trie(Double-Array Trie)實現, 分詞器算法為基於詞頻的最短路徑加動態規劃。