創新工場提出中文分詞和詞性標註新模型可提升工業應用效率

2020-12-09 東方財富網

13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。

在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

因此,在「鍵-值記憶神經網絡的中文分詞模型」的模型中,利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

在算法實驗中,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均刷新歷史成績。

創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」

在基於雙通道注意力機制的分詞及詞性標註模型中,將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻,從而降低了「噪音」。

創新工場介紹,在和史丹福大學的 CoreNLP 工具的相比中,該模型有近10個百分點的提升。

在場景應用上,創新工場主要希望解決工業場景的突破,宋彥表示,「在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。」創新工場介紹,「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」兩篇文章,已經入選自然語言處理領域(NLP)頂級學術會議 ACL 2020。(完)

(文章來源:DoNews)

相關焦點

  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 科學網—幫機器學會中文分詞和詞性標註
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
  • 創新工場論文入選ACL 2020,中文分詞性能刷新五大數據集
    中選文章闡述了中文分組和詞性標註這一底層級別的技術應用迎來嶄新突破,將該領域近年來廣泛使用的各數據集上的性能全部刷至新高,在工業界也有著非常可觀的應用前景。中文分組向前邁進了一小步 人類自然習得的諸多能力對計算機而言,就像魔法一樣神奇,讓魔法在計算語言世界成為現實有重重困難。
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」在跨領域實驗中,論文使用網絡博客數據集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來說有著十分可觀的應用前景。兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場 CTO 兼人工智慧工程院執行院長王詠剛等人。
  • 八款中文詞性標註工具使用及在線測試
    公眾號上線的8款中文分詞模塊或者工具,發現它們都是支持中文詞性標註的,這裡面唯一的區別,就是各自用的詞性標註集可能有不同:以下逐一介紹這八個工具的中文詞性標註功能的使用方法,至於安裝,這裡簡要介紹,或者可以參考之前這篇文章:Python中文分詞工具大合集:安裝、使用和測試,以下是在Ubuntu16.04 & Python3.x的環境下安裝及測試。
  • 中文智能分詞接口可以返回詞性了
    中文智能分詞接口,現在增加了一個參數wordtag,指定wordtag=1則會返回一個包含詞性代碼的列表。可以適應更多的項目場景,例如把一大段文本中的人名或者把一篇文章裡提到的地名單獨提取出來。每個詞性代碼的具體含義如下:中文分詞接口有哪些應用場景:1,需要判斷核心搜索詞場合,用戶輸入的搜索詞通常是一個不那麼簡潔的長尾詞,例如「上海古漪園的票價是多少錢」,通過分詞接口就能快速找出這句話的核心詞「上海 古漪園 票價"。
  • 常見中文分詞包比較
    相比於其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。 3.支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。 4.支持詞性標註。4 THULACTHULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點:1.能力強。
  • 自然語言處理之詞性標註
    它是指在語言中以詞本身的特點(語法特徵、句法功能、形態變化等)、兼顧詞彙意義等對詞語進行劃分分類的依據,詞類即根據詞性進行劃分後的結果。 那什麼是詞性標註呢?詞性標註就是在給定句子中判定每個詞的語法範疇,確定其詞性並加以標註的過程。通俗地講,就是對句子進行分詞後,在句子中的分詞後標上詞的性質如名詞(n)、動詞(v)等等。
  • 復旦大學提出中文分詞新方法,Transformer連有歧義的分詞也能學
    鑑於這一點,復旦大學提出了一個簡潔而有效的模型,它能適用於多種中文分詞標準。這種模型使用共享的全連接自注意力機制,從而能根據不同的標準進行分詞。研究者已經在八個數據集上測試了這種基於 Transformer 的中文分詞,它天然使用了多個分詞評價標準。結果說明,與單一標準的學習不同,每個語料上的表現都得到了顯著提升。
  • NLP 的詞性標註技術 Jieba
    詞性標註最簡單的方法是從語料庫中統計每個詞所對應的高頻詞性,將其作為默認詞性。我們可以通過使用如同中文分詞一樣的主流方法,比如 HMM、CRF 等,進一步提高詞性標註的效果。1.詞性標註規範中文領域目前尚無統一的標註標準,較為主流的主要為北大的詞性標註集和賓州詞性標註集兩大類,這裡採用北大詞性標註集作為標準,其標註的詞性如下所示:2 Jieba 分詞中的詞性標註Jieba 分詞中的詞性標註功能與中文分詞類似,也是結合規則方法和統計方法的方式,在詞性標註的過程中,詞典匹配和 HMM 共同作用。
  • 復旦大學邱錫鵬教授等人提出中文分詞新方法,Transformer連有歧義的分詞也能學
    研究者已經在八個數據集上測試了這種基於 Transformer 的中文分詞,它天然使用了多個分詞評價標準。結果說明,與單一標準的學習不同,每個語料上的表現都得到了顯著提升。由於詞語被認為是最小的語義單位,因此中文分詞任務十分重要。關於中英兩種語言對自然語言處理的差異可參考達觀數據創始人陳運文的文章《中文對比英文自然語言處理NLP的區別綜述》。目前中文分詞效果最佳的方法是監督學習算法,它們將中文分詞任務視為基於漢字的序列標註問題。在這個問題中,每個漢字都有對應的標籤,用於表示詞和詞之間的分界信息。
  • 序列標註與中文NER實戰
    HMM核心建模採用一階隱馬爾可夫模型,即任何隱含狀態的概率只與上一個輸入和當前輸入相關。HMM是一種生成式模型,需要對觀察狀態、隱含狀態都建模,建模較為耗時,數據依賴較多。HMM廣泛應用在各類序列建模任務中,包括二元文法(Bi-gram)也採用了一階隱馬爾可夫模型。HMM在序列標註任務中表現較為優秀的是中文POS任務,其傑出的人名、地名識別能力使其時至今日仍被眾多開源分詞器用作POS的首選模型。
  • 英文分詞的關鍵:詞性還原和詞幹提取
    在上篇文章中,我們講到了中文分詞的相關內容,本文將對英文分詞的關鍵:詞性還原和詞幹提取進行介紹。我們知道,在現代漢語中能夠清晰表達完整含義的最小單位是詞而不是字,而且在每句話中不存在分隔符。與之相對的,英文單詞之間則通過空格來進行分隔,因此在進行英文文本處理時,可以非常容易的通過空格來切分單詞。
  • Python中文分詞工具大合集:安裝、使用和測試
    更高的分詞準確率。相比於其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。支持詞性標註。for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。
  • 資源 | Python中文分詞工具大合集
    相比於其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。支持用戶自訓練模型。支持用戶使用全新的標註數據進行訓練。支持詞性標註。for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。