創新工場提出中文分詞和詞性標註新模型可提升工業應用效率

2020-12-17 東方財富網

13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。

在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。

創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。

因此,在「鍵-值記憶神經網絡的中文分詞模型」的模型中,利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。

在算法實驗中,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均刷新歷史成績。

創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」

在基於雙通道注意力機制的分詞及詞性標註模型中,將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻,從而降低了「噪音」。

創新工場介紹,在和史丹福大學的 CoreNLP 工具的相比中,該模型有近10個百分點的提升。

在場景應用上,創新工場主要希望解決工業場景的突破,宋彥表示,「在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。」創新工場介紹,「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」兩篇文章,已經入選自然語言處理領域(NLP)頂級學術會議 ACL 2020。(完)

(文章來源:DoNews)

相關焦點

  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    同時,尤其在工業場景對分詞有非常直接的訴求,比如,雖然字模型對於各種字的編碼器能夠達到非常好的效果,但是依然無法達到效率和性能的平衡,而且在很多場景下,需要進行人工幹預及後處理。當前也沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。
  • 自然語言處理之詞性標註
    它是指在語言中以詞本身的特點(語法特徵、句法功能、形態變化等)、兼顧詞彙意義等對詞語進行劃分分類的依據,詞類即根據詞性進行劃分後的結果。 那什麼是詞性標註呢?詞性標註就是在給定句子中判定每個詞的語法範疇,確定其詞性並加以標註的過程。通俗地講,就是對句子進行分詞後,在句子中的分詞後標上詞的性質如名詞(n)、動詞(v)等等。
  • 我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文
    LAC是什麼LAC全稱Lexical Analysis of Chinese,是百度NLP(自然語言處理部)研發的一款詞法分析工具,可實現中文分詞、詞性標註、專名識別等功能。LAC在分詞、詞性、專名識別的整體準確率超過90%,以專名識別為例,其效果要比同類詞法分析工具提升10%以上。例如:我知道你不知道,百度開源詞法LAC幫你更懂中文!
  • 海量新聞信息處理中的中文分詞算法研究
    二、社會化新聞中的中文分詞算法 當前計算機技術大氣候下,技術條件非常成熟。一方面各大門戶網站面臨激烈的市場競爭,社會和用戶對信息獲取的準確度和熱度的要求日漸嚴格和苛刻,另外一方面,由於客戶業務增長和歷史積累所導致的海量業務數據,網絡用語、機構簡稱等新名詞不斷增加,對分詞技術提出了新的挑戰。
  • Hanlp分詞之CRF中文詞法分析詳解
    中文分詞訓練CRFSegmenter segmenter = new CRFSegmenter(null);segmenter.train("data/test/pku98/199801.txt", CWS_MODEL_PATH);輸出為HanLP私有的二進位模型,有興趣的話還可以通過命令導出為兼容CRF++的純文本格式。
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    1.前言詞法分析是自然語言處理的基本工具,主要包括分詞、詞性標註和實體識別等功能。目前各類詞法分析工具大行其道,有免費開源的,也有商業收費的;有高校研發的,也有企業開發的;有支持Java的,也有支持Python的,甚至還有支持安卓平臺的。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    在此和大家分享一些竹間智能在中文自然語言交互研究中的經驗和思考。本文結合語言學和 NLP 的幾個基本任務,從理論上對中文 NLP 的特點進行說明,同時展望 NLU 在中文自然語言交互上的一些方向。1.中文分詞詞是最小的能夠獨立運用的語言單位。「詞」這個概念,是從西方引入的,在 1898 年《馬氏文通》出版之前,傳統的語言學研究對象是「字」,而不是「詞」。
  • 創新工場DeeCamp2020完美落幕,兩團隊並列總冠軍獎金翻倍,200名...
    創新工場董事長兼CEO李開復博士為冠軍團隊「方仔照相館」頒獎總冠軍:Faster&Better所屬賽道:自動駕駛的技術突破與前沿設計挑戰賽題:算符算力約束下的無人駕駛車輛檢測自動駕駛是人工智慧中最具挑戰、最具有應用前景的方向之一。對於需要大規模落地量產的車輛檢測場景,神經網絡模型只能在較為廉價的晶片上運行,這為檢測模型的效率帶來了巨大挑戰和約束。
  • 創新工場的AI子公司創新奇智獲C輪融資
    創新奇智宣布完成C輪融資,融資金額未透露,投後估值超過10億美元,躋身人工智慧獨角獸陣營。本輪融資由中金甲子領投,國和投資、陽光融匯資本等機構跟投,老股東華興新經濟基金繼續加碼。華興資本和中金公司擔任本輪聯合財務顧問。  創新奇智成立於2018年3月,是創新工場的AI子公司。
  • 數據標註在智慧醫療領域中的具體應用丨曼孚科技
    AI圖像識別技術的應用將有效解決此類問題。藉助圖像識別技術,可以對影像進行前後對比,完成病灶自動識別與標註,發現肉眼無法發現的病灶,有助於幫助醫生更快完成疑似患者診斷。此外,與依靠人力完成診斷相比,AI圖像識別不會疲勞,可以實現24小時無休,且每秒處理的影像可達上萬張,將大大提高診斷效率。
  • Hive基於UDF進行文本分詞
    原生IK中文分詞是從文件系統中讀取詞典,es-ik本身可擴展成從不同的源讀取詞典。目前提供從sqlite3資料庫中讀取。es-ik-plugin-sqlite3使用方法:1.最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。
  • 深耕創新服務行業,優客工場擎起中國新經濟大旗
    成立五年的優客工場,作為聯合辦公領域頭部企業代表成功上榜,其所布局的創新服務平臺,五年來見證並幫助了很多新經濟企業的成長與成功,成為中國新經濟跑道上賦能企業發展的一支不容忽視的力量。深耕創新服務和聯合辦公的優客工場,在多個維度上進一步擁抱敏捷辦公新趨勢,其搭建運營的企業服務平臺、智能化辦公系統和豐富的會員權益,有力提升了敏捷辦公空間使用者的辦公體驗,助力新經濟企業快速復工復產,為經濟復甦增長做出了必要的貢獻。
  • 實現Python數據化運營都需要哪些工具和組件?
    如果只是想學習或了解一下Python, Python 2和Python 3都可以。如果是企業內部應用,具體看企業用的是哪個版本。由於歷史原因,Python 2有更多的應用案例、專業書籍和知識討論分享社區。2.Python IDEPython自帶IDE,可以滿足一定的數據開發和測試需求,在交互型的開發和學習上,也有IPython可供選擇。但這裡建議大家選擇另外一個Python IDE工具——PyCharm。
  • 使用碳化矽 MOSFET 提升工業驅動器的能源效率
    摘要由於電動馬達佔工業大部分的耗電量,工業傳動的能源效率成為一大關鍵挑戰。因此,半導體製造商必須花費大量心神,來強化轉換器階段所使用功率元件之效能。意法半導體(ST)最新的碳化矽金屬氧化物半導體場效電晶體(SiC MOSFET)技術,為電力切換領域立下全新的效能標準。
  • 工業網際網路中臺技術與應用快速發展 創新業務模式是關鍵
    馮偉認為,中臺一方面是基於大數據分析提升企業洞察力、決策力和流程優化的能力,另一方面是依託平臺實現更大範圍的數據流動。 其次,應回答為什麼要發展中臺體系。「一是企業加速組織管理變革的需要;二是企業加速技術進步的需要;三是企業加速模式創新的需要。」 最後,應回答如何發展中臺體系。「敏捷開放的架構是基礎,數據支持的模塊化沉澱是核心,創新業務模式是關鍵。」
  • 院士把脈5G+工業網際網路 以持續創新攻克「卡脖子」關鍵技術
    雖然人員少了,但效率提升了,現在一個班能採12000噸煤。除了技術創新外,要特別強調製度創新,金融等方面也要全力支持,使我國5G+工業網際網路步入快速發展階段。  肖亞慶表示,工業和信息化部將加強政策引領,提升政策針對性,加快設施建設,夯實產業發展基礎。全面推進工業網際網路網絡、平臺、安全三大體系建設,完善標識解析體系布局。積極推進5G網絡建設和共建共享,深入推進5G、工業無源光纖網絡等關鍵技術研發和產業化進程,提升產業基礎能力。
  • 創新工場加碼新賽道:進軍醫療,重倉IVD、高值耗材
    創新工場將打造一支具備專業化醫療投資體系和國際化視野的團隊。  雷鋒網醫健AI掘金志消息,12月28日,創新工場舉辦「預見·2021」趨勢分享會。醫改之後,中國醫療行業大數據逐步到位,也開始出現結合人工智慧的新藥研發技術,精準醫療和多樣化支付都陸續成為可能。  據醫健AI掘金志了解,從2019年起,創新工場以醫療市場化、數位化及AI應用等方向為切入口,目前已經投資鎂信健康、艾登科技、英科智能、沃比醫療、予果生物等近20個項目,涵蓋數據AI、服務、器械、生物製藥等多個領域。