DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,「部分居民生活水平」,其正確的切分應為「部分/居民/生活/水平」,但存在「分居」、「民生」等歧義詞。「他從小學電腦技術」,正確的分詞是:他/從小/學/電腦技術,但也存在「小學」這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。因此,在「鍵-值記憶神經網絡的中文分詞模型」的模型中,利用n元組(即一個由連續n個字組成的序列,比如「居民」是一個2元組,「生活水平」是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。
在算法實驗中,該模型在5個數據集(MSR、PKU、AS、CityU、CTB6)上的表現,均刷新歷史成績。
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有數據集上的表現均超過了之前的工作,「把中文分詞領域廣泛使用的標準數據集上的性能全部刷到了新高。」在基於雙通道注意力機制的分詞及詞性標註模型中,將中文分詞和詞性標註視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻,從而降低了「噪音」。創新工場介紹,在和史丹福大學的 CoreNLP 工具的相比中,該模型有近10個百分點的提升。
在場景應用上,創新工場主要希望解決工業場景的突破,宋彥表示,「在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。」創新工場介紹,「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」兩篇文章,已經入選自然語言處理領域(NLP)頂級學術會議 ACL 2020。(完)