「部分居民生活水平」這樣簡單的中文短語,人類理解起來沒有絲毫困難。但把這一短語交給機器,是理解成「部分/居民/生活/水平」,還是「部/分居/民生/活水/平」,卻著實是個問題。
在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
「中文的分詞和詞性標註是自然語言處理的基本任務,對於後續的應用和任務處理非常重要。」兩篇論文的作者之一、創新工場大灣區人工智慧研究院執行院長宋彥告訴《中國科學報》,對於文本分類、情感分析、文本摘要、機器翻譯等,分詞和詞性標註是不可或缺的基本「元件」。
記憶神經網絡刷新中文分詞新高度
宋彥介紹,在工業場景中,對中文的分詞和詞性標註有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
中文分詞目的是在中文語句的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」,在機器中將被切分為「我/喜歡/音樂」。
然而,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,一是未登錄詞問題。
「由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。」宋彥說。例如機器對前文「部分居民生活水平」的理解;再如「他從小學電腦」,正確的分詞是「他/從小/學/電腦」,但在機器裡會劃分出「小學」這種歧義詞。
未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞,例如經濟、醫療、科技等領域的專業術語或者社交媒體上的新詞,或者是人名。「這類問題在跨領域分詞任務中尤其明顯。」宋彥表示。
在論文中,宋彥等人提出了「基於鍵-值記憶神經網絡的中文分詞模型」。該模型利用「n元組」提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解,並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。
在「部分居民生活水平」這句話中,該模型通過神經網絡,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像「部分」、「居民」、「生活」、「水平」這些詞都會被突出,但「分居」、「民生」這些詞會被降權處理,從而預測出正確的結果。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。實驗結果顯示,該模型在5個數據集上均達了最好的成績。
「雙通道注意力機制」有效剔除「噪音」誤導
宋彥指出,中文分詞和詞性標註是兩個不同的任務。詞性標註是在已經切分好的文本中,給每一個詞標註其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標註對後續的句子理解有重要的作用。
在詞性標註中,歧義仍然是個老大難的問題。在以往的標註工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有「雜音」的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
針對這一問題,宋彥等人在論文中提出了一個「基於雙通道注意力機制的分詞及詞性標註模型」。該模型將中文分詞和詞性標註視作聯合任務,可一體化完成。
模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
例如對「他馬上功夫很好」這句話,該模型通過識別該句話的語境和上下文特徵,對「馬上」二字進行分開識別成「馬/上」,而不是識別成「馬上」。
「這樣一來,那些不準確的、對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有『噪音』的信息誤導。」宋彥說。
該模型在5個數據集的表現也都超過前人的工作,得到了較好的效果。
推動中文分詞和詞性標註技術開源
據了解,中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
「這意味著,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。」宋彥說。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的機器理解效果。
2014年左右,深度學習和神經網絡開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和信息。「我們的兩篇文章就是沿著這個路徑,用記憶神經網絡的方式記錄對分詞結果有影響的n元組,並引入對詞性標註有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網絡的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。」宋彥說。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡應用開發的效率和性能,同時方便人工幹預及(預)後處理。
而這也是創新工場人工智慧工程院的努力方向之一。據悉,創新工場AI工程院成立於2016年,旨在銜接科技創新和行業賦能,做嫁接科研和產業應用的橋梁,為行業改造業務流程、提升業務效率。
AI工程院下設北京總部、南京研究院和大灣區研究院。在大灣區研究院,下設信息感知和理解實驗室,專注於對自然語言處理(NLP)領域的研究。宋彥本人也有超過15年的NLP領域的科研經驗。
目前,這兩篇論文的分詞和詞性標註工具都已經開源,對應的代碼和模型向公眾開放,以方便學者提升相關領域科研效率和場景應用。
相關論文信息:https://www.aclweb.org/anthology/2020.acl-main.734/
https://www.aclweb.org/anthology/2020.acl-main.735/
版權聲明:凡本網註明「來源:中國科學報、科學網、科學新聞雜誌」的所有作品,網站轉載,請在正文上方註明來源和作者,且不得對內容作實質性改動;微信公眾號、頭條號等新媒體平臺,轉載請聯繫授權。郵箱:shouquan@stimes.cn。