在 EMNLP 2018 中,針對短文本的處理,騰訊 AI Lab 發布了 論文 Topic Memory Networks for Short Text Classification。這篇論文由騰訊 AI Lab 主導,與香港中文大學合作完成。本文是主題模型與文本分類在神經網絡框架下的一次結合,作為主題模型與深度學習聯合訓練的一個早期的探索,能夠很自然地被擴展到很多深度學習任務的上。
論文:Topic Memory Networks for Short Text Classification
論文連結:https://arxiv.org/pdf/1809.03664.pdf
短文本分類 (Short Text Classification)
短文本因為其內容簡短、易於閱讀和傳播的特性作為信息交互的載體廣泛存在,例如新聞標題、社交媒體的信息、簡訊等等,因此如何讓機器自動而高效地理解短文本一直是自然語言處理的重要任務,而文本分類作為文本理解的基礎任務、能夠服務於大量的下遊應用(例如文本摘要、情感分析、推薦系統等等),更是長期以來學術界與工業界關注的焦點。然而,短文本分類任務本身又十分困難,這其中的原因主要來自文本的內容簡短而引起數據稀疏性問題,從而導致了模型分類的時候沒有足夠的特徵進行類別的判斷。為了理解短文本分類的挑戰,表 1 展示了一個 Twitter(推特)上的一個短文本分類例子。
表 1:Twitter 上文本分類的例子。
R1 和 R2 都是訓練樣本分別屬於 Super Bowl (超級碗) 以及 New Music Live(新音樂盛典)類別,S 是測試樣本屬於 New Music Live 類別,但是僅僅從給定的 11 個單詞,很難判斷出 S 與新音樂盛典的關係。但是 R2 中 wristband(手環)與 Bieber(比伯)的共現極大地豐富了 wristband 的語義,將 wristban\d 與 New Music Live 關聯起來,因為當時 Twitter 上支持 Bieber 送手環的活動使得訓練語料中 wristband 和 Bieber 在 New Music Live 類別的 tweets 中大量共現。如果模型能夠定位到 wristband 是一個關鍵的詞,就更容易判斷出測試樣本 S 應該被分類為 New Music Live,否則的話,S 很有可能被錯誤分類為 Super Bowl,因為其與 R1 大部分的詞都是重合的。
主題記憶網絡 (Topic Memory Networks)
Topic Model(主題模型)的要旨是基於詞在文章中的共現關係,從大量的詞彙中找出主題詞(例如 S 中的 wristbands),這部分主題詞在一部分的文章中經常出現,但並不似常用詞一般在大部分文章中都頻繁出現。因為主題詞的這種特性,相較於低頻詞或常用詞,往往能更好地指明文本的類別。因此,過去的工作已經證明,用主題模型學出的主題表示,能夠有效地提高文本分類的性能。然而,目前的大多數文本分類任務在用到主題表示的時候,往往採用兩步走的方法,先訓練好主題模型,然後將主題模型輸出的主題表示去初始化文本分類的特徵空間。近期,Neural Topic Model(神經主題模型:https://arxiv.org/pdf/1706.00359.pdf)的提出,使得主題模型與大量的深度學習任務能夠在多任務學習 (multi-task learning) 的框架下被聯合訓練,本文以深度學習最基礎的任務——文本分類作為這種新的訓練模式的一個初期的探索,提出了一種新的網絡模型 Topic Memory Networks(主題記憶網絡),網絡結構如圖 1 所示。
圖 1:主題記憶網絡的框架圖。從左到右分別是神經主題模型、主題記憶機制與文本分類器。
主題記憶網絡一共可以分為三部分,從左到右分別是 Neural Topic Model (神經主題模型)、Topic Memory Mechanism(主題記憶機制)、以及 Classifier(文本分類器)。其中,神經主題模型主要用於學習主題表示;主題記憶機制主要用於將學到的主題表示映射到對文本分類有用的特徵空間當中;文本分類器主要用於輸出文本分類標籤,可以適配多種分類器(例如卷積神經網絡(CNN)或循環神經網絡(RNN)),因為 CNN 在之前的的工作中被證明對文本分類更有效,因此在本文對於主題記憶網絡的實驗探索(將於下文重點討論)中,我們選擇 CNN 作為文本分類器。
為了實現主題模型與文本分類的聯合訓練,主題記憶網絡的損失函數為主題模型的訓練目標 variational lower-bound 以及文本分類器的訓練目標 cross-entropy 的加權和。
實驗分析
為了探索主題記憶網絡對短文本分類的性能,本文選擇了四個基準數據集,分別為:TagMyNews 新聞標題、Snippets 搜索片段、Twitter 和 Weibo(新浪微博),四個數據集的統計信息如表 2 所示。
表 2:實驗數據集詳細信息。
本文選擇了當下最好的短文本分類模型與主題記憶網絡的性能進行了比較,在四個實驗數據集的實驗結果如表 3 所示,從實驗結果中可以看出,主題記憶網絡在四個數據集上都顯著提升了 state-of-the-art 的性能。
表 3:主題記憶網絡與比較模型的實驗結果。TMN 表示主題記憶網絡:TMN (Separate TM inference) 表示先預訓練好神經主題模型,之後把其輸出的主題表示初始化主題記憶機制來進行文本分類。TMN (Joint TM inference) 表示神經主題模型與文本分類聯合訓練。兩個版本的主題記憶網絡的結果顯著高於所有的比較模型(p<0.05 paired t-test)。
考慮到主題記憶網絡能夠對主題模型與文本分類進行聯合訓練,那麼主題模型是否能夠獲益於這種多任務訓練,以學到更有意義的表示呢?本文對主題模型的輸出進行了定量與定性的分析。在定量分析中,被廣泛使用的 CV coherence 分數 (https://github.com/dice-group/Palmetto) 作為評測指標,比較模型包括經典的主題模型 LDA、短文本主題模型中的 state-of-the-art 模型 BTM、以及神經主題模型 NTM,越高的分數說明學到的 topic 表示越有意義,實驗結果如表 3 所示,定量實驗結果說明,通過與文本分類聯合訓練,主題模型也能夠學到更有意義的主題表示。
為了探索為什麼主題記憶網絡能取得更好的性能,本文討論了主題記憶網絡對表 1 的測試樣例 S 學到了什麼表示,結果如圖 2 所示。由結果讀者可以觀察到,與 S 最相關的三個主題分別與 Bieber、追星以及音樂相關。雖然三個主題的相關主題詞大多都不被包含於 S 當中,但是通過挖掘詞與詞的共現關係,主題模型成功擴展了 S 中主題詞 wristband 的語義,從而使得 S 得以被正確分類到 New Music Live。
圖 2:主題記憶網絡學到的對於 S 的表示。左圖是主題記憶機制中存儲的 S 中每個詞與各主題之間的關係熱度圖,右圖是關係最大的三個主題的相關詞。
結語
本文是主題模型與文本分類在神經網絡框架下的一次結合,也是主題表示與其他深度學習任務聯合訓練的一個嘗試,希望能夠對啟發後續對於主題表示與深度學習的研究與應用。
本文為機器之心發布,轉載請聯繫本公眾號獲得授權。
✄---
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報導:content@jiqizhixin.com
廣告 & 商務合作:bd@jiqizhixin.com