EMNLP 2018 | 短文本分類,騰訊AI Lab聯合港中文提出主題記憶網絡

2022-01-24 機器之心

在 EMNLP 2018 中,針對短文本的處理,騰訊 AI Lab 發布了 論文 Topic Memory Networks for Short Text Classification。這篇論文由騰訊 AI Lab 主導,與香港中文大學合作完成。本文是主題模型與文本分類在神經網絡框架下的一次結合,作為主題模型與深度學習聯合訓練的一個早期的探索,能夠很自然地被擴展到很多深度學習任務的上。

論文:Topic Memory Networks for Short Text Classification

 

論文連結:https://arxiv.org/pdf/1809.03664.pdf

短文本分類 (Short Text Classification)


短文本因為其內容簡短、易於閱讀和傳播的特性作為信息交互的載體廣泛存在,例如新聞標題、社交媒體的信息、簡訊等等,因此如何讓機器自動而高效地理解短文本一直是自然語言處理的重要任務,而文本分類作為文本理解的基礎任務、能夠服務於大量的下遊應用(例如文本摘要、情感分析、推薦系統等等),更是長期以來學術界與工業界關注的焦點。然而,短文本分類任務本身又十分困難,這其中的原因主要來自文本的內容簡短而引起數據稀疏性問題,從而導致了模型分類的時候沒有足夠的特徵進行類別的判斷。為了理解短文本分類的挑戰,表 1 展示了一個 Twitter(推特)上的一個短文本分類例子。

表 1:Twitter 上文本分類的例子。

R1 和 R2 都是訓練樣本分別屬於 Super Bowl (超級碗) 以及 New Music Live(新音樂盛典)類別,S 是測試樣本屬於 New Music Live 類別,但是僅僅從給定的 11 個單詞,很難判斷出 S 與新音樂盛典的關係。但是 R2 中 wristband(手環)與 Bieber(比伯)的共現極大地豐富了 wristband 的語義,將 wristban\d 與 New Music Live 關聯起來,因為當時 Twitter 上支持 Bieber 送手環的活動使得訓練語料中 wristband 和 Bieber 在 New Music Live 類別的 tweets 中大量共現。如果模型能夠定位到 wristband 是一個關鍵的詞,就更容易判斷出測試樣本 S 應該被分類為 New Music Live,否則的話,S 很有可能被錯誤分類為 Super Bowl,因為其與 R1 大部分的詞都是重合的。

主題記憶網絡 (Topic Memory Networks)


Topic Model(主題模型)的要旨是基於詞在文章中的共現關係,從大量的詞彙中找出主題詞(例如 S 中的 wristbands),這部分主題詞在一部分的文章中經常出現,但並不似常用詞一般在大部分文章中都頻繁出現。因為主題詞的這種特性,相較於低頻詞或常用詞,往往能更好地指明文本的類別。因此,過去的工作已經證明,用主題模型學出的主題表示,能夠有效地提高文本分類的性能。然而,目前的大多數文本分類任務在用到主題表示的時候,往往採用兩步走的方法,先訓練好主題模型,然後將主題模型輸出的主題表示去初始化文本分類的特徵空間。近期,Neural Topic Model(神經主題模型:https://arxiv.org/pdf/1706.00359.pdf)的提出,使得主題模型與大量的深度學習任務能夠在多任務學習 (multi-task learning) 的框架下被聯合訓練,本文以深度學習最基礎的任務——文本分類作為這種新的訓練模式的一個初期的探索,提出了一種新的網絡模型 Topic Memory Networks(主題記憶網絡),網絡結構如圖 1 所示。

圖 1:主題記憶網絡的框架圖。從左到右分別是神經主題模型、主題記憶機制與文本分類器。

主題記憶網絡一共可以分為三部分,從左到右分別是 Neural Topic Model (神經主題模型)、Topic Memory Mechanism(主題記憶機制)、以及 Classifier(文本分類器)。其中,神經主題模型主要用於學習主題表示;主題記憶機制主要用於將學到的主題表示映射到對文本分類有用的特徵空間當中;文本分類器主要用於輸出文本分類標籤,可以適配多種分類器(例如卷積神經網絡(CNN)或循環神經網絡(RNN)),因為 CNN 在之前的的工作中被證明對文本分類更有效,因此在本文對於主題記憶網絡的實驗探索(將於下文重點討論)中,我們選擇 CNN 作為文本分類器。

為了實現主題模型與文本分類的聯合訓練,主題記憶網絡的損失函數為主題模型的訓練目標 variational lower-bound 以及文本分類器的訓練目標 cross-entropy 的加權和。

實驗分析


為了探索主題記憶網絡對短文本分類的性能,本文選擇了四個基準數據集,分別為:TagMyNews 新聞標題、Snippets 搜索片段、Twitter 和 Weibo(新浪微博),四個數據集的統計信息如表 2 所示。

表 2:實驗數據集詳細信息。

本文選擇了當下最好的短文本分類模型與主題記憶網絡的性能進行了比較,在四個實驗數據集的實驗結果如表 3 所示,從實驗結果中可以看出,主題記憶網絡在四個數據集上都顯著提升了 state-of-the-art 的性能。

表 3:主題記憶網絡與比較模型的實驗結果。TMN 表示主題記憶網絡:TMN (Separate TM inference) 表示先預訓練好神經主題模型,之後把其輸出的主題表示初始化主題記憶機制來進行文本分類。TMN (Joint TM inference) 表示神經主題模型與文本分類聯合訓練。兩個版本的主題記憶網絡的結果顯著高於所有的比較模型(p<0.05 paired t-test)。

考慮到主題記憶網絡能夠對主題模型與文本分類進行聯合訓練,那麼主題模型是否能夠獲益於這種多任務訓練,以學到更有意義的表示呢?本文對主題模型的輸出進行了定量與定性的分析。在定量分析中,被廣泛使用的 CV coherence 分數 (https://github.com/dice-group/Palmetto) 作為評測指標,比較模型包括經典的主題模型 LDA、短文本主題模型中的 state-of-the-art 模型 BTM、以及神經主題模型 NTM,越高的分數說明學到的 topic 表示越有意義,實驗結果如表 3 所示,定量實驗結果說明,通過與文本分類聯合訓練,主題模型也能夠學到更有意義的主題表示。

為了探索為什麼主題記憶網絡能取得更好的性能,本文討論了主題記憶網絡對表 1 的測試樣例 S 學到了什麼表示,結果如圖 2 所示。由結果讀者可以觀察到,與 S 最相關的三個主題分別與 Bieber、追星以及音樂相關。雖然三個主題的相關主題詞大多都不被包含於 S 當中,但是通過挖掘詞與詞的共現關係,主題模型成功擴展了 S 中主題詞 wristband 的語義,從而使得 S 得以被正確分類到 New Music Live。

圖 2:主題記憶網絡學到的對於 S 的表示。左圖是主題記憶機制中存儲的 S 中每個詞與各主題之間的關係熱度圖,右圖是關係最大的三個主題的相關詞。

結語


本文是主題模型與文本分類在神經網絡框架下的一次結合,也是主題表示與其他深度學習任務聯合訓練的一個嘗試,希望能夠對啟發後續對於主題表示與深度學習的研究與應用。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

相關焦點

  • EMNLP 2018 | 騰訊AI Lab解讀16篇入選論文
    用於短文本分類的主題記憶網絡Topic Memory Networks for Short Text Classification本文由騰訊 AI Lab 主導,與香港中文大學合作完成。許多分類模型在短文本分類上性能欠佳,其主要原因是短文本所產生的數據稀疏性問題。
  • 【ACL2018】騰訊AI Lab入選5篇論文解讀:神經機器翻譯、情感分類等
    騰訊AI Lab 今年共有 5 篇論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。 第 56 屆計算語言學協會年會ACL 2018 將於當地時間7月15-20日在澳大利亞墨爾本舉辦。騰訊AI Lab 今年共有 5 篇論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。
  • 騰訊AI Lab 2020 年度回顧
    華泰證券:國內前五的券商,其證券分析師通過翻譯記憶融合與交互翻譯,高效發布中英雙語研報; 騰訊雲官網:在國際版官網和技術文檔翻譯過程中,定製翻譯引擎準確處理Markdown、XML等標記文本,高效復用術語、雙語句對等語言資產,助力騰訊雲數百款產品出海遠航。
  • ACL 2018 | 騰訊AI Lab五篇入選論文
    2018 將於當地時間 7 月 15-20 日在澳大利亞墨爾本舉辦。超文檔的嵌入(embedding)可以輔助相關對象(如實體、論文)的分類、推薦、檢索等問題。然而,針對普通文檔的傳統嵌入方法往往偏重建模文本/連結網絡中的一個方面,若簡單運用於超文檔,會造成信息丟失。本論文提出了超文檔嵌入模型在保留必要信息方面應滿足的四個標準並且表明已有的方法都無法同時滿足這些標準。
  • 相似詞查詢:玩轉騰訊 AI Lab 中文詞向量
    ",會得到:自然語言理解、計算機視覺、自然語言處理技術、深度學習、機器學習、圖像識別、語義理解、語音識別、自然語言識別、語義分析;輸入"相似詞 文本挖掘",會得到:數據挖掘、文本分析、文本數據、自然語言分析、語義分析、文本分類、信息抽取、數據挖掘算法、語義搜索、文本挖掘技術。
  • 騰訊聯合港中文提出新型神經網絡壓縮方法
    騰訊 AI Lab 與香港中文大學合作完成的論文《通過交叉知識蒸餾實現少樣本神經網絡壓縮(Few Shot Network Compression via Cross Distillation)》提出的新方法能很好地在保證實時性和準確性平衡的前提下兼顧隱私和安全性。該論文已被 AAAI 2020 會議接收,且相關原始碼也已在 GitHub 發布。
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    基於適應性採樣的快速圖表示學習Adaptive Sampling Towards Fast Graph Representation Learning論文地址:https://arxiv.org/abs/1809.05343這項研究由騰訊 AI Lab 獨立完成,提出了一種適用於大規模社交網絡的節點分類方法。
  • NIPS 2018 | 騰訊 AI Lab 入選 20 篇論文,含 2 篇 Spotlight
    基於適應性採樣的快速圖表示學習Adaptive Sampling Towards Fast Graph Representation Learning論文地址:https://arxiv.org/abs/1809.05343這項研究由騰訊 AI Lab 獨立完成,提出了一種適用於大規模社交網絡的節點分類方法。
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    本文轉載於「騰訊 AI 實驗室」,雷鋒網 AI 科技評論經授權轉載。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • NIPS2018 | 騰訊AI Lab入選20篇論文,含2篇Spotlight
    基於適應性採樣的快速圖表示學習Adaptive Sampling Towards Fast Graph Representation Learning論文地址:https://arxiv.org/abs/1809.05343這項研究由騰訊 AI Lab 獨立完成,提出了一種適用於大規模社交網絡的節點分類方法
  • IJCAI 2018|騰訊知文等提出結合主題信息和強化訓練生成更優摘要
    讓機器能根據文章的主題思想生成人類能夠讀懂的文本摘要是一個重要的 NLP 研究問題。騰訊知文團隊、蘇黎世聯邦理工學院、哥倫比亞大學和騰訊 AI Lab 的研究者針對這一任務提出了一種引入主題模型和強化學習方法的卷積神經網絡方法。該論文已被 IJCAI 2018 接收,機器之心在此進行了摘要介紹。
  • 騰訊AI Lab入選20篇論文,含2篇Spotlight
    AI Lab 獨立完成,提出了一種適用於大規模社交網絡的節點分類方法。、香港中文大學合作完成。此外,研究者還從通用型非局部建模的角度對這種構建方法進行了分析,將新提出的非局部網絡與非局部擴散過程與非局部馬爾可夫跳變過程等其它非局部模型聯繫到了一起。非局部運算與卷積和循環模塊不同,可以通過直接計算特徵空間中每對位置之間的交互來實現長程依賴。這項研究對圖像或視頻分類、文本摘要和金融市場分析等諸多實際機器學習問題有重要的指導意義。
  • 圍觀騰訊 AI Lab 的4篇 ICML 入選論文 | ICML 2017
    Efficient Distributed Learning with SparsityProjection-free Distributed Online Learning in Networks「無需投影的網絡中的在線分布式學習」論文作者:
  • 騰訊AI Lab全解讀:3大核心領導人物
    張潼博士作為騰訊AI Lab第一負責人,將帶領50餘位AI科學家及200多位AI應用工程師團隊,聚焦於四大基礎研究領域看,包括計算機視覺、語音識別、自然語言處理和機器學習,並根據騰訊業務提出遊戲、內容、社交及工具平臺型AI四個應用方向。下面,我們就從核心領導層、代表論文和研發領域三個方面,全面解讀騰訊AI Lab。
  • 短文本分類常見技術:文本表示
    在chatbot的構建過程中,對用戶的意圖進行識別是其中比較重要的一個部分,而意圖識別的核心問題是如何對短文本進行分類。短文本由於自身內容的長度相較於長文本而言比較短,包含信息量少、容易存在語義歧義,這些都是短文本分類時需要考慮的問題。為了對短文本進行分析,我們首先需要將其轉化為便於計算機處理的數據形式,下面介紹一些常見的建模方法。
  • 基於Text-CNN模型的中文文本分類實戰
    深度學習的優勢文本分類模型,從最經典的2013年Kim提出Text-CNN模型開始,深度學習模型在文本分類任務上具有廣泛的應用。2016年Kim跳槽FaceBook後提出了工業界的文本分類模型的「新寵」—FastText。
  • 文本分類任務近期發展概況
    (源自論文《改進的TF-IDF算法在文本分類中的研究 》)      相對較早一些的針對傳統文本分類方法存在的不足,眾多學者對文本分類方法展開研究,對其進行修正和改進的文章如下:為直接表達文本,文獻[1]提出了一種基於密集網的短文本分類模型,採用one-hot 編碼,通過合併和隨機選擇的方法擴大文本特徵選擇,解決了特徵稀疏、文本數據和特徵表示等方面問題。
  • 獨家專訪 | 騰訊AI Lab公布首項研究:提出獨特神經網絡實現實時...
    李飛飛團隊開源快速神經網絡風格遷移代碼》、《谷歌增強型風格遷移新算法:實現基於單個網絡的多種風格實時遷移》。如今新成立的騰訊 AI Lab 也加入了此行列,在此文章中機器之心對騰訊 AI Lab 的視頻風格變換的研究進行了獨家報導。
  • 慧科訊業AI實驗室競技國際自然語言處理與中文計算大會文本摘要技術奪冠
    第一個內容分析模塊自動分析文本的話題大意,利用統計學和語言學特徵,識別出文本中最精確且全面地涵蓋文本討論主題的重要語句。 第二個摘要編輯模塊,通過精心設計,不僅解決了提取式摘要技術通常因簡單提取句子並拼接所造成的上下文不連貫問題,同時也克服了生成式摘要技術產出句子可讀性差的問題。
  • 騰訊AI Lab聯合清華港中文,解讀圖深度學習歷史、進展應用
    機器之心發布機器之心編輯部本文將分圖神經網絡歷史、圖神經網絡的最新研究進展和圖神經網絡的應用進展三大部分歸納總結該課程 Theme II: Advances and Applications 部分的核心內容。作者包括騰訊榮鈺、徐挺洋、黃俊洲,清華大學黃文炳,香港中文大學程鴻。人工智慧領域近幾年曆經了突飛猛進的發展。