IJCAI 2018|騰訊知文等提出結合主題信息和強化訓練生成更優摘要

2020-12-04 機器之心Pro

讓機器能根據文章的主題思想生成人類能夠讀懂的文本摘要是一個重要的 NLP 研究問題。騰訊知文團隊、蘇黎世聯邦理工學院、哥倫比亞大學和騰訊 AI Lab 的研究者針對這一任務提出了一種引入主題模型和強化學習方法的卷積神經網絡方法。該論文已被 IJCAI 2018 接收,機器之心在此進行了摘要介紹。

自動文本摘要在很多不同的自然語言處理(NLP)應用中都發揮著重要的作用,比如新聞標題生成 [Kraaij et al., 2002] 和 feed 流摘要 [Barzilay and McKeown, 2005]。對於文本摘要來說,概括文章的中心思想、信息豐富性、內容代表性等,都是非常重要的。自動文本摘要的關鍵難題是準確評估摘要結果、選擇重要信息、有效地過濾冗餘內容、總結相關信息從而得到可讀性強的摘要等。與其它 NLP 任務相比,自動文本摘要有自己的難點。比如,不同於機器翻譯任務(輸入和輸出序列通常長度相近),摘要任務的輸入和輸出序列大都很不平衡。另外,機器翻譯任務通常在輸入和輸出序列之間有一些直接詞義層面的對應,這在摘要任務中卻沒那麼明顯。

自動摘要技術有兩種類型,即抽取式(extraction)和生成式(abstraction)。抽取式摘要 [Neto et al., 2002] 的目標是通過選擇源文檔中的重要片段並將它們組合來生成摘要;而生成式摘要 [Chopra et al., 2016] 則是根據文檔的核心思想來重新組織生成摘要,因此這種摘要的靈活性更高。不同於抽取式摘要,生成式方法能夠針對源文檔的核心思想重新組織摘要語言,並確保所生成的摘要語法正確且保證可讀性;這更接近於人類做摘要的方式,因此也是本論文關注的方法。

近段時間,深度神經網絡模型已經在 NLP 任務上得到了廣泛應用,比如機器翻譯 [Bahdanau et al., 2014]、對話生成 [Serban et al., 2016] 和文本摘要 [Nallapati et al., 2016b]。使用循環神經網絡(RNN)[Sutskever et al., 2014] 的基於注意力機制的 sequence to sequence 框架 [Bahdanau et al., 2014] 在 NLP 任務上得到了尤其廣泛的應用。但是,基於 RNN 的模型更容易受到梯度消失問題的影響,因為它們具有非線性的鏈式結構;相比而言,基於 CNN 的模型 [Dauphin et al., 2016] 的結構是分層式的。此外,RNN 的隱藏狀態之間的時間依賴也影響了訓練過程的並行化,這會使得訓練效率低下。

在本論文中,我們提出了一種新方法,該方法基於卷積神經網絡的 sequence to sequence 框架(ConvS2S)[Gehring et al., 2017],引入結合主題模型的注意力機制。就我們所知,這是生成式文本摘要中首個採用卷積框架結合聯合注意力機制引入主題信息的研究,這能將主題化的和上下文的對齊信息提供到深度學習架構中。此外,我們還通過使用強化學習方法 [Paulus et al., 2017] 對我們提出的模型進行了優化。本論文的主要貢獻包括:

我們提出了結合多步注意力機制和帶偏置生成機制的方法,將主題信息整合進了自動摘要模型中,注意力機制能引入上下文信息來幫助模型生成更連貫、多樣性更強和信息更豐富的摘要。我們在 ConvS2S 的訓練優化中使用了 self-critical 強化學習方法(SCST:self-critical sequence training),以針對文本摘要的指標 ROUGE 來直接優化模型,這也有助於緩解曝光偏差問題(exposure bias issue)。我們在三個基準數據集上進行了廣泛的實驗,結果表明引入主題模型和 SCST 強化學習方法的卷積神經網絡能生成信息更豐富更多樣化的文本摘要,模型在數據集上取得了較好的文本摘要效果。

3 引入強化學習和主題模型的卷積 sequence to sequence 框架

我們提出了引入強化學習和主題模型的卷積 sequence to sequence 模型,其包含詞語信息輸入和主題信息輸入的雙路卷積神經網絡結構、一種多步聯合注意力機制、一種帶主題信息偏置的文本生成結構和一個強化學習訓練過程。圖 1 展示了這種引入主題信息的卷積神經網絡模型。

圖 1:引入主題信息的卷積神經網絡結構示意圖。

3.1 ConvS2S 架構

我們使用 ConvS2S 架構 [Gehring et al., 2017] 作為我們的模型的基礎架構。在這篇論文中,我們使用了兩個卷積模塊,分別與詞層面和主題層面的 embedding 相關。我們在這一節介紹前者,在後一節介紹後者以及聯合注意力機制和帶偏置文本生成機制。

3.2 引入主題模型的多步注意力機制

主題模型是一種用於發現源文章集合中出現的抽象主題思想或隱藏語義的統計模型。在本論文中,我們使用了主題模型來獲取文檔的隱含知識以及將引入主題信息的多步注意力機制集成到 ConvS2S 模型中,這有望為文本摘要提供先驗知識。現在我們介紹如何通過聯合注意機制和帶偏置概率生成過程將主題模型信息引入到基本 ConvS2S 框架中。

5 結果和分析

表 4:模型在 Gigaword 語料庫上生成的摘要示例。D:源文檔,R:參考摘要,OR:引入強化學習的 ConvS2S 模型的輸出,OT:引入主題模型和強化學習的 ConvS2S 模型的輸出。藍色標記的詞是參考摘要中沒有出現的主題詞。紅色標記的詞是參考摘要和源文檔中都沒有出現的主題詞。

表 5: Rouge 在 DUC-2004 數據集上的準確度分數。在每種分數上的最佳表現用粗體表示。

表 7:模型在中文語料庫 LCSTS 上生成的摘要示例。D:源文檔,R:參考摘要,OR:引入強化學習的 ConvS2S 模型的輸出,OT:引入主題模型和強化學習的 ConvS2S 模型的輸出。藍色標記的詞是參考摘要中沒有出現的主題詞。紅色標記的詞是參考摘要和源文檔中都沒有出現的主題詞。

論文:一種用於抽象式文本摘要的強化型可感知主題的卷積序列到序列模型(A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization)

論文連結:https://arxiv.org/pdf/1805.03616.pdf

摘要:在本論文中,我們提出了一種解決自動文本摘要任務的深度學習方法,即將主題信息引入到卷積 sequence to sequence(ConvS2S)模型中並使用 self-critical 強化學習訓練方法(SCST)來進行優化。引入詞語和主題信息,加入多步注意力機制,我們的方法可以通過帶主題偏置的概率生成機制提升所生成摘要的連貫性、多樣性和信息豐富性。另一方面,SCST 這樣的強化學習訓練方法可以根據針對摘要的評價指標 ROUGE 直接優化模型,這也能緩解曝光偏差問題。我們在 Gigaword、 DUC-2004 和 LCSTS 數據集上進行實驗評估,結果表明我們提出的方法在生成式摘要上的優越性。

相關焦點

  • IJCAI 2019 論文收錄結果最新出爐!歷年傑出論文帶你重溫 AI 發展...
    近來,生成式對抗網絡(GAN)在文本生成中表現出色。然而,通過 GAN 生成的文本往往在面臨質量差、缺乏多樣性和模式崩潰(mode collapse )的問題。在這篇論文中,我們提出了一個新的框架——SentiGAN,包含有多個生成器和一個多類別判別器,以解決上述問題。在該框架中,多個生成器同時訓練,旨在無監督環境下產生不同情感標籤的文本。
  • EMNLP 2018 | 騰訊AI Lab解讀16篇入選論文
    今年是騰訊 AI Lab 第 2 次參加 EMNLP,共有 16 篇文章入選,涵蓋語言理解、語言生成、機器翻譯等多個研究主題。以下為摘要解讀。此外,我們發現在多層自注意網絡中,較低層趨向於關注於尺寸較小的局部範圍,而較高層則更注重全局信息的捕獲。因此,為了保持原模型捕獲長距離依賴能力的同時強化其對局部信息的建模, 本文僅將局部性建模應用於較低層的自注意力網絡中。在漢英和英德翻譯任務的定量和定性分析證明了所提出方法的有效性和適用性。4.
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    本文中,研究者提出一種往復式學習的算法在訓練分類器的過程中挖掘顯著性,該算法通過前向和後向兩部分操作來生成顯著性響應圖。在訓練過程中,響應圖作為正則項結合傳統的分類損失函數進行網絡的訓練。以此方式訓練的分類器能夠關注於目標物體中克服外表變化的特徵。在大規模數據集上大量的實驗表明,研究者提出的基於顯著性的跟蹤方法在目前主流的跟蹤算法中性能優異。
  • Transformer生成論文摘要方法已出
    特別是摘要、引言、結論,需要不斷重複說明論文的主要研究、觀點和貢獻。現在,這樣的工作可以依賴 AI 完成了。Element AI 的研究者們提出了一種新的模型,使用 Transformer 架構,自動地生成論文的摘要。AI 攢論文的進程又往前走了一步。
  • ACL 2018:Attention 機制佔主流,中文語法檢錯測評引關注 | ACL 2018
    雖然角色不一,但對於大部分人來說,參會的目的大同小異:聽取會上各式各樣的報告,了解學術圈和工業界中一些比較前沿的技術和方向,認識業內人士,展開進一步交流和探討。雷鋒網此次 ACL 之行採訪到騰訊 SNG 數據中心總監劉黎春以及該中心知文團隊技術負責人鍾黎。作為第一次參加 ACL 的「新人」,劉黎春對 AI 科技評論描述了他的參會體驗。
  • ACL 2018:Attention 機制佔主流,中文語法檢錯測評引關注 | ACL...
    雖然角色不一,但對於大部分人來說,參會的目的大同小異:聽取會上各式各樣的報告,了解學術圈和工業界中一些比較前沿的技術和方向,認識業內人士,展開進一步交流和探討。雷鋒網(公眾號:雷鋒網)此次 ACL 之行採訪到騰訊 SNG 數據中心總監劉黎春以及該中心知文團隊技術負責人鍾黎。作為第一次參加 ACL 的「新人」,劉黎春對 AI 科技評論描述了他的參會體驗。
  • 騰訊AI Lab入選20篇論文,含2篇Spotlight
    文中提出了一種新穎的部件神經網絡,它描述了如何從環境和任務來組成強化學習策略的元規則。值得注意的是,這裡的主要挑戰之一是環境和任務的特徵描述必須與元規則一起學習。為此,研究者又進一步提出了新的訓練方法來解鎖這兩種學習任務,使得最終的特徵描述不僅成為環境和任務的獨特籤名,更成為組建策略的有效模塊。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    儘管使用神經網絡進行圖片去模糊並不是一個新想法,但騰訊優圖實驗室別出心裁的將物理直覺結合進來以促進模型訓練。在騰訊優圖實驗室新算法的論文中,其網絡模仿了一種被稱為「由粗到精」的成熟的圖像恢復策略。該策略首先將模糊圖像縮小成多種尺寸,然後從比較容易恢復的較小而偏清晰的圖像出發,逐步處理更大尺寸的圖片。每一步中產生的清晰圖像則可以進一步引導更大的圖像的恢復,降低了網絡訓練的難度。
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    騰訊優圖論文再次入庫頂級學術會議作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。這也是騰訊優圖繼2017年在另一計算機視覺頂級會議ICCV會議中獲得12篇論文被收錄,包含3篇口頭報告(該類論文僅佔總投稿數2.1%)的成績後,2018年,科研成果再次豐收,論文被CVPR2018收錄。
  • 生成英文維基百科文章的方法可以概述為源文檔的多文檔摘要
    我們的研究表明,這個模型可以生成流暢、連貫的多句話段落,甚至整個維基百科的文章。當給出參考文獻時,研究結果表明,它可以從諸如複雜度、ROUGE分數和人類評價所反映的信息中提取出相關的事實信息。 序列—序列框架已被證明在諸如機器翻譯這樣的自然語言序列轉換任務上取得了成功。最近,神經技術已經被應用於對新聞文章進行單一文檔、抽象(釋義)文本摘要的處理。
  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    2018年開始,預訓練(pre-train) 毫無疑問成為NLP領域最熱的研究方向。藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。
  • 強化學習的10個現實應用
    Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在論文中提出了一種基於RL的長文本問答方法。具體而言,首先從文檔中選出幾個與問題相關的句子,然後結合所選句子和問句通過RNN生成答案。
  • 騰訊AI Lab 2020 年度回顧
    比如在一項 INTERSPEECH 2020 研究中,騰訊 AI Lab 提出了一種利用跨域視覺生成特徵輔助障礙語音識別的方法。 該方法可利用大量域外的音頻-視覺數據進行訓練,從而為那些只有有限或者沒有視覺數據的說話人生成視覺特徵。這項幫助有發音障礙的說話人,提出的語音識別技術,有望實現一些重要的「科技向善」應用。
  • NeurIPS|既能理解又能生成自然語言,微軟提出統一預訓練新模型
    論文地址:https://arxiv.org/abs/1905.03197實現地址:https://github.com/microsoft/unilm這篇論文提出了一種新型的統一的預訓練語言模型(UniLM),它既可以針對自然語言理解任務進行微調,也能用於自然語言生成任務。
  • 優必選斬獲 IJCAI 2017最佳學生論文獎,13篇論文入選
    給定目標圖像作為輸入,該網絡(TDGAN)即可根據指定要求修改圖像內容,並生成符合描述的圖像。例如,改變輸入圖像的觀察角度,光照條件,人臉表情等等。和以往工作不同,通過利用圖像與其標籤的對應關係,即標籤是圖像分解表徵(disentangled representations, DR)的具體描述,我們訓練分解網絡以提取輸入圖像的分解表徵(DR)。
  • arXiv灌水機:自動生成論文標題、摘要信息,還有40+奇妙AI應用
    讓AI幫我們寫篇論文摘要吧,畢竟,生產力才是最重要的。△AI寫論文手癌患者的福音,一鍵生成論文標題、摘要,灌水arXiv不是夢。當然,這是不可能的,現階段的AI還沒強大到這個地步,這只是隨機生成的文本。
  • arXiv灌水機:機器自動生成論文標題、摘要信息,還有40+奇妙AI應用
    讓AI幫我們寫篇論文摘要吧,畢竟,生產力才是最重要的。△AI寫論文手癌患者的福音,一鍵生成論文標題、摘要,灌水arXiv不是夢。當然,這是不可能的,現階段的AI還沒強大到這個地步,這只是隨機生成的文本。
  • 今日Paper|強化學習;可重構GANs;BachGAN;時間序列分類等
    目錄通過強化學習對抽取的摘要進行排序用於抽象文本摘要的基於深度遞歸生成解碼器用於可控圖像合成的學習布局和風格的可重構GANsBachGAN:基於顯著物體布局的高解析度圖像合成時間序列分類:近鄰vs深度學習模型通過強化學習對抽取的摘要進行排序論文名稱:Ranking Sentences
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    本文轉載於「騰訊 AI 實驗室」,雷鋒網 AI 科技評論經授權轉載。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • 優必選獲IJCAI 2017最佳學生論文獎 13篇論文入選國際頂級人工智慧...
    給定目標圖像作為輸入,該網絡(TDGAN)即可根據指定要求修改圖像內容,並生成符合描述的圖像。例如,改變輸入圖像的觀察角度,光照條件,人臉表情等等。和以往工作不同,通過利用圖像與其標籤的對應關係,即標籤是圖像分解表徵(disentangled representations, DR)的具體描述,我們訓練分解網絡以提取輸入圖像的分解表徵(DR)。