AAAI 2020 | 多模態基準指導的生成式多模態自動文摘

2020-12-15 雷鋒網

作者 | 朱軍楠、張家俊

多模態自動文摘是指利用計算機實現從含有兩種或兩種以上模態(如圖片、文本等)的信息中生成圖文式摘要的過程。該技術可以廣泛應用於新聞推送、跨境電商、產品描述自動生成等多個領域,具有重要的研究價值和豐富的應用場景。

近年來,隨著計算機視覺以及自然語言處理技術的發展,多模態自動文摘技術逐漸成為學術界和工業界研究的熱點。當前的多模態自動文摘受限於數據集本身的原因只能採用文本模態的負對數似然損失作為目標函數訓練整個網絡,同時利用注意力機制來輔助挑選圖片。

這種做法容易帶來模態偏差的問題,即整個網絡會傾向於優化文本生成的質量而忽視了圖片的挑選過程,如圖1所示。若只考慮文本模態的損失,B摘要是要優於A摘要的,但是很顯然B摘要中的圖片的人物對應關係不對;而當我們引入圖片選擇的損失時,我們可以明顯的判斷出A摘要是優於B摘要的,並且這也符合基本事實。

圖 1 模態偏差的示例

論文方法

針對於上述問題,中科院自動化所自然語言處理組博士生朱軍楠、周玉研究員、張家俊研究員、宗成慶研究員等提出了多模態基準指導的多模態自動文摘方法。基本想法是優化多模態摘要訓練的目標函數,即在文本損失的基礎上增加圖片選擇的損失函數。

如圖2所示,該方法由三部分組成:

  • (1)首先利用數據集本身的特徵將只有文本基準的訓練數據擴展至多模態基準,主要採用兩種方式,即直接使用輸入圖片的順序對圖片進行排序或者使用圖片的文字描述與標準文本摘要參考答案之間的ROUGE值大小對輸入圖片進行排序;

  • (2)在模型上添加圖片判別器用於訓練圖片挑選的過程,模型的損失函數也由文本的損失函數及圖片挑選的損失函數加權求和而成;

  • (3)通過數據集中的圖片和文本描述構造文本-圖片對齊片段從而用來訓練能夠更好地評價多模態片段的評價模型,具體而言我們將兩對圖片-描述的文本部分(或圖像部分)進行交換去構造兩個匹配的多模態片段,如圖3所示。

圖 2 多模態基準指導的多模態自動文摘框架圖

圖 3 多模態匹配片段構造示意圖

 實驗結果

目前多模態自動文摘的數據集還比較匱乏,我們之前發布了一個公開數據集MSMO,這項工作也在該數據集上進行實驗驗證。在對比摘要方法的性能之前,我們首先需要明確應該採用哪種評價指標。在之前的工作中,圖文式摘要的評價關注三個方面的指標:圖片準確率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系統輸出中圖片文本的相關度(Msim)。在我們的方法中,我們引入一個新的自動評價指標MRmax用來直接度量兩個多模態信息之間的相似度(輸出和參考答案的最大相似度)。MMAE是對IP、ROUGE和Msim的組合,MMAE++是IP、ROUGE、Msim和MRmax四個自動評價指標的組合。我們利用與人工打分之間的相關度來對比不同的自動評價指標。

表 1 不同評價指標與人工打分之間的相關度(分值越高、性能越好)

表1給出了不同的自動評價指標與人工打分的相關度,可以看出融入了直接測量多模態片段的評價指標MR之後,新的自動評價模型MMAE++相比於MMAE在與人工打分的相關度上有一個顯著的提升。為了衡量我們提出的多模態基準指導的模型,我們同多個強基線模型進行了對比,包括融入全局或者局部視覺特徵的多模態注意力機制的生成式自動文摘模型(ATG、ATL)、層次化的多模態自動文摘模型(HAN)以及基於圖模型的抽取式自動文摘模型(GR)。

表 2 不同模型生成的圖文式摘要的質量對比(MOF表示多模態基準指導的方法、RR表示通過ROUGE值對圖片排序,OR表示通過輸入圖片的順序對圖片排序,enc表示利用編碼器隱層狀態選擇圖片,dec表示利用解碼器隱層狀態選擇圖片)


表2給出了不同模型生成的圖文式摘要的質量對比。可以看出在引入多模態基準指導後,模型的圖片挑選質量(IP)得到了顯著的改善,並且文本生成質量也有略微改進,從而生成更高質量的圖文摘要。相對於使用編碼器隱層狀態而言,採用解碼器隱層狀態去進行圖片選擇效果會更好。另一方面,使用圖片描述與文本摘要之間ROUGE值的大小對圖片排序獲得的多模態基準對於模型的指導作用更加明顯

表 3 圖片選擇的損失函數的權重大小

我們也對比了不同的圖片選擇損失函數權重對於模型性能的影響,可以看到當圖片和文本的損失函數的權重都相同時,圖文摘要的質量是最好的。

表 4 計算圖片損失中考慮的圖片的數量的影響

我們對比了在計算圖片損失中考慮的圖片數量(即top-K圖片作為gold standard)所帶來的影響,並且發現當 K=3的時候,模型取得了最好的效果。

相關細節可參考發表於人工智慧頂級學術會議AAAI 2020的論文:

Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.

雷鋒網 AI 科技評論報導。雷鋒網(公眾號:雷鋒網)雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • ECCV 2020 Spotlight | 基於條件生成網絡的多模態形狀補全
    本文是計算機視覺領域頂級會議 ECCV 2020 入選 spotlight 論文《基於條件生成網絡的多模態形狀補全(Multimodal Shape Completion via Conditional Generative Adversarial
  • ECCV 2020 Spotlight|基於條件生成網絡的多模態形狀補全
    本文是計算機視覺領域頂級會議 ECCV 2020 入選 spotlight 論文《基於條件生成網絡的多模態形狀補全(Multimodal Shape Completion via Conditional Generative Adversarial Networks )》的解讀。
  • 聚焦多模態自然語言處理,京東智聯雲亮相NLPCC 2020
    在本次國際自然語言處理與中文計算會議 (NLPCC 2020)上, 京東智聯雲舉辦了第一屆「多模態自然語言處理研討會」。該研討會邀請了多位學術大咖進行學術分享,吸引了自然語言處理、多模態、圖像處理等多領域眾多學者參與。
  • 基於深度學習的多模態數據融合研究
    隨著異構網絡的廣泛部署,以前所未有的速度生成和收集數據越來越多。這些數據通常被稱為大數據,他們具有高容量、高多樣性、高速度和高準確性等特徵。同樣,這些包含結構化、半結構化和非結構化數據的龐大數據是多模態/多模態的。並且,不同來源、類型和分布的每個模態都包含特定於模態的信息。
  • 多模態數據的主題建模:自回歸方法
    1 介紹多模態數據建模結合了不同來源的信息,在計算機視覺領域越來越受到關注。其中一種領先的方法是基於主題建模,最流行的模型是 LDA。LDA 是一種文檔的生成模型,它起源於自然語言處理界,但在計算機視覺領域取得了巨大的成功。
  • 基於互信息的多模態數據融合
    摘要多模態可視化旨在融合不同的數據集,從而為用戶提供更多的信息。為此本文中我們提出了一種新的資訊理論方法,該方法從兩個數據集中自動選擇信息量最大的體素。其中融合標準基於兩個輸入數據集間的信息通道,該通道允許我們量化與每個強度值相關聯的信息。該方法已經集成到一個通用框架中,並在不同的醫學數據集上進行了評估。
  • 基於深度對抗學習的多模態缺失數據補全
    摘要多模態數據在腫瘤檢測、腦部疾病診斷等臨床中有著廣泛的應用。不同的模態通常可以提供互補的信息以提高診斷表現。然而由於各種原因,實際中通常缺失一些模態。因此多模態數據通常是不完整的,這也帶來了多模態缺失數據補全問題的研究。本文中我們將其轉換為一個圖像生成任務,並提出了一種編解碼器深度神經網絡來解決這一問題。
  • 周明:預訓練模型在多語言、多模態任務的進展
    可訓練單語言、多語言和多模態的模型。此類模型可經過微調之後,用於支持分類、序列標記、結構預測和序列生成等各項技術,並構建文摘、機器翻譯、圖片檢索、視頻注釋等應用。為什麼我們要做預訓練模型?原因如下:首先,預訓練模型是一種遷移學習的應用,利用幾乎無限的文本,學習輸入句子的每一個成員的上下文相關的表示,它隱式地學習到了通用的語法語義知識。
  • 使用深層信任網絡學習多模態數據的表示形式
    該模型定義了多模態輸入空間上的概率分布,並允許從每個數據模態的條件分布中進行採樣。即使缺少某些數據模態,這也使模型可以創建多模態表示。我們對由圖像和文本組成的雙模態數據的實驗結果表明,模態 DBN 可以學習圖像和文本輸入的聯合空間的良好生成模型,該模型對於填充缺失數據非常有用,因此可以將其用於 圖像注釋和圖像檢索。
  • 面向 2035 的多模態智慧網絡技術發展路線圖
    在面向 2035 年的需求牽引下,通過加強網絡技術創新,促進技術研發由外掛式向內生性轉變,以全維可定義的全新開放架構適配業務需求,吸收整合新興技術助力網絡發展,構建具有智慧化、多元化、個性化、高魯棒、高效能的多模態智慧網絡,為用戶提供新服務、新智慧和新安全,支撐網絡的智慧化傳輸、管理和運維,增強網絡「高可信、高可用和高魯棒」的三位一體服務 [13]。
  • 「CV學霸開講」卷積神經網絡壓縮、多模態的語義分析研究
    我的研究方向是多媒體計算,通過多模態的語義分析實現更加和諧自然的人機互動,主要分為兩個方面:1)客觀語義分析:根據視頻內容生成自然語言描述(video captioning),客觀地理解多模態視頻中的物體/動作/關係等等; 2)情感語義分析:多模態情感識別和理解(multimodal affective computing),通過不同模態分析人物的情感狀態從而更好地與人類交互
  • 使用相關數據測試多模態
    摘要:我們提出通過從適當構造的轉換概率內核中進行重採樣來對具有相關數據的多模態進行測試一些關鍵詞:高斯核;馬爾可夫鏈 Silverman 測試;平滑的自回歸引導程序;均勻遍歷I 簡介對動力系統的研究激發了我們對多模態的興趣
  • 多模態與人工智慧(下)
    我們來看一下關於多模態與人工智慧第二部分的內容。新基建觸發萬物互聯多模態融合發展夯實信息系統安全基石「新基礎設施」進程突然加快,物理連通性將呈現指數增長,同時,加快中國數字經濟的過程中,它產生的數據,信息安全也將是大量的前所未有的挑戰,隱私進行維護和信息系統安全成為了新基建的基礎下,各場景下對強身份認證等無效防護設計手法的訴求將呈爆發式增進,以更精準、更安全、更便捷的多模態分析生物辨認融合教育技術企業構建一個基於社會屬性的身份參與治理與造訪控制制度體系
  • 基於連結獨立成分分析的多模態數據融合
    這種方式一個主要的難點在於如何找到系統性的方法,將這些不同的數據類型融合在一起,以自動發現多模態中相關變化模式。獨立成分分析(Independent Component Analysis,ICA)是一種流行的無監督學習方法,可以有效地挖掘一組受試者的神經成像數據的變化模式。具體來說,當獲取受試者的多模態數據時,ICA 通常在每個模態上單獨執行,以完成不同模態之間的不兼容分解。
  • 面向多模態情感數據分析的智能框架
    為了應對如此多的多模態數據的增長,本文提出了一種新的多模態信息提取代理,它在諸如電子學習、電子健康、自動視頻內容標記和人機互動等環境中,推斷和聚集與用戶生成的多模態數據相關的語義和情感信息。我們所開發的智能代理採用集成特徵提取方法,通過聯合使用三模態(文本、音頻和視頻)特徵來增強多模態信息提取過程。
  • 多模態數據融合挑戰
    我們用 "模態 "一詞來表示每一種這樣的獲取框架。由於自然現象及其發生環境的豐富特徵,單一模態能夠提供有關現象的完整知識是非常罕見的。越來越多的幾種模態同時出現,帶來了新的自由度。本文的目的是在概念層面提出多模態數據融合的各種挑戰,而不是側重於任何具體的模式、方法或應用。
  • 多模態 AI 系統?從文本直接創建圖像!OpenAI發布新人工智慧系統
    兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。OpenAI希望這些升級後的語言模型能夠以接近人類解釋世界的方式來解讀圖像。2020年5月,OpenAI發布了迄今為止全球規模最大的預訓練語言模型GPT-3。GPT-3具有1750億參數,訓練所用的數據量達到45TB。
  • 一種深度自動回歸的多模態數據主題建模方法
    摘要基於潛在 Dirichlet 分配(LDA)的主題建模已成為處理多模態數據這種用於多模態數據生成建模的深度學習方法在 MIR Flickr 數據集上實現了最先進的性能。另一方面,它還與 LDA 及其不同的擴展共享對數據的隨機潛在表示的依賴,在訓練和測試時需要變化近似和 MCMC 採樣。另一種基於神經網絡的最新多模態數據建模方法是多模態深度遞歸神經網絡(MDRNN),其目的是通過最小化信息變化而不是最大程度地預測其餘數據模態中的缺失數據模態。
  • 深度耦合自動編碼器用於多模態傳感數據的故障診斷
    本研究提出了一種深度耦合自動編碼器(DCAE)模型,該模型可處理不存在於相應空間中的多模態傳感信號(例如振動和聲學數據),並將多模態數據的特徵提取無縫集成到數據融合中以進行故障診斷。具體來說,構造一個耦合自動編碼器(CAE)來捕獲不同的多模態感官數據之間的關節信息,然後設計一個 DCAE 模型以在更高層次上學習關節特徵。
  • KDD Cup 2020多模態召回比賽季軍方案與廣告業務應用
    團隊的黃堅強、胡可、漆毅、曲檀、陳明健、鄭博航、雷軍與中科院大學唐興元共同組建參賽隊伍Aister,參加了AutoGraph、Debiasing、Multimodalities Recall三道賽題,最終在AutoGraph賽道中獲得了冠軍(1/149)(KDD Cup 2020 自動圖學習比賽冠軍技術方案及在美團廣告的實踐),在Debiasing賽道中獲得冠軍(1/1895)(KDD Cup 2020