復旦大學:利用場景圖針對圖像序列進行故事生成 | AAAI 2020

2020-12-11 雷鋒網

作者王瑞澤在本文中介紹了復旦大學研究團隊在 AAAI 2020上錄用的一篇關於多模態文本生成工作: 《Storytelling from an Image Stream Using Scene Graphs》,利用場景圖針對圖像序列進行故事生成。

該文章認為將圖像轉為圖結構的表示方法(如場景圖),然後通過圖網絡在圖像內和跨圖像兩個層面上進行關係推理,有助於表示圖像,並最終有利於描述圖像。實驗結果證明該方法可以顯著的提高故事生成的質量。

對於大多數人,觀察一組圖像然後寫一個語義通順的故事是很簡單的事情。儘管近年來深度神經網絡的研究取得了令人鼓舞的成果,但對於機器來說,這仍然是一件困難的事情。

近年來,視覺敘事(visual storytelling)越來越受到計算機視覺(CV)和自然語言處理(NLP)領域的關注。不同於圖像標註(image captioning)旨在為單個圖像生成文字描述,視覺敘事任務則更具挑戰性,它進一步研究了機器如何理解一個圖像序列,並生成連貫故事的能力。

目前的視覺敘事方法都採用了編碼器-解碼器結構,使用通過一個基於CNN的模型提取視覺特徵,使用基於RNN的模型進行文本生成。其中有些方法引入了強化學習和對抗學習等方法,來產生更加通順、有表現性的故事。但是僅使用CNN提取到的特徵來表示所有的視覺信息,這不大符合直覺而且損害了模型的可解釋性和推理能力。

回想一下人是如何看圖寫故事的呢?人會先分辨出圖像上面有什麼物體,推理他們的關係,接下來把一個圖像抽象成一個場景,然後依次看觀察圖像,推理圖像間的關係。對於視覺敘事這個任務,本文認為也可以採用類似方法。

本文認為把圖像轉為一種圖結構的表示(如場景圖),隨後在圖像內(within-image)和跨圖像(cross-image)這兩個層面上建模視覺關係,將會有助於表示圖像,並最終對描述圖片有所幫助。

圖1:一個基於場景圖的視覺敘事例子.

一、方法描述

       圖2:提出的模型概述.

本文提出了一種基於圖網絡的模型SGVST (如圖2所示),它可以在圖像內和跨圖像這兩個層面上建模視覺關係。

簡單來說,首先將圖像In通過Scene Graph Parser轉化為場景圖Gn=(Vn, En)。場景圖包含了檢測到的物體Vn={vn,1,…,vn,k},以及物體之間的視覺關係En。

如圖2所示,一個男人抱著一個孩子,那麼男人和孩子就可以作為圖中的節點,他們的視覺關係作為邊。接著將場景圖通過Multi-modal Graph ConvNet:在圖像內的層面,使用圖卷積神經網絡(GCN)來對場景圖中的節點特徵進行增強。在跨圖像層面,為了建模圖像之間的交互,使用時序卷積神經網絡(TCN)來沿著時間維度進行卷積,進一步優化圖像的特徵表示。最後得到了集合了圖像內關係和跨圖像關係的relation aware的特徵,輸入到層次化解碼器(Hierarchical Decoder)中來生成故事。

圖3:層次化解碼器概述.


二、實驗結果

1. 定量分析


表1:在VIST數據集上的不同模型性能比較. *代表直接優化RL獎勵,比如CIDEr分數,  + 代表通過交叉熵損失(MLE)優化. 

表1顯示了不同模型在七個自動評價指標上的性能。結果顯示作者提出的SGVST模型幾乎在所有指標上都優於其他用MLE和RL優化的模型具有更好的性能,SGVST的BLEU-1、BLEU-4和METEOR得分比其他基於MLE優化的最佳方法分別提高了3.2%、2.5%和1.4%,這被認為是在VIST數據集上的顯著進步。這直接說明將圖像轉換為基於圖的語義表示(如場景圖),有利於圖像的表示和高質量的故事生成。

本文還進行了消融實驗,和提出模型的5個變種模型進行了比較,來驗證模型每個模塊部分的重要性。從表1中可以看在不使用GCN和TCN的時候,模型性能有一個很大的下降。這說明圖網絡在該模型中是最為重要的,因為它可以給模型帶來了推理視覺關係的能力。


2. 定性分析


圖4:不同模型定性分析的例子.

圖4展示了3種不同模型生成的故事和真實故事的樣例。第一行是輸入的一個圖像序列。第二行是生成出的場景圖。第三行是不同模型生成的故事。可以看出SGVST生成的故事更通順,而且信息更豐富、更有表現力。

圖5:每種顏色代表了相對應模型產生的故事,被評價人員認為更加像人寫的、更有表現力所佔的比例。灰色的」Tie」代表了打平.


表2:人工評估結果。在AMT上的評估人員根據對每個問題的同意程度來評價故事的質量,評分範圍為1-5.

為了更好地評價生成的故事的質量,作者通過Amazon Mechanical Turk(AMT)進行了兩種人工評價。(1)圖5是不同模型兩兩比較的一個實驗結果,給評價人員2個生成出的故事,然後讓他來選擇哪一個寫的更好。(2)表2是在6個指標上進行的人工評估實驗結果。可以看出本文提出的模型和其他模型相比有著巨大的優勢,而且和人類相比,也取得了有競爭力的表現。


三、總結


1. 將圖像轉為圖結構的語義表示(如場景圖),可以更好的表示圖像,有利於高質量的故事生成。

2. 本文提出了一個基於圖網絡的模型,可以將圖像轉為場景圖,然後在圖像內和跨圖像兩個層面上進行關係推理。

3. 實驗結果表明,本文提出的模型取得了優秀的表現,並且能產生信息更加豐富、語言更加連貫的故事。

4. 場景圖生成的質量限制了本文模型的性能,如果能有更好的場景圖生成方法,本文模型的性能還能取得進一步提高。

雷鋒網(公眾號:雷鋒網) AI 科技評論報導 雷鋒網雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 進階版神筆:只需一句話、一個故事,即可生成畫面
    首先,日常場景中會出現多種物體,該網絡需要能夠理解並繪製所有物體。以前的文本到圖像生成方法使用的是圖像-標題對,這種方法僅對單個物體的生成提供非常粗粒度的監督信號,限制了物體生成質量。而在微軟這項新技術中,研究人員利用 COCO 數據集進行訓練,該數據集包含 80 個常見物體類別、150 萬個物體實例的標籤和分割圖,使網絡能夠學習這些物體的特徵和外觀。
  • AAAI 2020上的NLP有哪些研究風向?
    前幾日,在北大舉辦了NLP方向的 AAAI 2020論文預講會,共有 34 篇文章進行宣講。我們知道,AAAI 2020 共收到的有效論文投稿超過 8800 篇,其中 7737 篇論文進入評審環節,最終收錄數量為 1591 篇。
  • 向圖像進擊的Transformer! OpenAI提出Image GPT實現高質量圖像補全和樣本生成
    在使用GPT-2類似的架構時,雖然需要更多的計算來達到基於卷積的非監督學習水平,然而這種方法在面對全新領域時,大型的GPT-2模型無需針對特定領域架構進行設計就可以學習出非常有效的特徵和優異的性能。下面先讓我們來看看iGPT應用於圖像補全和樣本生成任務下的一些結果,下圖中紅色框是原始圖像,藍色框中是模型補全的結果。
  • 復旦大學李林陽:應用預訓練模型實現對抗樣本生成的高效方法
    針對離散數據(例如文本)的對抗攻擊比連續數據(例如圖像)更具挑戰性,因為很難使用基於梯度的方法生成對抗樣本。當前成功的文本攻擊方法通常在字符或單詞級別上採用啟發式替換策略,替換時難以保持語義一致性和語言流暢性。在本文中,作者提出了BERT-Attack,這是一種高質量且有效的方法,可以使用以BERT為例的MLM預訓練語言模型來生成對抗性樣本。
  • 論文推薦|[AAAI 2020] TextScanner:依序閱讀分類的魯棒場景文本識別
    該論文分析了現有的場景文本方法,包括基於RNN注意力的方法以及基於語義分割的方法的局限性,針對上述方法存在的不足之處提出改進。圖1 本文方法的對比結果場景文本識別任務在近幾年得到很大的關注,現有的場景文本識別的方法主要分為兩種,一種是基於RNN Attention的方法[1][2],通過對編碼後的圖片特徵序列使用注意力機制來對準字符同時進行解碼
  • 京東雲與AI 10篇論文被AAAI 2020收錄,京東科技實力亮相世界舞臺
    京東雲與AI共有10篇論文入選AAAI 2020,研究領域涵蓋人臉識別、人臉解析、機器閱讀理解、文本生成、對抗樣本與模型魯棒性、智慧城市等前沿的技術研究領域,這些能力目前已在市政安防、實體零售、智能客服等業務場景下規模化落地,未來京東雲與AI作為值得信賴的智能技術提供者,會持續進行技術與業務融合的探索,這些落地的技術能力也將迎來更加廣闊的應用前景。
  • CVPR 2020|看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
    本文介紹的是CVPR 2020上錄用為Oral的論文《Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graph》(已開源),文章作者是中國人民大學博士生陳師哲同學,這項工作是陳師哲同學在澳大利亞阿德萊德大學吳琦老師組訪問時所完成。
  • 京東雲與AI 10 篇論文被AAAI 2020 收錄,京東科技實力亮相世界舞臺
    京東雲與AI共有10篇論文入選AAAI 2020,研究領域涵蓋人臉識別、人臉解析、機器閱讀理解、文本生成、對抗樣本與模型魯棒性、智慧城市等前沿的技術研究領域,這些能力目前已在市政安防、實體零售、智能客服等業務場景下規模化落地,未來京東雲與AI作為值得信賴的智能技術提供者,會持續進行技術與業務融合的探索,這些落地的技術能力也將迎來更加廣闊的應用前景。
  • AAAI 2020|南京大學:利用多頭注意力機制生成多樣性翻譯
    本文主要針對後者,傳統的單頭注意力機制已經有了比較多的研究,廣泛的結論是注意力代表了詞對齊。但多頭注意力機制代表了什麼還缺乏研究。本文基於一項對Transformer多頭注意力的觀察展開:解碼器(Decoder)的最後一層對於編碼器(Encoder)的多頭注意力機制,代表了多重詞對齊。並利用該現象,生成多樣化翻譯。
  • AAAI 2020學術會議提前看:常識知識與常識推理
    在計算機視覺領域,結合視覺場景的常識知識問答問題仍然具有較大難度。促進人工智慧發展,使得機器具有「常識思維」,對於常識知識、常識推理的研究是值得關注的未來發展方向。本次 AAAI 2020 學術會議論文提前看,筆者挑選了常識知識、常識推理相關的 3 篇論文為大家作以解讀。
  • WWW2021–OntoZSL:利用本體知識和生成模型增強零樣本學習
    概念間的語義聯繫通常依賴一些外部資源建立,如自然語言文本,這些外部資源從另一維度對概念進行了描述(區別於如圖像分類場景中圖像樣本對概念的描述),且相比於標註樣本更容易獲取(如百科知識、在線語料)。其他的一些領域特定的語義知識如屬性描述、類別層次等描述了領域內概念間的關係,為該領域的零樣本預測問題提供了幫助。然而,這些現有的、被廣泛利用的語義知識缺乏較為全面的關係描述信息,使得特徵的遷移並不完全。
  • CVPR 2020 Oral丨基於範例的精細可控圖像翻譯CoCosNet,一鍵生成你心目中的圖像
    為此,本文提出基於範例的圖像翻譯技術 CoCosNet,建立原域圖與目標域範例圖像的密集對應,使生成圖片精細匹配範例圖片風格。CoCosNet 方法在一系列任務(語義分割->自然圖像、輪廓->人臉圖片、關鍵點->姿態圖片)中,生成質量大幅領先現有方法,且圖像風格精細可控。此外,我們利用弱監督學習得到跨域圖片之間的集對應,實現如圖像編輯、人像批量上妝等有趣應用。
  • AAAI2019錄用論文選讀
    受到生成式模型啟發,我們試圖在特徵學習過程中引入重採樣策略,來緩解卷積神經網絡全連接層參數過多以至於過學習的問題。我們嘗試去尋找一個獨立的隱變量,利用變分下界優化近似後驗概率分布,希望可以將人臉特徵中所包含的身份信息和光譜信息進行解耦。為了更有效地求解身份特徵表達,我們進一步假設近紅外和可見光信息存在一個線性投影關係,從而約束了參數的求解空間。
  • 四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究
    本文提出了一種面向長文本分類任務的主動學習方法,使用生成的方法生成最具有信息量和多樣性的樣本,此外我們利用 sparse reconstruction 近似表示成一些概括性詞語再進行標註,大大提升了主動學習的效果,並且避免了掃描所有未標註樣本,更適用於大規模數據集分類任務。
  • AAAI2021 | 圖神經網絡研究進展解讀
    AAAI 2021論文接收列表如下:https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track
  • 算法集錦(1)|序列模型|利用深度神經網絡進行DNA與蛋白質序列轉換
    首先,我們來看看DNA和蛋白質序列如何在機器學習算法中進行表示。步驟1:獲取DNA和蛋白質表步驟2:生成DNA和蛋白質序列步驟5:確認生成蛋白質序列我們可以利用上圖來確認生成的蛋白質序列是否正確。步驟6:建立蛋白質的獨熱編碼(One Hot Encoding)
  • ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌
    為了便於研究,我們通過人工註解者收集了兩個詩歌數據集,它們有如下性質:1) 第一個是人類註解的「圖像-詩歌」對數據集(共8,292對),以及2)迄今為止最大的公共英文詩歌語料數據集(共有92,265首不同的詩歌)。我們應用自己的模型生成了八千張圖像,進行了大規模的實驗,其中一千五百張圖像是隨機選取來進行評估的。客觀評估和主觀評估均顯示,該方法相對於目前最先進的圖像生成詩歌方法,表現優異。
  • 深度圖生成模型綜述:5類模型及前景(附PDF下載)
    Deep Graph Generators: A Surveyhttps://arxiv.org/abs/2012.15544v1給定一個滿足潛在數據分布的圖數據集,深度圖生成模型的目的是利用深度神經網絡從數據集中估計其滿足的分布,然後從估計的分布中獲取新的圖樣本。與傳統圖生成模型不同,深度圖生成模型不需要對分布進行顯式的建模。
  • 蒙娜麗莎.gif:三星新研究用一張圖像合成動圖,無需3D建模
    來自三星莫斯科 AI 中心和 Skolkovo 科學技術研究所的研究人員創建了一個模型,利用這個模型可以從一張圖像中生成人物頭像的動圖,而且是開口說話的動圖。而且,這一模型沒有採用 3D 建模等傳統方法。開口說話的蒙娜麗莎好像看著沒那麼高冷。除了蒙娜麗莎,研究人員還生成了風情萬種的瑪麗蓮·夢露。