CVPR2017有哪些值得讀的Image Caption論文?

2022-01-07 PaperWeekly

圖片的描述為"A white bird perched on top of a red stop sign",一隻白色的鳥棲息在一個紅色 stop 標誌上。

像"A"和"of"這種單詞是沒有像"red"和"bird"這種易於理解的視覺信號的,並且在生成"on top of"這種固定搭配詞組的時候,語言模型就可以勝任,並不需要visual attention的幫助。

事實上,如果在生成這種不應該依靠 visual attention 的詞時,使用了 visual attention 的話,生成的梯度可能會誤導模型,並且可能會毀了之前 visual attention 在更新參數時做出的努力。 

對 visual sentinel 的解釋: 

visual sentinel是一個隱變量(latent variable),主要用來表示 decoder 已知的東西(what the decoder already knows)。decoder 記憶的內容有長期的也有短期的內容,有圖片的內容也有語言的內容,visual sentinel 就是拿來幫助 decoder 決定是否需要 attend to 圖片,通過一個 sentinel 門實現,通過線性插值的方式決定是否需要依賴圖片,表示為: 

這裡表示 visual attention,總的 attention 結果由 visual sentinel 和 visual attention 共同決定。 

該模型的 attention module 如圖所示:

整個 attention 計算過程和預測詞的過程如下:

1. 首先是普通 visual attention 的計算:

這裡最後一個特殊符號是一個元素全部為 1 的向量,其主要目的是為了將與其相乘的矩陣變得與加號前面的矩陣大小相同。 

2. 然後是 visual sentinel 的計算: 

中間的乘號是 element-wise multiplication。 

3. 接著是 sentinel gate 的計算:

是一個 1xk 的向量,上面式子中後面一項算出來的是一個標量,sentinel gate就是的最後一項,也就是第 k+1 項。 

4. 總的attention計算:

5. 最後是預測詞:

p 是一個 1xD 的向量,D 表示詞庫的大小,最後得到的是概率最大詞對應的 index,再從詞庫中返回這個 word。

Skeleton Key: Image Captioning by Skeleton-Attribute Decomposition

這篇文章指出,目前大多數的 image caption 模型中使用的 language model 都是逐個逐個生成詞的,按照 label 中 caption的順序,但是對於人來說,一種更自然的方式是,先確定圖中有哪些物體,物體之間的關係是什麼,然後再使用物體的矚目特徵來仔細描述每一個物體。

文章提出了一種 coarse-to-fine(我將其理解為椎輪大輅)的方法,將原始的圖片描述分解為兩個部分,一個主幹句(skeleton sentence)和各種物體的特徵(attributes),再生成語句的時候,也分為兩個部分進行生成。通過這種分解,該文章的模型達到了 state-of-the-art 的效果。 

舉個例子:

為了生成上圖中的描述,首先生成一句 skeleton sentence: horse on pasture(馬兒在牧場上),用來表示物體中的主要物體和物體之間的關係,horses on pasture;然後,這些通過 visual attention 重新訪問這些物體,當物體的 attention response 很大時,就生成對這些物體特徵的描述,Three 和 a green。將兩個句子結合起來生成最終的描述,Three horses on a green pasture。 

方法的結構如圖:

1. Skeleton-Attribute decomposition for captions:第一步需要對已有的訓練集 caption 作語法分析,並且提取出主幹句和特徵描述。NP/VP/PP/AP 分別是名詞/動詞/副詞/形容詞。 

2. 使用經過了 CNN 提取的特徵作為語言模型的輸入,decoder 部分由兩個 LSTM 組成,一個是 Skel-LSTM,用來生成主幹句,另一個是 Attr-LSTM 用來生成描述特徵。 

3. 在 Skel-LSTM 中使用的是 visual attention,在每個 time step 生成一張 attention map,用來預測這一時刻的詞。用來描述 skeleton sentence 中的 skeleton object 時生成的 attention map 也可以用在生成對該 object 的特徵描述上,所以在 Skel-LSTM 中獲得的 visual attention 也可以在 Attr-LSTM 中再次使用。 

在 Attr-LSTM 中對特徵的生成不是逐個 object 生成的,是一次性生成的,因為學習過程中由於 Skel-LSTM 中物體是有順序的,所以 Attr-LSTM 也學習了特徵的順序。

Attr-LSTM 中不僅使用了 attention,還使用了 current time step t 對應 LSTM 的 hidden state 和對應 skeleton word 的 word embedding。具體方法不細說請參考論文,歡迎討論。 

4. 最後將 skeleton sentence 和 attributes 結合起來,作為最終的 caption。 

順便提及一下,文章也指出了 encoder-decoder 模型的兩個問題,很值得我們思考解決方法: 

Deep Reinforcement Learning-based Image Captioning with Embedding Reward

這是將強化學習與圖像描述結合起來的論文,因為我的強化學習學得不多,只停留在 GAN 和 GAN 的一些變體,如果有錯誤請指正。 

文章提出了一種新的 decision-making 框架來進行圖像描述,用了一個"policy network"和一個"value network"協同生成描述。 

policy network 扮演一個局部 guidance 的角色,根據這一時刻的狀態,提供對下一個詞預測的置信度。 

value network 扮演一個全局、前瞻的 guidance,評估現狀態所有可能的擴展狀態。該網絡本質上是在調整學習的方向,從預測正確的詞彙到描述與 ground truth 相似的描述(這句話我不是很理解)。 

使用的是 actor-critic 方法來訓練網絡,也就是先行動後打分的方法,是一種平衡了 value-based methods 和 policy-based methods 的方法。

作者說,他們的這種方法只通過 policy network 就可以提取出正確但是概率卻很低的單詞,具體例子如下圖:

Next Action 表示下一個生成單詞的 preference ranking,顯然在現在時刻最合適的詞 holding 並不是最優選擇,但是 value network 卻會 go forward 到假設生成 holding 這個詞的 state,然後評估這個 state,對於生成一個合適描述這一目標,分數有多高。 

作者首先使用基於交叉熵 loss 的監督學習 pretrain 了一個 policy network,使用均方誤差訓練了一個 value network,然後使用深度強化學習來改進兩個網絡。深度強化學習常用的領域是遊戲和控制,對於 caption 這個任務來說,很難定義一個明確的目標,也就沒法明確優化的目標。

這篇論文中提出了一種 actor-critic 模型,使用的 reward 由 visual semantic embedding 生成(visual semantic embedding 計算的是圖片和描述的相似度,也就間接說明了 caption 的正確性,可以作為強化學習中合適的 target 來進行優化)。 

文中具體的實現方法我也只能直觀上地理解,公式推導我還不行,當我補上了足夠的強化學習知識再來進行補充。 

最近看新聞,騰訊 AI lab 在 MSCOCO 的 caption 任務上奪冠的模型也使用的是強化學習模型,我覺得強化模型在 caption 方向上可能會大放異彩。

相關連結

[1] slides:http://slides.com/walkingdead526/deck#/

論文連結

[1] https://arxiv.org/abs/1611.05594

[2] https://arxiv.org/abs/1612.01887

[3] https://arxiv.org/abs/1704.06972

[4] https://arxiv.org/abs/1704.03899

          

 我是彩蛋

 解鎖新功能:熱門職位推薦!

PaperWeekly小程序升級啦

今日arXiv√猜你喜歡√熱門職位

找全職找實習都不是問題

 

 解鎖方式 

1. 識別下方二維碼打開小程序

2. 用PaperWeekly社區帳號進行登陸

3. 登陸後即可解鎖所有功能

 職位發布 

請添加小助手微信(pwbot01)進行諮詢

 

長按識別二維碼,使用小程序

帳號註冊paperweek.ly

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報導人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點擊 | 閱讀原文 | 訪問作者知乎專欄

相關焦點

  • Image Caption 任務綜述 PaperWeekly
    數據集論文中常用數據集為Flickr8k,Flick30k,MSCOCO,其中各個數據集的圖片數量如下表所示。數據集圖片和描述示例如圖其中每張圖像都至少有5張參考描述。為了使每張圖像具有多種互相獨立的描述,數據集使用了不同的語法去描述同一張圖像。
  • CVPR 引用量最高的10篇論文!何愷明ResNet登頂,YOLO佔據兩席!
    (收錄於CVPR 2017):https://openaccess.thecvf.com/content_cvpr_2017/html/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.htmlDenseNet 如下圖所示,很明顯基本思路與ResNet一致,但是它建立的是前面所有層與後面層的密集連接(dense connection
  • NIPS 2017論文解讀 | 基於對比學習的Image Captioning
    Contrastive Learning先介紹通常使用 Maximum Likelihood Estimation (MLE) 訓練的方式,這裡借用 show and tell 論文裡面的圖:輸入一副圖片以後,我們會逐個地得到下一個目標單詞的概率 pt(St),我們需要最大化這個概率,而訓練目標則通過最小化
  • 增強學習在image caption任務上的應用 PaperWeekly
    訓練的時候,每個時刻的輸入都是來自於真實的caption。而生成的時候,每個時刻的輸入來自於前一時刻的輸出;所以一旦有一個單詞生成的不好,錯誤可能會接著傳遞,使得生成的越來越糟糕。如何解決這兩個問題呢?很顯而易見的想法就是儘量使得訓練和評估時的情形一樣。我們可以在訓練的時候不優化log似然,而是直接最大化CIDER(或者BLEU,METEOR,ROUGE等)。
  • 每周論文清單:高質量文本生成,多模態情感分析,還有一大波GAN | PaperDaily #26
    ,所以這篇 paper 解決的問題是有意義的。(neural image captioning system)的對抗樣本生成方法。Convolutional Image Captioning@jamiechoi 推薦#Image Captioning用 CNN 做 image
  • 2017 即將結束,推薦你 26 本知乎上值得一讀的書
    題圖:Pexels2017即將過去,那些值得一讀的書始終在等你!1. 石黑一雄《被埋葬的巨人》這個「大量資料」的定義,不能局限在自己熟知的領域,必須要大大超出去,超到你完全陌生、完全想不到的新鮮地方,才有可能迸發出靈感。作為一個業餘歷史愛好者,2017 年我的主要興趣放在了秦朝。大秦是一個值得反覆琢磨的朝代,它在制度上的很多細節有著現代性意識,既與後世勾連,又顯出自己獨特的個性。如果你深入扎進去,會發現在「暴秦」的標籤底下,是一臺泛著金屬光澤、有著很多切面的複雜機械。
  • 2017年日本有哪些地方落後中國?
    所以,要列出中國在哪些方面領先日本,就2017年而言,已經是一件比較容易的事情了。中國2014-2015年2年發表的論文被引用次數進入本學科前1‰的國際熱點論文為495篇,佔世界總數的18%,世界排名首次闖入第三位,僅此於美國和英國。
  • 2017【計算機視覺&機器學習&人工智慧】領域重要會議匯總
    vision, machine learning, image processing, video processing, visualization,geometric computingICRA 2017(新加坡)全稱:IEEE International Conference on Robotics and Automation 時間:
  • 2017年,日本有哪些地方落後中國?
    )今天總結下2017年中國比日本先進的地方。所以,要列出中國在哪些方面領先日本,就2017年而言,已經是一件比較容易的事情了。中國2014-2015年2年發表的論文被引用次數進入本學科前1‰的國際熱點論文為495篇,佔世界總數的18%,世界排名首次闖入第三位,僅此於美國和英國。
  • 這期《經濟學人》該怎麼讀?有哪些最值得學習的表達?
    從眾多文章中做了 50 多張 PPT,兼顧內容、語言和方法,希望可以幫大家更有方向地閱讀,讀有所樂,讀有所得。下面的內容供已經聽過直播的朋友們複習,也供沒有聽直播的朋友們參考。如果覺得內容有幫助,最好結合我的語音直播一起學習,希望你學到的不只是一些英語知識。先說說「我們在賞析的時候在說什麼?
  • 何愷明的ResNet論文,被引量剛剛突破10萬大關
    這是一篇計算機視覺領域的經典論文。李沐曾經說過,假設你在使用卷積神經網絡,有一半的可能性就是在使用 ResNet 或它的變種。前幾天,人們發現 ResNet 論文被引用數量悄然突破了 10 萬加,距離論文的提交剛過去六年。
  • 三個牛人教你怎麼高效閱讀論文
    我現在每天還保持讀至少2-3 篇的文獻的習慣,讀文獻有不同的讀法,但最重要的自己總結概括這篇文獻到底說了什麼,否則就是白讀,讀的時候好像什麼都明白,一合上就什麼都不知道,這是讀文獻的大忌,既浪費時間,最重要的是沒有養成良好的習慣,導致以後不願意讀文獻。1.
  • 104篇CVPR 2019論文列表,追蹤谷歌、Facebook、英偉達等公司研究課題
    本次CVPR參會人數超過9000,CVPR 2018超過6000人;CVPR 2017年超過5000人…如果單純只看數字,以目前的增長趨勢來看,預計再過16年參會人數可以突破100萬。據統計,今年共計1300篇論文被CVPR 2019接收,相比去年被接收論文數量增加了32.8%,今年的接收率為25.2%。
  • 重磅 | 由於論文圖片被重複使用,整個生物醫學領域可能需要撤回35000篇文章(提供怎麼鑑定圖片造假的技巧,值得收藏)
    研究人員【約翰霍普金斯大學的Arturo Casadevall,uBiome的Elisabeth Bik,華盛頓大學的Ferric Fang,麻薩諸塞大學的Roger Davis 和ASM出版道德經理Amy Kullas】發現了59篇可能有問題的論文,其中五篇被撤回。從這些研究結果和另一篇掃描重複率的論文中推斷,研究人員提出,可能需要從文獻中清除數以萬計的論文。
  • 讀論文 | Feature Space Perturbations...特徵空間可遷移對抗樣本
    作者:知乎號—隅子醬地址:https://www.zhihu.com/people/hoshi-83-39論文地址