由淺及深,細緻解讀圖像問答 VQA 2018 Challenge 冠軍模型 Pythia

2021-01-14 機器學習算法工程師

AI作者:Chan Joya

AI編輯:田旭


Pythia,她是古希臘的阿波羅神女祭司,以傳達阿波羅神的神諭而聞名,被認為能預知未來。她的名字,被 Facebook AI Research 將賦給了在 VQA 2018 Challenge 上的冠軍模型。Pythia 以 VQA 2017 Challenge 的冠軍模型 Up-Down 為基本方法,輔助以了諸多工程細節上的調整,這使得 Pythia 較往年增加了約 2% 的性能提升(70.34% → 72.25%)。在這裡,我們將嘗試去解讀這個模型。



論文:Pythia v0.1: the Winning Entry to the VQA Challenge 2018

代碼:facebookresearch/pythia (雖然在提交結果時為 72.25%,但公開的代碼中達到的效果為 72.27%)

首先我們將會對 2017 VQA Challenge 的冠軍模型 Up-Down 進行解讀,而後再引入 Pythia 為其的改進,最後從代碼中去查看值得注意的實現部分。一起來看吧!

2017 VQA Challenge 冠軍,Up-Down 模型解讀

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(CVPR'18,澳大利亞國立大學 & 京東 AI 研究院 & Microsoft Research & 阿德萊德大學 & 麥考瑞大學) 

Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge(CVPR'18,阿德萊德大學 & 澳大利亞國立大學 & Microsoft Research)

VQA 2017 Challenge 的冠軍模型體現在這兩篇文章中,我們放在一起介紹。CVPR'18 這一篇是方法論,Tips and Tricks 算是工程實現方面的報告。在方法論中,主打的就是 top-down 和 bottom-up 和兩種 attention 機制:前者是指的人會被視覺中的顯著突出物體給吸引,是由圖像這種底層信息到上層語義的;而後者指的是人在進行某項任務的時候,緊密關注和該任務相關的部分,是由上遊任務去關注到圖像的。一般的注意力機制就像下圖中的左側顯示的那樣,是自上而下(top-down)的,表現在依據任務為這些 grid cell 去分配不同的權重,而右側的注意力機制是自下而上的,從物體層面(object-level)去注意到顯著性區域:


圖1.1 兩種注意力機制的比較

那我們首先來看 bottom-up attention 如何實現。作者採用了基於 ResNet-101 的 Faster R-CNN,添加了 attributes 分支在 VisualGenome 上進行了訓練,也正因為如此,Faster R-CNN 能進行更為細緻的檢測 (圖2.2)。在得到圖像的預測區域後,再取到這個區域對應的特徵(7×7×2048 做一個 mean pooling)。也就是說,在 VQA 模型中是沒有用到預測出的標籤的,而僅僅使用了該區域的特徵。

圖1.2 Bottom-up attention 部分,Faster R-CNN 的檢測實例

再來看 top-down attention,這個注意力機制的原型即為 image caption 中的 soft attention 機制,本質上是為不同區域的圖像特徵賦予權重。如何生成這些權重呢?在這裡依照下圖簡單說明一下:(1)GRU 編碼問題為 hidden state  ;(2)bottom-up 部分得到圖像向量 ,  是一個 2048 維的向量;(3)令對於  的權重為 ,,  是需要學習的參數,  可以看作是輸入為  和  的一個 LSTM。通過這樣一個變換接上 softmax,形成對應於每一個  的權重為 。而後續的過程也可以很自然的得出了,利用權重對圖像特徵做 weighted sum:  ,與問題  一起再經過一個 LSTM 得出候選答案的概率。

圖1.3 本文中的 VQA 模型。對照上述的文字一步一步地進行理解,模型中這種雙 LSTM 的做法最早來源於 CVPR2015 的論文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description

兩者結合後的模型稱為 Up-Down,以下提供了在 VQA v2.0 上的評測結果,為提交時最高:

圖1.4 表格是 VQA v2.0 test-standard server 在 2017年8月8日的結果, 提交的 Up-Down 模型是 30 個模型的 ensemble 結果。圖像是模型可視化的結果

從評測時集成了 30 個模型就可以看出,文章中一定有諸多的實現細節。下面就是 Tips and Tricks 一文中提及的細節:

sigmoid outputs: 允許多個正確答案存在,利用多個二分類器來替代 softmax;

soft training targets: 這裡一開始理解成了知識蒸餾中的 soft target,但是實質上在這裡訓練時的標籤沒有任何不同,只是 allow uncertain answers;

image features from bottom-up attention: 這也就是核心方法 Up-Down;

gated tanh activations: 門控 tanh 激活函數,靈感來源於 LSTM/GRU 中的 gating 操作,實驗中發現具有比 ReLU 和 tanh 更好的效果。簡述如下:這個層的目標是完成一個非線性的映射  ,參數為  ,實現為 ,其中  分別表示 sigmoid 函數和 element-wise 乘積。  就可以看作是對於  的一個門控;

output embeddings initialized using GloVe and Google Images: 這裡的操作就很騷了,涉及對於答案分類時最後一層的初始化方法。本質上每個答案的分數就是圖片特徵和問題特徵與層權重的點積:  ,而層權重就可以看成是答案的特徵;對於  通過答案的 GloVe word embeddings 進行初始化,對於  ,對每個答案在 Google Images 上搜索,挑選 10 個最相關的圖片計算經過 ImageNet 預訓練的 ResNet-101 特徵進行初始化;

large mini-batches: 256 和 384 最佳;

smart shuffling of training data: 保持在同一個 batch 中的問題都有同樣的一對,但是其對應的是不同的圖像和答案。

漲點情況以及細緻分析可以移步原論文。這裡也有分享的 slides:VQA-Challenge-Slides-TeneyAnderson,將本可以秘而不宣的 tricks 做詳細的 ablation study 是一件非常令人感動的事情。

代碼:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Pythia: 極致的工程能力

Pythia v0.1 the Winning Entry to the VQA Challenge 2018(arxiv'18,Facebook AI Research)

做出這個模型的,是 Facebook AI Research (FAIR)’s A-STAR team. A-STAR 的意思,如果將其拆解開來則是 Agents that See, Talk, Act, and Reason。這些人類才特有的動作,似乎都是 VQA 這個任務裡所不可少的一部分。Pythia 的重點調整在於模型結構,超參數,數據增強,以及最後的模型集成。我們分條列舉:

模型結構:65.32% → 66.91%

還記得 Up-Down 裡面那個長相奇怪的門控激活函數嗎?Pythia 使用了 RELU+Weight Normalization 來取代它,這樣可以降低計算量,但是效果上有無提升文中沒有給出實驗。

在進行 top-down 的 attention 權重計算時,將特徵整合的方式由原本 concat 轉換為 element-wise multiplication,這也是可以降低計算量的表現。

在第二個 LSTM 做文本和圖像的聯合預測時,hidden size 為 5000 最佳。

超參數:66.91% → 68.05%

這裡主要是學習率的調整。作者發現在 Up-Down 模型中適當減小 batch 可以帶來一些提升,這意味著在同樣的 batch 下提升學習率可能帶來性能的提升。為了防止學習率過大不收斂,他們採用了廣泛使用的 warm-up 策略,並使用了適當的 lr step。這使得 Pythia 的性能提升約一個點。

Faster R-CNN 增強:68.05% → 68.49%

將 Faster R-CNN 的 backbone 由 ResNet-101 換為 ResNext-101-FPN,並且不再使用 ROI Pooling 後的 7×7×2048 + mean pooling 表徵 object -level 特徵,而採用 fc7 出來的 2048 維向量以減少計算量。

數據增強:68.49% → 69.24%

採用了圖像水平翻轉的增強方法,這樣的方式在純視覺任務中廣泛出現。在這裡還需要做變換的是,將問題和答案中的「左」和「右」對調。

Bottom-up 增強:69.24% → 70.01%

光是使用 Faster R-CNN 在 head network 上的 fc7 特徵不足以表示圖像整體的特徵。於是作者們融合了 ResNet-152 提取的整圖特徵,並且增加了在每一張圖提取 object-level feature 的個數。它們分別帶來了可見的提升。

模型集成:70.96% → 72.18%

圖2.1 不同 Ensemble 策略的實驗

註:72.18% 是 VQA v2.0 test-dev 上的結果,而提交在 test-std 上的結果為 72.27%。test-std 才是最終的榜單排名依據。

總結

Up-Down 是一個十分優秀的,面向於真實圖像場景的 VQA 模型,Pythia 是對它的強化實現(不愧是 FAIR,代碼寫的真是好)。以 Up-Down 為基礎的方法已經連續斬獲 2017 和 2018 的 VQA 冠軍。現在 VQA 2019 Challenge 已經拉開帷幕,winner 將在 VQA and Dialog Workshop, CVPR 2019 進行公布。還會是 Up-Down 嗎?

文中的錯誤與疏漏,懇請批評指正。歡迎交流 ~(另外弱弱的問一句,正進行/有意 VQA 2019 Challenge 的童鞋,可以拉上我呀 ლ╹◡╹ლ!有卡,我們一起煉丹!)




相關焦點

  • 今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...
    目錄準確性與複雜性:可視問答模型中的一種權衡神經風格差異轉移及其在字體生成中的應用基於GAN的可調整的圖像壓縮系統基於原始-對偶活動集算法的K-SVD圖像去噪神經閱讀理解與超越準確性與複雜性:可視問答模型中的一種權衡論文名稱:Accuracy vs.
  • 京東AI Fashion-Challenge 挑戰賽冠軍方案詳解(風格識別+時尚單品...
    最終,「西天取京」隊以 0.6834 F2 Score 獲得時尚風格識別子賽道冠軍,「Fashion_First」隊以 0.5886 mAP 獲得時尚單品搜索子賽道冠軍。不管是密集標籤還是稀疏標籤,都是這樣的分布,可見貪心搜索算法在本任務中有較好的泛化能力。模型集成:模型集成的關鍵主要是在於模型的「好而不同」,即模型效果首先要效果好,還要具有多樣化。
  • 圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...
    機器之心報導   參與:曉坤、路   CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助,是第一個由計算機視覺領域的會議發起的圖像壓縮挑戰賽,旨在將神經網絡
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    ., 2018))比賽上,京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single Model)登頂 QuAC Leaderboard,全部三項指標均獲得第一名。其中,在 F1-Measure(又稱為 F1-Score) 指標上達到 74.6,大幅拉近了機器與人類在該任務上的水平差距。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項指標的冠軍,算法 TucodecPSNR 奪得了 PSNR 指標的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。
  • 看過CVPR 2018 workshop 後,發現有一個我不認識的 Lady Gaga
    主題文件夾由喬裝過後的藝人的圖片組成,此外主辦方還提供從 Faster RCNN 中生成的臉部文件。主辦方也鼓勵參賽者使用識別比賽中的訓練數據來訓練檢索賽中的模型,這可能也會有用。但是請注意:這兩個挑戰賽的訓練/檢索集中沒有共同的地標。比賽提供的全新數據集是世界上最大的圖像檢索研究數據集,由一百多萬張圖片組成,包含一萬五千個獨特的地標。主辦方表示,希望這一數據集將加速對這類研究的進展。
  • 「圖相」思考之三人問答(三): 圖像思考
    在我旁聽評圖的過程中也看到了Sik教席中限定運用電腦渲染製作的大量圖像、Caruso教席中製作大比例的模型,對其拍攝並輔以電腦後期完成的極具實感的場景圖像。如何理解「圖像」在這兩個設計題目中的起到的作用?它的意義是在於對設計成果的判斷依據,或者是對預期氛圍的營造和呈現,又或者是對建成實物的精確預判及控制的工具?具體在設計的過程中,究竟如何運用圖像來做設計的深化?
  • Kaggle座頭鯨識別落下帷幕,冠軍方案解讀
    本文主要介紹了冠軍團隊的解決方案。圖註:Kaggle座頭鯨識別挑戰賽 leaderboard為了幫助鯨魚保護,科學家們使用照片監視系統 (Photo Surveillance Systems) 來監視海洋活動。他們使用鯨魚尾巴這一獨一無二的標記來在連續的圖像中識別鯨魚,並對它們的活動進行細緻地分析。
  • CVPR2017精彩論文解讀:效果更顯著的模型壓縮算法和泛化優化算法
    下文是優必選雪梨AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮算法》和《利用奇異值界定提升深度神經網絡訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。
  • 全方位解讀全景分割技術, 曠視冠軍團隊最新分享
    同時,他也是 2018 COCO + Mapillary 全景分割比賽曠視 Detection 組冠軍團隊成員。本文原載於知乎,雷鋒網(公眾號:雷鋒網)獲授權轉載。全景分割 [1] 最先由 FAIR 與德國海德堡大學聯合提出,其任務是為圖像中每個像素點賦予類別 Label 和實例 ID,生成全局的、統一的分割圖像。接下來我們將全面解讀全景分割任務,下面這張思維導圖有助於大家整體把握全景分割任務特性:
  • 全方位解讀全景分割技術,曠視冠軍團隊最新分享
    同時,他也是 2018 COCO + Mapillary 全景分割比賽曠視 Detection 組冠軍團隊成員。本文原載於知乎,雷鋒網獲授權轉載。前言在計算機視覺中,圖像語義分割(Semantic Segmentation)的任務是預測每個像素點的語義類別;實例分割(Instance Segmentation)的任務是預測每個實例物體包含的像素區域。
  • ActivityNet Kinetics Challenge 2018奪冠|基於PaddlePaddle的...
    StNet框架為ActivityNet Kinetics Challenge 2018中奪冠的網絡框架。本次開源了基於ResNet50實現的StNet模型。該模型提出「super-image"的概念,在super-image上進行2D卷積,建模視頻中局部時空相關性。
  • NIPS 2018人工智慧假肢挑戰賽結束,百度Firework團隊奪得第一
    雷鋒網 AI 科技評論消息,距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 上的各種技術挑戰賽也接近尾聲。關於挑戰賽的詳細信息,請參見:距 NIPS 2018 還有小半年,會上的各種挑戰賽已經開始啦在上周結束的 2018 人工智慧假肢挑戰賽(AI for Prosthetics Challenge)中,來自中國百度的技術團隊 Firework 一舉擊敗全球 400 多支參賽團隊,以 9980.46 的得分奪得冠軍,領先第二名高達 30 多分。
  • 大連理工大學衛冕3項國際冠軍!
    此外,由盧湖川教授領導的IIAU實驗室今年共有8篇論文被CVPR2020錄用,其他指導教師包括張立和、樸永日等。除此之外,IIAU團隊在目標跟蹤最權威的國際競賽--VOT2020中斬獲三個冠軍!本屆VOT競賽有五個賽道,其中長時賽道、實時賽道和深度賽道冠軍分別由大連理工大學碩士生代克楠、嚴彬、王英明獲得!
  • 追一科技AI Lab團隊獲CoQA閱讀理解冠軍
    近日,由史丹福大學發起的對話式問答挑戰賽 CoQA (Conversational Question Answering Challenge)中,追一科技 AI Lab團隊超越微軟團隊成為榜單第一,刷新了之前微軟等團隊創造的CoQA紀錄。
  • 走進機器閱讀理解的世界,飛槳開源升級版 BiDAF模型解讀
    在重要的機器閱讀領域,基於DuReader數據集,飛槳升級並開源了一個經典的閱讀理解模型 —— BiDAF,相較於DuReader原始論文中的基線,在效果上有了大幅提升,驗證集上的ROUGE-L指標由原來的39.29提升至47.68,測試集上的ROUGE-L指標由原來的45.90提升至54.66。1.
  • 巧解圖像處理經典難題之圖像配準
    第二類變換模型允許「彈性」或「非剛性」變換。這些變換能夠局部地扭曲浮動圖像使其與參考圖像對準。非剛性變換包括徑向基函數(薄板或曲面樣條函數,多重二次曲面函數和緊支撐變換),物理連續模型(粘性流體)和大變形模型(微分同胚)。變換模型通常是參數化的例如,可以通過單個參數(變換向量)來描述整個圖像的變換。這些模型稱為參數模型。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次
  • 西電人工智慧學子斬獲2019 IGARSS數據融合競賽冠軍
    由西安電子科技大學人工智慧學院焦李成教授指導的兩支獲獎學生隊伍受邀在大會上作專題報告。由西電人工智慧學院焦李成教授指導的兩支學生隊伍在2019IEEEGRSS數據融合競賽中獲得了優秀成績,其中,連彥超、馮拓、周金柳隊伍獲得了3D點雲分類挑戰賽冠軍,賈美霞、李艾瑾、吳兆陽隊伍獲得了同賽道亞軍。兩支隊伍均受邀在大會上作專題報告。第39屆國際地球科學與遙感大會競賽專場報告由圖像分析與數據融合技術委員會主席Dr.