CVPR 2018最佳論文作者親筆解讀:研究視覺任務間關聯的Taskonomy

2020-12-16 機器之心Pro

機器之心專欄

作者:沈博魁

本文作者沈博魁是斯坦福本科生/準博士生,也是 CVPR 2018 最佳論文《Taskonomy:Disentangling Task Transfer Learning》的共同二作。鑑於作者在 Poster Session時發現很多人對Taskonomy的理解有偏差,沈博魁在知乎寫了一篇Taskonomy的中文解讀,希望能對大家有幫助。很多專業詞彙的中文翻譯可能有偏差,希望大家見諒。如果有問題,歡迎大家評論私信。

細節請查看知乎文章:https://zhuanlan.zhihu.com/p/38425434

Taskonomy的網站:taskonomy.stanford.edu

梗概

人類的視覺具備多種多樣的能力,計算機視覺界基於此定義了許多不同的視覺任務。長遠來看,計算機視覺著眼於解決大多數甚至所有視覺任務,但現有方法大多嘗試將視覺任務逐一擊破。這種方法造成了兩個問題:

第一,逐一擊破需要為每一項任務收集大量數據,隨著任務數量的增多,這將會是不可行的。第二,逐一擊破會帶來不同任務之間的冗餘計算和重複學習。

一般來說,逐一擊破的策略忽略了視覺任務之間的關聯性,比如法線(Surface Normals)是由深度(Depth)求導得來,語義分割(Semantic Segmentation)又似乎和遮擋邊緣測試(Occlusion edge detection)有著千絲萬縷的關聯。基於上述兩個問題,我們希望能有效測量並利用視覺任務之間的關聯來避免重複學習,從而用更少的數據學習我們感興趣的一組任務。

Taskonomy是一項量化不同視覺任務之間關聯、並利用這些關聯來最優化學習策略的研究。如果兩個視覺任務A、B具有關聯性,那麼在任務A中習得的representations理應可為解決任務B提供有效的統計信息。由此我們通過遷移學習計算了26個不同視覺任務之間的一階以及高階關聯。

如圖一,如果有預測法線的網絡和預測遮擋邊緣測試的網絡,我們可以通過結合兩個網絡的representations來快速通過少量數據解決Reshading和點匹配 (Point matching)。基於這些關聯,我們利用BIP (Binary Integer Programming) 求得對於一組我們感興趣的任務,如何去最優分配訓練數據量。比如,如果想最高效地解決10個問題,利用Taskonomy提供的學習策略可以減少2/3的訓練數據量。

方法

簡單概括,方法分為兩個大階段,四個小步。

第一大階段涉及前三小步,我們要量化不同視覺任務之間的關聯,並將任務關聯表達成一個affinity matrix(關聯矩陣)。

第二大階段,也就是最後一小步,我們對求得的affinity matrix進行最優化,求得如何最高效地去學習一組任務。這個最高效的策略會由一個指向圖 (directed graph) 來表示,我們稱此指向圖為Taskonomy。詞語上Taskonomy是Task (任務) 和 Taxonomy (分類論) 的合併簡稱。

>>>> 問題定義

首先,我們來定義我們想要解決的問題。我們想在有限的監督預算γ下最大化我們在一組目標任務(target tasks) T = {t1,...,tn}上的表現。同時,我們有一組起始任務 (source tasks) S,其定義為我們可從零學習的任務。監督預算γ的定義為多少起始任務我們願意從零開始學習(從零開始學習需要收集大量數據,監督預算表達了我們所面對的金錢、計算力和時間上的限制)。其中,

T S 代表了我們感興趣但不能從零學習的任務,比如一個只能有少量數據的任務。S T 代表了我們不感興趣但可以從零學習(來幫助我們更好的學習)的任務,如jigsaw、colorization等自我監督的視覺任務。T ∩ S 代表了我們既感興趣又能從零學習的任務,但因為從零學習會消耗監督預算,我們希望從中選擇出符合預算的一組從零學習,餘下的通過少量數據的遷移學習來實現。

我們稱 V = T ∪ S 為我們的任務詞典 (task dictionary)。最後,我們對視覺任務t的定義為一個基於圖片的方程 f(t)。

如下圖所示,我們收集了一個有四百萬張圖片的數據題,每張圖片均有26個不同視覺任務的標註 (ground truth)。這26個任務涵蓋了2D的、3D的和語義的任務,構成了本項research的任務詞典。因為這26個任務均有標答,S也為這26個任務。

下面,我們進入第一大階段,量化視覺任務的關聯。

>>>> 第一步:從零學習

對於每個起始任務,我們為其從零開始學習一個神經網絡。為了能更好地控制變量從而比較任務關聯,每個任務的神經網絡具有相似的encoder-decoder結構。所有的encoder都是相同的類ResNet50結構。因為每個任務的output維度各不相同,decoder的結構對不同的任務各不相同,但都只有幾層,遠小於encoder的大小。

(註:CVPR poster session期間有人問起,decoder泛指readout functions,比如classification的FC Layers也算為decoder)

>>>> 第二步:遷移學習

如上圖所示,對於每一對起始任務 s ∈ S 和目標任務 t ∈ T,我們將以s的representation作為輸入來學習t。我們將凍結任務s的encoder 參數,並基於encoder的輸出 (representations) 學習一個淺層神經網絡read out function。

如下圖所示,對於t,不同的起始任務的representation會對遷移表現造成不同的影響。更具關聯的s會為t提供更有效的統計信息,從而僅用1/60的訓練數據(相較於從零學習)就能取得不錯的結果;相反不具備關聯的s則並不能有此表現。因此,我們認為基於s的representation的遷移學習在t任務中的表現可以很好地代表了s之於t的關聯性。

上述遷移代表了任務之間一對一的關聯,我們稱其為一階關聯。如下圖,幾個任務之間可能具有互補性,結合幾個起始任務的representations會對解決目標任務起到幫助。因此,我們也研究了任務之間多對一的關聯,我們稱其問高階關聯。在這種情況下,我們concatenate幾個起始任務的representation當作目標任務的輸入,其餘細節跟上段類似。

因為高階的任務組合數量太大,我們基於一階表現選擇了一部分的組合進行遷移學習。對於小於五階的高階,我們根據一階的表現,將前五的所有組合作為輸入。對於n > 5階,我們選擇結合一階表現前n的起始任務作為輸入。

>>>> 第三步:Ordinal Normalization

這一步的目標為用一個affinity matrix量化任務之間的關聯。雖然從上步習得的遷移網絡中我們獲得了許多的loss值 ,但因這些loss值來自於不同的loss 函數,它們的值域有很大差別。

如果我們把這些loss值直接放入一個矩陣(上圖左,縱軸為目標任務、橫軸為起始任務),那麼這個矩陣內的值及其不均勻,並不能有效反應任務之間的關聯。同時,簡單的線性規範化也並不能解決問題,因為任務的loss值和表現並不構成線性關係(0.01的l2 loss並不代表其表現兩倍好於0.02)。

由此,我們採用Ordinal Normalization(基於序數的規範化)來將loss值轉換為關聯度。該方法基於運籌學中的AHP (Analytic Hierarchy Process)。具體細節見論文或知乎,概括來講,affinity matrix中的第 (i, j) 個值為利用第 i 個起始任務遷移後,其網絡有多大的機率表現好於用第 j 個網絡(我們在下文稱其為 i 對於 j 的勝率)。

至此第一大階段完結,我們通過上述affinity matrix量化了任務之間的關聯性。

>>>> 第四步:BIP最優化

最後一步,我們要基於affinity matrix求得如何最有效地學習一組我們感興趣的任務。我們可以這個問題想像成一個subgraph selection的問題:選擇一些任務從零學習,剩下的任務用少量數據進行遷移學習,具體遷移學習的策略由subgraph中的edge來決定(對一條directed edge,起始點代表我們從零學習的一個任務,終點代表要進行遷移的目標任務)。基於此,我們可以通過解如下最優化問題來得到最優解:

這個最優問題有三個限制條件。

1. 如果我們選擇了一個遷移,那麼遷移的起始任務(可能為高階起始集)和目標任務均要出現在subgraph中

2. 每個目標任務有且僅有一個遷移(我們將從零學習在途中定義為從自己到自己的遷移,即一條自己到自己的edge)

3. 不超過監督預算

這三個限制條件的具體數學表達如下:

至此,我們通過解最優subgraph selection從而獲得了最有效遷移學習策略,如下圖:

實驗結果

Taskonomy項目訓練了3000+個神經網絡,總耗時~50000小時的GPU。從零學習消耗120k張圖片,遷移學習為16k張圖片。

我認為現有公眾號對Taskonomy翻譯中最不準確的是對Taskonomy實驗部分的評論。如文章一開頭所說,Taskonomy的目標為用有限的監督預算來最有效地解決一組任務,並不是將state of the art提高百分之幾。本文想宣揚的中心思想是計算機視覺界應注重視覺任務間的關聯性,並讓這些關聯性為我們所用。回到本文的具體用途,Taskonomy的用途有兩個:

1. Taskonomy作為解決一組任務的方法。

2. 用Taskonomy的任務詞典解決一個只有少量數據的新任務。

以下試驗結果分為兩個部分,分別對應以上兩點。

>>>> 一:解決一組任務

如何衡量Taskonomy解決一組任務的有效性?我們設定了兩個評判標準。

1. 遷移獲利 (Gain) : 如果我們不進行遷移學習,我們只能基於少量的數據從零學習。遷移獲利是指遷移學習相較於從零學習的勝率(見Ordinal Normalization部分)。

2. 遷移質量 (Quality) : 用少量數據遷移學習相較於用大量數據從零學習的勝率。

下圖是Taskonomy的遷移獲利 (左) 和質量 (右) 的圖表。兩圖的縱軸為所有目標任務,橫軸為監督預算,勝率在0-1之間。可見,對於一個26個任務的目標集,在只有一半甚至1/3的監督預算時,Taskonomy計算出的監督分配會使整體表現遠遠打敗從零學習(遷移獲利),並近似於(勝率超過40%)大量數據完全監督學習(遷移質量)。

>>>> 二:解決新任務

對於解決新任務,我們可以把我們任務詞典裡的目標任務當作一個新任務,模擬只有少量數據的情況。實驗結果如下,我們可以發現Taskonomy的表現超過了現有的行業pretrained features(包括imagenet fc7)。

總結

在Taskonomy項目裡,我們的目標是著眼於一組任務,並利用任務之間的關聯性減少總體數據使用量。為此,我們量化了視覺任務的關聯性,並基於求得的affinity matrix最優化得到如何分配任務監督數據量。實驗表明,視覺任務之間確實存在很強的關聯性,我們能通過更少的數據很好地解決一組任務。

相關焦點

  • CVPR 2018獎項出爐:兩篇最佳論文,何愷明獲PAMI 青年研究員獎
    最佳論文:Taskonomy: Disentangling Task Transfer Learning論文連結:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf視覺任務之間是否相關?
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習
  • 【CVPR2018最佳論文重磅出爐】斯坦福伯克利折桂,何愷明獲TPAMI年輕研究員獎
    最佳論文最佳論文題目:Taskonomy: Disentangling Task Transfer Learning論文地址:https://arxiv.org/pdf/1804.08328.pdf作者來自史丹福大學和加州大學伯克利分校,包括計算機視覺領域的著名教授Jitendra
  • CVPR18最佳論文演講:研究任務之間的聯繫才是做遷移學習的正確姿勢
    雷鋒網 AI 科技評論按:今年 CVPR 2018 最佳論文《Taskonomy: Disentangling Task Transfer Learning》(任務學:任務遷移學習的解耦)研究了一個非常新穎的課題,那就是研究視覺任務之間的關係,根據得出的關係可以幫助在不同任務之間做遷移學習。
  • 歷年 CVPR 最佳論文盤點
    接收論文列表:   http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt   正當學界紛紛議論各家獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單
  • CVPR2019無人駕駛相關論文
    點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • CVPR 2017 全部及部分論文解讀集錦
    這篇論文是作者將何愷明(Kaiming He)博士殘差網絡Deep Residual Networks與其之前研究的Dilated Convolution相結合的結果。3.CVPR2017論文:使用VTransE網絡進行視覺關係檢測(http://cvmart.net/community/article/detail/61)知識表示學習的思想(TransE)已經被成功應用於視覺關係提取(Visual Relation Extraction),提交 CVPR 2017 的新論文《Visual Translation Embedding
  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    對話頂會,探索最新學術進展,本次分享AI TIME特地邀請到CVPR 2017最佳論文得主、世界人工智慧大會 Super AI Leader(SAIL)先鋒獎得主、來自清華大學自動化系的黃高老師為大家解讀本屆CVPR「最佳論文」和「最佳學生論文」背後蘊含的亮點,深入剖析其核心思路、創新點,談談它們對CV領域的啟發。
  • 優必選4篇CVPR 2018錄用論文摘要解讀
    雷鋒網 AI 科技評論按:CVPR 2018 總投稿量超 4000 篇,最終錄取數超 900 篇,錄取率不到 23%。其中,優必選雪梨 AI 研究院有 4 篇論文被錄用為 poster。論文詳細解讀如下:論文1:An Efficient and Provable Approach for Mixture Proportion Estimation Using Linear Independence Assumption為了研究混合分布中各個組成分別的比例係數
  • 華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構
    在剛剛結束的CVPR 2020 開幕式上,悉數公布了本屆CVPR最佳論文、最佳學生論文等獎項。值得一提的是,兩個獎項的論文一作均為華人。>http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html本年度的最佳論文一作是來自香港科技大學2014級的本科生吳尚哲,2018年本科畢業後,吳尚哲選擇進入了牛津大學視覺幾何組
  • 腦洞大開的機器視覺多領域學習模型結構 | CVPR 2018論文解讀
    論文亮點這篇論文來自於牛津大學 VGG 組,該研究小組在機器視覺和遷移學習領域發表多篇重磅論文並且都被各類頂會錄用,作者之一的 Andrea Vedaldi 就是輕量級視覺開源框架 VLFeat 的主要作者。 平常工程中或者參加過 Kaggle 比賽的都知道遷移學習對模型效果提升、訓練效率提升的好處。
  • CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)
    目前官方已公布了接收論文列表,極市已匯總目前公開的所有論文連結及code(目前已更新612篇),今日更新論文如下:CVPR2019 全部論文匯總:https://github.com/extreme-assistant/cvpr2019CVPR2019 論文解讀
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    論文:Collaborative Deep Reinforcement Learning for Joint Object Search簡介:作者們提出了一種新的多智能體間的 Q-學習的方法,即門控選通式連接(gated cross connections)的深度 Q 網絡――給交流模塊設計一個門控結構,可以讓每個智能體去選擇相信自己還是相信別人。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    雷鋒網 AI 科技評論對6篇獲獎論文做了簡要介紹如下。CVPR最佳論文本屆CVPR共有兩篇最佳論文,其中就有一篇來自蘋果。為了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標註的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標註信息。論文中構建了一個類似於 GANs 的對抗性網絡來進行這種模擬+無監督學習,只不過論文中網絡的輸入是圖像而不是隨機向量。
  • 投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?
    CVPR 是計算機視覺領域的頂級學術會議,在機器學習領域享有盛名。今年的 CVPR 將於 6 月 16 日-20 日於美國加州的長灘市舉行。本屆 CVPR 大會共收到 5165 篇有效提交論文,比去年增加了 56%。大會接收了其中的 1300 篇,接收率約為 25.1%。
  • 2018最具突破性計算機視覺論文Top 10
    我們在不久前總結了2018年的頂級機器學習論文。由於計算機視覺和圖像生成對於AI應用的重要性和普及性,本文中,我們總結了2018年最重要的10篇視覺相關的研究。AI社區的評價這篇論文獲得了ICLR 2018年的最佳論文獎,ICLR是一個領先的機器學習會議。
  • CVPR 2018 最牛逼的十篇論文!
    2018年計算機視覺和模式識別會議(CVPR)上周在美國鹽湖城舉行。該會議是計算機視覺領域的世界頂級會議。今年,CVPR 收到3300篇主要會議論文並且最終被接收的論文多達 979 篇。超過6,500人參加了會議,這可以說是史詩級的大規模!
  • 西交出身,辛書冕獲CVPR 2019最佳論文,李飛飛團隊獲經典論文獎
    (Best Paper Award Committee)評審,評委們從50 篇最佳論文候選名單中評選出 4 篇獲獎論文,分別是 2 篇最佳論文榮譽提名、1 篇最佳學生論文和 1 篇最佳論文。 華人包攬三大獎項第一作者 此次 CVPR 獲獎論文中有三大獎項的第一作者均有華人在列,包括最佳論文、最佳學生論文和最具影響力論文獎,辛書冕、王鑫、李飛飛等眾多華人的名字出現在獲獎者名單中讓人欣喜又印象深刻。
  • CVPR 2018 最酷的十篇論文
    CVPR2018大會會場每年,CVPR都會帶來優秀的人才以及他們很棒的研究; 並且總能看到和學習到一些新的東西。當然,每年都有一些論文發表新的突破性成果,並為該領域帶來一些很有用的新知識。論文中表明,這一方法的表現非常不錯,並且能在分割任務中快速生成簡單標註!
  • 從CVPR2019看計算機視覺的最新趨勢
    2019年IEEE計算機視覺與模式識別大會(CVPR)於今年6月16日至20日舉行。CVPR是計算機視覺領域世界三大學術會議之一(與ICCV和ECCV並列)。今年共收到1300篇論文,錄取率達到創紀錄的5165篇(25.2%)。