腦洞大開的機器視覺多領域學習模型結構 | CVPR 2018論文解讀

2021-03-02 PaperWeekly
論文亮點

這篇論文來自於牛津大學 VGG 組,該研究小組在機器視覺和遷移學習領域發表多篇重磅論文並且都被各類頂會錄用,作者之一的 Andrea Vedaldi 就是輕量級視覺開源框架 VLFeat 的主要作者。 

平常工程中或者參加過 Kaggle 比賽的都知道遷移學習對模型效果提升、訓練效率提升的好處。這篇文章認為人類可以很快地處理大量不同的圖像進行不同的任務分析,所以模型也能夠經過簡單的調整適應不同的場景。

本文提出了一種適合多領域、多任務、可擴展的學習模式,儘管當前階段多領域學習有很大突破,但效果相比於專有模型略有差距。

作者提出一種參數獲取模式——Parametric Family(圖a),這種模式改變了以往的階段性的參數提取(圖b),需適應的參數更少,並且在參數較少的基礎上使用了參數壓縮方法依然可以保證模型的效果。

模型介紹

論文中提出了兩種殘差適配器,順序殘差適應器(Series Residual Adapters)和平行殘差適應器(Parallel Residual Adapters)。兩種模型的結構如下所示。

本文作者在 2017 年的 NIPS 上發表了一篇關於殘差適應器(Residual Adapters)的論文 Learning multiple visual domains with residual adapters [1],這篇論文中將殘差適應器定義為:

公式中 α 為適應參數,這樣做法的好處是當 α 為 0 時,f 就恢復到曾經的狀態,這樣就保證了記憶性。當參數 α 進行強正則項時, α 會接近於 0(L1 正則和 L2 正則都會令參數接近於 0)。

這裡作者們利用一種操作將 C×D 維的矩陣 A 進行重塑(Reshape)。

1. 順序殘差適應器(Series Residual Adapters)在前殘差適應器(Residual Adapters)進行了改進。

公式中 f 是標準的 filter,新的 filter g 可以看作是用 f 做為標準的低質的矩陣組合。

這樣適應器相當於對卷積層 filter 加入了「保險」機制。並且適應參數 α 維度較小是 filter f 的 1/L^2 大小。

2. 平行殘差適應器(Parallel Residual Adapters)和它的名字一樣適應參數 α 採用一種平行的方式。

新的 filter g 可以按照如下公式定義:

論文選擇 RestNet [2] 作為兩種殘差適應器(Residual Adapters)的應用網絡結構。論文中利用 SVD 矩陣分解將適應參數進行降維處理使得存儲的參數變得更加低維。


模型實驗效果

模型通過不同數據集,取 RestNet 的不同階段應用殘差適應器(Residual Adapters),並同常見的 Finetuning 以及兩種不同的多領域學習模型 [1,3] 進行比較,得出實驗結果如下所示。

平行殘差適應器(Parallel Residual Adapters)進行參數壓縮後的平均結果最佳,相較於 Finetuning 以及兩種不同的多領域學習模型 [1,3] 都有很好的提升。 

論文還驗證了不同規模的數據集的效果和 fine-tuning 進行比較,得出小規模數據和中等規模數據上兩種殘差適應器的效果都比較好,特別是小規模數據集中表現總是優於 fine-tuning,但是在大量數據集中 fine-tuning 效果就要領先了。

論文評價

這篇論文的模型結構比較有特點,改變了以往的階段性參數獲取模式,採用壓縮方式適應性獲取,對預訓練的模型參數有記憶性,保留先前的領域知識。

本文在效果上也相對不錯,開拓了新的遷移學習模型結構,是多領域學習的一大突破,同時也是遷移學習領域的一個較為突出的進展。

參考文獻

[1] S. Rebuffi, H. Bilen, and A. Vedaldi. Learning multiple visual domains with residual adapters. In Proc. NIPS, 2017. 

[2] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In Proc. ECCV, pages 630–645. Springer, 2016. 

[3] A. Rosenfeld and J. K. Tsotsos. Incremental learning through deep adaptation. arXiv preprint arXiv:1705.04228, 2017.

本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!

點擊標題查看更多論文解讀: 

#投 稿 通 道#


投稿須知 | 讓你的文字被很多很多很多人看到


  我是彩蛋 


解鎖新功能:熱門職位推薦!

PaperWeekly小程序升級啦

今日arXiv√猜你喜歡√熱門職位

找全職找實習都不是問題

 

 解鎖方式 

1. 識別下方二維碼打開小程序

2. 用PaperWeekly社區帳號進行登陸

3. 登陸後即可解鎖所有功能

 職位發布 

請添加小助手微信(pwbot02)進行諮詢

 

長按識別二維碼,使用小程序

*點擊閱讀原文即可註冊

           

           

相關焦點

  • CVPR2019最全整理:全部論文下載,Github源碼匯總、直播視頻、論文解讀等
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~CVPR 由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,在機器學習領域享有盛名。今年的 CVPR 將於 6 月 16 日-20 日於美國加州的長灘市舉行。
  • 下載 ‖ 2017 CVPR 開放論文合輯大全
    該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議。作為全球最重量級的計算機視覺盛會,當然少不了眾多大咖加入。▼3.CVPR2017論文:使用VTransE網絡進行視覺關係檢測知識表示學習的思想(TransE)已經被成功應用於視覺關係提取(Visual Relation Extraction),提交 CVPR 2017 的新論文《Visual Translation Embedding Network for Visual Relation Detection
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    不僅在學術領域,隨著深度學習在圖像處理領域的應用熱潮,越來越多的業界研究機構也在將目光投向 CVPR,從數量眾多的大會贊助商中,我們就可以感受到這一活動的關注度之高。在漫長的等待之後,本屆大會已於 2017 於 7 月 21 日在美國夏威夷開幕,並將舉行至 7 月 26 日。
  • CVPR 2021 結果出爐!最新 64 篇 CVPR'21 論文匯總(更新中)
    計算機視覺社區一直非常關注CVPR,在每年都會進行CVPR相關的論文資源整理,包括論文解讀、代碼、技術直播、分方向盤點、最佳論文匯總等
  • CVPR 2018值得一看的25篇論文,都在這裡了 | 源碼 & 解讀
    因為忽視中高 scale 的 Object 對訓練影響非常大;3. 作者又用多解析度訓練模型(MST),但仍因為過小或過大的 Object 影響,效果仍不理想。 Scale Normalization for Image Pyramids 第 6 部分,作者提出了最終的模型。
  • CVPR2019無人駕駛相關論文
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • CVPR2019接收結果公布了,但CVPR 2018的那些論文都怎麼樣了?
    CVPR 作為計算機視覺三大頂級會議之一,一直以來都備受關注。被 CVPR 收錄的論文更是代表了計算機視覺領域的最新發展方向和水平。今年,CVPR 2019 將於美國洛杉磯舉辦,上個月接收結果公布後,又引起了 CV 屆的一個小高潮,一時間湧現出眾多 CVPR 論文的解讀文章。
  • 【CVPR2020來啦】不容錯過的29個教程Tutorial !(附Slides下載連結)
    官網連結:http://cvpr2020.thecvf.com/論文下載連結:http://openaccess.thecvf.com/CVPR2020.py研究人員已經花費了大量的時間來優化超參數和調整結構。我們能否減少開發深度學習算法的努力,讓研究人員更多地關注創新領域?
  • 計算機視覺領域2019推薦論文列表
    該網絡設計的不同於其他主流網絡的有兩大關鍵點:一直保持高解析度表徵;並聯不同解析度的卷積分支。在人體骨架點檢測以及目標檢測、圖像語義分割、人臉 關鍵點檢測等視覺問題上取得了領先的結果,被同行廣泛接受和使用。該論文發表在CVPR 2019。
  • 深度 CVPR 2016谷歌論文全收錄:直擊谷歌計算機視覺研究最新動態(附論文)
    此次年度計算機視覺大會包括幾個主要的會議和若干多地同時進行的研討會和短期課程。作為計算機視覺研究的領導者,谷歌帶著 8 篇論文,受邀討論,強勢出現在此次發布會、課程和研討會上。據谷歌 Research Blog 介紹,谷歌的研究員劉策(Ce Liu)和谷歌學院顧問 Abhinav Gupta,雙雙被選為年度在計算機視覺中做出傑出研究貢獻的 PAMI 青年研究者獎。
  • 【CVPR最佳論文重磅出爐】清華奪冠,「半壁江山」華人獲獎少
    除了大家熟知的谷歌、微軟、Facebook、亞馬遜、蘋果、英特爾、英偉達等巨頭,中國的騰訊、阿里巴巴、京東、滴滴等大型網際網路公司,還有眾多初創企業,比如馭勢、格靈深瞳以及 Momenta 等等。感受一下CV界的春晚有多熱鬧:
  • CVPR2020結果出爐(附13篇論文連結/開原始碼/解讀)
    點擊上方「CVer」,選擇加"星標"或「置頂」重磅乾貨,第一時間送達今天,計算機視覺三大頂會之一
  • 2018計算機視覺及機器學習重要會議匯總
    VIPSAPP 2018 (13th International Conference on Computer Vision Theory and Applications )時間:2018/01/27-2018/01/029 地點:葡萄牙馬德拉介紹:計算機視覺應用領域知名會議,內容覆蓋圖像分析處理,視頻分析與理解,視覺跟蹤等應用和服務
  • 【腦洞大開】IBM AAAI2018論文DLPaper2Code:自動從深度學習論文生成執行代碼程序(附作者博士論文下載)
    因此我們我們強調了兩項在深度學習領域容易被忽視的挑戰:    1. 由於缺少對已有工作的公開代碼實現,自動動手復現這些代碼往往需要耗費大量的時間。    2. 現有的實現僅僅有一種或很少的幾種框架實現,限制了和其他框架的兼容。我們發現大部分論文要麼採用一張圖要麼用一張表來解釋他們模型的設計。
  • 【深度學習】你心目中 idea 最驚豔的深度學習領域論文是哪篇?
    關於計算機視覺領域,@taokongcn分享了幾個重要的工作。1.通過這個驚豔的CAM,我覺得是開了基於弱監督圖像分割領域的先河,簡直是祖先級別的神工作。為什麼這麼說呢,基於image-level的弱監督分割旨在僅通過分類標籤而生成對應的分割標籤圖,(畢竟手工標記分割圖上的像素太燒錢了呀哈哈哈 )你看看CAM,如果通過閾值一下的話,那些熱點處的不就可以作為置信度高的前景像素標籤了嘛!!!
  • 影響計算機視覺Top100論文,從ResNet到AlexNet
    本文梳理了2012到2017年計算機視覺領域的大事件:以論文和其他乾貨資源為主,並附上資源地址。Deep Vision是一個關於計算機視覺資源的項目,包含了近年來對該領域影響最大的論文、圖書和博客等的匯總。其中在論文部分,作者也分為ImageNet 分類、物體檢測、物體追蹤、物體識別、圖像與語言和圖像生成等多個方向進行介紹。
  • 28 篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢
    我們先來看下 CVPR 2020 官方的相關統計數據:CVPR 往年的增長趨勢仍然繼續:作者人數增加了20%,提交論文的數量增加了29%,同時為了適應這種擴張,審稿人和領域主席都有增加今年會議的註冊人數共有6424人,相比2019年增加了一千多人。在被接收的1467篇論文中,有335篇 Oral 論文。
  • 51 個深度學習目標檢測模型匯總,論文、源碼一應俱全!
    CV 領域的一個核心研究領域和重要分支。本文將會對目標檢測近幾年的發展和相關論文做出一份系統介紹,總結一份超全的文獻 paper 列表。模型列表先一睹為快!(建議收藏)圖中標紅的部分是作者認為比較重要,需要重點掌握的模型。當然每個人有都有各自的評價。FPS(速度)索引與硬體規格(如 CPU、GPU、RAM 等)有關,因此很難進行同等比較。解決方案是在具有相同規格的硬體上測量所有模型的性能,但這是非常困難和耗時的。比較結果如下:
  • 注意力論文解讀(1) | Non-local Neural Network | CVPR2018 | 已復現
    | R2D C3D P3D MCx R(2+1)D醫學AI論文解讀 | 超聲心動圖在臨床中的自動化檢測 | Circulation | 2018 | 中英雙語參考目錄:0 概述1 主要內容1.1 Non local的優勢1.2 pytorch復現1.3 代碼解讀1.4 論文解讀2 總結論文名稱:「Non-local Neural Networks」論文地址:https://arxiv.org/abs/1711.079710 概述
  • CVPR 2019 | 騰訊AI Lab 6大前沿方向33篇入選論文解讀
    2019 中騰訊 AI Lab 的6大重點研究方向和入選的33篇論文。計算機視覺頂級會議 CVPR 2019 將於 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識別、對抗攻擊、視覺-語言描述、模型壓縮和多任務學習等幾大重點研究方向,下面將分組介紹論文。