CVPR 2018 | 商湯科技Oral論文詳解:BlockQNN自動網絡設計方法

2020-12-04 太平洋電腦網

距離全球計算機視覺頂級會議IEEE CVPR 2018 (IEEE國際計算機視覺與模式識別會議) 召開的腳步越來越近。上周,商湯科技宣布以44篇論文入選CVPR 2018,吸引了諸多朋友點讚。接下來幾周,我們將陸續發布商湯科技入選CVPR 2018的重點論文解讀報導,歡迎大家關注。

以下是在大規模分布式訓練領域,商湯科技發表的一篇重磅大會口頭報告(Oral)論文,提出基於分布式訓練的深度增強學習BlockQNN算法,自動設計神經網絡結構。本文由商湯科技實習研究員鍾釗在商湯科技研究院副院長閆俊傑和研究經理武偉指導下完成。

論文:Practical Block-wise Neural Network Architecture Generation

作者:Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-Lin Liu

論文全文連結:

簡介

神經網絡結構設計一直是深度學習裡的核心問題。在基於深度學習的分類、檢測、分割、跟蹤等任務中,基礎神經網絡的結構對整體算法的性能優劣有著決定性的影響。傳統的神經網絡結構設計需要大量專家的知識和試錯成本,甚至還需要一些靈感和「神來之筆」,每年僅有幾個有較大影響的新網絡結構被設計出來,因此,人工設計網絡結構是一件極其困難的事情。網絡結構的自動設計/搜索的方法最近受到了廣泛的重視,其試圖朝著自動化深度學習這個目標,把人從複雜繁瑣的網絡設計調參中解放出來(如圖一所示)。

圖一:(由左至右)

從人工設計的網絡結構到

算法自動設計的網絡結構

近期的網絡結構自動設計/搜索算法通常需要耗費巨大的計算資源(例如,Google的NAS算法需要使用數百塊GPU以及近一個月的訓練時間),而且生成的模型可遷移性不強,難以做到真正的實用化。本文提出的BlockQNN算法能夠解決現有網絡結構自動設計/搜索方法效率和泛化性的問題。

基於「Block」的網絡結構表示

目前主流的深度神經網絡結構極其複雜,其深度往往達到數百層,直接搜索整個網絡結構的搜索空間非常龐大,這也是之前自動網絡結構設計/搜索算法比較低效的原因之一。同時,直接設計整個網絡的策略會導致網絡結構不具備泛化性。例如,基於CIFAR數據集搜索出來的網絡結構,因為其數據輸入的大小限制,只適合處理輸入為32x32解析度的數據,從而使得搜索出的網絡結構泛化性能較弱。

針對這些問題,本文借鑑了現代主流深度神經網絡的設計思想,比如ResNet、Inception等網絡。這些網絡是由同樣結構的子網絡重複組合在一起形成,本文把這種能重複組合的子結構稱為block。通過設計block結構,可以讓網絡結構的搜索空間大大減小,並且block結構本身具有強大的泛化性,針對不同的數據集或者任務,只需要疊加不同個數的block即可完成(如圖二所示)。

圖二:

基於Block設計的網絡整體框架

左邊為針對CIFAR的框架,右邊針對ImageNet

表一:

網絡結構編碼表

為了表示網絡block結構,本文設計了一套網絡結構編碼,把神經網絡看做一個有向無環圖,每個節點表示網絡中的每一層,而邊就表示數據流動的方向。整個編碼包括神經網絡的層數序號,類型,核的大小,以及兩個前序節點的序號。使用這種編碼方式就可以表示任意的神經網絡結構,例如ResNet和Inception的block結構就能使用圖三中的編碼進行表示。

圖三:

Inception和Resnet中block結構編碼表示

基於強化學習的網絡結構自動設計

接下來的核心問題即是如何獲得最優的網絡結構。儘管網絡結構的搜索空間已經通過設計block大大減小,但是直接暴力搜索所有可能結構,依然十分耗費計算資源。本文因此提出一種基於強化學習的網絡設計方法,自動學習得到網絡結構。

在網絡設計強化學習中,本文把當前神經網絡層定義為增強學習中的目前狀態(current state),而下一層結構的決策定義為增強學習中的動作(action)。這裡使用之前定義的神經網絡結構編碼來表示每一層網絡。這樣,通過一系列的動作決策,就能獲得一條表示block結構的編碼(如圖四所示),而提出的強化學習算法通過優化尋獲最優的動作決策序列。本文使用Q-learning算法來進行學習,具體的公式不再展開。

圖四:

基於強化學習的網絡結構自動設計流程

值得注意的一點是,與一般的強化學習問題不同,該任務只在結束整個序列的決策後(即生成完整網絡結構後)才會得到一個reward,而之前的每個決策是對應reward。由於獲得最終reward的成本非常高(需要在數據上重新訓練新獲得的網絡結構),為了加快它的收斂,作者使用了reward shaping的技巧(如圖五所示),因而訓練初始階段終止層的Q值不會過高,讓算法不會在訓練初始階段傾向於生成層數過淺的網絡結構。

圖五:

Reward shaping對收斂效率的影響

提前停止策略

雖然能夠使用多種技巧來使自動化網絡結構設計變的更加高效。但是自動網絡設計中耗費時間的關鍵還是在於每次獲得reward的時間成本非常高,需要將生成的網絡結構在對應的數據集上訓練至收斂,然後獲得相應的準確度來表示結構的好壞並且用作reward。本文作者發現,通過調整學習率,只需要正常訓練30分之一的過程(例如,CIFAR-100數據集上訓練12個epoch),就可以得到網絡的大致最終精度,這樣可以大大降低時間成本。但是,這樣的網絡結構精度及其關聯的reward會有誤差,導致無法精細區分網絡結構的優劣,本文提出一個憑經驗的解決公式:

即真實的reward和提前停止的準確度成正比,但是和網絡結構的計算複雜度和結構連接複雜度(block中邊數除以點數)成反比。通過這樣的公式矯正,得到的reward對網絡結構的好壞更加具備可鑑別性(如圖六所示)。

圖六:

提前停止的準確度與網絡真實準確度、

計算複雜度、連接複雜度的關係

實驗結果

本文使用了32個GPU,經過3天的搜索,可以在CIFAR數據集上找到性能達到目前先進水平的網絡結構(如圖七所示)。

圖七:

搜索過程以及學習得到的最優網絡結構

相比之前的自動網絡搜索方法(如Google NAS算法的數百塊GPU以及一個月時間),BlockQNN算法可謂十分高效(如表二、表三所示)。

表二:

不同自動網絡結構設計算法的

計算資源對比

表三:

在CIFAR數據集上不同網絡結構的錯誤率

另一方面,學習獲得的網絡結構也可以更容易的遷移到ImageNet任務上,取得了不錯的精度(如表四所示)。

表四:

在Imagenet數據集上不同網絡結構的錯誤率

為了驗證BlockQNN算法是否真的學習到了設計網絡的方式,在同一搜索空間下和暴力搜索進行對比,可以發現本文提出的BlockQNN算法能獲得比暴力搜索更好的模型(如圖八所示)。

圖八:

強化學習與暴力搜索獲得網絡結構

在CIFAR數據集的準確率

對整個搜索過程和結果網絡結構進行分析(如圖九所示),本文作者發現學習得到的優異結構擁有一些共性。比如multi-branch結構、short-cut連接方式等這些現在常用的設計思想。同時,作者也發現了一些不太常見的結構共性,比如卷積層之間的addition操作出現的十分頻繁,這些學習得到的網絡結構還有待進一步的分析和研究。

圖九:

BlockQNN算法設計的網絡結構示例

結論

本文提出了一種高效的基於強化學習的網路結構自動設計算法——BlockQNN,其通過「Block」的設計思想,讓網絡結構搜索空間大大降低,並且使得學習得到的網絡具備非常強的可遷移性。同時,本文使用「提前停止」和分布式架構來加速整個學習過程,達到了百倍於之前Google NAS算法的速度(僅需要32塊GPU以及3天的訓練)。實驗表明,其學習得到的網路結構在CIFAR數據集上達到人類設計網絡結構的精度,並且其結構可以遷移到大規模的ImageNet數據集上,也能取得不錯的性能。作者希望朝著自動化深度學習這個目標繼續發展算法,最終把人從複雜繁瑣的網絡設計和調參中解放出來,實現深度學習更進一步的「智能化」。

相關焦點

  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文 979 篇。
  • 一騎絕塵 商湯科技 44 篇論文入選 CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有 44 篇論文被本屆 CVPR 大會接收,其中包括口頭報告論文 3 篇(錄取率僅 62/3300 = 1.88%),亮點報告論文 13 篇,論文錄取數量相較於 CVPR 2017 的 23 篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有44篇論文被本屆CVPR大會接收,其中包括口頭報告論文3篇(錄取率僅62/3300 = 1.88%),亮點報告論文13篇,論文錄取數量相較於CVPR 2017的23篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 商湯科技44篇論文入選CVPR 2018
    速途網5月10日消息,全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and PatternRecognition,即IEEE國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。
  • CVPR 2018 中國論文分享會之「分割與檢測」
    第二個報告由來自商湯科技的石建萍博士介紹了商湯科技在自動駕駛相關問題中的研究工作,分別包括場景理解、物體理解、視頻理解和 3D 場景結構理解。其中物體理解方面的工作在去年 COCO 物體分割和物體識別中分別獲得第一名和第二名的成績。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    這種以搜索為基礎的方法,應用卷積神經網絡加循環神經網絡,可以使圖像標註系統更加實用。論文:Collaborative Deep Reinforcement Learning for Joint Object Search簡介:作者們提出了一種新的多智能體間的 Q-學習的方法,即門控選通式連接(gated cross connections)的深度 Q 網絡――給交流模塊設計一個門控結構,可以讓每個智能體去選擇相信自己還是相信別人。
  • CVPR 2018 中國論文分享會 之「人物重識別及追蹤」
    李鴻升教授在今年的 CVPR 中共有 7 篇入選論文,這裡他只介紹了其中兩篇。第一篇為 oral 論文,他們考慮到圖片之間具有組相似性,而現有的方法大多忽視了這種相似性;基於這種思考,他們提出了用組相似性的約束的全局 loss 函數,取代了之前只是基於局部的 loss 函數。第二篇論文中他們發現圖片背景對模型重識別行人有很大的影響。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • 如何讓醫學圖像診斷網絡具備可解釋性?CVPR oral 作者張子釗詳解...
    科技評論按:雷鋒網 AI 科技評論對各大頂級會議的論文及作者一直保持高度關注,在邀約優秀的與會老師和同學參加GAIR大講堂等線下分享活動外,雷鋒網(公眾號:雷鋒網)也會持續邀請論文作者對自己的工作進行詳細介紹。
  • CVPR 2020商湯斬獲3冠!62篇論文入選,算法工廠憑什麼領跑行業?
    此前的 ICCV 2019 上,商湯及其聯合實驗室就曾以入選 57 篇論文的成績引來矚目。而這一次的 CVPR,在入選論文數上,商湯持續超越微軟、Facebook 等科技巨頭。並且,又拿下了 CVPR 2020 ActivityNet 時空動作定位賽道、動作分類賽道,以及 CVPR 2020 NTIRE 競賽等3 項世界冠軍。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    本文介紹的是CVPR2020論文《CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection》,作者來自商湯 。
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    雷鋒網 AI 科技評論按:2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    科技評論按:CVPR 2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。本文轉載於「騰訊 AI 實驗室」,雷鋒網 AI 科技評論經授權轉載。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • 從20 篇ICCV 2017錄用論文,看商湯科技四大攻堅領域|ICCV 2017
    根據組委會公開的數字,會議 40% 的論文投稿來自中國的研究者。在中國的人工智慧浪潮中,商湯科技以及它與港中文的聯合實驗室無疑是其中最有代表性的力量。在本屆 ICCV 大會,商湯科技與香港中大-商湯科技聯合實驗室共發表了 20 篇論文,其中包括 3 篇 Oral (錄取率僅 2.09%) 和 1 篇 Spotlight,領先 Facebook(15 篇)、Google Research(10 篇)等科技巨頭。
  • CVPR2018 | Domain Adaptation Segmentation-AdaptSegNet詳解
    論文:Learning to Adapt Structured Output Space for Semantic Segmentation會議:CVPR2018任務:domain adaptation segmentation任務詳解:domain
  • CVPR 2018 中國論文分享會 之「深度學習」
    AI 科技評論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中「Deep Learning」環節的四場論文報告,分別針對Deep Learning的冗餘性、可解釋性、遷移學習和全局池化做了深入分享。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    雷鋒網 AI 科技評論按:百度研究院、華中科技大學、雪梨科技大學聯合新作——關於無監督領域自適應語義分割的論文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    通過計算機視覺方法識別紋理細密的物體種類已經受到了學界的強烈關注。 論文連結:http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Look_Closer_to_CVPR_2017_paper.pdf 識別紋理細密的物體類別(比如鳥類)是很困難的,這是因為判別區域定位