CVPR 2018 | 商湯科技Oral論文詳解:BlockQNN自動網絡設計方法

2021-01-07 太平洋電腦網

距離全球計算機視覺頂級會議IEEE CVPR 2018 (IEEE國際計算機視覺與模式識別會議) 召開的腳步越來越近。上周,商湯科技宣布以44篇論文入選CVPR 2018,吸引了諸多朋友點讚。接下來幾周,我們將陸續發布商湯科技入選CVPR 2018的重點論文解讀報導,歡迎大家關注。

以下是在大規模分布式訓練領域,商湯科技發表的一篇重磅大會口頭報告(Oral)論文,提出基於分布式訓練的深度增強學習BlockQNN算法,自動設計神經網絡結構。本文由商湯科技實習研究員鍾釗在商湯科技研究院副院長閆俊傑和研究經理武偉指導下完成。

論文:Practical Block-wise Neural Network Architecture Generation

作者:Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-Lin Liu

論文全文連結:

簡介

神經網絡結構設計一直是深度學習裡的核心問題。在基於深度學習的分類、檢測、分割、跟蹤等任務中,基礎神經網絡的結構對整體算法的性能優劣有著決定性的影響。傳統的神經網絡結構設計需要大量專家的知識和試錯成本,甚至還需要一些靈感和「神來之筆」,每年僅有幾個有較大影響的新網絡結構被設計出來,因此,人工設計網絡結構是一件極其困難的事情。網絡結構的自動設計/搜索的方法最近受到了廣泛的重視,其試圖朝著自動化深度學習這個目標,把人從複雜繁瑣的網絡設計調參中解放出來(如圖一所示)。

圖一:(由左至右)

從人工設計的網絡結構到

算法自動設計的網絡結構

近期的網絡結構自動設計/搜索算法通常需要耗費巨大的計算資源(例如,Google的NAS算法需要使用數百塊GPU以及近一個月的訓練時間),而且生成的模型可遷移性不強,難以做到真正的實用化。本文提出的BlockQNN算法能夠解決現有網絡結構自動設計/搜索方法效率和泛化性的問題。

基於「Block」的網絡結構表示

目前主流的深度神經網絡結構極其複雜,其深度往往達到數百層,直接搜索整個網絡結構的搜索空間非常龐大,這也是之前自動網絡結構設計/搜索算法比較低效的原因之一。同時,直接設計整個網絡的策略會導致網絡結構不具備泛化性。例如,基於CIFAR數據集搜索出來的網絡結構,因為其數據輸入的大小限制,只適合處理輸入為32x32解析度的數據,從而使得搜索出的網絡結構泛化性能較弱。

針對這些問題,本文借鑑了現代主流深度神經網絡的設計思想,比如ResNet、Inception等網絡。這些網絡是由同樣結構的子網絡重複組合在一起形成,本文把這種能重複組合的子結構稱為block。通過設計block結構,可以讓網絡結構的搜索空間大大減小,並且block結構本身具有強大的泛化性,針對不同的數據集或者任務,只需要疊加不同個數的block即可完成(如圖二所示)。

圖二:

基於Block設計的網絡整體框架

左邊為針對CIFAR的框架,右邊針對ImageNet

表一:

網絡結構編碼表

為了表示網絡block結構,本文設計了一套網絡結構編碼,把神經網絡看做一個有向無環圖,每個節點表示網絡中的每一層,而邊就表示數據流動的方向。整個編碼包括神經網絡的層數序號,類型,核的大小,以及兩個前序節點的序號。使用這種編碼方式就可以表示任意的神經網絡結構,例如ResNet和Inception的block結構就能使用圖三中的編碼進行表示。

圖三:

Inception和Resnet中block結構編碼表示

基於強化學習的網絡結構自動設計

接下來的核心問題即是如何獲得最優的網絡結構。儘管網絡結構的搜索空間已經通過設計block大大減小,但是直接暴力搜索所有可能結構,依然十分耗費計算資源。本文因此提出一種基於強化學習的網絡設計方法,自動學習得到網絡結構。

在網絡設計強化學習中,本文把當前神經網絡層定義為增強學習中的目前狀態(current state),而下一層結構的決策定義為增強學習中的動作(action)。這裡使用之前定義的神經網絡結構編碼來表示每一層網絡。這樣,通過一系列的動作決策,就能獲得一條表示block結構的編碼(如圖四所示),而提出的強化學習算法通過優化尋獲最優的動作決策序列。本文使用Q-learning算法來進行學習,具體的公式不再展開。

圖四:

基於強化學習的網絡結構自動設計流程

值得注意的一點是,與一般的強化學習問題不同,該任務只在結束整個序列的決策後(即生成完整網絡結構後)才會得到一個reward,而之前的每個決策是對應reward。由於獲得最終reward的成本非常高(需要在數據上重新訓練新獲得的網絡結構),為了加快它的收斂,作者使用了reward shaping的技巧(如圖五所示),因而訓練初始階段終止層的Q值不會過高,讓算法不會在訓練初始階段傾向於生成層數過淺的網絡結構。

圖五:

Reward shaping對收斂效率的影響

提前停止策略

雖然能夠使用多種技巧來使自動化網絡結構設計變的更加高效。但是自動網絡設計中耗費時間的關鍵還是在於每次獲得reward的時間成本非常高,需要將生成的網絡結構在對應的數據集上訓練至收斂,然後獲得相應的準確度來表示結構的好壞並且用作reward。本文作者發現,通過調整學習率,只需要正常訓練30分之一的過程(例如,CIFAR-100數據集上訓練12個epoch),就可以得到網絡的大致最終精度,這樣可以大大降低時間成本。但是,這樣的網絡結構精度及其關聯的reward會有誤差,導致無法精細區分網絡結構的優劣,本文提出一個憑經驗的解決公式:

即真實的reward和提前停止的準確度成正比,但是和網絡結構的計算複雜度和結構連接複雜度(block中邊數除以點數)成反比。通過這樣的公式矯正,得到的reward對網絡結構的好壞更加具備可鑑別性(如圖六所示)。

圖六:

提前停止的準確度與網絡真實準確度、

計算複雜度、連接複雜度的關係

實驗結果

本文使用了32個GPU,經過3天的搜索,可以在CIFAR數據集上找到性能達到目前先進水平的網絡結構(如圖七所示)。

圖七:

搜索過程以及學習得到的最優網絡結構

相比之前的自動網絡搜索方法(如Google NAS算法的數百塊GPU以及一個月時間),BlockQNN算法可謂十分高效(如表二、表三所示)。

表二:

不同自動網絡結構設計算法的

計算資源對比

表三:

在CIFAR數據集上不同網絡結構的錯誤率

另一方面,學習獲得的網絡結構也可以更容易的遷移到ImageNet任務上,取得了不錯的精度(如表四所示)。

表四:

在Imagenet數據集上不同網絡結構的錯誤率

為了驗證BlockQNN算法是否真的學習到了設計網絡的方式,在同一搜索空間下和暴力搜索進行對比,可以發現本文提出的BlockQNN算法能獲得比暴力搜索更好的模型(如圖八所示)。

圖八:

強化學習與暴力搜索獲得網絡結構

在CIFAR數據集的準確率

對整個搜索過程和結果網絡結構進行分析(如圖九所示),本文作者發現學習得到的優異結構擁有一些共性。比如multi-branch結構、short-cut連接方式等這些現在常用的設計思想。同時,作者也發現了一些不太常見的結構共性,比如卷積層之間的addition操作出現的十分頻繁,這些學習得到的網絡結構還有待進一步的分析和研究。

圖九:

BlockQNN算法設計的網絡結構示例

結論

本文提出了一種高效的基於強化學習的網路結構自動設計算法——BlockQNN,其通過「Block」的設計思想,讓網絡結構搜索空間大大降低,並且使得學習得到的網絡具備非常強的可遷移性。同時,本文使用「提前停止」和分布式架構來加速整個學習過程,達到了百倍於之前Google NAS算法的速度(僅需要32塊GPU以及3天的訓練)。實驗表明,其學習得到的網路結構在CIFAR數據集上達到人類設計網絡結構的精度,並且其結構可以遷移到大規模的ImageNet數據集上,也能取得不錯的性能。作者希望朝著自動化深度學習這個目標繼續發展算法,最終把人從複雜繁瑣的網絡設計和調參中解放出來,實現深度學習更進一步的「智能化」。

相關焦點

  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:本文由商湯科技獨家投稿,AI 科技評論獲其授權轉載。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有44篇論文被本屆CVPR大會接收,其中包括口頭報告論文3篇(錄取率僅62/3300 = 1.88%),亮點報告論文13篇,論文錄取數量相較於CVPR 2017的23篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 一騎絕塵 商湯科技 44 篇論文入選 CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有 44 篇論文被本屆 CVPR 大會接收,其中包括口頭報告論文 3 篇(錄取率僅 62/3300 = 1.88%),亮點報告論文 13 篇,論文錄取數量相較於 CVPR 2017 的 23 篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 商湯科技44篇論文入選CVPR 2018
    速途網5月10日消息,全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and PatternRecognition,即IEEE國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。
  • 基石小夥伴 | 商湯科技62篇論文入選CVPR 2019,多個競賽項目奪冠
    再次突破,商湯62篇論文入選CVPR 2019根據官網數據,商湯科技及聯合實驗室共有62篇論文被接收,其中口頭報告(Oral)論文就有18篇。相比2018 CVPR共44篇論文入選,增幅超40%。
  • CVPR2019無人駕駛相關論文
    點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    2017 年 7 月 11 日,專注於計算機視覺和深度學習的國內人工智慧企業商湯科技完成 4.1 億美元融資的消息引爆業內。本次融資創下了全球人工智慧公司單輪融資的最高紀錄。作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • CVPR 2018 中國論文分享會之「分割與檢測」
    第二個報告由來自商湯科技的石建萍博士介紹了商湯科技在自動駕駛相關問題中的研究工作,分別包括場景理解、物體理解、視頻理解和 3D 場景結構理解。其中物體理解方面的工作在去年 COCO 物體分割和物體識別中分別獲得第一名和第二名的成績。
  • 業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    2017 年 7 月 11 日,專注於計算機視覺和深度學習的國內人工智慧企業商湯科技完成 4.1 億美元融資的消息引爆業內。本次融資創下了全球人工智慧公司單輪融資的最高紀錄。作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    這種以搜索為基礎的方法,應用卷積神經網絡加循環神經網絡,可以使圖像標註系統更加實用。論文:Collaborative Deep Reinforcement Learning for Joint Object Search簡介:作者們提出了一種新的多智能體間的 Q-學習的方法,即門控選通式連接(gated cross connections)的深度 Q 網絡――給交流模塊設計一個門控結構,可以讓每個智能體去選擇相信自己還是相信別人。
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    擁有深厚學術底蘊的商湯科技,自成立以來始終以「堅持原創,讓AI引領人類進步」為使命,在人工智慧技術研究上不斷尋求自我突破和創新。此次,商湯科技及聯合實驗室共有57篇論文入選ICCV 2019,其中口頭報告(Oral)論文就有11篇!ICCV論文錄用率非常低,今年Oral錄用比例僅為4.62%。
  • CVPR 2018 中國論文分享會 之「人物重識別及追蹤」
    雷鋒網 AI 科技評論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第三個 Session——「Person Re-Identification and Tracking」環節的四場論文報告。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次。(圖鴨科技憑藉在 CLIC 中 MOS 和 MS-SSIM 指標第一,在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中增加 10 分。)
  • CVPR 2017 全部及部分論文解讀集錦
    這篇論文是作者將何愷明(Kaiming He)博士殘差網絡Deep Residual Networks與其之前研究的Dilated Convolution相結合的結果。文中論文提出了一個新的深度學習模型,這個模型推廣了傳統的字典學習 (dictionary learning) 和殘差編碼 (Residual Encoders)。論文GMS的方法實際上是消除錯誤匹配的一種方案,比如可以替換ransac。算法執行的大致流程是:先執行任意一種特徵點的檢測和特徵點的描述子計算,論文中採用的是ORB特徵。
  • 最強目標跟蹤算法SiamRPN++開源了,商湯出品
    現在,整個家族都開源了:· SiamMask (CVPR 2019)· SiamRPN++ (CVPR 2019 oral)· DaSiamRPN (ECCV 2018)· SiamRPN (CVPR 2018)· SiamFC (ECCV 2016
  • 萬字解讀商湯科技ICLR2019論文:隨機神經網絡結構搜索
    科技評論消息,日前,商湯科技研究院論文《隨機神經網絡結構搜索》(SNAS,stochastic neural architecture search)被深度學習頂級會議 ICLR(International Conference of Learning Representation)錄用,該論文第一作者來自 SenseTime 研究院自動駕駛部門,作者專注於強化學習(reinforcement learning
  • 如何讓醫學圖像診斷網絡具備可解釋性?CVPR oral 作者張子釗詳解...
    雷鋒網 AI 科技評論按:雷鋒網 AI 科技評論對各大頂級會議的論文及作者一直保持高度關注,在邀約優秀的與會老師和同學參加GAIR大講堂等線下分享活動外,雷鋒網也會持續邀請論文作者對自己的工作進行詳細介紹。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • 如何評價CVPR 2021的論文接收結果?
    論文Idea也非常有新意,得到了所有reviewer的一致認可,自認為開劈了所在領域中之前所有人都去迴避的問題。論文的主要欠缺在性能沒有刷的很高,但是投稿結束後也超過了競爭對手模型,rebuttal中因為政策並未提及新結果。