何愷明團隊神經結構搜索最新力作:設計隨機連接網絡,效果超ResNet

2021-03-06 新智元

來源:arXiv

編輯:肖琴

【新智元導讀】FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作,通過隨機連接的神經網絡,探索了更多樣化的連接模式,所提出的RandWire網絡ImageNet基準測試中獲得了有競爭力的準確度。

用於圖像識別的神經網絡經過大量的人工設計,已經從簡單的鏈狀模型發展到具有多個連接路徑的結構。ResNets 和 DenseNets 的成功在很大程度上歸功於它們創新的連接規劃。

目前,神經結構搜索 (NAS) 的研究正在探索連接 (wiring) 與操作類型 (operation types) 的聯合優化,然而,由於可能的連接空間受到限制,儘管採用了神經結構搜索,優化仍然是由人工設計驅動的。

近日,FAIR 何愷明等人發表最新論文,探討了在圖像識別中NAS方法的優化。研究人員通過隨機連接的神經網絡,探索了更多樣化的連接模式。

論文地址:

https://arxiv.org/pdf/1904.01569.pdf

作者首先定義了一個隨機網絡生成器 (network generator) 的概念,該生成器封裝了整個網絡生成過程,從而提供了 NAS 和隨機連接網絡的統一視圖。

然後,研究人員採用三種經典的隨機圖模型來生成網絡的隨機連接圖

實驗結果令人驚訝:這些隨機生成器生成的網絡實例在 ImageNet 基準測試中獲得了有競爭力的準確度。

研究人員表示,這些結果表明,專注於設計更好的網絡生成器的研究可以通過探索更少約束的搜索空間,為新設計提供更多空間,從而帶來新的突破。

不過,該研究被指其思想早已在2013年PCA-Net論文中提出過,在算法設計思想方面沒有本質的創新。

何愷明等人的這一新研究到底意義如何?本文對這篇論文進行了譯介:

今天我們所稱的深度學習是從連接主義方法發展起來的,這一範式反映了這樣一種假設,即計算網絡的連接方式對構建智能機器至關重要。

與這一觀點相呼應的是,計算機視覺領域的最新進展是由使用鏈狀連接的模型向更精細的連接模式 (如 ResNet 和 DenseNet) 的轉變所驅動的,這些連接模式之所以有效,在很大程度上是因為它們的連接方式

在這一趨勢的推進中,神經結構搜索 (neural architecture search, NAS) 已經成為聯合搜索連接模式和執行操作方式的一個有前景的方向。NAS 方法專注於搜索,同時隱式地依賴於一個重要但常常被忽視的組件 —— 網絡生成器 (network generator)。

NAS 網絡生成器定義了一系列可能的連接模式,並根據可學習的概率分布對網絡進行採樣。然而,就像 ResNet 和 DenseNet 中的連接模式一樣,NAS 網絡生成器是手工設計的,允許的連接模式的空間被限制在所有可能的圖的一個小的子集中。從這個角度來看,我們會問:如果我們放開這種約束,並設計新的網絡生成器,會發生什麼 ?

我們通過隨機網絡生成器採樣的隨機連接神經網絡來探討這個問題,其中人工設計的隨機過程定義了生成。

圖1:隨機連接網絡的計算圖

我們使用了三個經典的隨機圖模型:Erdos-R˝enyi (ER) ,Barabasi-Albert (BA),以及Watts-Strogatz (WS) 模型

如圖1所示,隨機連接網絡的三個實例在ImageNet基準測試中分別達到79.1%、79.1%和79.0%的精度,超過了ResNet-50的77.1%。

為了定義完整的網絡,我們將一個隨機圖轉換成一個有向無環圖 (DAG),並應用從節點到其函數角色 (例如,到相同類型的卷積) 的一個簡單映射。

結果令人驚訝:這些隨機生成器的幾個變體在 ImageNet 上產生了準確率上具有競爭力的網絡

使用 WS 模型的最佳生成器生成的多個網絡性能優於或可與完全手工設計的同類網絡和通過各種神經結構搜索方法找到的網絡相媲美。

我們還觀察到,對於同一生成器生成的不同隨機網絡,精度的方差較低,但不同生成器之間存在明顯的精度差距。這些觀察結果表明,網絡生成器的設計很重要

最後,我們的工作表明,從設計單個網絡到設計網絡生成器的新過渡是可能的,類似於如何從設計特徵過渡到設計學習特徵的網絡。

我們建議設計新的網絡生成器來生成用於搜索的新模型家族,而不是主要關注使用固定生成器進行搜索。設計的網絡生成器的重要性還意味著機器學習尚未實現自動化 —— 底層的人工設計只是從網絡工程轉變到網絡生成器工程 (network generator engineering)。

接下來介紹網絡生成器的概念,這是隨機連接神經網絡的基礎。

網絡生成器 (network generator)

我們定義一個網絡生成器為從參數空間 Θ 到神經網絡結構空間 N 的一個映射g,表示為g:Θ→N。對於一個給定的θ∈Θ,g(θ) 返回一個神經網絡實例n ∈ N。N 通常是一組相關網絡,例如 VGG nets、ResNets 或 DenseNets。

生成器 g 決定了計算圖的連接方式。

隨機連接神經網絡 (Randomly Wired Neural Networks)

對 NAS 的分析表明,網絡生成器是人工設計的,並且是人類知識的先驗編碼。網絡生成器的設計很可能起了相當大的作用,如果是這樣的話,目前的方法還沒有實現「AutoML」,仍然需要大量的人工

為了研究生成器設計的重要性,僅比較相同 NAS 生成器的不同優化器是不夠的;有必要研究新的網絡生成器,它們與 NAS 生成器有本質的不同。

這就引出了我們對隨機連接神經網絡的探索。也就是說,我們將定義網絡生成器,這些生成器生成具有隨機圖的網絡,受不同的人類特定先驗影響。

我們在研究中使用了三個經典的隨機圖模型 (如上文所述)。生成隨機連接網絡的方法涉及以下概念:

生成通用的圖 (general graphs)。

網絡生成器首先生成一個 general graph,包含一組節點和連接節點的邊,而不受限於圖和神經網絡的對應關係。這允許我們自由地使用圖理論中的任意通用圖生成器(ER/BA/WS)。一旦生成一個圖,它就被映射到一個可計算的神經網絡。

邊操作 (Edge operations)。

假設生成的圖是有方向的,我們定義邊是數據流,即有向邊將數據 (張量) 從一個節點發送到另一個節點。

節點操作 (Node operations)。

有向圖中的節點可以具有一些輸入邊和一些輸出邊。如圖 2 所示。

圖2:節點操作

輸入和輸出節點。

到目前為止,即使給定邊 / 節點操作,通用圖也不是一個有效的神經網絡,因為它可能有多個輸入節點和多個輸出節點。對於典型的神經網絡,如圖像分類,最好有一個單一的輸入和輸出。我們應用了一個簡單的後處理步驟。

階段 (Stages)。

由於具有唯一的輸入和輸出節點,一個圖就足以表示一個有效的神經網絡。然而,特別是在圖像分類中,始終保持完整輸入解析度的網絡是不可取的。通常的方法是將網絡劃分為逐步向下採樣特徵映射的階段。

表1:RandWire架構

表 1 總結了我們實驗中使用的隨機連接神經網絡,稱為 RandWire。網絡以一個分類器輸出結束 (表 1,最後一行)。

圖 1 顯示了三個隨機連接網絡樣本的完整計算圖。

我們對 ImageNet 1000 類分類任務進行了實驗。訓練在~1.28M 圖像的訓練集上進行,並在 50K 驗證圖像上進行測試。

實驗結果如下:

隨機生成器

圖3

圖 3 比較了小型計算環境中不同生成器的結果:每個 RandWire 網絡有~580M FLOPs。

圖4

圖 4 顯示了每個生成器的一個示例圖。圖生成器由隨機圖模型 (ER/BA/WS) 及其參數集指定,如 ER(0.2)。我們觀察到:

所有隨機生成器在所有 5 個隨機網絡實例上都提供良好的準確度,而且它們沒有一個不收斂。

此外,隨機網絡實例之間的差異很小。圖 3 中的幾乎所有隨機生成器的標準偏差 (std)都為 0.2 ~ 0.4%。

Graph damage.

我們通過隨機移除一個節點或邊來探索 Graph damage。

圖5

當刪除邊時,我們評估了精度損失與該邊的目標節點的輸入程度 (圖 5,底部)。

節點操作

圖6

圖 6 顯示了圖 3 中列出的每個生成器的平均精度。

結果比較

小型計算設置

表2

表 2 比較了在較小計算條件下的結果,這是現有 NAS 論文中研究的一種常見設置

表3

表 3 比較了 RandWire 與 ResNet 和 ResNeXt 在與 ResNet-50/101 類似的 FLOPs 的情況下的性能。RandWire 的平均準確率分別比 ResNet50 和 ResNet-101 高 1.9% 和1.3%,比 ResNeXt 高 0.6%。

更大的計算條件

表4

表 4 比較了在更大計算條件下的結果

COCO 對象檢測

最後,我們報告了通過微調網絡進行 COCO 對象檢測的結果。我們使用 Faster R-CNN和 FPN 作為目標探測器。

表5

表 5 比較了對象檢測結果。觀察到的趨勢與表 3 中的 ImageNet 實驗相似。這些結果表明,我們的隨機連接網絡學習到的特徵也可以遷移。

論文地址:

https://arxiv.org/pdf/1904.01569.pdf

【2019 新智元 AI 技術峰會精彩回顧

2019 年 3 月 27 日,新智元再匯 AI 之力,在北京泰富酒店舉辦 AI 開年盛典 ——2019 新智元 AI 技術峰會。峰會以 「智能雲・芯世界 「為主題,聚焦智能雲和 AI 晶片的發展,重塑未來 AI 世界格局。

同時,新智元在峰會現場權威發布若干 AI 白皮書,聚焦產業鏈的創新活躍,評述 AI 獨角獸影響力,助力中國在世界級的 AI 競爭中實現超越。

嘉賓精彩演講:

相關焦點

  • 詳解何愷明團隊最新作品:源於Facebook AI的RegNet
    機器之心轉載來源:計算機視覺研究院作者:Edison_G前段時間,何愷明組的研究者提出了一種新的網絡設計範式。與以往研究不同,他們沒有專注於設計單個網絡實例,而是設計出了參數化網絡群的網絡設計空間。這種新的網絡設計範式綜合了手工設計網絡和神經架構搜索(NAS)的優點。在類似的條件下,他們設計出的網絡超越了當前表現最佳的 EfficientNet 模型,在 GPU 上實現了 5 倍的加速。本文是對這一論文的詳細解讀。
  • 蒙特卡洛樹搜索在黑盒優化和神經網絡結構搜索中的應用
    原創 Synced 機器之心機器之心專欄作者:王林楠、田淵棟布朗大學在讀博士王林楠在本文中介紹了他與 Facebook 田淵棟團隊合作,在 2020 年 NeurIPS 取得亮眼表現的新算法,以及其在神經網絡結構搜索中的應用
  • ...與Kneron合作應用神經網絡與硬體協同搜索框架,並獲Facebook...
    聖母大學團隊開展了一些列關於全自動化生成神經網絡結構與量身定製加速器的研究工作,旨在幫助缺乏硬體設計經驗的公司與個人,快速並有效地為其應用自動設計出神經網絡結構與相對應的硬體實現。  該團隊與 Kneron 合作,搜索並設計了神經網絡加速器,Kneron KL520 晶片。
  • 深度學習網絡架構搜索(NAS)最新必讀論文分享
    隨著網絡結構越來越複雜,人工設計網絡的試錯成本和時間成本會難以承受。 超參數的自動搜索優化是一個古老的話題了。深度學習興起前它主要針對傳統機器學習算法中的模型超參數,比較經典的方法有隨機搜索(Random search), 網格搜索(Grid search),貝葉斯優化(Bayesian optimization),強化學習(Reinforcement learning), 進化算法(Evolutionary Algorithm)等,統稱為Hyperparameter optimization(HO)。
  • 【乾貨】這8種神經網絡結構,你掌握了幾個?
    包括感知器、卷積神經網絡、循環神經網絡、LSTM、Hopfield網絡、玻爾茲曼機網絡、深度信念網絡、深度自編碼器。這些都是深度學習中非常經典的網絡。文章中,作者會深入淺出地對每個網絡結構進行講解,如果您想要從事機器學習或深度學習的研究,那麼這篇文章可以帶您快速了解神經網絡的經典網絡結構。如果您已經有了相關的基礎,希望通過閱讀本文,給您帶來新的感悟。專知內容組編輯整理。
  • 圖神經網絡加速晶片進入倒計時 全球首款商用圖神經網絡加速IP核...
    據該團隊介紹,目前市場上尚無任何類似IP核可供授權。因此,該IP核是全球首款圖神經網絡加速IP核,專注於高效加速圖神經網絡的推斷階段。  GCU Zero  Homosapiens系列  基於混合結構設計思想,GCU Zero分別為圖神經網絡的兩個主要執行階段——圖遍歷階段和神經網絡變換階段設計相應的加速引擎,並流水兩個引擎的執行
  • 【中國新聞網】中科院計算所研究人員再獲進展 向圖神經網絡加速...
    「為了應對圖神經網絡的混合執行行為,我們設計了新的處理器結構,以更高效地加速圖神經網絡的執行。」他說。  繼提出「HyGCN」以後,中國科學院計算技術研究所又發布了圖神經網絡加速晶片的IP核(即製備晶片的智慧財產權核),並面向全球開展商業授權。嚴明玉解釋說,圖神經網絡加速晶片在國際上尚屬「無人區」,他們最新成果的設計思路可匹配圖神經網絡對算力的特殊要求,將大幅提升圖神經網絡的執行效率。
  • ICML 2020|提升神經網絡架構搜索穩定性,UCLA提出新型NAS算法
    機器之心專欄作者:陳相寧可微網絡架構搜索能夠大幅縮短搜索時間,但是穩定性不足。為此,UCLA 基於隨機平滑(random smoothing)和對抗訓練(adversarial training),提出新型 NAS 算法。
  • 中科院計算所設計全球首款圖神經網絡加速晶片
    文章披露,為更好地支持認知智能的發展,該團隊提出了國際首款圖神經網絡加速晶片設計 HyGCN。目前,介紹該晶片設計的相關論文已先後在計算機體系結構國際頂級會議MICRO和HPCA上發表。  「HyGCN,寓意向圖神經網絡的加速說『Hi』。」
  • 《超智能體》作者講述深層神經網絡設計理念(附PPT+視頻) | 雷鋒網...
    並且每天都有大量新網絡結構被提出,無法學完所有技術的我們需要找出各類網絡結構的共性,嘗試歸類的理解其背後的設計理念。本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到《超智能體》一書作者於建國,分享的內容就是理解為何「深層」比「淺層」網絡要好,深度學習適用於什麼任務,並嘗試找出前饋神經網絡、循環神經網絡、卷及神經網絡、殘差網絡、預訓練、多任務學習、端到端學習、自動編碼器、遷移學習、distillation、dropout、regularization、batch-normalization等技術背後的共享
  • 華為提出端側神經網絡架構GhostNet|已開源
    我們根據作者團隊的解讀,一一看來。核心理念:用更少的參數來生成更多特徵圖通常情況下,為了保證模型對輸入數據有全面的理解,訓練好的深度神經網絡中,會包含豐富甚至冗餘的特徵圖。在將深度神經網絡應用到行動裝置的浪潮中,怎麼保證性能不減,且計算量變得更少,成為研究的重點之一。谷歌的MobileNet團隊,以及曠視的ShuffleNet團隊,最近想了不少辦法來構建低計算量的深度神經網絡。但他們採取的深度卷積或混洗操作,依舊是在卷積上下功夫——用較小的卷積核(浮點運算)。
  • MIT開發出輕量級MCU神經網絡系統MCUNet
    圍繞MCUNet一起,韓松團隊共同設計了「微小深度學習」所需的兩個組件——微控制器上神經網絡的操作。其中一個組件是TinyEngine,它是一個類似於作業系統的、指導資源管理的推理引擎。TinyEngine被優化為運行特定的神經網絡結構,它是由MCUNet的另一個組件TinyNAS選擇的,TinyNAS是一種神經結構搜索算法。
  • RPI-IBM團隊提出圖結構&表徵聯合學習新範式IDGL:用於圖神經網絡的...
    的一項工作,旨在對數據的圖結構和表徵進行聯合學習,以幫助圖神經網絡 (GNN) 使用者在圖結構未知或存在噪聲的情況下,在特定下遊任務中取得最優的性能。論文連結:https://arxiv.org/abs/2006.13009代碼連結:https://github.com/hugochan/IDGL一、研究問題圖神經網絡
  • 改進卷積神經網絡,你需要這14種設計模式
    選自Topbots作者:Mariya Yao機器之心編譯參與:馬亞雄、吳攀深度學習領域近來已經發展出大量的新架構,而如何選擇使用這些新架構提升卷積神經網絡的性能就顯得越發重要了。機器之心之前報導過提交 ICLR 2017 的論文:解析深度卷積神經網絡的14種設計模式也正是關注於此。而本文在描述14種設計模式之餘更加注重於闡述構建和訓練卷積網絡的小技巧。
  • 2021年的第一盆冷水:有人說別太把圖神經網絡當回事兒
    機器之心編輯部圖神經網絡(GNN)是目前熱門的研究方向,但我們是否應把注意力過多地放在這上面?數據科學家 Matt Ranger 從模型的本質、性能基準測試、實踐應用等方面陳述了自己的觀點。圖神經網絡(GNN)是機器學習中最熱門的領域之一,在過去短短數月內就有多篇優秀的綜述論文。但數據科學家 Matt Ranger 對 GNN 卻並不感冒。
  • 表徵圖數據,絕不止圖神經網絡一種方法
    雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。本文是一篇出自倫敦大學學院的圖表徵學習綜述,詳細介紹了圖核、卷積、圖神經網絡、圖嵌入、概率模型共五類圖表徵學習方法的起源與發展,並對圖數據表徵學習方法的最新進展和未來發展方向進行總結和討論。
  • BP神經網絡
    上篇劍客對神經網絡做了科普,還記得嘛神經網絡是長這個樣子的  運行方式模擬人類神經系統,它由輸入層→隱藏層→
  • CrashCourse AI系列課程第4集:訓練神經網絡
    上回說到,製作人工大腦的方法是用神經網絡,試用數百萬個神經元,神經元之間有十億或萬億各個連接。當今的一些神經網絡又快又大,能夠比人類更好地完成一些諸如下棋和預測天氣等任務。但是,僅僅搭建一個空的神經網絡是不夠的,神經網絡還需要通過犯錯來學習。
  • ECCV 2018獎項公布:德國團隊獲最佳論文,吳育昕、何愷明上榜
    我們的新型 3D 目標朝向估計方法基於去噪自編碼器(Denoising Autoencoder)的一種變體,其使用域隨機化(Domain Randomization)在 3D 模型的模擬視圖上進行訓練。我們稱之為「增強自編碼器」(Augmented Autoencoder,AAE),它和現有方法相比具備多項優勢:無需真實的姿勢標註訓練數據,可泛化至多種測試傳感器,且內在地能夠處理目標和視圖對稱性。
  • 自動超參搜索帶著免費算力資源拯救你!
    在人工智慧領域,算法工程師在訓練神經網絡模型的過程中,完成網絡構建和準備好訓練數據後,往往需要對模型進行各種參數優化,以獲得更好的模型效果。但調參其實並不簡單,背後往往是通宵達旦的參數調試與效果驗證,並需要做大量的實驗,不僅耗時也耗費大量算力。這個時候,往往想嘗試自動超參搜索,但又開始擔心算力要求所帶來的額外訓練成本。