何愷明團隊神經結構搜索最新力作:設計隨機連接網絡,效果超ResNet

2020-12-06 和訊科技

  來源:arXiv

  編輯:肖琴

  【新智元導讀】FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作,通過隨機連接的神經網絡,探索了更多樣化的連接模式,所提出的RandWire網絡ImageNet基準測試中獲得了有競爭力的準確度。

  用於圖像識別的神經網絡經過大量的人工設計,已經從簡單的鏈狀模型發展到具有多個連接路徑的結構。ResNets 和 DenseNets 的成功在很大程度上歸功於它們創新的連接規劃。

  目前,神經結構搜索 (NAS)的研究正在探索連接 (wiring) 與操作類型 (operation types) 的聯合優化,然而,由於可能的連接空間受到限制,儘管採用了神經結構搜索,優化仍然是由人工設計驅動的。

  近日,FAIR 何愷明等人發表最新論文,探討了在圖像識別中NAS方法的優化。研究人員通過隨機連接的神經網絡,探索了更多樣化的連接模式。

  論文地址:

  https://arxiv.org/pdf/1904.01569.pdf

  作者首先定義了一個隨機網絡生成器 (network generator) 的概念,該生成器封裝了整個網絡生成過程,從而提供了 NAS 和隨機連接網絡的統一視圖。

  然後,研究人員採用三種經典的隨機圖模型來生成網絡的隨機連接圖。

  實驗結果令人驚訝:這些隨機生成器生成的網絡實例在 ImageNet 基準測試中獲得了有競爭力的準確度。

  研究人員表示,這些結果表明,專注於設計更好的網絡生成器的研究可以通過探索更少約束的搜索空間,為新設計提供更多空間,從而帶來新的突破。

  不過,該研究被指其思想早已在2013年PCA-Net論文中提出過,在算法設計思想方面沒有本質的創新。

  何愷明等人的這一新研究到底意義如何?本文對這篇論文進行了譯介:

  研究概述:網絡生成器的設計很重要

  今天我們所稱的深度學習是從連接主義方法發展起來的,這一範式反映了這樣一種假設,即計算網絡的連接方式對構建智能機器至關重要。

  與這一觀點相呼應的是,計算機視覺領域的最新進展是由使用鏈狀連接的模型向更精細的連接模式 (如 ResNet 和 DenseNet) 的轉變所驅動的,這些連接模式之所以有效,在很大程度上是因為它們的連接方式。

  在這一趨勢的推進中,神經結構搜索 (neural architecture search, NAS) 已經成為聯合搜索連接模式和執行操作方式的一個有前景的方向。NAS 方法專注於搜索,同時隱式地依賴於一個重要但常常被忽視的組件 —— 網絡生成器 (network generator)。

  NAS 網絡生成器定義了一系列可能的連接模式,並根據可學習的概率分布對網絡進行採樣。然而,就像 ResNet 和 DenseNet 中的連接模式一樣,NAS 網絡生成器是手工設計的,允許的連接模式的空間被限制在所有可能的圖的一個小的子集中。從這個角度來看,我們會問:如果我們放開這種約束,並設計新的網絡生成器,會發生什麼 ?

  我們通過隨機網絡生成器採樣的隨機連接神經網絡來探討這個問題,其中人工設計的隨機過程定義了生成。

  圖1:隨機連接網絡的計算圖

  我們使用了三個經典的隨機圖模型:Erdos-R?enyi (ER) ,Barabasi-Albert (BA),以及Watts-Strogatz (WS) 模型。

  如圖1所示,隨機連接網絡的三個實例在ImageNet基準測試中分別達到79.1%、79.1%和79.0%的精度,超過了ResNet-50的77.1%。

  為了定義完整的網絡,我們將一個隨機圖轉換成一個有向無環圖 (DAG),並應用從節點到其函數角色 (例如,到相同類型的卷積) 的一個簡單映射。

  結果令人驚訝:這些隨機生成器的幾個變體在 ImageNet 上產生了準確率上具有競爭力的網絡。

  使用 WS 模型的最佳生成器生成的多個網絡性能優於或可與完全手工設計的同類網絡和通過各種神經結構搜索方法找到的網絡相媲美。

  我們還觀察到,對於同一生成器生成的不同隨機網絡,精度的方差較低,但不同生成器之間存在明顯的精度差距。這些觀察結果表明,網絡生成器的設計很重要。

  最後,我們的工作表明,從設計單個網絡到設計網絡生成器的新過渡是可能的,類似於如何從設計特徵過渡到設計學習特徵的網絡。

  我們建議設計新的網絡生成器來生成用於搜索的新模型家族,而不是主要關注使用固定生成器進行搜索。設計的網絡生成器的重要性還意味著機器學習尚未實現自動化 —— 底層的人工設計只是從網絡工程轉變到網絡生成器工程 (network generator engineering)。

  研究方法

  接下來介紹網絡生成器的概念,這是隨機連接神經網絡的基礎。

  網絡生成器 (network generator)

  我們定義一個網絡生成器為從參數空間 Θ 到神經網絡結構空間 N 的一個映射g,表示為g:Θ→N。對於一個給定的θ∈Θ,g(θ) 返回一個神經網絡實例n ∈ N。N 通常是一組相關網絡,例如 VGG nets、ResNets 或 DenseNets。

  生成器 g 決定了計算圖的連接方式。

  隨機連接神經網絡 (Randomly Wired Neural Networks)

  對 NAS 的分析表明,網絡生成器是人工設計的,並且是人類知識的先驗編碼。網絡生成器的設計很可能起了相當大的作用,如果是這樣的話,目前的方法還沒有實現「AutoML」,仍然需要大量的人工。

  為了研究生成器設計的重要性,僅比較相同 NAS 生成器的不同優化器是不夠的;有必要研究新的網絡生成器,它們與 NAS 生成器有本質的不同。

  這就引出了我們對隨機連接神經網絡的探索。也就是說,我們將定義網絡生成器,這些生成器生成具有隨機圖的網絡,受不同的人類特定先驗影響。

  我們在研究中使用了三個經典的隨機圖模型 (如上文所述)。生成隨機連接網絡的方法涉及以下概念:

  生成通用的圖 (general graphs)。

  網絡生成器首先生成一個 general graph,包含一組節點和連接節點的邊,而不受限於圖和神經網絡的對應關係。這允許我們自由地使用圖理論中的任意通用圖生成器(ER/BA/WS)。一旦生成一個圖,它就被映射到一個可計算的神經網絡。

  邊操作 (Edge operations)。

  假設生成的圖是有方向的,我們定義邊是數據流,即有向邊將數據 (張量) 從一個節點發送到另一個節點。

  節點操作 (Node operations)。

  有向圖中的節點可以具有一些輸入邊和一些輸出邊。如圖 2 所示。

  圖2:節點操作

  輸入和輸出節點。

  到目前為止,即使給定邊 / 節點操作,通用圖也不是一個有效的神經網絡,因為它可能有多個輸入節點和多個輸出節點。對於典型的神經網絡,如圖像分類,最好有一個單一的輸入和輸出。我們應用了一個簡單的後處理步驟。

  階段 (Stages)。

  由於具有唯一的輸入和輸出節點,一個圖就足以表示一個有效的神經網絡。然而,特別是在圖像分類中,始終保持完整輸入解析度的網絡是不可取的。通常的方法是將網絡劃分為逐步向下採樣特徵映射的階段。

  表1:RandWire架構

  表 1 總結了我們實驗中使用的隨機連接神經網絡,稱為 RandWire。網絡以一個分類器輸出結束 (表 1,最後一行)。

  圖 1 顯示了三個隨機連接網絡樣本的完整計算圖。

  實驗和結果

  我們對 ImageNet 1000 類分類任務進行了實驗。訓練在~1.28M 圖像的訓練集上進行,並在 50K 驗證圖像上進行測試。

  實驗結果如下:

  隨機生成器

  圖3

  圖 3 比較了小型計算環境中不同生成器的結果:每個 RandWire 網絡有~580M FLOPs。

  圖4

  圖 4 顯示了每個生成器的一個示例圖。圖生成器由隨機圖模型 (ER/BA/WS) 及其參數集指定,如 ER(0.2)。我們觀察到:

  所有隨機生成器在所有 5 個隨機網絡實例上都提供良好的準確度,而且它們沒有一個不收斂。

  此外,隨機網絡實例之間的差異很小。圖 3 中的幾乎所有隨機生成器的標準偏差 (std)都為 0.2 ~ 0.4%。

  Graph damage.

  我們通過隨機移除一個節點或邊來探索 Graph damage。

  圖5

  當刪除邊時,我們評估了精度損失與該邊的目標節點的輸入程度 (圖 5,底部)。

  節點操作

  圖6

  圖 6 顯示了圖 3 中列出的每個生成器的平均精度。

  結果比較

  小型計算設置

  表2

  表 2 比較了在較小計算條件下的結果,這是現有 NAS 論文中研究的一種常見設置

  表3

  表 3 比較了 RandWire 與 ResNet 和 ResNeXt 在與 ResNet-50/101 類似的 FLOPs 的情況下的性能。RandWire 的平均準確率分別比 ResNet50 和 ResNet-101 高 1.9% 和1.3%,比 ResNeXt 高 0.6%。

  更大的計算條件

  表4

  表 4 比較了在更大計算條件下的結果

  COCO 對象檢測

  最後,我們報告了通過微調網絡進行 COCO 對象檢測的結果。我們使用 Faster R-CNN和 FPN 作為目標探測器。

  表5

  表 5 比較了對象檢測結果。觀察到的趨勢與表 3 中的 ImageNet 實驗相似。這些結果表明,我們的隨機連接網絡學習到的特徵也可以遷移。

 本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:張洋 HN080)

相關焦點

  • 詳解何愷明團隊最新作品:源於Facebook AI的RegNet
    機器之心轉載來源:計算機視覺研究院作者:Edison_G前段時間,何愷明組的研究者提出了一種新的網絡設計範式。與以往研究不同,他們沒有專注於設計單個網絡實例,而是設計出了參數化網絡群的網絡設計空間。這種新的網絡設計範式綜合了手工設計網絡和神經架構搜索(NAS)的優點。在類似的條件下,他們設計出的網絡超越了當前表現最佳的 EfficientNet 模型,在 GPU 上實現了 5 倍的加速。本文是對這一論文的詳細解讀。
  • 依圖團隊提出新一代移動端網絡架構MobileNeXt
    最近,依圖團隊發表在ECCV的一篇論文,提出了新一代移動端神經網絡架構MobileNeXt,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型,為移動端算力帶來了新的突破。
  • 蒙特卡洛樹搜索在黑盒優化和神經網絡結構搜索中的應用
    原創 Synced 機器之心機器之心專欄作者:王林楠、田淵棟布朗大學在讀博士王林楠在本文中介紹了他與 Facebook 田淵棟團隊合作,在 2020 年 NeurIPS 取得亮眼表現的新算法,以及其在神經網絡結構搜索中的應用
  • Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...
    然而,正如計算機視覺的崛起有賴於 ImageNet 的誕生,圖神經網絡也急需一個全球學者公認的統一對比基準。近日,Bengio 大神帶領其團隊發布了新的圖神經網絡對比基準測試框架以及附帶的 6 個標準化數據集。大家可以開始盡情刷榜了!
  • 如果我們想要更好的目標分割,我們最好使用resnet-50的網絡結構
    卷積網絡是研究圖像分類的非常有效的方法,它能夠產生豐富的學習框架,能夠做很多複雜的預測。但是,在什麼情況下它非常有效呢?解決不同任務需要不同的方法。我們已經研究過人臉識別(single-identitydetection)。
  • 怎樣設計最優的卷積神經網絡架構?|NAS原理剖析
    跳過連接也是如此,NASNet只允許含有一次下採樣的跳過連接,但其他類型的連接也同樣值得嘗試。Facebook的人工智慧研究團隊通過「隨機連接神經網絡(randomly wired neural networks)」對NAS進行新的嘗試。它們的動機是:如果「架構搜索」在固定的塊和連接上表現得很好,那麼在更大的搜索空間下(例如:隨機連接)將會產生一些更優的配置。
  • CVPR 2019 神經網絡架構搜索進展綜述
    ——但是還為時過早。手動調參尋找神經網絡架構依然是個有趣的工作,尤其是對於那些帶了很多學生的導師而言(開玩笑啦~)。  神經網絡架構搜索(NAS)——前言那麼問題來了,神經網絡架構搜索(NAS)究竟是什麼?為什麼我們要了解NAS呢?(這一部分是為了去年完全沒有跟進領域內進展的人準備的)NAS的核心思想是使用搜索算法來發現用於解決我們的問題所需要的神經網絡結構。
  • DeepMind的最新研究結合了神經網絡和隨機過程的優點提出神經過程...
    DeepMind的最新研究結合了神經網絡和隨機過程的優點提出神經過程模型 李倩 發表於 2018-07-09 09:04:12 函數逼近是機器學習中許多問題的核心,DeepMind的最新研究結合了神經網絡和隨機過程的優點
  • 深度| 清華大學自動化系張長水教授:神經網絡模型的結構優化
    清華大學自動化系張長水教授帶來了題為《神經網絡模型的結構優化》的報告。今天我和大家分享的主題是「神經網絡模型的結構優化」。所謂的網格搜索就是,讓每層的寬度取值5、10、15、20、25個節點,然後兩層一起考慮,遍歷所有的組合。這樣做保證不丟掉一些重要的結構。可想而知,這種做法非常慢,而且我們神經網絡往往會很多很多層,所以這是一個很頭疼的事。即使採用遍歷的方法,網格搜索的方法後來也被認為不太好。
  • AutoML新進展:用進化算法發現神經網絡架構
    理想情況下,人們希望有一個自動化的方法可以為任何給定的任務生成正確的網絡結構。  生成這些網絡結構的方法之一是通過使用演化算法。傳統的拓撲學研究已經為這個任務奠定了基礎,使我們現如今能夠大規模應用這些算法,許多科研團隊正在研究這個課題,包括OpenAI、Uber實驗室、Sentient驗室和DeepMind。當然,谷歌大腦也一直在思考自動學習(AutoML)的工作。
  • 神經結構搜索在機器翻譯中的應用
    1、背景近年來,深度學習在圖像和語言處理領域應用得越來越廣泛,但是性能優異的網絡都是人為根據大量的經驗去精心設計的,於是基於機器自己設計的神經結構搜索成了最近熱門的一個研究課題。2、搜索空間神經結構搜索第一步是定義好搜索空間,搜索空間對於結構搜索是非常重要的[4],這篇工作認為使用熱啟動——即初始的種子結構是一個標準的Transformer結構[5]--能搜索出更好的結構。所以在空間設計上需要包含Transformer結構。
  • 告別調參煉丹,谷歌「權重無關」神經網絡開源了!
    其關鍵思想是通過不再強調權重來搜索網絡結構,僅使用隨機共享的權重,也可以執行各種任務的神經網絡。終於可以不用調參煉丹了嗎?快來復現看看! 神經網絡訓練中 「權重」 有多重要不言而喻。但谷歌前段時間發表的研究表明,即使拋棄神經網絡權重訓練,使用隨機共享權重,也可以執行各種任務。
  • Twitter團隊最新研究:快速高效的可擴展圖神經網絡SIGN
    字幕組雙語原文:Twitter團隊最新研究:快速高效的可擴展圖神經網絡SIGN英語原文:Simple scalable graph neural networks翻譯:雷鋒字幕組(季一帆、何月瑩)這樣,可以根據單個樣本分解損失函數,並採用隨機優化技術批次處理訓練數據(mini-batches)。現今幾乎每個深度神經網絡都是用mini-batches批次訓練。然而在圖中,節點通過邊相互連接,這使得訓練集中的樣本並不完全獨立。此外,由於節點間的依賴性,採樣可能會引入偏差(例如,可能會使某些節點或邊被採樣的概率更大),需要對此「副作用」進行處理。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    利用神經網絡搜索實現語義分割的獨家解讀。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    神經網絡可以有效捕捉自然圖像中的先驗信息,優先對圖像中的低頻部分進行學習,逐步修復圖像,得到令人滿意的結果。  但在實際應用過程中,如何選擇適合的網絡結構、如何確定最優的學習迭代次數,這依然需要進行進一步研究。
  • ResNet——CNN經典網絡模型詳解(pytorch實現)
    建議大家可以實踐下,代碼都很詳細,有不清楚的地方評論區見~1、前言ResNet(Residual Neural Network)由微軟研究院的Kaiming He等四名華人提出,通過使用ResNet Unit成功訓練出了152層的神經網絡,並在ILSVRC2015比賽中取得冠軍,在top5上的錯誤率為3.57%,同時參數量比VGGNet低,效果非常突出
  • U-Net 和 ResNet:長短跳躍連接的重要性(生物醫學圖像分割)
    這次,我們來聊一聊用於生物醫學圖像分割的的一種全卷積神經網絡,這個網絡帶有長短跳躍連接。在RoR中,通過使用長短跳躍連接,圖像分類準確性得到提高。實驗結果證明了使用長短跳躍連接的有效性。這一次,作者還提供了一種通過分析網絡中的權重來展示其有效性的方法,而不僅僅是展示實驗結果。儘管這項工作的目的是進行生物醫學圖像分割,但通過觀察網絡內的權重,我們可以更好地理解長短跳躍連接。它發布於2016年DLMIA(醫學圖像分析中的深度學習),引用次數超過100次。
  • 華泰證券: 人工智慧選股之全連接神經網絡
    本報告主要介紹的全連接神經網絡是一種結構簡單、易於理解、計算效率高的模型,我們對其原理進行了形象化的描述,同時對模型結構和參數設置進行了詳細剖析,最後構建選股策略進行回測,發現全連接神經網絡選股模型的年化收益和信息比率優於線性模型。  全連接神經網絡模型一般包含輸入層、若干個隱藏層、輸出層,每層包含數目不等的節點。
  • 用於半監督學習的圖隨機神經網絡
    原標題:用於半監督學習的圖隨機神經網絡   導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行
  • Jay Guo教授InfoMat:利用高自由度神經網絡設計超平面光學濾波器
    利用亞波長尺度的周期性結構可以構建超材料或超平面,實現對材料本徵的光學特性(ε、μ)與光參量(振幅、相位、極化、軌道角動量等)的調控,因此具有很強的應用前景。在超結構的設計過程中,不同的空間圖形以及材料組分為設計者提供了很高的自由度,優化相關的參數是一項艱巨複雜的工作。在超結構的設計過程中,有兩個核心問題。