詳解何愷明團隊最新作品:源於Facebook AI的RegNet

2020-11-28 機器之心Pro

機器之心轉載

來源:計算機視覺研究院

作者:Edison_G

前段時間,何愷明組的研究者提出了一種新的網絡設計範式。與以往研究不同,他們沒有專注於設計單個網絡實例,而是設計出了參數化網絡群的網絡設計空間。這種新的網絡設計範式綜合了手工設計網絡和神經架構搜索(NAS)的優點。在類似的條件下,他們設計出的網絡超越了當前表現最佳的 EfficientNet 模型,在 GPU 上實現了 5 倍的加速。本文是對這一論文的詳細解讀。

論文連結:https://arxiv.org/pdf/2003.13678.pdf

在之前的介紹中,我們說到了 AnyNet 的設計空間,先回顧下:AnyNet 設計空間。我們的重點是探索假定標準的固定網絡塊 (例如,剩餘瓶頸塊) 的神經網絡結構。在我們的術語中,網絡的結構包括一些元素,如塊的數量 (即網絡深度)、塊的寬度(即通道的數量) 和其他塊的參數(如瓶頸比率或組的寬度)。網絡的結構決定了計算、參數和內存在整個網絡計算圖中的分布,是決定其準確性和效率的關鍵。

我們現在將這種方法應用於 AnyNetX 設計空間。

AnyNetXA

為了清晰起見,我們將最初的、不受約束的 AnyNetX 設計空間稱為 AnyNetXA。

AnyNetXB

我們首先測試 AnyNetXA 設計空間的所有階段 i 的共享瓶頸比 bi = b,並將得到的設計空間稱為 AnyNetXB。與之前一樣,我們在相同的設置下從 AnyNetXB 取樣和培訓了 500 個模型。如下圖 (左) 所示,AnyNetXA 和 AnyNetXB 的 edf 在平均情況和最佳情況下實際上是相同的。這表示在耦合 bi 時沒有精度損失。除了更簡單之外,AnyNetXB 更易於分析,參見下圖(右側)。

AnyNetXC

我們的第二個細化步驟緊跟著第一個步驟。從 AnyNetXB 開始,我們還為所有階段使用共享的組寬度 gi = g 來獲得 AnyNetXC。與前面一樣,EDFs 幾乎沒有變化,請參見上圖(中間)。

總的來說,AnyNetXC 比 AnyNetXA 少了 6 個自由度,並且減少了近 4 個數量級的設計空間大小。有趣的是,我們發現 g > 1 是最好的(沒有顯示); 我們將在後面對此進行更詳細的分析。

AnyNetXD

接下來,我們將研究下圖中 AnyNetXC 中好的和壞的網絡的典型網絡結構。

一種模式出現了: 良好的網絡具有不斷增長的寬度。我們測試了 wi+1≥wi 的設計原則,並將此約束下的設計空間稱為 AnyNetXD。在下圖 (左) 中,我們看到這極大地改進了 EDF。稍後我們將討論控制寬度的其他選項。

AnyNetXE

在進一步檢查許多模型 (未顯示) 後,我們觀察到另一個有趣的趨勢。除了階段寬度 wi 隨 i 增加外,對於最佳模型,階段深度 di 也同樣趨向於增加,儘管不一定是在最後階段。儘管如此,在上圖 (右) 中,我們測試了一個設計空間變體 AnyNetXE,其中 di+1≥di,並看到它也改善了結果。最後,我們注意到對 wi 和 di 的約束使設計空間減少了 4!,與 AnyNetXA 相比 O(107)的累積減少。

RegNet 設計空間

為了進一步了解模型結構,我們在一個圖中顯示了來自 AnyNetXE 的最好的 20 個模型,見下圖(左上)。對於每個模型,我們繪製每個塊 j 的每塊寬度 wj,直到網絡深度 d(我們分別使用 i 和 j 來索引階段和塊)。

雖然在個別模型 (灰色曲線) 中存在顯著的差異,但在總體上出現了一種模式。特別地,在相同的圖中,我們顯示了 0≤j≤20 時的 wj = 48·(j+1)(實心黑色曲線,請注意 y 軸是對數的)。值得注意的是,這種瑣碎的線性擬合似乎可以解釋頂級模型網絡寬度增長的總體趨勢。然而,請注意,這個線性擬合為每個塊分配了不同的寬度 wj,而單個模型具有量化的寬度(分段常數函數):

要查看類似的模式是否適用於單個模型,我們需要一種策略來將一條線量化為分段常數函數。受 AnyNetXD 和 AnyNetXE 的啟發,我們提出了以下方法。首先,我們引入一個塊寬的線性參數化:

該參數化有三個參數: 深度 d、初始寬度 w0 >和斜率 wa > 0,並為每個區塊 j < d 生成不同的區塊寬度 uj。為了量化 uj,

我們可以將每個塊的 wj 轉換為我們的每個階段的格式,只需計算具有恆定寬度的塊的數量,即每個階段 i 的塊寬度 wi = w0·w im,塊數量 di = P j 1[bsj e = i]。當只考慮四個階段網絡時,我們忽略了引起不同階段數的參數組合。

上圖就是 RegNetX 設計空間。

我們通過擬合來自 AnyNetX 的模型來測試這個參數化。特別地,在給定的模型中,我們通過設置網絡深度 d 並在 w0、wa 和 wm 上執行網格搜索來計算擬合,從而最小化每個塊寬度的預測與觀察的平均日誌比 (用 efit 表示)。來自 AnyNetXE 的兩個頂級網絡的結果下圖所示(右上角)。量化的線性擬合(虛線) 是這些最佳模型 (實線) 的良好擬合。

接下來,我們通過 AnyNetXE 繪製 AnyNetXC 中每個網絡的擬合錯誤 efit 與網絡錯誤,如上圖 (底部) 所示。首先,我們注意到每個設計空間中最好的模型都具有良好的線性擬合。實際上,經驗引導法給出了一個接近於 0 的 efit 窄頻帶,它可能包含每個設計空間中最好的模型。其次,我們注意到 efit 從 AnyNetXC 到 AnyNetXE 的平均性能得到了改善,這表明線性參數化自然地對 wi 和 di 的增加施加了相關的約束。

為了進一步檢驗線性參數化,我們設計了一個只包含線性結構模型的設計空間。特別地,我們通過 6 個參數來指定網絡結構: d, w0, wa, wm(以及 b, g),給定這些參數,我們通過 Eqn 來生成塊的寬度和深度。我們將最終的設計空間稱為 RegNet,因為它只包含簡單的、常規的模型。我們對 d < 64、w0、wa < 256、1.5≤wm≤3 和 b、g 進行採樣(根據 AnyNetXE 上的 efit 設置範圍)。

我們通過擬合來自 AnyNetX 的模型來測試這個參數化。特別地, 在給定的模型中, 我們通過設置網絡深度 d 並在 w0, 佤邦和 wm 上執行網格搜索來計算擬合, 從而最小化每個塊寬度的預測與觀察的平均日誌比 (用 efit 表示)。來自 AnyNetXE 的兩個頂級網絡的結果如上圖所示(右上角)。量化的線性擬合(虛線) 是這些最佳模型 (實線) 的良好擬合。

上圖 (左) 顯示了 RegNetX 的 EDF 錯誤。在維護最佳模型的同時,RegNetX 中的模型具有比 AnyNetX 更好的平均錯誤。在上圖 (中間) 中,我們測試了兩個進一步的簡化。首先,使用 wm = 2(兩個階段之間的寬度加倍)稍微提高了 EDF,但是我們注意到使用 wm≥2 性能更好 (稍後將展示)。其次,我們測試設置 w0 = wa,進一步將線性參數化簡化為 uj = wa·(j + 1),有趣的是,這樣做的效果更好。然而,為了保持模型的多樣性,我們不施加任何限制。最後,在上圖(右) 中,我們展示了 RegNetX 的隨機搜索效率要高得多; 只對32 隨機模型進行搜索可能會得到好的模型。

上表顯示了設計空間大小的摘要(對於 RegNet,我們通過量化其連續參數來估計大小)。在設計 RegNetX 時,我們將原始 AnyNetX 設計空間的維度從 16 個維度縮減為 6 個維度,大小接近 10 個數量級。但是,我們注意到,RegNet 仍然包含各種各樣的模型,可以針對各種設置進行調優。

設計空間泛化

我們在只有一個塊類型的低計算、低曆元訓練機制中設計了 RegNet 設計空間。然而,我們的目標不是為單一的設置設計一個設計空間,而是發現可以推廣到新設置的網絡設計的一般原則。

在上圖中,我們將 RegNetX 設計空間與 AnyNetXA 和 AnyNetXE 在更高的 flops、更高的 epoch、5 級網絡和各種塊類型 (在附錄中進行了描述) 下進行了比較。在所有情況下,設計空間的順序是一致的,使用 RegNetX > AnyNetXE > AnyNetXA。換句話說,我們沒有看到過度擬合的跡象。這些結果很有希望,因為它們表明 RegNet 可以泛化到新的設置。5 階段的結果表明,正則 RegNet 結構可以推廣到更多的階段,其中 AnyNetXA 具有更多的自由度。

分析 RegNetX 設計空間

接下來,我們將進一步分析 RegNetX 設計空間,並回顧常見的深度網絡設計選擇。我們的分析產生了與流行實踐不匹配的驚人見解,這使我們能夠用簡單的模型獲得良好的結果。

由於 RegNetX 設計空間擁有高度集中的優秀模型,對於以下結果,我們將轉換為抽樣較少的模型(100 個),但對它們進行更長時間的培訓(25 個 epoch),學習率為 0.1(參見附錄)。我們這樣做是為了觀察網絡行為中更細微的趨勢。

RegNet 趨勢

我們在下圖中展示了在整個觸發器中 RegNetX 參數的變化趨勢。值得注意的是,最佳模型的深度在不同區域 (左上) 是穩定的,最優深度為20 塊 (60 層)。這與在更高的翻背越高的體制中使用更深的模式的慣例形成了對比。我們還觀察到,最佳模型使用的瓶頸比 b 為 1.0(上 - 中),這有效地消除了瓶頸(在實踐中經常使用)。接下來,我們觀察到好模型的寬度倍增器 wm 為2.5(右上角),這與流行的跨階段加倍寬度的方法相似,但並不完全相同。其餘參數(g、wa、w0) 隨複雜度增加而增加(底部)。

複雜性分析

除了 flops 和參數之外,我們還分析了網絡激活,我們將其定義為所有 conv 層的輸出張量的大小 (我們在下圖(左上角) 中列出了常見 conv 操作符的複雜性度量)。雖然激活不是測量網絡複雜性的常用方法,但它會嚴重影響內存限制硬體加速器 (例如,gpu、TPUs) 上的運行時,參見下圖 (頂部)。在下圖(底部) 中,我們觀察到,對於總體中的最佳模型,激活隨 flops 的平方根增加而增加,參數線性增加,由於運行時對 flops 和激活的依賴性,最好同時使用線性和平方根項進行建模。

RegNetX 受限

利用這些發現,我們改進了 RegNetX 設計空間。首先,根據上上張圖 (top),我們令 b = 1, d≤40,wm≥2。其次,我們限制參數和激活,如上圖 (底部) 所示。這將生成快速、低參數、低內存的模型,而不會影響準確性。在下圖中,我們使用這些約束對 RegNetX 進行了測試,並觀察到約束的版本在所有的觸發器狀態下都是優越的。

替代設計選擇

現代行動網路通常採用倒置瓶頸 (b < 1) 提出了 [M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C.Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In CVPR, 2018] 隨著切除 conv(g = 1)。在下圖 (左), 我們觀察到倒置瓶頸略有降低了 EDF, 切除 conv 執行更糟糕的是相對於 b = 1, g≥1 進一步分析(見文章的附錄)。接下來,在[M. Tan and Q. V. Le. Efficientnet: Rethinking model scalingfor convolutional neural networks. ICML, 2019] 的啟發下,我們測試了下圖 (中間) 中變化的解析度,[M. Tan and Q. V. Le. Efficientnet: Rethinking model scalingfor convolutional neural networks. ICML, 2019]發現縮放輸入圖像解析度是有幫助的。與 [M. Tan and Q. V. Le. Efficientnet: Rethinking model scalingfor convolutional neural networks. ICML, 2019] 相反,我們發現對於 RegNetX,固定的 224×224 解析度是最好的,即使在更高的 flops。

最後,我們使用流行的擠壓 - 激勵 (SE) op 來評估 RegNetX(我們將 X+SE 縮寫為 Y,並將最終的設計空間稱為 RegNetY)。在上圖(右) 中,我們看到 RegNetY 產生了良好的收益。

與現有網絡的比較

我們現在比較的頂級模型從 RegNetX 和 RegNetY 設計空間在各種複雜的狀態,對 ImageNet 的藝術狀態。我們使用小的大寫字母來表示單個的模型,例如 REGNETX。我們還在模型後面加上了觸發器機制,例如 400MF。對於每個觸發器機制,我們從 RegNet 參數的 25 個隨機設置 (d、g、wm、wa、w0) 中選出最佳模型,並在 100 個 epoch 時對 top 模型進行 5 次再訓練,以獲得可靠的誤差估計。

上圖分別顯示了每種翻牌制度的最高 REGNETX 和 REGNETY 模型。除了上面分析的簡單線性結構和趨勢外,我們還觀察到一個有趣的模式。即高階觸發器模型在第三階段積木數量較多,在最後階段積木數量較少。這與標準 RESNET 模型的設計類似。此外,我們觀察到群寬度 g 隨著複雜度的增加而增加,但是深度 d 對於大型模型來說是飽和的。

我們的目標是執行公平的比較,並提供簡單且易於複製的基線。我們注意, 以及更好的架構, 最近的報導在網絡性能是基於增強培訓設置和正規化方案(見下表)。我們的重點是評估網絡架構, 我們表現的小心控制的實驗設置在同樣的培訓。特別是,為了與經典作品進行公平的比較,我們沒有使用任何培訓時間的增強。

計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架,我們這次改革不同點就是,我們要著重」研究「。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手編程愛動腦思考的習慣!

相關焦點

  • 何愷明團隊神經結構搜索最新力作:設計隨機連接網絡,效果超ResNet
    來源:arXiv   編輯:肖琴   【新智元導讀】FAIR何愷明團隊近日發表神經結構搜索NAS方面的最新力作,  近日,FAIR 何愷明等人發表最新論文,探討了在圖像識別中NAS方法的優化。研究人員通過隨機連接的神經網絡,探索了更多樣化的連接模式。
  • Facebook AI 正在升維突破:教AI像人類一樣理解三維世界
    Facebook AI近日在首爾國際計算機視覺大會(ICCV)上演示了他們在這個領域的最新研究成果,同時也在博客和 arxiv 上發布了技術簡介和論文,表現驚豔,研究成果之一還獲得了 ICCV 最佳論文提名。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    早在美國大選之前,Facebook AI Research團隊就開始利用AI語言模型,識別網絡中的虛假信息或仇恨言論,有數據統計,在2020年第一季度,Facebook利用XLM語言模型刪除了960萬條涉及仇恨言論的帖子。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    早在美國大選之前,Facebook AI Research團隊就開始利用AI語言模型,識別網絡中的虛假信息或仇恨言論,有數據統計,在2020年第一季度,Facebook利用XLM語言模型刪除了960萬條涉及仇恨言論的帖子。
  • 學界| Facebook新論文介紹相似性搜索新突破:在GPU上實現十億規模
    近日,Facebook 人工智慧研究團隊在 arXiv 發布的新論文《Billion-scale similarity search with GPUs》宣稱在這一問題上取得了重大進展,在 GPU 上實現了十億規模級的相似性搜索。該團隊已經將相關實現的代碼進行了開源。機器之心在此對該研究論文及其代碼項目進行了簡單介紹。
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    而 Detectron2 則是剛推出的新版 PyTorch 1.3 (詳情查看:https://www.leiphone.com/news/201910/9J4PTd833WMwdVoQ.html)中一重大新工具,它源於 maskrcnn 基準測試,但它卻是對先前版本 detectron 的一次徹底重寫。
  • Facebook是什麼_使用教程_功能詳解-雨果網
    Facebook(簡稱FB)是源於美國的社交網絡服務及社會化媒體網站,總部位於美國加州聖馬特奧縣門洛帕克市。成立初期原名為「thefacebook」,名稱的靈感來自美國高中提供給學生包含照片和聯繫數據的通訊錄(或稱花名冊)之暱稱「face book」。當前尚無官方的中文譯名,較為廣泛使用則為臉書。
  • Facebook AI 年度總結來啦
    這是一項應用研究,該團隊採用的一系列技術在今年為我們的自動翻譯服務增加了 24 種語言。此外,在與紐約大學的合作中,我們在現有的 MultiNLI 數據集中添加了 14 種語言,這些語言被廣泛用於自然語言理解(NLU)研究,而在此之前,我們只研究了英語。
  • facebook臉書中文版下載
    啥,沒時間,不怕,facebook臉書中文版下載滿足你,快來下載體驗吧。facebook臉書中文版下載版本記錄:facebook臉書中文版下載絕對是一款經典佳作,快來下載體驗。
  • Facebook專家強烈質疑人類預測能力,未來只有靠AI才能自救!
    參考連結:https://www.inverse.com/article/48391-not-creating-a-i-may-be-a-bigger-threat-to-humanity-says-facebook-expert熱門文章:新智元AI WORLD 2018大會倒計時
  • 依圖團隊提出新一代移動端網絡架構MobileNeXt
    最近,依圖團隊發表在ECCV的一篇論文,提出了新一代移動端神經網絡架構MobileNeXt,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型,為移動端算力帶來了新的突破。
  • AI讓MRI成像快了4倍,核磁檢查再也不用排隊了
    fastMRI團隊使用了一種完全不同的方式來創建圖像,這種方式需要的原始數據要少得多。研究人員建立了一個神經網絡,並使用世界上最大的膝關節MRI開源數據集對其進行訓練,該數據集由紐約大學Langone Health創建和共享,並作為fastMRI計劃的一部分。fastMRI研究團隊刪除了每次掃描中大約四分之三的原始數據,然後將剩餘的信息輸入到AI模型中。
  • Facebook是什麼
    ​Facebook是源於美國的社交網絡服務及社會化媒體網站,Facebook用戶除了文字消息之外,還可發送圖片、影片、文檔、貼圖和聲音媒體消息給其他用戶,以及透過集成的地圖功能分享用戶的所在位置。
  • 何愷明包攬全部兩項最佳論文獎!清華北航上交論文活躍...
    雷鋒網 AI 科技評論報導:ICCV 2017前線發回消息,何愷明包攬了大會全部兩項 Best Paper Award!今年3月上傳Arxiv的 Mask R-CNN 獲得了最佳論文獎,一作就是何愷明!8月的 Focal Loss for Dense Object Detection 獲得了最佳學生論文獎。
  • Facebook AI的DETR,一種基於Transformer的目標檢測方法
    utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach使用流行的YOLO框架進行目標檢測的實用指南https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python
  • Facebook 發布無梯度優化開源工具 Nevergrad,可應用於各類機器...
    為了使得參數/超參數的調整更快、更簡單,Facebook 創建了一個名叫 Nevergrad(https://github.com/facebookresearch/nevergrad)的 Python 3 庫,並將它開源發布。Nevergrad 提供了許多不依賴梯度計算的優化算法,並將其呈現在標準的問答 Python 框架中。此外,Nevergrad 還包括了測試和評估工具。
  • Facebook 又出黑科技,手機照片一鍵切成 3D 大片
    為了克服這些挑戰,Facebook 在數百萬公共 3D 圖像及其附帶的深度圖上訓練了卷積神經網絡(CNN),並利用 Facebook AI 之前開發的各種移動優化技術,如 FBNet 和 ChamNet。團隊最近也討論了 3D 理解的相關研究。現在,所有使用 Facebook 的人都可以使用這個功能,那麼,它究竟是如何構建的?我們可以一起來看看其中的技術細節。
  • ECCV 2018獎項公布:德國團隊獲最佳論文,吳育昕、何愷明上榜
    除了介紹本屆大會的參會與論文接收情況,會議主辦方在周三的晚宴中還公布了今年的獲獎論文:最佳論文最佳論文獎由來自德國航空航天中心、慕尼黑工業大學的團隊獲得。值得一提的是港中文大學教授、商湯科技聯合創始人湯曉鷗是頒獎委員會成員之一。
  • 抄襲機器人文章被判侵權 法院:AI生成作品享有著作權
    首頁 > 產權 > 關鍵詞 > 機器人最新資訊 > 正文 抄襲機器人文章被判侵權 法院:AI生成作品享有著作權
  • Facebook申請開戶時沒有官方網站怎麼辦
    拓展知識: Facebook(簡稱FB)是源於美國的社交網絡服務及社會化媒體網站,總部位於美國加州聖馬特奧縣門洛帕克市。成立初期原名為「thefacebook」,名稱的靈感來自美國高中提供給學生包含照片和聯繫數據的通訊錄(或稱花名冊)之暱稱「face book」。當前尚無官方的中文譯名,較為廣泛使用則為臉書。