ICML 2020|提升神經網絡架構搜索穩定性,UCLA提出新型NAS算法

2020-12-24 機器之心Pro

機器之心專欄

作者:陳相寧

可微網絡架構搜索能夠大幅縮短搜索時間,但是穩定性不足。為此,UCLA 基於隨機平滑(random smoothing)和對抗訓練(adversarial training),提出新型 NAS 算法。

可微網絡架構搜索(DARTS)能夠大幅縮短搜索時間,但是其穩定性受到質疑。隨著搜索進行,DARTS 生成的網絡架構性能會逐漸變差。最終生成的結構甚至全是跳過連接(skip connection),沒有任何卷積操作。在 ICML 2020 中,UCLA 基於隨機平滑(random smoothing)和對抗訓練(adversarial training),提出了兩種正則化方法,大幅提升了可微架構搜索算法的魯棒性。

論文:https://arxiv.org/abs/2002.05283

代碼:https://github.com/xiangning-chen/SmoothDARTS

近期,可微架構搜索算法將 NAS 搜索時間縮短至數天,因而備受關注。然而,其穩定生成高性能神經網絡的能力受到廣泛質疑。許多研究者發現隨著搜索進行,DARTS 生成的網絡架構反而越來越差,最終甚至會完全變為跳過連接(skip connection)。為了支持梯度下降,DARTS 對於搜索空間做了連續化近似,並始終在優化一組連續可微的框架權重 A。但是在生成最終框架時,需要將這個權重離散化。

本研究作者觀察到這組連續框架權重 A 在驗證集上的損失函數非常不平滑,DARTS 總是會收斂到一個非常尖銳的區域。因此對於 A 輕微的擾動都會讓驗證集性能大幅下降,更不用說最終的離散化過程了。這樣尖銳的損失函數還會損害搜索算法在架構空間中的探索能力。

於是,本文作者提出了新型 NAS 框架 SmoothDARTS(SDARTS),使得 A 在驗證集上的損失函數變得十分平滑。

該工作的主要貢獻包括:

提出 SDARTS,大幅提升了可微架構搜索算法的魯棒性和泛化性。SDARTS 在搜索時優化 A 整個鄰域的網絡權重,而不僅僅像傳統可微 NAS 那樣只基於當前這一組參數。第一種方法優化鄰域內損失函數的期望,沒有提升搜索時間卻非常有效。第二種方法基於整個鄰域內的最差損失函數(worst-case loss),取得了更強的穩定性和搜索性能。

在數學上,尖銳的損失函數意味著其 Hessian 矩陣範數非常大。作者發現隨著搜索進行,這一範數極速擴大,導致了 DARTS 的不穩定性。而本文提出的兩種框架都有數學保障可以一直降低 Hessian 範數,這也在理論上解釋了其有效性。

最後,本文提出的方法可以廣泛應用於各種可微架構算法。在各種數據集和搜索空間上,作者發現 SDARTS 可以一貫地取得性能提升。

具體方法

傳統 DARTS 使用一組連續的框架權重 A,但是 A 最終卻要被投射到離散空間以獲得最終架構。這一步離散化會導致網絡性能大幅下降,一個高性能的連續框架並不意味著能生成一個高性能的離散框架。因此,儘管 DARTS 可以始終減少連續框架在驗證集上的損失函數,投射後的損失函數通常非常不穩定,甚至會突變得非常大。

因此作者希望最終獲得的連續框架在大幅擾動,例如離散化的情況下,仍然能保持高性能。這也意味了損失函數需要儘可能平滑,並保持很小的 Hessian 範數。因此本文提出在搜索過程中即對 A 進行擾動,這便會讓搜索算法關注在平滑區域。

SDARTS-RS 基本隨機平滑(random smoothing),優化 A 鄰域內損失函數的期望。該研究在均勻分布中採樣了隨機噪聲,並在對網絡權重 w 進行優化前加到連續框架權重 A 之上。

這一方法非常簡單,只增加了一行代碼並且不增加計算量,可作者發現其有效地平滑了在驗證集上的損失函數。

SDARTS-ADV 基於對抗訓練(adversarial training),優化鄰域內最差的損失函數,這一方法希望最終搜索到連續框架權重 A 可以抵禦最強的攻擊,包括生成最終架構的離散化過程。在這裡,我們使用 PGD (projected gradient descent)迭代獲得當前最強擾動。

整個優化過程遵循可微 NAS 的通用範式,交替優化框架權重 A 和網絡權重 w。

理論分析

對 SDARTS-RS 的目標函數進行泰勒展開,作者發現這在搜索過程中,Hessian 矩陣的 trace norm 也在被一直減小。如果 Hessian 矩陣近似 PSD,那麼近似於一直在減小 Hessian 的正特徵值。相似地,在通常的範數選擇下(2 範數和無窮範數),SDARTS-ADV 目標函數中第二項近似於被 Hessian 範數 bound 住。因此它也可以隨著搜索降低範數。

這些理論分析進一步解釋了為何 SDARTS 可以獲得平滑的損失函數,在擾動下保持魯棒性與泛化性。

實驗結果

NAS-Benchmark-1Shot1 實驗

這個 benchmark 含有 3 個不同大小的搜索空間,並且可以直接獲得架構的性能,不需要任何訓練過程。這也使本文可以跟蹤搜索算法任意時刻得到架構的精確度,並比較他們的穩定性。

如圖 4 所示,DARTS 隨著搜索進行生成的框架不斷變差,甚至在最後的性能直接突變得很差。近期提出的一些新的改進算法,例如 NASP 與 PC-DARTS 也難以始終保持高穩定性。與之相比,SDARTS-RS 與 SDARTS-ADV 大幅提升了搜索穩定性。得益於平滑的損失函數,該研究提出的兩種方法還具有更強的探索能力,甚至在搜索迭代了 80 輪之後仍能持續發現精度更高的架構。

另外,作者還在圖 5 中跟蹤了 Hessian 範數的變化情況,所有 baseline 方法的範數都擴大了 10 倍之多,而本文提出的方法一直在降低該範數,這與上文的理論分析一致。

CIFAR-10 實驗

作者在通用的基於 cell 的空間上進行搜索,這裡需要對獲得架構進行 retrain 以獲得其精度。值得注意的是,除了 DARTS,本文提出的方法可以普遍適用於可微 NAS 下的許多方法,例如 PC-DARTS 和 P-DARTS。如表 1 所示,作者將原本 DARTS 的 test error 從 3.00% 減少至 2.61%,將 PC-DARTS 從 2.57% 減少至 2.49%,將 P-DARTS 從 2.50% 減少至 2.48%。搜索結果的方差也由於穩定性的提升而減小。

ImageNet 實驗

為了測試在大數據集上的性能,作者將搜索的架構遷移到 ImageNet 上。在表 2 中,作者獲得了 24.2% 的 top1 test error,超過了所有相比較的方法。

與其他正則項方法比較

作者還在另外 4 個搜索空間 S1-S4 和 3 個數據集上做實驗。這四個空間與 CIFAR-10 上的搜索空間類似,只是包含了更少的操作,例如 S2 只包含 3x3 卷積和跳過連接,S4 只包括 3x3 卷積和噪聲。在這些簡化的空間上實驗能進一步驗證 SDARTS 的有效性。

如表 4 所示,SDARTS 在這 12 個任務中的 9 個中包攬了前兩名,SDARTS-ADV 分別平均超過 DARTS、R-DARTS (L2)、DARTS-ES、R-DARTS (DP) 和 PC-DARTS 31.1%、11.5%、11.4%、10.9% 和 5.3%。

相關焦點

  • 深度學習網絡架構搜索(NAS)最新必讀論文分享
    隨著網絡結構越來越複雜,人工設計網絡的試錯成本和時間成本會難以承受。 超參數的自動搜索優化是一個古老的話題了。深度學習興起前它主要針對傳統機器學習算法中的模型超參數,比較經典的方法有隨機搜索(Random search), 網格搜索(Grid search),貝葉斯優化(Bayesian optimization),強化學習(Reinforcement learning), 進化算法(Evolutionary Algorithm)等,統稱為Hyperparameter optimization(HO)。
  • 華為提出端側神經網絡架構GhostNet|已開源
    乾明 編輯整理量子位 報導 | 公眾號 QbitAI同樣精度,速度和計算量均少於此前SOTA算法。這就是華為諾亞方舟實驗室提出的新型端側神經網絡架構GhostNet。在將深度神經網絡應用到行動裝置的浪潮中,怎麼保證性能不減,且計算量變得更少,成為研究的重點之一。谷歌的MobileNet團隊,以及曠視的ShuffleNet團隊,最近想了不少辦法來構建低計算量的深度神經網絡。但他們採取的深度卷積或混洗操作,依舊是在卷積上下功夫——用較小的卷積核(浮點運算)。
  • 蒙特卡洛樹搜索在黑盒優化和神經網絡結構搜索中的應用
    原創 Synced 機器之心機器之心專欄作者:王林楠、田淵棟布朗大學在讀博士王林楠在本文中介紹了他與 Facebook 田淵棟團隊合作,在 2020 年 NeurIPS 取得亮眼表現的新算法,以及其在神經網絡結構搜索中的應用
  • ...與Kneron合作應用神經網絡與硬體協同搜索框架,並獲Facebook...
    在這個進程中,如何將神經網絡最優地實現硬體系統成為AI全民化的最後一英裡。華人教授史弋宇團隊與 Facebook 合作,提出了首個針對許多應用場景的神經網絡與ASIC協同設計方案 ASICNAS。  神經網絡搜索(NAS)的研究極大地推動了人工智慧全民化的進程,即讓各行各業的應用都具有智能。
  • MIT開發出輕量級MCU神經網絡系統MCUNet
    圍繞MCUNet一起,韓松團隊共同設計了「微小深度學習」所需的兩個組件——微控制器上神經網絡的操作。其中一個組件是TinyEngine,它是一個類似於作業系統的、指導資源管理的推理引擎。TinyEngine被優化為運行特定的神經網絡結構,它是由MCUNet的另一個組件TinyNAS選擇的,TinyNAS是一種神經結構搜索算法。
  • 融慧金科張凱:知識圖譜與圖神經網絡模型在金融科技的應用
    近日,愛分析在北京舉辦了2020愛分析·中國人工智慧高峰論壇,融慧金科AI Lab負責人張凱博士進行了題為《知識圖譜與圖神經網絡模型在金融科技的應用》的主題演講。
  • 2020 Techo Park開發者大會召開,作業幫分享拍搜系統架構演變歷程
    12月19日至20日,由騰訊主辦的2020TechoPark開發者大會於北京召開。與此同時,隨著拍搜功能的不斷拓展,作業幫完成了從單題到整頁再到猜你想拍,從搜索到批改再到打分的全方位搜題場景設定,充分幫助學生提高學習效率。  據了解,作業幫拍搜算法架構主要分為OCR和檢索兩部分。
  • 2020 Techo Park開發者大會召開 作業幫分享拍搜系統架構演變歷程
    與此同時,隨著拍搜功能的不斷拓展,作業幫完成了從單題到整頁再到猜你想拍,從搜索到批改再到打分的全方位搜題場景設定,充分幫助學生提高學習效率。  據了解,作業幫拍搜算法架構主要分為OCR和檢索兩部分。  程童表示:「針對用戶在不同使用場景下可能出現的模糊、傾斜、低像素、幹擾等各類拍照問題,作業幫在持續5年以上的自主研發和數據積累中,不斷進行算法迭代和架構完善。」  在一次完整的文字識別流水線中,作業幫拍搜系統擁有超30種不同的神經網絡各司其職,平均一次識別可運行260次以上的神經網絡預測。
  • 何愷明團隊神經結構搜索最新力作:設計隨機連接網絡,效果超ResNet
    NAS方面的最新力作,通過隨機連接的神經網絡,探索了更多樣化的連接模式,所提出的RandWire網絡ImageNet基準測試中獲得了有競爭力的準確度。何愷明等人的這一新研究到底意義如何?在這一趨勢的推進中,神經結構搜索 (neural architecture search, NAS) 已經成為聯合搜索連接模式和執行操作方式的一個有前景的方向。NAS 方法專注於搜索,同時隱式地依賴於一個重要但常常被忽視的組件 —— 網絡生成器 (network generator)。
  • 適用於特殊類型自然語言分類的自適應特徵譜神經網絡
    為此,提出了一種新型的神經網絡結構——自適應特徵譜神經網絡。該算法有效減少了運算時間,可以自適應地選擇對分類最有用的特徵,形成最高效的特徵譜,得到的分類結果具有一定的可解釋性,而且由於其運行速度快、內存佔用小,因此非常適用於學習輔助軟體等方面。以此算法為基礎,開發了相應的個性化學習平臺。該算法使古詩文分類的準確率由93.84%提升到了99%。
  • Imagination推出新神經網絡加速器 可用於ADAS和自動駕駛
    蓋世汽車訊 據外媒報導,英國半導體與軟體設計公司Imagination Technologies宣布推出新一代神經網絡加速器(NNA)——IMG Series4,可應用於高級駕駛輔助系統(ADAS)和自動駕駛。
  • 【中國新聞網】中科院計算所研究人員再獲進展 向圖神經網絡加速...
    「GCN」即圖卷積神經網絡的英文縮寫,這是圖神經網絡的一個分支。通過融合深度學習算法和圖計算算法,將對搜索、推薦、風險控制在內的諸多領域擁有更優的認知與問題處理等能力。「為了應對圖神經網絡的混合執行行為,我們設計了新的處理器結構,以更高效地加速圖神經網絡的執行。」他說。  繼提出「HyGCN」以後,中國科學院計算技術研究所又發布了圖神經網絡加速晶片的IP核(即製備晶片的智慧財產權核),並面向全球開展商業授權。嚴明玉解釋說,圖神經網絡加速晶片在國際上尚屬「無人區」,他們最新成果的設計思路可匹配圖神經網絡對算力的特殊要求,將大幅提升圖神經網絡的執行效率。
  • 物聯網更加智能安全:研究人員開發微型神經網絡,你家冰箱以後也能...
    近日,麻省理學院的研究人員開發了一種系統,該系統可以將深度學習神經網絡帶到全新的甚至更小的設備,例如可穿戴醫療設備,家用電器中的微型計算機晶片以及構成物聯網的其他2500億設備中。 該系統名為MCUNet,設計有緊湊的神經網絡,儘管內存和處理能力有限,但它為物聯網設備上的深度學習提供了前所未有的速度和準確性。
  • 2021年的第一盆冷水:有人說別太把圖神經網絡當回事兒
    機器之心編輯部圖神經網絡(GNN)是目前熱門的研究方向,但我們是否應把注意力過多地放在這上面?數據科學家 Matt Ranger 從模型的本質、性能基準測試、實踐應用等方面陳述了自己的觀點。圖神經網絡(GNN)是機器學習中最熱門的領域之一,在過去短短數月內就有多篇優秀的綜述論文。但數據科學家 Matt Ranger 對 GNN 卻並不感冒。
  • 一圖抵千言:帶你了解最直觀的神經網絡架構可視化
    神經網絡是複雜、多維、非線性的數組運算。如何在避免過於複雜或重複的情況下呈現深度學習模型架構的重要特徵呢?又該以何種方式清晰直觀、啟發性地呈現它們呢?(好看也是加分項!)無論研究還是教學項目對此都沒有固定標準。本文我們就來了解一下可視化整個神經網絡架構和特定模塊的工具和技巧。
  • BP神經網絡
    上篇劍客對神經網絡做了科普,還記得嘛神經網絡是長這個樣子的  運行方式模擬人類神經系統,它由輸入層→隱藏層→
  • SEO算法:巴郎深談石榴算法與算法對策
    ,進一步提升用戶體驗。一般這種類型的頁面大多都屬於低質量頁面,屬於網絡信息垃圾,其中夾帶大量的垃圾廣告,極大程度上傷害了用戶的體驗度。2.提升用戶搜索體驗,使搜索體系與用戶到達一個和諧的狀態-- 2013 年 02 月,百度推出星火計劃,扶持原創網站,給予原創網站更加高等級的站長工具權限-- 2013 年 2 月 19 日,百度推出綠蘿算法,打擊買賣外鏈等垃圾外部連結
  • 中科院計算所設計全球首款圖神經網絡加速晶片
    文章披露,為更好地支持認知智能的發展,該團隊提出了國際首款圖神經網絡加速晶片設計 HyGCN。目前,介紹該晶片設計的相關論文已先後在計算機體系結構國際頂級會議MICRO和HPCA上發表。  「HyGCN,寓意向圖神經網絡的加速說『Hi』。」
  • 圖神經網絡加速晶片進入倒計時 全球首款商用圖神經網絡加速IP核...
    因此,該IP核是全球首款圖神經網絡加速IP核,專注於高效加速圖神經網絡的推斷階段。  適合圖神經網絡的算力  此款圖神經網絡加速IP核代號為「GCU Zero」,主要研究人員之一是中科院計算所特別研究助理嚴明玉博士,其畢業於中科院計算所,曾在美國加州大學聖巴巴拉分校 SEAL 實驗室訪學,主要從事圖計算和圖神經網絡加速結構研究。
  • 尤佳軒、何愷明等提出新型圖表示法,新視角理解圖結構如何影響預測性能
    神經網絡的圖結構和預測性能之間有怎樣的關係?近日,斯坦福尤佳軒、Jure Leskovec 聯合 FAIR 何愷明、Saining Xie 等人的論文提出了一種神經網絡的新型的圖表示法。該表示法有助於對神經網絡的架構和預測性能有更深層的理解。這篇論文已經被 ICML 2020 收錄。神經網絡通常用神經元之間的連接圖來表示。