商湯提基於貪心超網絡的One-Shot NAS,達到最新SOTA|CVPR 2020

2020-12-10 AI科技大本營

導讀:在CVPR 2020上,商湯移動智能事業群-3DAR-身份認證與視頻感知組提出了基於貪心超網絡的One-Shot NAS方法,顯著提升了超網絡直接在大規模數據集上的搜索訓練效率,並在標準ImageNet數據集上取得了300M FLOPs量級的SOTA。GreedyNAS論文通過提出一種貪心的超網絡結構採樣訓練方法,改善了訓練得到的超網絡對結構的評估能力,進而幫助搜索算法得到精度更高的結構。

動機與背景

在目前的神經結構搜索領域中,One-Shot NAS方法由於其搜索開銷小被廣泛應用,這些方法使用一個權重共享的超網絡(supernet)作為不同網絡結構的性能評估器,因此,supernet的訓練對搜索結果的好壞至關重要。然而,目前的方法一般採用了一個基本的假設,即supernet中每一個結構是同等重要的,supernet應該對每個結構進行準確評估或相對排序。然而,supernet中所包含的結構量級(搜索空間的size)是非常巨大的(如 7^{21} ),因此準確的評估對於supernet來說是非常困難的,導致supernet中結構的表現與其真實表現相關性很差 [1]。

在本篇論文中,我們提出一種貪心超網絡來減輕supernet的評估壓力,使得supernet更加貪心地注重於有潛力的好結構,而不是全體。具體而言,在supernet訓練過程中,我們提出了一種多路徑拒絕式採樣方法(multi-path sampling with rejection)來進行路徑濾波 (path filtering),使得有潛力的好結構得到訓練。通過這種方法,supernet的訓練從整個搜索空間貪心地縮小到了有潛力的結構組成的空間中,因此訓練的效率得到了提升。同時,為了進一步增大有潛力結構的採樣概率與提高訓練效率,我們基於exploration and exploitation準則,使用一個經驗池存儲評估過的「好」結構,用來加強貪心度並為後續的搜索提供好的初始點。本論文搜索出的結構在ImageNet (mobile setting) 下取得了 SOTA(state-of-the-art) 的結果。

主要思路

巨大的搜索空間帶來的評估壓力使supernet難以準確地區分結構的好壞,由於所有結構的權重都是在supernet中高度共享的,如果一個差的結構被訓練到了,好的結構的權重也會受到幹擾。這樣的幹擾會削弱好網絡的最終評估精度,影響網絡的搜索結果。同時,對差的結構進行訓練相當於對權重進行了沒有必要的更新,降低supernet的訓練效率。

多路徑拒絕式採樣

針對上述問題,一個直接的想法就是基於貪心策略,在訓練過程中只訓練好的結構。但很顯然,我們並不知道一個隨機初始化的搜索空間中哪些結構是好的。假設對於一個supernet,我們考慮其搜索空間A的一個完備劃分,即:

搜索空間可以如上劃分為好的空間與差的空間,且好空間中每一個結構的ACC均大於差空間,即

於是,一個理想的採樣策略是直接在好空間中進行採樣即可。然而根據上面的不等式,確定所有結構中哪些是來自好空間需要遍歷整個搜索空間,計算開銷是無法接受的。為了解決這個問題,我們首先考慮從全空間中進行的一個均勻採樣,那麼每個path來自好空間的概率為:

為了得到需要的來自於好空間的結構,我們進一步考慮一個多維的Bernoulli實驗,那麼有如下的結論:

我們取m = 10和m = 20,對定理1的概率進行繪製,如Figure 2所示,可見這種採樣下得到來自好空間中的path的概率是很高的。

於是,我們可以對採樣到的多個結構進行評估篩選的方法提升採樣到「好」結構的概率,即每次採樣m個結構,從中選取評估指標最高的k個結構進行訓練。但是,對結構進行評估需要在驗證集上計算其ACC,這樣會增加非常多計算量(我們的ImageNet驗證集大小為50k)。為了減少評估網絡的消耗,我們從驗證集中隨機選取了一小部分(如1000張圖)組成小驗證集,並使用在小驗證集上的loss作為結構的排序指標。使用小驗證集進行評估,在保證評估準確性的前提下,相較uniform sampling方法只增加了很少的計算代價,詳見論文實驗部分。

基於exploration and exploitation策略的路徑候選池

在前面提到的路徑濾波中,我們通過評估可以區分出較好的結構,為了進一步提升訓練效率,受蒙特卡洛樹搜索(Monte Carlo tree search)[4] 和 deep Q-learning[5] 中常用的exploration and exploitation策略啟發,我們提出使用一個路徑候選池用於存放訓練過程中評估過的「好」結構,並進行重複利用。具體而言,候選池可以看作是一個固定大小的有序隊列,其只會存儲所有評估過結構中得分前n(候選池大小) 的結構。

有了候選池的幫助,我們可以選擇從搜索空間中或候選池中採樣結構。從候選池中採樣的結構是好結構的概率更高,但可能會犧牲結構的多樣性。為了平衡exploration與exploitation,我們採用-採樣策略,即以一定的概率從整個搜索空間A或候選池P中採樣結構α:

在網絡剛開始訓練時評估過的結構較少,候選池中存儲的結構是好結構的可信度不高,因此從候選池中採樣的概率 在開始時設為0,併線性增加至一個較高的值(在實驗中,我們發現0.8是一個較優的值)。若候選池中的結構都來自好空間,通過使用候選池,定理1中好網絡的採樣概率q提升為:

因此,採樣10個結構,至少有5個好結構的概率由88.38%提升至99.36% 。

基於候選池的early stopping策略

候選池的更新為supernet的訓練情況提供了一個很好的參考。若候選池發生的更新(順序變換、進出)較少,可以認為超網絡中較好的網絡維持著一個相對穩定的排序,這也說明此時的supernet已經是一個較好的性能評估器,因此訓練進程可以提前結束,而不需要訓練至網絡完全收斂。

在實際使用中,我們會比較當前候選池P與t輪迭代前的候選池P_t的差異度,若差異度低於某個數值(我們的實驗使用0.08),訓練停止。差異度的定義如下:

基於候選池的搜索策略

Supernet訓練結束後,我們可以使用驗證集的ACC評估結構的好壞。本文使用 NSGA-II 進化算法[3] 進行結構搜索。我們在進化算法中使用候選池中的結構進行population的初始化,相較於隨機初始化,藉助於候選池能夠使進化算法有一個更好的初始,提升搜索效率及最終的精度。

如 Figure 3 所示,我們在同一個訓練好的supernet上使用了隨機初始化與候選池初始化兩種方式進行搜索,使用候選池初始化搜索到的結構的準確率平均會比隨機初始化要高。

實驗結果

為了與目前的one-shot方法進行對比,我們首先在與 ProxylessNAS[6] 一樣的 MobileNetV2 搜索空間上進行結構搜索,結果見 Table 1 。

同時為了進一步提升網絡性能,我們在加入了SE的更大搜索空間上進行搜索,結果見 Table 2 。

Ablation Study

多路徑拒絕式採樣中的路徑評估相關性

我們對隨機初始化、uniform sampling、greedy方法訓練得到的supernet下的小驗證集指標與完整驗證集ACC相關性進行了評估,如 Table 3 所示。可見在小驗證集上使用loss相比ACC會得到更高的相關性,我們的貪心方法訓練出的supernet有著更好的相關性。

我們對不同大小小驗證集與完整驗證集的相關性進行了評估(Figure 4 左圖),同時對uniform-sampling算法在不同迭代輪數下的相關性作了評估(Figure 4 右圖)。可以看出我們的算法在較小的驗證集大小上仍能保持較高的相關性,在精度與效率的權衡下,我們最終選取 1000 作為小驗證集大小。

對多路徑貪心採樣及候選池效果的評估

我們在MobileNetV2的search space下評估了多路徑貪心採樣及候選池的效果,如 Table 4 所示。

總結

超網絡訓練是單分支One-Shot NAS 方法的關鍵。與目前方法的對所有分支一視同仁不同,我們的方法貪心地注重於有潛力的好分支的訓練。這種貪心地分支濾波可以通過我們提出的多分支採樣策略被高效地實現。我們提出的 GreedyNAS 在準確率和訓練效率上均展現出了顯著的優勢。

論地址:

https://arxiv.org/abs/2003.11236

Reference

[1] Christian Sciuto, Kaicheng Yu, Martin Jaggi, Claudiu Musat, and Mathieu Salzmann. Evaluating the search phase of neural architecture search. arXiv preprint arXiv:1902.08142, 2019.

[2] Zichao Guo, Xiangyu Zhang, Haoyuan Mu, Wen Heng, Zechun Liu, Yichen Wei, and Jian Sun. Single path oneshot neural architecture search with uniform sampling. arXiv preprint arXiv:1904.00420, 2019.

[3] Kalyanmoy Deb, Amrit Pratap, Sameer Agarwal, and TAMT Meyarivan. A fast and elitist multiobjective genetic algorithm: Nsga-ii. IEEE transactions on evolutionary computation, 6(2):182–197, 2002.

[4] Levente Kocsis and Csaba Szepesvari. Bandit based montecarlo planning. In European conference on machine learning, pages 282–293. Springer, 2006.

[5] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602, 2013.

[6] Han Cai, Ligeng Zhu, and Song Han. Proxylessnas: Direct neural architecture search on target task and hardware. arXiv preprint arXiv:1812.00332, 2018.

如何通過深度學習,完成計算機視覺中的所有工作?看似毫不相干,哲學與機器學習竟有如此大的交集黑客用上機器學習你慌不慌?這 7 種竊取數據的新手段快來認識一下「谷歌殺手」發明者,科學天才 Wolfram清晰架構的 Go 微服務: 程序容器5分鐘!就能學會以太坊 JSON API 基礎知識

相關焦點

  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    CVPR作為計算機視覺領域級別最高的研究會議,其錄取論文代表了計算機視覺領域在2018年最新和最高的科技水平以及未來發展潮流。CVPR官網顯示,今年有超過3300篇的大會論文投稿,錄取的979篇論文,比去年增長了25%(2016年論文錄取783篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。
  • 淺議One-Motion Shot 和 Two-Motion Shot 的技術特點、區別及運用時機
    We're gonna figure out which one is goona work best for you. So one motion shot and two motion shot are vastly different.
  • 業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    2017 年 7 月 11 日,專注於計算機視覺和深度學習的國內人工智慧企業商湯科技完成 4.1 億美元融資的消息引爆業內。本次融資創下了全球人工智慧公司單輪融資的最高紀錄。作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • 建超算中心、開源核心算法,商湯開闢AI開放戰場
    在WAIC 2020大會期間,商湯科技宣布,上海「新一代人工智慧計算與賦能平臺」臨港超算中心啟動動工。該項目是上海市「新基建投資」項目之一,計劃於2021年內投入使用。商湯科技上海超算中心效果圖商湯自研超算中心開工,AI產業賦能進入新階段商湯在上海投入建設的AI超算中心,究竟有多強?
  • 小樣本學習(Few-shot Learning)綜述
    Metric Based方法 如果在 Few-shot Learning 的任務中去訓練普通的基於 cross-entropy 的神經網絡分類器,那麼幾乎肯定是會過擬合,因為神經網絡分類器中有數以萬計的參數需要優化。
  • CVPR 2020 | 北航、商湯等提出網絡二值化新算法IR-Net,多項圖像...
    機器之心機器之心發布機器之心編輯部近日,計算機視覺頂會 CVPR 2020 接收論文結果已經正式公布。在 6656 篇有效投稿中,最終有 1470 篇論文被接收,錄取率約為 22%。
  • 專欄| 神經網絡架構搜索(NAS)綜述(附AutoML資料推薦)
    搜索空間搜索空間定義了優化問題的變量,網絡結構和超參數的變量定義有所不同,不同的變量規模對於算法的難度來說也不盡相同。早期很多工作都是用以遺傳算法為代表的進化算法對神經網絡的超參數和權重進行優化,因為當時的神經網絡只有幾層,每層十幾個神經元,也不存在複雜的網絡架構,參數很有限,可直接進行優化。
  • AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架
    Supervised Object Detection》,該論文被AAAI 2020錄用。該框架引入了基於空間圖(Spatial Graph)及外觀圖(Appearance Graph)的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。這樣使得在基於多實例學習方法的網絡學習過程中,特徵不夠顯著的物體實例可以被檢測到並加入訓練,進而提升特徵的表達能力和魯棒性。
  • InShot免費下載
    你是否在尋找InShot免費下載,18183為您提供最新最好的下載體驗! inshot軟體是一款神奇的視頻圖片編輯軟體。inshot軟體強大的視頻照片編輯功能讓你就算是個軟體小白也可以輕鬆操作,同時,inshot還有音樂添加功能,讓你的視頻有聲有色內容豐富。
  • Moon shot? 遠射
    version of Eisenhower’s interstate highway program or JFK’s moon shot.Hence and therefore, her plan is likened to a moon shot.Yes, moon shot means literally a shot at the moon, sending a spacecraft to the moon, for instance.
  • 空間-角度信息交互用於光場圖像超分辨重構,性能達到最新SOTA|ECCV...
    也有研究者僅使用部分SAI來超分辨一個視圖,並且未合併另外廢棄視圖中的角度信息。相反,有另外的研究人員提出了一種基於圖的方法來考慮優化過程中的所有角度視圖。但是,該方法無法充分利用空間信息,並且不如基於深度學習的SR方法。值得注意的是,即使所有視圖都被送到一個深層神經網絡,要實現卓越的性能仍然十分具有挑戰。
  • Cheap shot?
    a cheap shot.At any rate that’s what 「cheap shot」 means.A cheap shot is literally an attack that is considered cheap, low in value or moral estimation.
  • 商湯科技賦能深圳壹方城購物中心實現商場內AR導航導覽
    在導航的途中,消費者還可以通過導航界面看到虛擬的AR壹方城吉祥物小獅子「壹壹」 和店鋪展示牌,通過點擊展示牌還可以領取最新的美妝團購券,直接進店消費。從促銷活動瀏覽,到門店路線指引,再到門店優惠券領取,全程一氣呵成。
  • 商湯科技首個AI軌交通行平臺如何承載千萬級通行量
    從2019年開始,商湯科技與智元匯等合作夥伴在地鐵業主的指導支持下,建造了全球第一個人工智慧軌道交通通行平臺——SenseMeteor商湯睿知智慧軌交平臺。這些城市的日通行量達數百萬級,而北上等一線城市甚至達到千萬級,商湯科技的「超級平臺」是如何做到的呢?
  • 商湯AI給最強大腦、電競冠軍下了一份戰書
    30秒快讀1、據媒體報導,商湯正在進行10到15億美元的新一輪融資,估值或超百億美元。2、商湯在上海的「新一代人工智慧計算與賦能平臺」一天可以處理整個人類文明時長的視頻,相當於23600年。據媒體報導,商湯正在進行10到15億美元的新一輪融資,在2020年內完成,此輪融資若能成功達成,上海就會跑出一個百億美元估值的AI企業。
  • 商湯田豐:未來的視覺城市
    比如說主線圍繞城市發展穩定性的《西部世界3》裡有個超腦來控制整個城市、每個人每天的工作安排,甚至推演未來的發展方向,讓每個非常細的分支實現最終目標,保持城市秩序趨於穩定。這和現在說的精細治理蠻像,我國也在提治理現代化,但是究竟能不能達到料事如神,量子超腦控制每個人每天的工作和生活安排,這是一個問號。
  • CVPR,華人包攬!斬獲全部獎項,近四成中國作者,清華最多
    (此處可再來一次掌聲)這項研究是受到了經典空間數據結構,即二叉空間分割(BSP)的啟發,提出了新的神經網絡BSP-Net,以此來促進在3D空間中的學習。這個方法的亮點就在於:用最少的多邊形,生成儘可能完美、真實的3D物體。
  • Synology DS220 +與DS218 + NAS比較 是否值得買,是否值得升級
    到2020年,網絡存儲的發展已經遠遠超出了最原始最簡單的需求,沒人會把它僅僅當做一個只是可以聯網的硬碟了,現在已經發展成為可以與臺式機或移動平臺上的作業系統相媲美的完整且獨特的作業系統,對於那些剛接觸這種硬體的人來說,它仍然是一個困難的選擇。即使您要使用基本的NAS硬體來存儲和備份您的朋友、家人或同事的數據,您仍將需要花費一筆不小的金額才能買到適合你的nas。
  • 上海商湯EPC項目衝出正負零
    人民網上海11月5日電   近日,中建科工上海公司在上海自貿區臨港新片區以總承包模式承建的首個「新基建」項目——商湯科技上海新一代人工智慧計算與賦能平臺EPC項目首節柱吊裝全部完成,三棟單體全面衝出正負零。
  • 商湯科技張果琲:沒有城市視覺中樞,安防場景定製化算法只是輕量級...
    這個過程需要一個強大的平臺進行集中訓練,高效率低成本地推演出新的算法,這正是商湯近年來重點關注的方向。目前商湯的平臺已經能夠讓算法進行自學習,基於場景的增量數據不斷學習,持續優化。張果琲介紹,迄今為止商湯已經擁有超過700家合作夥伴,產品也已經在十幾個行業相繼落地。商湯一直堅持用人工智慧賦能百業的理念,而實現這一目標的最佳途徑就是中樞賦能。