CVPR 2019 神經網絡架構搜索進展綜述

2021-01-09 雷鋒網

來源:https://pixabay.com/

本文將介紹今年於美國長灘舉辦的CVPR2019會議上展示的神經網絡架構搜索(NAS)領域的研究成果。原標題:Neural Architecture Search at CVPR 2019

作者 | Vladimir Nekrasov

編譯 | 林肯二百一十三(西安交通大學)

我相信,每個深度學習研究者和從業者都多多少少地考慮過在他們處理的具體問題上應該使用什麼樣的神經網絡架構。很多人都殫精竭慮地嘗試提出像AlexNet、VGG以及ResNet那樣的有效架構。因此,「博士生下降」也成了一個紅極一時的梗。(註:「博士生下降」英文為Grad Student Descent,簡單而言就是「找一個博士生,讓他不斷調參,直到算法工作」。這種說法歪曲自深度學習的Gradient Descent算法,僅作調侃)

現在呢,我很想驕傲地宣布——「天天調參的鬼日子結束了!」——但是還為時過早。手動調參尋找神經網絡架構依然是個有趣的工作,尤其是對於那些帶了很多學生的導師而言(開玩笑啦~)。

  神經網絡架構搜索(NAS)——前言

那麼問題來了,神經網絡架構搜索(NAS)究竟是什麼?為什麼我們要了解NAS呢?(這一部分是為了去年完全沒有跟進領域內進展的人準備的)

NAS的核心思想是使用搜索算法來發現用於解決我們的問題所需要的神經網絡結構。回到「博士生下降」的話題:假設你是個希望解決問題A的導師,你會讓你的學生來想一種該問題的最優架構——那麼,你的學生就是你的搜索算法(聽起來似乎更像奴隸?)。

如果你並不是那種泯滅人性的導師(當然也可能你就是那個學生),你可能會首先定義一種搜索空間,這種搜索空間包含定義神經網絡架構的基本構建模塊(block)。通常地,每一種配置字符串(configuration string)描述一種架構——比如說,給定三個層(分別用0、1、2表示)和兩種block(分別為A:1x1卷積和B:3x3卷積),那麼字符串「0A1A2B」表示「x->1x1卷積->1x1卷積->3x3卷積」的網絡結構。你可以天馬行空地憑想像定義這個搜索空間,但別忘了,搜索空間越大,你的搜索算法需要運行的迭代次數就越多,用到的GPU算力也就越多。

搜索算法有哪些可供我們選擇呢?早期的一種算法是進化搜索——網絡架構的種群(population,比如可以是隨機初始化的一些架構)基於適應度(或「收益」,通常即給定架構在特定問題上的驗證指標)不斷地被訓練和突變(mutate,比如對架構的某些部分進行混合)以達到好的驗證指標。另一種方案是基於強化學習,讓智能體(有時候稱作「控制器」)去發現網絡架構的最優配置。這種智能體通常是用循環神經網絡實現的,它的目標是尋找能夠獲得更高收益的神經架構。其他的搜索算法還包括基於梯度的優化(所有可能的架構組成一個巨大的圖,每條邊有一個可學習的實值,代表每個block被使用的概率)、貝葉斯優化(搜索空間由某種啟發函數貫穿,這種啟發函數可以是用於預測採樣模型準度的代理損失函數)等等。

圖註:NAS的高層表示。圖片來源:Elsken et. al

如果你對上述算法感興趣,我推薦閱讀Elsken等人的這篇綜述。他們還建立維護了一個網站,你可以在這裡找到最近的相關文章。

  CVPR 2019上的NAS

下面本文將目光轉向在CVPR 2019會議上登場的NAS相關工作。如果你只想看大體的總結,下表包含了這些工作的論文和代碼地址(前提是它開源)、它們使用的搜索算法、領域和需要的資源。如果這裡沒有涉及您的文章,可能是我的疏忽導致它被忽略了——請您及時指正。CVPR 2019的所有論文都可以在這裡找到。

宏觀總結

  Auto-DeepLab:語義分割的分層神經架構搜索

熟悉語義分割領域的研究者應該對DeepLab團隊都不陌生吧?他們不斷提出新的思路、新的模型,不斷推進語義分割模型的性能提升。這次,作者使用NAS來尋找語義分割問題的最佳模型。Auto-DeepLab:語義分割的分層神經架構搜索

本質上講,這篇工作是對DARTS的一種適應性改進。如果你不了解DARTS,下面是對它的一點簡單說明:DARTS(可微架構搜索,Differentiable Architecture Search)是一種基於梯度的隨機優化方法,它將所有可能的架構一次性初始化,並且在優化網絡權重參數的同時還優化混合概率(即模型選擇每一條邊的概率)。Auto-DeepLab的作者則更進一步:為了搜索適合語義分割的模型,作者還讓NAS算法去優化stride運算——也就是在網絡架構圖中的各處是要下採樣特徵圖,或是保持尺度不變,還是進行上採樣。使用一塊P100 GPU,作者運行神經架構搜索3天後得到了與DeepLab-v3+性能大致相當的網絡結構。

圖註:AutoDeepLab發現的一種架構。圖片來源:Liu et. al

有意思的是,作者並沒有將搜索到的網絡在ImageNet上進行預訓練,而是直接從零開始在CityScapes和ADE20K數據集上進行訓練的,只有對PASCAL VOC數據集使用了MS COCO進行訓練。作者在原文中提到:「我們認為PASCAL VOC 2012數據集太小了,用來從零開始訓練模型實在不夠。這種情況下,還是用ImageNet進行預訓練會更有效」。說實在的,要是能看到ImageNet預訓練對作者用的所有數據集上的效果就好了,比如說進行預訓練會不會讓模型在CityScapes數據集上也獲得更好的效果呢?

  用單GPU四小時搜索出健壯的神經網絡架構

這篇論文中,作者結合了ENAS和DARTS二者的最佳實踐,從而提出了GDAS(Gradient-based search using Differentiable Architecture Sampler)方法。DARTS的定義上文已經提到;ENAS是Pham et. al提出的一種基於強化學習的神經架構搜索方法,它在一開始同樣初始化了一個巨大的圖——但與DARTS在每個邊上添加權重的方式不同,ENAS使用基於強化學習的控制器來決定選擇哪一條路徑。

這裡,作者顯式地採取了一些路徑並進行優化。因為這個採樣是離散的,作者藉助了Gunbel採樣技巧來實現反向傳播。作者原文寫道:「我們在前向傳播時使用argmax函數……而在反向傳播時使用了softmax函數……」。總體上,該方法在用於圖像分類的CIFAR-10數據集和上用於語言建模的Penn Tree Bank (PTB)數據集上實現了快速搜索。

圖註:GDAS發現的網絡單元。圖片來源:Dong and Yang

GDAS的另一個加速訓練、節省內存的技巧是在前向傳播中直接使用argmax函數——使用了in-place後,只有被argmax選擇的一個索引處生成的梯度需要回傳。作者聲稱,使用batch訓練的其它層還是會得到梯度,因為每個batch中的樣本經過的路徑是不同的。

  MnasNet:平臺感知的移動端神經網絡架構搜索

這篇論文中,作者考慮的是NAS的一種重要應用——搜索適合行動裝置快速推斷場景的網絡架構。為此,作者提出一種多目標的優化方法——基於強化學習的控制器被訓練搜索一種不僅能得到高分、而且能夠在Google Pixel 1的CPU上短時間內響應的模型架構。作者遵循帕累託優化準則,即「如果模型能在不花費額外時間的條件下達到高準確率,或者在不降低準確率的條件下花費更少的時間,則該模型是帕累託最優的」。

圖註:MnasNet神經架構搜索方法概觀。圖片來源:Tan et. al

另外,為了保證模型在搜索空間中高效且可用,作者定義了一種多個層的「block」。每個「block」中,同一個層被重複N次——層的類型和重複次數是由強化學習控制器預測的。總體而言,MnasNet架構設計是受MobileNet-v2啟發的,因此也可以認為:MnasNet是使用強化學習對MobileNet-v2的微調。(不過這個「微調」有點太耗費計算資源啦!MnasNet花費了整整6912個"TPU×小時"!)

  RENAS:強化進化神經網絡架構搜索

RENAS的主要思路在於:使用可微的強化學習控制器來增強錦標賽選擇法的變異機制。

錦標賽選擇法首先會初始化一個由神經架構(即進化算法中的個體,individual)組成的種群(population)。每個神經架構個體被訓練之後,通過在驗證集上進行評估來確定它們的適應度(fitness)。之後,種群中適應度最強的個體被變異(mutate)——比如改變它的一些層或者運算——從而產生子代(child)。在RENAS論文中,作者添加的強化學習控制器定義了給定網絡如何進行變異。為了加速訓練過程,子代模型直接繼承了父代的模型參數。

圖註:使用強化學習變異的進化算法搜索。圖片來源:Chen et. al

  NAS-FPN:搜索用於目標檢測的特徵金字塔架構

這一篇論文則關注了NAS的另一種應用——自動化地改進目標檢測網絡。在過去的幾年裡,特徵金字塔網絡(FPN)幾乎成了所有高性能目標檢測網絡的標配。本質上講,FPN起到了對網絡主幹(編碼器)提取的特徵的逐步解碼的作用。NAS-FPN這篇論文的動機就是尋找一些方法來從原始的網絡主幹結構的各層上更好地結合多種尺度的信息。

為此,作者定義了」合併單元「(merging cell)的搜索空間——以多種尺度的特徵作為輸入,將這些特徵進行精化後作為輸出。在合併單元中,基於強化學習的控制器對兩個輸入層(可能尺度並不相同)、輸出尺度和融合方式(可以是求和,或是基於注意力的全局池化等)進行選擇。合併單元的輸出被添加到下採樣的池化層中,作為下一步選擇的選項之一。

圖註:合併單元的結構。圖片來源:Ghiasi et. al

作者表示,合併單元的設計使得「anytime detection」成為可能,因為多個模塊化的單元可以被堆疊在一起,前向傳播可能在其中任何一個之後停止。這樣,即便我們提前結束前向傳播(early exit)並用此時網絡的輸出層進行目標邊框回歸,該特徵圖依然能足夠使邊框回歸能夠有效地檢測出物體邊框。為了加速網絡搜索,作者使用了輸入尺度為512x512的、較輕量級的ResNet-10作為網絡主幹。

  IRLAS:基於反向強化學習的神經架構搜索

IRLAS的作者觀察發現:人們自行設計的網絡拓撲結構往往比自動化生成的那些結構更優雅,而這些結構同時定義著網絡的響應時間和內存消耗。因此,作者沒有顯式地設定資源消耗的約束,而是試圖促使生成的網絡拓撲儘可能地模仿某種經典網絡模型(如ResNet)。「模仿」這一部分是通過一個獎勵函數中的一個附加項來實現的。

圖註:IRLAS概觀。圖片來源:Guo et. al

我本人非常喜歡這種「提取已有網絡架構設計的精華從而更好地訓練NAS模型」的思想。如果作者能進一步得出一種方案使得NAS模型能夠借鑑多種經典模型(而不止一個),或許會更有意思呢。

  使用輔助單元快速搜索小型語義分割模型

王婆警告:我(原博文作者)也是這篇論文的合著作者之一,所以以下觀點可能有所偏頗哦~

傳統上,基於強化學習的NAS算法需要大量的運算(通常以「GPUx小時」計,或者「TPU-小時」)。儘管這些NAS算法在分類任務上對較小的「代理」數據集(比如CIFAR-10)還是有不錯的性能,但是在輸出較為「密集」的任務(如語義分割)上,暫時還沒有這種「代理」數據集可用。況且,訓練一個分割模型可比訓練分類模型耗費的時間和資源多多了。

正因如此,我們這篇文章專注於加速基於強化學習的語義分割神經架構搜索的內層循環——也就是對於採樣的網絡結構的訓練與評估。我們以一個預訓練的圖像分類器為基礎(這裡使用的是MobileNet-v2),只對它的解碼器部分進行搜索。為此,我們設計了一些加速收斂的技巧:1)兩階段訓練與早停(early stopping)。第一階段中,我們提前計算出編碼器的輸出,並只訓練解碼器。如果這一階段後的獎勵值比平均的獎勵低的話,就乾脆終止這次訓練;否則進入第二階段,以端到端的方式訓練整個網絡。2)我們藉助知識蒸餾和Polyak權重平均來加速解碼器部分的收斂。3)另外,我們還運用中繼監督優化——但不是簡單地使用單個網絡層來進行分割,而是使用強化學習控制器產生的模型結構對中繼分割器進行過參數化。我們推測,這種過參數化對於小型語義分割模型有以下幫助:a)它可以使網絡主幹的梯度更平滑,b)它使得對較淺的中間層的任務要求不那麼嚴苛。

圖註:作者發現的一種用於語義分割的模型。圖片來源:Nekrasov et. al

  FBNet:使用可微NAS的高效硬體感知卷積網絡設計

像上邊提到的一些工作一樣,FBNet的作者也是把搜索空間初始化為一個由不同的層組成的巨大的圖,並採用可微的隨機優化方法,輔以Gumbel採樣技巧進行搜索。除此之外,作者用了一個查詢表來估計生成的網絡通路上每一個塊運算花費的時間。與那些只搜索一兩種塊(單元)的NAS文章不同,作者在這裡定義了整個網絡的宏觀架構(宏觀結構空間)和每一層的候選塊(微觀結構空間),並對它們分別進行搜索。

圖註:FBNet搜索到的一些網絡架構。K代表卷積核大小,E代表放大倍率,G代表卷積分組的參數圖片來源:Wu et. al

FBNet的作者以Samsung Galaxy S8為目標設備,使用int8數據類型進行推斷。作者認為,以多種不同的設備為目標是不現實的,畢竟我們要搜索的是更好的針對特定設備的網絡(上文提到的查詢表也是針對特定設備的)。

  可自定義的語義分割網絡架構搜索

這篇文章的作者將DARTS面向語義分割進行了適應,並將搜索空間設計為三種單元——圖片分類裡常見的普通單元、縮小單元,以及受ASPP啟發而設計的多尺度單元。除了特定任務的損失函數外,算法的優化目標還加入了一個新的目標函數——「選擇特定操作的代價」。為了定義給定操作的這個「代價」值,作者提出了對「僅使用給定操作建立的單元」和「僅使用單一操作建立的單元」之間響應時間、參數數量或FLOP數的差距進行比較、衡量的方法。

圖註:基於資源的語義分割神經架構搜索。圖片來源:Zhang et. al

作者在搜索多尺度單元之前,首先搜索了包含普通單元和縮小單元的語義分割網絡主幹,再使用ImageNet對他們進行微調。意外的是,作者使用這樣簡單粗暴的估計方式依然能有效地找到小而準確的網絡架構。

  彩蛋

下邊還有兩篇文章,雖然這兩篇並非與NAS緊密相關,但或許對某些人來講還是有點意思的。

這篇文章的作者試圖解決的是多模態融合問題——也就是說,給定多個固定模態的網絡,去尋找連接他們的隱藏層的最佳方式,從而對於特定的任務達到最佳的性能。舉例而言,一種常見的策略是晚融合(late-fusion)——只有每個網絡最後一層的輸出被融合在一起(比如求和,連接等等)。作者將多模態融合問題也定義為神經架構搜索,它不是從零開始對整個網絡結構進行的搜索,而是僅僅尋找已經訓練好的網絡的連接方式。

為此,作者使用了基於序列模型的優化方法(SMBO)。在SMBO中,往往會用一個單獨的、稱作「surrogate」的函數來估計採樣到的架構的準確率。不一樣的是,搜索空間是從一個比較小的架構集合開始的,「surrogate」函數被預訓練後,網絡架構的尺寸才被逐漸變大。傳統NAS框架中這種方法的一個經典案例是漸進式NAS。

通過上述方法,作者找到了一些在MM-IMDB數據集上用於預測電影流派和電影簡介的多模態融合架構,以及在NTU RGB-D數據集上用於根據姿態和RGB信息進行行為識別的架構。

在神經生物學中有這樣一種理論:對於相似的物體,人腦會產生相似的神經響應。基於這種理論,作者推測:具有與人腦相似的激活機制的神經網絡,也應該有更強的泛化能力。因此,作者提出了一種「與人腦模型的相似度」(HMS)的評價指標,並用這種指標來對人體的功能性磁共振成像(fMRI)和神經網絡的激活行為進行比對。在這裡,作者考慮的網絡稱作PredNet,可用於非監督視頻預測,即給定當前幀、預測之後可能發生的內容。

為了定義HMS,作者建立了一種「表示性不相似程度矩陣」(RDM,representational dissimilarity matrix)來量化兩個系統(這裡是網絡與人腦)對一對刺激的響應。給定兩個RDM,HMS被定義為二者的斯皮爾曼等級相關係數。

圖註:HMS指標的計算流。圖片來源:Blanchard et. al

值得關注的一點是,作者發現HMS與驗證集精確度有很強的相關性——也就是說,HMS也許能夠作為用於尋找具有較強泛化性能的網絡並提早停止的指標。另外,要計算HMS,該方法只需要92次刺激。如果能看到這一研究方向能讓生物學理論與人工神經網絡碰撞產生怎樣的火花,那就有意思啦!

該論文的實現代碼已開源:

https://github.com/CVRL/human-model-similarity

  結論

儘管說「CVPR 2019是NAS重大突破的一場盛會」有點言過其實,但能見識到這麼多工作在克服了對大量GPU/TPU算力的依賴的同時又能達到與之相當的性能,實在是激(yi)動(ke)人(sai)心(ting)呀!我很期待看到NAS的研究將會取得怎樣的進展,以及NAS的眾多研究者能夠想到怎樣的技巧呢。

總結了這麼多,我還想提及一點:從零開始搜索用於圖像以外的分類任務的網絡架構依然是個巨大的挑戰。今年我們見識到了一些神經架構搜索方法有基於強化學習改進的(如NAS-FPN、FastDenseNAS)、基於可微優化改進的(如AutoDeepLab、CAS)和從一開始就預定義巨大的網絡結構的(類似於DARTS的那些),而這些都或多或少地做出了一些讓步——比如將搜索空間限定在有限數量的一些層(基於強化學習的那些),或在搜索開始時預定義巨大的結構(基於DARTS的)。我不禁想到了我們在2015年左右見到的語義分割的進展——那時候的那些工作,大多數都是基於圖像分類器的改進的(見Long et. al的開創性工作——FCN)。而從那之後,針對各種具體任務的各種模型逐漸變得越來越成熟、多樣化(如ASPP、PSP、RefineNet等等),進而推動了這個領域的蓬勃發展。我相信,不久之後,我們也會見識到更多為具體任務量身定做的NAS模型,而不只是圖像分類和語言建模這些基本任務。

非常感謝Chen Hao閱讀本文初版草稿並提出建設性的意見和建議。

本文撰寫於2019年7月5日。

本文編輯:Pita

英語原文:https://drsleep.github.io/NAS-at-CVPR-2019/

想要繼續查看該篇文章相關連結和參考文獻?

點擊【CVPR 2019 神經網絡架構搜索進展綜述】即可訪問!

福利大放送——滿滿的乾貨課程免費送!

「好玩的Python:從數據挖掘到深度學習」該課程涵蓋了從Python入門到CV、NLP實踐等內容,是非常不錯的深度學習入門課程,共計9節32課時,總長度約為13個小時。。

課程頁面:https://ai.yanxishe.com/page/domesticCourse/37

「計算機視覺基礎入門課程」本課程主要介紹深度學習在計算機視覺方向的算法與應用,涵蓋了計算機視覺的歷史與整個課程規劃、CNN的模型原理與訓練技巧、計算機視覺的應用案例等,適合對計算機視覺感興趣的新人。

課程頁面:https://ai.yanxishe.com/page/domesticCourse/46

現AI研習社將兩門課程免費開放給社區認證用戶,只要您在認證時在備註框裡填寫「Python」,待認證通過後,即可獲得該課程全部解鎖權限。心動不如行動噢~

認證方式:https://ai.yanxishe.com/page/blogDetail/13999

雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AutoML新進展:用進化算法發現神經網絡架構
    在每一步中,隨機選擇一對神經網絡。選擇更高精度的網絡作為父類,並通過複製和變異生成子節點,然後將其添加到群體中,而另一個神經網絡會消失。所有其他網絡在此步驟中保持不變。隨著許多這樣的步驟陸續得到應用,整個網絡就會像人類的進化一樣。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    利用神經網絡搜索實現語義分割的獨家解讀。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。
  • 谷歌大腦提出NAS-FPN:一種學會自動架構搜索的特徵金字塔網絡
    標檢測也能用神經架構搜索,這是一個自動搜索的特徵金字塔網絡。神經架構搜索已經在圖像識別上展現出很強的能力,不論是可微架構搜索的速度,還是基於強化學習搜索的準確度,很多時候自動架構搜索已經超越了我們手動設計的版本。與此同時,學習視覺的特徵表示是計算機視覺中的一個基本問題。不論是圖像分類還是目標檢測,抽取圖像特徵才是最首要的。
  • ICML 2020|提升神經網絡架構搜索穩定性,UCLA提出新型NAS算法
    機器之心專欄作者:陳相寧可微網絡架構搜索能夠大幅縮短搜索時間,但是穩定性不足。為此,UCLA 基於隨機平滑(random smoothing)和對抗訓練(adversarial training),提出新型 NAS 算法。可微網絡架構搜索(DARTS)能夠大幅縮短搜索時間,但是其穩定性受到質疑。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    神經網絡可以有效捕捉自然圖像中的先驗信息,優先對圖像中的低頻部分進行學習,逐步修復圖像,得到令人滿意的結果。  但在實際應用過程中,如何選擇適合的網絡結構、如何確定最優的學習迭代次數,這依然需要進行進一步研究。
  • 談一談逆勢而上的圖神經網絡
    越大的自監督模型,半監督學習需要的標籤越少KDD2020 | MoFlow:基於流的分子圖生成模型【綜述】圖神經網絡與深度學習在智能交通中的應用:綜述Survey淺談圖上的自監督學習——對比學習論文快訊 | NeurIPS2020 重新思考圖神經網絡中的池化自監督學習 | ICML2020 自監督學習什麼時候可以對GCN有利?
  • 蒙特卡洛樹搜索在黑盒優化和神經網絡結構搜索中的應用
    把 LA-MCTS 應用在神經網絡結構搜索(NAS)我們同時也把 LA-MCTS 應用在神經網絡結構搜索給 CIFAR-10,ImageNet,Detection 等。下面是我們搜索出來的網絡的結果。起源:應用蒙特卡洛樹搜索在神經網絡結構搜索。2017 年初,我的導師從美國國防高級研究計劃局的 D3M 項目拿到了一筆項目資金,開啟了我們的 AutoML 研究。而我被分配的子任務,就是神經網絡結構搜索 (NAS)。當時 NAS 研究的 2 篇文章,都是利用強化學習(谷歌的 policy gradients 和 MIT 的 Q-learning)。
  • 告別調參煉丹,谷歌「權重無關」神經網絡開源了!
    當訓練神經網絡完成一項給定任務時,無論是圖像分類還是強化學習,通常都需要調優與網絡中每個連接相關的一組權重。另一種已經取得實質性進展的成功的神經網絡創建方法是神經架構搜索,它利用人工設計的組件(如卷積網絡組件或transformer blocks)來構建神經網絡架構。
  • AI求解薛丁格方程;陶大程等深度學習理論進展綜述
    深度神經網絡架構的構建一定程度上受到了生物大腦和神經科學的啟發。就像生物大腦的內部運行機制一樣,深度網絡在很大程度上無法得到解釋,沒有一個統一的理論。對此,來自麻省理工學院(MIT)的研究者提出了深度學習網絡如何運行的新見解,有助於人們揭開人工智慧機器學習的黑匣子。
  • 7 Papers|谷歌等用神經網絡給照片打光,沈向洋等神經語言處理綜述
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有谷歌等研究機構用神經光傳輸為照片二次打光的探索,以及沈向洋等從建模、學習和推理三方面展開的神經 NLP 綜述。
  • 如何在統一架構的同時高效處理各種稀疏度人工神經網絡矩陣?
    由於剪枝和 RELU 等操作,神經網絡的權重和激活矩陣中存在廣泛的稀疏性分布,且不同網絡和同一網絡不同層的稀疏度各不相同,其稀疏度分布範圍高達 4-90%。由於不同稀疏度矩陣運算對於計算和存儲電路要求各不相同,提出一種統一架構同時高效處理各種稀疏度的人工神經網絡矩陣,是人工智慧晶片設計領域的一大難題。
  • 要想了解卷積神經網絡,首先需要了解三種基本架構
    卷積網絡是研究關於圖像(紋理,圖像尺度等)的抽象層面的一種網絡,跟傳統網絡不同的是,它不僅可以根據一個固定尺寸圖像生成物體識別數據,還可以對圖像其他部分進行其他操作。卷積可以有多個,它的作用是「放大」和「增強」圖像的抽象空間。那麼卷積可以用於哪些場景呢?
  • 入門| 獻給新手的深度學習綜述
    本文是關於最新的深度學習技術的綜述,主要推薦給即將涉足該領域的研究者。本文包括 DL 的基本思想、主要方法、最新進展以及應用。 綜述論文是非常有益的,特別是對某一特定領域的新研究人員。一個研究領域如果在不久的將來及相關應用領域中有很大的價值,那通常很難被實時跟蹤到最新進展。現在,科學研究是一個很有吸引力的職業,因為知識和教育比以往任何時候都更容易分享和獲得。
  • 怎樣設計最優的卷積神經網絡架構?|NAS原理剖析
    但是,關於如何才能設計出最優的卷積神經網絡架構這個問題仍在處於探索階段。其中一大部分原因是因為當前那些取得成功的神經網絡的架構設計原理仍然是一個黑盒。雖然我們有著關於改進神經網絡表現的豐富心得,但其實並沒有真正了解神經網絡是如何達到當前這麼優秀的表現。關於CNNs的一些線索我們從如下幾點開始剖析。
  • 解讀| 如何用進化方法優化大規模圖像分類神經網絡?
    為此,我們使用直觀的新型變異算子(mutation operators)來導航大型搜索空間。我們認為,演化一旦開始,其輸出就應當是一個經過完整訓練的模型,不需任何人進行參與。這項研究尤其重要的是結果的可重複性、可變性以及計算要求。解讀不論是在學術研究還是產業應用方面,神經網絡都展現了強大的能力。為了解決不同的實際問題,多種網絡架構可根據特定的任務而建立。
  • 深度學習時代的圖模型,清華發文綜述圖網絡
    清華大學朱文武等人綜述了應用於圖的不同深度學習方法。他們將現有方法分為三個大類:半監督方法,包括圖神經網絡和圖卷積網絡;無監督方法,包括圖自編碼器;近期新的研究方法,包括圖循環神經網絡和圖強化學習。然後按照這些方法的發展史對它們進行系統概述。該研究還分析了這些方法的區別,以及如何合成不同的架構。最後,該研究簡單列舉了這些方法的應用範圍,並討論了潛在方向。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    神經網絡語言模型(NNLM)克服了維數的限制,提升了傳統語言模型的性能。本文對 NNLM 進行了綜述,首先描述了經典的 NNLM 的結構,然後介紹並分析了一些主要的改進方法。研究者總結並對比了 NNLM 的一些語料庫和工具包。此外,本文還討論了 NNLM 的一些研究方向。
  • 前沿綜述:大腦結構網絡、功能網絡和網絡控制中的物理學
    ,從大腦的結構網絡、功能網絡和網絡控制的角度,梳理了物理學在腦科學研究中的進展。之後研究人員發現,將多個這樣的模型組成網絡,可以在網絡上表徵布爾函數,進行基本的邏輯運算。1957年Frank Rosenblatt發現,通過調整輸入的權重,可以將輸出定義為二元分類器,使模型可以通過過去的例子將信息分成兩類。該結果極大地促進了學習算法的進步,包括支持向量機和人工神經網絡,以及推動機器學習的進展。
  • 何愷明團隊神經結構搜索最新力作:設計隨機連接網絡,效果超ResNet
    目前,神經結構搜索 (NAS)的研究正在探索連接 (wiring) 與操作類型 (operation types) 的聯合優化,然而,由於可能的連接空間受到限制,儘管採用了神經結構搜索,優化仍然是由人工設計驅動的。   近日,FAIR 何愷明等人發表最新論文,探討了在圖像識別中NAS方法的優化。研究人員通過隨機連接的神經網絡,探索了更多樣化的連接模式。
  • [獨家]25張圖讓你讀懂神經網絡架構
    原標題:[獨家]25張圖讓你讀懂神經網絡架構 由於新的神經網絡架構無時無刻不在湧現,想要記錄所有的神經網絡是很困難的事情。要把所有這些縮略語指代的網絡(DCIGN,IiLSTM,DCGAN等)都弄清,一開始估計還無從下手。