秒懂!何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial

2021-01-13 雷鋒網

聯合編譯:Blake、高斐

雷鋒網註:何凱明博士,2007年清華大學畢業之後開始在微軟亞洲研究院(MSRA)實習,2011年香港中文大學博士畢業後正式加入MSRA,目前在Facebook AI Research (FAIR)實驗室擔任研究科學家。曾以第一作者身份拿過兩次CVPR最佳論文獎(2009和2016)——其中2016年CVPR最佳論文為圖像識別中的深度殘差學習(Deep Residual Learning for Image Recognition),本文為何凱明博士在ICML2016上的tutorial演講以及相關PPT整理。相比學術論文,他在演講PPT中深入淺出地描述了深度殘差學習框架,大幅降低了訓練更深層次神經網絡的難度,也使準確率得到顯著提升。

深度殘差網絡——讓深度學習變得超級深

ICML 2016 tutorial

何凱明——Facebook AI Research(8月加入)

概覽

從淺到深

從10層到100層

從100層到1000層

| 介紹部分

介紹——深度殘差網絡(Resnet)

圖像分類

對象檢測

語義分割

等等

Resnet在ILSVRC 和COCO 2015上的表現

在五個主要任務軌跡中都獲得了第一名的成績

ImageNet分類任務:「超級深」的152層網絡

ImageNet檢測任務:超過第二名16%

ImageNet定位任務:超過第二名27%

COCO檢測任務:超過第二名11%

COCO分割任務:超過第二名12%

深度網絡的革命(從淺層到越來越深的層級)

在ILSVRC2010年左右還主要是淺層網絡,大部分需要手動調教特徵。在ILSVRC2012年時,出現了8層的網絡——AlexNet,降低了10%的錯誤率。而後ILSVRC2014出現的VGG和GoogleNet是相當成功的,它們分別將層級提到了19層、22層,錯誤率也降低到了7.3、6.7。到去年的ILSVRC2015,我們的ResNet將層級提到了152層,將錯誤率降到了3.57。

深度網絡的革命

AlexNet, 8層 (ILSVRC 2012)

深度網絡的革命

AlexNet, 8層 (ILSVRC 2012)

VGG, 19層 (ILSVRC 2014)

GoogleNet, 22層 (ILSVRC 2014)

深度網絡的革命

AlexNet, 8層 (ILSVRC 2012)

VGG, 19層 (ILSVRC 2014)

ResNet, 152 層 (ILSVRC 2015)

深度網絡的革命

PASCAL VOC 2007——中間層數代表視覺識別的層數

HOG, DPM——淺層——34%的對象檢測率

AlexNet (RCNN)——8層——58%的對象檢測率

VGG (RCNN)——16層——66%的對象檢測率

ResNet (Faster RCNN)——101層——86%的對象檢測率

ResNet在COCO測試中的對象檢測成績

ResNet十分簡單,且容易學習

Facebook AI Research’s Torch ResNet

Torch, CIFAR-10,使用 ResNet-20到 ResNet-110, 訓練代碼等

Lasagne, CIFAR-10, 使用 ResNet-32 和 ResNet-56 以及訓練代碼等

Neon, CIFAR-10, 使用預訓練的 ResNet-32到 ResNet-110 模型、代碼等

Torch, MNIST, 100層

Neon, Place2 (mini), 40層

6個月內超過200詞引用(在2015年12月發布在arXiv上後)

深度殘差網絡——從第10層到100層

逐層深入

初始化算法

批歸一化算法

學習更好的網絡是否與堆疊層數一樣簡單?

僅是簡單的層數堆疊嗎?

層數過深的平原網絡具有更高的訓練誤差

這是一個在許多數據集中都能夠觀察到的普遍現象

網絡層數較淺的模型(18層)

網絡層數較深的模型(34層)

較高解析度空間

一個較深的網絡模型不應當具有較高的訓練誤差

通過構建形成的解析度:

原始層:由一個已經學會的較淺模型複製得來

附加層:設置為「恆等」

至少具有相同的訓練誤差

優化難題:隨著網絡層數不斷加深,求解器不能找到解決途徑

深度殘差學習

H(x)是任意一種理想的映射

希望第2類權重層能夠與H(x)擬合

殘差網絡

H(x)是任意一種理想的映射

希望第2類權重層能夠與F(x)擬合

使H(x) = F(x) + x

如果說恆等是理想,很容易將權重值設定為0

如果理想化映射更接近於恆等映射,便更容易發現微小波動

相關研究——殘差表示法

編碼殘差向量;強大的較淺表示法。

量化殘差向量;高效最近鄰搜索。

解決殘差次要問題;高效PDE求解器。

網絡「設計」

保持網絡的簡約性

我們的基本設計方案(VGG-style)

所有的3x3卷積層(幾乎所有)

空間規模/2=>#過濾器x2 (~每一層的複雜度相同)

簡約的設計風格;保持設計風格的簡約性

無隱層fc

無信息流失

訓練

CIFAR-10 實驗

ImageNet (圖像網絡)實驗

與VGG-16/19相比,該模型具有較低的時間複雜度。

圖像網絡分類誤差排行前5的網絡模型

討論表徵,優化,歸納

學習深度模型存在的一些問題

如果能夠找到最佳表徵方法,將具備構建模型的能力,以擬合訓練數據。

如果模型A的解析度空間是B的父集,模型A的解析度更高。

找到最佳表徵方法的可行性

並不是所有的模型都能非常容易地得到優化

倘若訓練數據是擬合的,測試的性能如何?

殘差網絡(ResNets)將如何解決這些問題?

殘差網絡在模型表徵方面不存在直接的優勢(只是實現重複參數化)

但是,殘差網絡允許逐層深入地表徵所有的模型

殘差網絡使得前饋式/反向傳播算法非常順利進行

在極大程度上,殘差網絡使得優化較深層模型更為簡單

殘差網絡未直接處理學習深度模型過程中存在的歸納問題

但是,更深+更薄是一種好的歸納手段

另外,對於殘差網絡的詳細介紹可見何凱明博士在2016年CVPR中的最佳論文——圖像識別的圖像識別中的深度殘差學習(Deep Residual Learning for Image Recognition)

在論文中介紹了一個深層次的殘差學習框架來解決精準度下降問題。我們明確地讓這些層適合殘差映射,而不是寄希望於每一個堆疊層直接適合一個所需的底層映射。形式上,把H(x)作為所需的基本映射,讓堆疊的非線性層適合另一個映射F(x):=H(x)-x。那麼原映射便轉化成:F(x)+x。我們假設優化剩餘的映射,比優化原來未引用的映射更容易。如果身份映射是最佳的,那麼將剩餘的映射推為零,就比用一堆非線性層來適應身份映射更容易。

公式F(x)+x可以通過「快捷連接」前饋神經網絡實現。快捷連接是那些跳過中的一層或更多層。在我們的情景中,快捷連接簡單的執行身份映射,並將它們的輸出添加到疊加層的輸出。身份快捷連接添加既不產生額外的參數,也會增加不計算的複雜度。通過反向傳播的SGD,整個網絡仍然可以被訓練成終端到端的形式,並且可以在沒有修改器的情況下很容易的使用公共資料庫(例如Caffe)。

我們在ImageNet上進行了綜合性實驗展示精準度下降問題,並對我們的方法做出評估。我們發現:

(1)特別深的殘差網絡很容易優化,但當深度增加時對應的「平面」網(即簡單的堆棧層)表現出更高的訓練誤差。

(2)深度殘差網絡能夠在大大增加深度的同時獲得高精準度, 產生的結果本質上優於以前的網絡。

相似的現象同樣出現在了CIFAR-10集中,這表明了優化的難度,以及我們方法影響的不僅僅是類似於一個特定的數據集。我們在這個超過100層數據集中提出了成功的訓練模型,並探討了超過1000層的模型。

在ImageNet分層數據集中,通過極深的殘差網絡,我們得到了非常好的結果。152層的殘差網絡在ImageNet中是最深層的網絡,同時相比於VGG網絡仍然具有較低的複雜性。我們的集成在ImageNet測試集中有3.57%排前5的誤差,並且在2015ILSVRC分類競爭中取得第一名。這種極深的陳述在其它識別任務方面也有出色的泛化性能,並帶領我們進一步贏得了第一的位置:在ILSVRC和COCO2015競賽中的,mageNet檢測,ImageNet定位,COCO檢測,和COCO分割方面。這有力的證據表明,剩餘的學習的原則是通用的,我們期望它適用於其它的視覺和非視覺問題。

PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!

via Kaiming He

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 深度| 如何理解深度學習的優化?通過分析梯度下降的軌跡
    神經網絡優化本質上是非凸的,但簡單的基於梯度的方法似乎總是能解決這樣的問題。這一現象是深度學習的核心支柱之一,並且也是我們很多理論學家試圖揭示的謎題。這篇文章將總結一些試圖攻克這一問題的近期研究,最後還將討論我與 Sanjeev Arora、Noah Golowich 和 Wei Hu 合作的一篇新論文(arXiv:1810.02281)。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    此外,深度學習的模型設計缺少系統指導,大多數深度學習模型都缺少可解釋性,這也限制了它的應用。如果加上了微分方程,那麼網絡架構就是數值微分方程,網絡訓練就是最優控制,神經網絡的設計也就能有理論指導了。如上圖所示,比較受關注的是神經網絡架構與數值微分方程之間的關係,這個領域早期比較有影響的就是北大、普林斯頓教授鄂維南老師的研究,它首次將殘差網絡理解為微分方程。
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    該網絡由基本的鏈式單元組合而成,根據單元結構對特徵信息處理方法的不同,鏈式單元分為特徵保持鏈和特徵增強鏈兩種。特徵保持鏈是鏈式網絡特徵提取過程的輸入級,保證輸入信息的完整性,而後將特徵傳遞到特徵增強鏈結構;特徵增強鏈通過自身的拓展來加深網絡深度,提升特徵提取能力。鏈式學習網絡由於具有良好的深度堆疊特性,可以獲取豐富的邊緣特徵信息,提高分割精度。
  • 萬字長文帶你看盡深度學習中的各種卷積網絡(下篇)
    《通過空洞卷積做多規模的上下文聚合》的論文作者在多層空洞卷積以外創建了一個網絡,其中的空洞率 l 每層都以指數級的方式增長。結果,當參數數量每層僅有直線式的增長時,有效的感受野實現了指數型的增長。 該論文中,空洞卷積被用於系統地聚合多規模的上下文信息,而不需要損失解析度。該論文表明,其提出的模塊提高了當時(2016 年)最先進的語義分割系統的準確率。
  • 通過深度學習來創作自己的音樂(附代碼)
    每個八度音階包含7個白鍵和5個黑鍵自動生成音樂的不同方法我將詳細討論兩種基於深度學習的自動生成音樂的架構——WaveNet和LSTM。但是,為什麼只有深度學習架構呢?深度學習是受神經結構啟發的機器學習領域。這些網絡自動從數據集中提取特徵,並且能夠學習任何非線性函數。
  • PPT模板透明背景素材
    點擊上面的懂分享·愛相助關注我們每天更新喲!
  • 李宏毅-《深度學習人類語言處理2020》中文視頻課程及ppt分享
    由國立臺灣大學李宏毅老師主講的純中文版,2020年深度學習與人類語言處理課程開課了,該課程主要講解深度學習技術在人類語言處理,比如語音識別、自然語言處理相關的知識。
  • Ppt學習中常見的一些誤區
    在ppt的學習製作過程中,我發現不少盆友都會陷入這麼幾個誤區,今天我幫大家來梳理一下,希望對你們重新認識ppt能夠有幫助。Ppt的製作同樣如此,邏輯思維梳理就是你動手做飯前的準備,沒有良好的準備,ppt做的再精美也沒有什麼用。所以內容邏輯梳理是主戰場在word,設計戰場才是ppt。
  • 基於深度學習的去噪方法簡介
    相比於傳統的人工神經網絡(Artificial Neural Network,ANN),深度神經網絡(Deep Neural Networks,DNN)隱藏層至少在2層以上,使其有了更強的抽象特徵提取能力。依據神經元的不同特點,可以把DNN分為多種不同的網絡,其中卷積神經網絡(Convolutional Neural Network,CNN)具有較強的圖像重建和圖像恢復能力。
  • 【Python機器學習】系列之線性回歸篇【深度詳細】
    嶺回歸增加L2範數項(相關係數向量平方和的平方根)來調整成本函數(殘差平方和):他就這樣一步一步的走啊走,直到有一個點走不動了,因為路是平的了,於是他卸下眼罩,已經到了谷底深處,小龍女在等他。通常,梯度下降算法是用來評估函數的局部最小值的。我們前面用的成本函數如下:
  • 《超智能體》作者講述深層神經網絡設計理念(附PPT+視頻) | 雷鋒網...
    本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到《超智能體》一書作者於建國,分享的內容就是理解為何「深層」比「淺層」網絡要好,深度學習適用於什麼任務,並嘗試找出前饋神經網絡、循環神經網絡、卷及神經網絡、殘差網絡、預訓練、多任務學習、端到端學習、自動編碼器、遷移學習、distillation、dropout、regularization、batch-normalization等技術背後的共享
  • 影史第一片《火車進站》秒變4K高清 黑白也能變「彩電」
    最近,國外一個YouTuber發布了通過神經網絡增強的1895年拍攝的紀錄片《火車進站》,整部電影只有45秒長度,由路易·盧米埃和奧古斯特·盧米埃拍攝於法國一沿海城市。這部電影採用35mm格式膠片製作,由於當時的放映機由手搖進行驅動,其原始幀率大概在16幀到24幀之間。
  • 深度學習中的注意力機制(三)
    作者 | 蘑菇先生來源 | NewBeeNLP原創出品 深度學習Attenion小綜述系列:深度學習中的注意力機制(一)深度學習中的注意力機制(二)且藉助殘差連接等機制,可以使用更深的網絡構造多跳Attention。使得模型在得到下一個注意力時,能夠考慮到之前的已經注意過的詞。「使用拷貝機制的注意力機制」:在生成式Attention基礎上,添加具備拷貝輸入源語句某部分子序列的能力。
  • 閱面科技合伙人兼CTO童志軍29頁PPT深入講解面向嵌入式設備的...
    另外由於當時GPU顯存的限制,把網絡的卷積分成分組的形式,使得網絡能夠在 GPU有限的情況下運行起來,裡面還有drop out的技巧等。AlexNet開創了神經網絡結構的一個新河,在此之後,工業界的人開始相信深度學習是有效的,可以產生一些有價值的東西,而不僅是學術界的一個玩具。
  • 教程| 如何使用TensorFlow構建、訓練和改進循環神經網絡
    目前有很多人工智慧應用都依賴於循環深度神經網絡,在谷歌(語音搜索)、百度(DeepSpeech)和亞馬遜的產品中都能看到RNN的身影。然而,當我們開始著手構建自己的 RNN 模型時,我們發現在使用神經網絡處理語音識別這樣的任務上,幾乎沒有簡單直接的先例可以遵循。
  • 懂粵語的小夥伴秒懂
    懂粵語的小夥伴秒懂時間:2019-09-28 16:11   來源:搞笑gif圖片集   責任編輯:沫朵 川北在線核心提示:原標題:然並卵什麼意思什麼梗? 懂粵語的小夥伴秒懂 然而並沒有什麼卵用是網絡詞語,表達最後其實一點用都沒有的意思。卵是指男性 ,是一些地方方言用的。
  • 務實社海哥教你玩轉PPT,打造職場最佳述職報告PPT和工作報告PPT
    務實社海哥今天教你ppt製作入門技巧,讓你編制PPT模板不求人。現在的職場工作中不可避免的需要製作PTT,無論是工作報告PPT還是述職報告PPT,一個好的PPT不僅可以讓你的老闆眼前一亮,說不定還能讓你獲得一筆巨額的風投。首先,製作PPT是衡量一個職場員工能力十分重要的指標。
  • 秒拍2016年最後榜單透露了哪些信息?
    現如今,秒拍每月公布的總榜和垂直榜單,已是目前短視頻行業最具價值的量化參考標準。2017年第一天,秒拍如約推出了2016年最後一個月的短視頻榜單。12月的秒拍原創作者播放量排名中頭部前三分別是二更視頻、王尼瑪和拜託啦學妹,前三合計播放量已經接近10億,第一名二更視頻則獨佔5億。即便是第十名的233吐槽團,播放量竟然也高達1.3億。
  • 【深度】2016年「網絡大電影」那些事兒!
    而隨著大導演、大公司在2016年也紛紛進軍「網大」,大批《道士出山》的追隨者可能「撲空」。2015年是網絡大電影飛速成長的一年。在「微電影」「網際網路電影」「新媒體電影」等商業模式相繼宣告失敗後,「網絡大電影」在視頻網站付費「風口」的帶動之下,獲得了商業上的空前成功。