秒懂!何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial

2021-01-11 雷鋒網

聯合編譯:Blake、高斐

雷鋒網註:何凱明博士,2007年清華大學畢業之後開始在微軟亞洲研究院(MSRA)實習,2011年香港中文大學博士畢業後正式加入MSRA,目前在Facebook AI Research (FAIR)實驗室擔任研究科學家。曾以第一作者身份拿過兩次CVPR最佳論文獎(2009和2016)——其中2016年CVPR最佳論文為圖像識別中的深度殘差學習(Deep Residual Learning for Image Recognition),本文為何凱明博士在ICML2016上的tutorial演講以及相關PPT整理。相比學術論文,他在演講PPT中深入淺出地描述了深度殘差學習框架,大幅降低了訓練更深層次神經網絡的難度,也使準確率得到顯著提升。

深度殘差網絡——讓深度學習變得超級深

ICML 2016 tutorial

何凱明——Facebook AI Research(8月加入)

概覽

從淺到深

從10層到100層

從100層到1000層

| 介紹部分

介紹——深度殘差網絡(Resnet)

圖像分類

對象檢測

語義分割

等等

Resnet在ILSVRC 和COCO 2015上的表現

在五個主要任務軌跡中都獲得了第一名的成績

ImageNet分類任務:「超級深」的152層網絡

ImageNet檢測任務:超過第二名16%

ImageNet定位任務:超過第二名27%

COCO檢測任務:超過第二名11%

COCO分割任務:超過第二名12%

深度網絡的革命(從淺層到越來越深的層級)

在ILSVRC2010年左右還主要是淺層網絡,大部分需要手動調教特徵。在ILSVRC2012年時,出現了8層的網絡——AlexNet,降低了10%的錯誤率。而後ILSVRC2014出現的VGG和GoogleNet是相當成功的,它們分別將層級提到了19層、22層,錯誤率也降低到了7.3、6.7。到去年的ILSVRC2015,我們的ResNet將層級提到了152層,將錯誤率降到了3.57。

深度網絡的革命

AlexNet, 8層 (ILSVRC 2012)

深度網絡的革命

AlexNet, 8層 (ILSVRC 2012)

VGG, 19層 (ILSVRC 2014)

GoogleNet, 22層 (ILSVRC 2014)

深度網絡的革命

AlexNet, 8層 (ILSVRC 2012)

VGG, 19層 (ILSVRC 2014)

ResNet, 152 層 (ILSVRC 2015)

深度網絡的革命

PASCAL VOC 2007——中間層數代表視覺識別的層數

HOG, DPM——淺層——34%的對象檢測率

AlexNet (RCNN)——8層——58%的對象檢測率

VGG (RCNN)——16層——66%的對象檢測率

ResNet (Faster RCNN)——101層——86%的對象檢測率

ResNet在COCO測試中的對象檢測成績

ResNet十分簡單,且容易學習

Facebook AI Research’s Torch ResNet

Torch, CIFAR-10,使用 ResNet-20到 ResNet-110, 訓練代碼等

Lasagne, CIFAR-10, 使用 ResNet-32 和 ResNet-56 以及訓練代碼等

Neon, CIFAR-10, 使用預訓練的 ResNet-32到 ResNet-110 模型、代碼等

Torch, MNIST, 100層

Neon, Place2 (mini), 40層

6個月內超過200詞引用(在2015年12月發布在arXiv上後)

深度殘差網絡——從第10層到100層

逐層深入

初始化算法

批歸一化算法

學習更好的網絡是否與堆疊層數一樣簡單?

僅是簡單的層數堆疊嗎?

層數過深的平原網絡具有更高的訓練誤差

這是一個在許多數據集中都能夠觀察到的普遍現象

網絡層數較淺的模型(18層)

網絡層數較深的模型(34層)

較高解析度空間

一個較深的網絡模型不應當具有較高的訓練誤差

通過構建形成的解析度:

原始層:由一個已經學會的較淺模型複製得來

附加層:設置為「恆等」

至少具有相同的訓練誤差

優化難題:隨著網絡層數不斷加深,求解器不能找到解決途徑

深度殘差學習

H(x)是任意一種理想的映射

希望第2類權重層能夠與H(x)擬合

殘差網絡

H(x)是任意一種理想的映射

希望第2類權重層能夠與F(x)擬合

使H(x) = F(x) + x

如果說恆等是理想,很容易將權重值設定為0

如果理想化映射更接近於恆等映射,便更容易發現微小波動

相關研究——殘差表示法

編碼殘差向量;強大的較淺表示法。

量化殘差向量;高效最近鄰搜索。

解決殘差次要問題;高效PDE求解器。

網絡「設計」

保持網絡的簡約性

我們的基本設計方案(VGG-style)

所有的3x3卷積層(幾乎所有)

空間規模/2=>#過濾器x2 (~每一層的複雜度相同)

簡約的設計風格;保持設計風格的簡約性

無隱層fc

無信息流失

訓練

CIFAR-10 實驗

ImageNet (圖像網絡)實驗

與VGG-16/19相比,該模型具有較低的時間複雜度。

圖像網絡分類誤差排行前5的網絡模型

討論表徵,優化,歸納

學習深度模型存在的一些問題

如果能夠找到最佳表徵方法,將具備構建模型的能力,以擬合訓練數據。

如果模型A的解析度空間是B的父集,模型A的解析度更高。

找到最佳表徵方法的可行性

並不是所有的模型都能非常容易地得到優化

倘若訓練數據是擬合的,測試的性能如何?

殘差網絡(ResNets)將如何解決這些問題?

殘差網絡在模型表徵方面不存在直接的優勢(只是實現重複參數化)

但是,殘差網絡允許逐層深入地表徵所有的模型

殘差網絡使得前饋式/反向傳播算法非常順利進行

在極大程度上,殘差網絡使得優化較深層模型更為簡單

殘差網絡未直接處理學習深度模型過程中存在的歸納問題

但是,更深+更薄是一種好的歸納手段

另外,對於殘差網絡的詳細介紹可見何凱明博士在2016年CVPR中的最佳論文——圖像識別的圖像識別中的深度殘差學習(Deep Residual Learning for Image Recognition)

在論文中介紹了一個深層次的殘差學習框架來解決精準度下降問題。我們明確地讓這些層適合殘差映射,而不是寄希望於每一個堆疊層直接適合一個所需的底層映射。形式上,把H(x)作為所需的基本映射,讓堆疊的非線性層適合另一個映射F(x):=H(x)-x。那麼原映射便轉化成:F(x)+x。我們假設優化剩餘的映射,比優化原來未引用的映射更容易。如果身份映射是最佳的,那麼將剩餘的映射推為零,就比用一堆非線性層來適應身份映射更容易。

公式F(x)+x可以通過「快捷連接」前饋神經網絡實現。快捷連接是那些跳過中的一層或更多層。在我們的情景中,快捷連接簡單的執行身份映射,並將它們的輸出添加到疊加層的輸出。身份快捷連接添加既不產生額外的參數,也會增加不計算的複雜度。通過反向傳播的SGD,整個網絡仍然可以被訓練成終端到端的形式,並且可以在沒有修改器的情況下很容易的使用公共資料庫(例如Caffe)。

我們在ImageNet上進行了綜合性實驗展示精準度下降問題,並對我們的方法做出評估。我們發現:

(1)特別深的殘差網絡很容易優化,但當深度增加時對應的「平面」網(即簡單的堆棧層)表現出更高的訓練誤差。

(2)深度殘差網絡能夠在大大增加深度的同時獲得高精準度, 產生的結果本質上優於以前的網絡。

相似的現象同樣出現在了CIFAR-10集中,這表明了優化的難度,以及我們方法影響的不僅僅是類似於一個特定的數據集。我們在這個超過100層數據集中提出了成功的訓練模型,並探討了超過1000層的模型。

在ImageNet分層數據集中,通過極深的殘差網絡,我們得到了非常好的結果。152層的殘差網絡在ImageNet中是最深層的網絡,同時相比於VGG網絡仍然具有較低的複雜性。我們的集成在ImageNet測試集中有3.57%排前5的誤差,並且在2015ILSVRC分類競爭中取得第一名。這種極深的陳述在其它識別任務方面也有出色的泛化性能,並帶領我們進一步贏得了第一的位置:在ILSVRC和COCO2015競賽中的,mageNet檢測,ImageNet定位,COCO檢測,和COCO分割方面。這有力的證據表明,剩餘的學習的原則是通用的,我們期望它適用於其它的視覺和非視覺問題。

PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!

via Kaiming He

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 靈魂拷問:殘差網絡解決了什麼,為什麼有效?
    深度傳送門引言殘差網絡是深度學習中的一個重要概念。目前存在幾種可能的解釋,下面分別列舉2016年的兩篇文獻和2018年的一篇文獻中的內容。3.1 從前後向信息傳播的角度來看何愷明等人從前後向信息傳播的角度給出了殘差網路的一種解釋[3]。
  • 深入探討:殘差網絡解決了什麼,為什麼有效?
    引言殘差網絡是深度學習中的一個重要概念。這篇文章將簡單介紹殘差網絡的思想,並結合文獻討論殘差網絡有效性的一些可能解釋。以下是本文的概覽:1.實驗表明,殘差網絡很好地解決了深度神經網絡的退化問題,並在ImageNet和CIFAR-10等圖像任務上取得了非常好的結果,同等層數的前提下殘差網絡也收斂得更快[1]。這使得前饋神經網絡可以採用更深的設計。
  • 獲獎無數的深度殘差學習,清華學霸的又一次No.1 | CVPR2016 最佳...
    我們提出了一種減輕網絡訓練負擔的殘差學習框架,這種網絡比以前使用過的網絡本質上層次更深。我們明確地將這層作為輸入層相關的學習殘差函數,而不是學習未知的函數。同時,我們提供了全面實驗數據,這些數據證明殘差網絡更容易優化,並且可以從深度增加中大大提高精度。我們在ImageNet數據集用152 層--比VGG網絡深8倍的深度來評估殘差網絡,但它仍具有較低的複雜度。
  • 深度學習故障診斷方法:殘差收縮網絡
    殘差收縮網絡是應用在機械故障診斷領域的一種深度學習方法,其實是殘差網絡、注意力機制和軟閾值化的結合。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    作者 |Mario Srouji 翻譯 | 永恆如新的日常、召喚神龍 校對 | 史蒂芬·二狗子 審核 | 醬番梨 整理 | 立魚王 原文連結: https://medium.com/@mariosrouji/structured-control-nets-for-deep-reinforcement-learning-tutorial-icml-published-long-talk-paper
  • 臺灣大學黃意堯:深度殘差網絡下的弱監督關係抽取 | EMNLP 2017
    問題探討我們使用卷積神經網絡來進行關係抽取,取經於計算機視覺與深度卷積神經網絡的成功,我們透過增加層數,來增加神經網絡的參數,希望可以幫助關係抽取的學習。我們猜測原因是,在 distant supervision 的數據裡面,有太多錯誤標籤的數據,這些數據帶來太多的噪聲,而這些噪聲隨著越深層的神經網絡而被放大,導致 9 層卷積神經網絡 (CNN-9) 的結果比單層 (CNN) 更差。為了解決這個問題,我們使用殘差網絡,來幫助網絡的特徵學習。
  • 深度學習之卷積神經網絡經典模型
    這個通過增加了神經網絡的深度和寬度獲得了更好地效果,在此過程中保證了計算資源的不變。這個網絡論證了加大深度,寬度以及訓練數據的增加是現有深度學習獲得更好效果的主要方式。但是增加尺寸可能會帶來過擬合的問題,因為深度與寬度的加深必然會帶來過量的參數。此外,增加網絡尺寸也帶來了對計算資源侵佔過多的缺點。
  • 神奇GIF動畫讓你秒懂各種深度學習卷積神經網絡操作原理
    打開APP 神奇GIF動畫讓你秒懂各種深度學習卷積神經網絡操作原理 深度學習思考者 發表於 2017-11-15 18:58:34
  • 深度學習入門:淺析卷積神經網絡
    針對這些問題,人們提出了卷積神經網絡,從而很好地解決了上面的三個問題。與常規神經網絡不同,卷積神經網絡的各層中的神經元是3維排列的:寬度、高度和深度(這個深度指的是某層數據的第三個維度,而不是整個網絡的深度,整個網絡的深度指的是網絡的層數)。下圖是一個卷積神經網絡,它的神經元被排列在3個維度(寬、高和深度)。
  • 如何使用Keras構建殘差神經網絡?
    什麼是殘差神經網絡?原則上,神經網絡的層數越多,應獲得越好的結果。一個更深層的網絡可以學到任何淺層的東西,甚至可能更多。如果對於給定的數據集,網絡無法通過添加更多的層來學習更多東西,那麼它就可以學習這些其他層的恆等映射(identity mappings)。這樣,它可以保留先前層中的信息,並且不會比較淺的層更糟糕。
  • 2h演講近140頁PPT,這個NeurIPS Tutorial真是超硬核的AI硬體教程
    昨日,MIT 教授 Vivienne Sze 在大會上發表了一個關於深度神經網絡加速的演講,大會提供了視頻和同步的 PPT。通過兩個小時的精彩演講和多達 140 頁的 PPT,演講可謂是將神經網絡加速這個快速發展的領域一網打盡。
  • 每日論文|單眼3D對象檢測的正交特徵變換;CRNN音源分離;何凱明:ImageNet預訓練未必那麼好
    Orthographic Feature Transform for Monocular 3D Object Detection基於單眼圖像進行3D對象檢測是一項極具挑戰性的工作,因為現有系統基本完全依賴單眼圖像的視角,其中物體的形狀和大小都可能有比較大的變形,深度和距離也不易推測
  • 為啥一定要用殘差圖檢查你的回歸分析?
    先說殘差圖究竟是什麼鬼。殘差圖是指以殘差為縱坐標,以任何其他指定的量為橫坐標的散點圖。(上圖僅是殘差的示意圖,非殘差圖,殘差圖可見下文)用普通最小二乘法(OLS)做回歸分析的人都知道,回歸分析後的結果一定要用殘差圖(residual plots)來檢查,以驗證你的模型。你有沒有想過這究竟是為什麼?
  • 百度秒懂少兒獲《中國少年兒童百科全書(2017版)》使用權
    3月7日,百度秒懂少兒和浙江教育出版集團青雲在線在北京舉行籤約儀式,秒懂少兒獲得《中國少年兒童百科全書(2017版)》系列圖書的文字、圖片及數位化資源的使用權,通過自製視頻或委託第三方製作視頻,將線下的傳統書籍和網際網路相結合,並通過秒懂少兒欄目進行傳播推廣,為少年兒童們帶來優質的內容。
  • 【第18期】(第27屆) ICML2010 Accept-paper List(158篇)
    Ihler,Padhraic Smyth,https://icml.cc/Conferences/2010/papers/246.pdf[8].作者: Rémi Bardenet,Balázs Kégl,https://icml.cc/Conferences/2010/papers/297.pdf[9].
  • 【第8期】(第17屆)ICML2000 Accept-paper List(148篇)
    作者: Thorsten Joachims,連結: https://dblp.org/rec/conf/icml/Joachims00.html[55].作者: Cen Li,Gautam Biswas,連結: https://dblp.org/rec/conf/icml/LiB00.html[68].
  • 【NIPS2017最新Tutorial】幾何深度學習(Geometric Deep Learning )講解(附slide下載)
    每年 NIPS 的會議上,都會有非常重量級的 tutorial 和工作發表。今天,專知內容組整理Michael Bronstein教授講解的Tutorial《Geometric Deep Learning on Graphs and Manifolds》(圖和流形的幾何深度學習)分享給大家。
  • 從基本組件到結構創新,67頁論文解讀深度卷積神經網絡架構
    在Inception-ResNet中,Szegedy等人結合了殘差學習和Inception塊的作用[31],[33]。這樣做時,濾波器級聯被殘差連接代替。此外,Szegedy等實驗表明,帶有殘差連接的Inception-V4(Inception-ResNet)具有與普通Inception-V4相同的泛化能力,但深度和寬度增加了。
  • 深度卷積神經網絡演化歷史及結構改進脈絡-40頁長文全面解讀
    殘差網絡 殘差網絡(Residual Network)[15]用跨層連接(Shortcut Connections)擬合殘差項(Residual Representations)的手段來解決深層網絡難以訓練的問題,將網絡的層數推廣到了前所未有的規模,作者在ImageNet數據集上使用了一個152層的殘差網絡,深度是VGG