ICLR-17最佳論文一作張弛原新作:神經網絡層並非「生而平等」

2020-12-04 新智元

新智元2019新年寄語

2018年人工智慧成為重塑世界格局的關鍵。谷歌BERT模型刷新多項自然語言處理紀錄,DeepMind則用星際爭霸II對局再次引爆機器智能無限可能。阿里與華為分別推出AI晶片,作為底層支撐的計算體系結構也將邁入黃金十年發展期。

新智元2018年實現全球超過50萬核心產業用戶互聯。2019新春,中國人工智慧將迎來全新的競爭挑戰與生態建設契機,新智元邀你與全球人工智慧學術、產業精英一起,以開放的胸懷和堅毅的決心,成就AI新世界!

——新智元創始人兼CEO 楊靜

新智元報導

來源:arxiv 編輯:大明,文強

【新智元導讀】ICLR-17最佳論文《理解深度學習需要重新思考泛化》曾引發學界熱議。現作者張馳原和Samy Bengio等再出新作,指出神經網絡每個層並非「生而平等」,進一步拓展對神經網絡泛化的理解。

今天新智元要介紹的論文是ICLR 2017最佳論文獎得主、《理解深度學習需要重新思考泛化》的作者張弛原和Samy Bengio等人的新作:

神經網絡的各個層生而平等嗎?(Are All Layers Created Equal?)

張弛原、Samy Bengio等人新作:神經網絡各個層生而平等嗎?

在ICLR 2017那篇「重新思考泛化」的文章中,張馳原等人得出結論認為,只要參數的數量超過實踐中通常的數據點的數量,即便是簡單的層數為2的神經網絡,就已經具有完美的有限樣本表現力(finite sample expressivity)。

而在這篇新的論文中,張弛原等人繼續探討深度神經網絡的泛化能力,深入到「層」的級別,並指出在研究深度模型時,僅關注參數或範數(norm)的數量是遠遠不夠的

研究深度模型時,只考慮參數和範數的數量是不夠的

理解深層架構的學習和泛化能力是近年來一個重要的研究目標,《理解深度學習需要重新思考泛化》發表後在學界捲起了一股風暴,有人甚至稱其為「勢必顛覆我們對深度學習理解」。

ICLR 2017最佳論文《理解深度學習需要重新思考泛化》

ICLR 2017那篇文章指出,傳統方法無法解釋大規模神經網絡在實踐中泛化性能好的原因,並提出了兩個新的定義——「顯示正則化」和「隱示正則化」來討論深度學習。

作者通過在CIFAR10和ImageNet的幾個不同實驗發現:

神經網絡的有效容量對於整個數據集的暴力記憶是足夠大的;對隨機標籤進行優化的過程很容易。與對真實標籤的訓練相比,隨機標籤的訓練時間只增加了一個小的恆定因子;對標籤進行隨機化只是一種數據變換,神經網絡要學習的問題的所有其他屬性不變。

更準確地說,當對真實數據的完全隨機標記進行訓練時,神經網絡實現了零訓練誤差——當然,測試誤差並不比隨機概率好,因為訓練標籤和測試標籤之間沒有相關性。

換句話說,通過單獨使標籤隨機化,我們可以迫使模型的泛化能力顯著提升,而不改變模型、大小、超參數或優化器。

這一次,論文又提出了兩個新的概念——(訓練後)「重新初始化」和「重新隨機化魯棒性」,並認為神經網絡的層可以分為「關鍵層」和「魯棒層」;與關鍵層相比,將魯棒層重置為其初始值沒有負面影響,而且在許多情況下,魯棒層在整個訓練過程中幾乎沒有變化。

作者根據經驗研究了過度參數化深度模型的分層功能結構,為神經網絡層的異構特徵提供了證據。

再次思考神經網絡泛化:各個層並非「生而平等」

深度神經網絡在現實世界的機器學習實例中已經得到了非常成功的應用。在將這一系統應用於許多關鍵領域時,對系統的深層理解至少與其最先進的性能同樣重要。最近,關於理解為什麼深度網絡在實踐中表現優異的研究主要集中在網絡在漂移下的表現,甚至是數據分布等問題上。

與此類研究相關的另一個有趣的研究是,我們如何解釋並理解受過訓練的網絡的決策函數。雖然本文的研究問題與此相關,但採取了不同的角度,我們主要關注網絡層在受過訓練的網絡中的作用,然後將經驗結果與泛化、魯棒性等屬性聯繫起來。

本文對神經網絡表達力的理論進行了深入研究。眾所周知,具有足夠寬的單個隱藏層的神經網絡是緊湊域上的連續函數的通用逼近器。

最近的研究進一步探討了深度網絡的表達能力,是否真的優於具有相同數量的單元或邊緣的淺層網絡。同時,也廣泛討論了用有限數量的樣本表示任意函數的能力。

然而,在上述用於構建近似於特定功能的網絡的研究中,使用的網絡結構通常是「人工的」,且不太可能通過基於梯度的學習算法獲得。我們重點關注的是實證深層網絡架構中不同網絡層發揮的作用,網絡採用基於梯度的訓練。

深度神經網絡的泛化研究引起了很多人的興趣。由於大神經網絡無法在訓練集上實現隨機標記,這使得在假設空間上基於均勻收斂來應用經典學習的理論結果變得困難。

本文提供了進一步的經驗證據,並進行了可能更細緻的分析。尤其是,我們憑經驗表明,深層網絡中的層在表示預測函數時所起的作用並不均等。某些層對於產生良好的預測結果至關重要,而其他層對於在訓練中分配其參數則具備相當高的魯棒性。

此外,取決於網絡的容量和目標函數的不同複雜度,基於梯度的訓練網絡可以不使用過剩容量來保持網絡的複雜度。本文討論了對「泛化「這一概念的確切定義和涵蓋範圍。

全連接層(FCN)

圖1:MNIST數據集上FCN 3×256的魯棒性結果。(a)測試錯誤率:圖中每行對應於網絡中的每一層。第一列指定每個層的魯棒性w.r.t重新隨機化,其餘列指定不同檢查點的重新初始化魯棒性。最後一列為最終性能(在訓練期間設置的最後一個檢查點)作為參考。(b-c)權重距離:熱圖中的每個單元表示訓練參數與其初始權重的標準化2範數(b)或∞範數(c)距離

圖2:MNIST數據集上FCN 5×256的層魯棒性研究。兩個子圖使用與圖1(a)相同的布局。兩個子圖分別表示在測試錯誤(默認值)和測試損失中評估的魯棒性

大規模卷積網絡(CNN)

圖3:重新初始化所有層的魯棒性,但第一次使用檢查點0用於不同維度的隱藏層的FCN。每個條形表示完全訓練後的模型有具有一層重新初始化的模型之間的分類誤差的差異。誤差條表示通過使用不同的隨機初始化運行實驗得到的一個標準偏差。

圖4:使用CIFAR10上的VGG網絡進行分層魯棒性分析。熱圖使用與圖1中相同的布局,但加以轉置,以便更有效地對更深層的架構進行可視化。

殘差網絡(ResNets)

圖5:在CIFAR10上訓練的ResNets殘差塊的分層魯棒性分析。

圖6:在ImageNet上訓練的ResNets殘差塊的分層魯棒性分析

圖7:採用/不採用下採樣跳過分支的殘餘塊(來自ResNets V2)。C,N和R分別代表卷積、(批量)歸一化和ReLU激活

網絡層的聯合魯棒性

圖8:MNIST上FCN 5×256的聯合魯棒性分析。布局與圖1中的相同,但是圖層分為兩組(每個圖層中圖層名稱上的*標記表示),對每組中的所有圖層全部應用重新隨機化和重新初始化。

圖9:CIFAR10上ResNets的聯合魯棒性分析,基於對所有剩餘階段中除第一個殘餘塊之外的所有剩餘塊進行分組的方案。分組由圖層名稱上的*表示。

圖10:CIFAR10上ResNets的聯合魯棒性分析,以及其他分組方案。分組由圖層名稱上的*表示

加入新智元社群,成就AI新世界!

相關焦點

  • 最佳論文最佳學生論文一作均為華人,清華最高產機構
    在剛剛結束的CVPR 2020 開幕式上,悉數公布了本屆CVPR最佳論文、最佳學生論文等獎項。值得一提的是,兩個獎項的論文一作均為華人。-3d-objects-from-images-in-the-wild.html本年度的最佳論文一作是來自香港科技大學2014級的本科生吳尚哲,2018年本科畢業後,吳尚哲選擇進入了牛津大學視覺幾何組,師從歐洲計算機科學家第一人Andrew Zisserman及弟子Andrea Vedaldi,深耕計算機視覺領域,主要研究方向是圖像轉換與生成,目前就讀博士二年級。
  • ICLR 2020 華人學者交出亮眼「成績單」
    在 ICLR 2020 論文入選的 2566 位作者中,共有 655 位華人學者,其中有 2 人發表 7 篇論文,1 人發表 6 篇,1 人發表 5 篇,5 人入選 4 篇,17 人入選 3 篇,101 位入選 2 篇論文。 其中一作華人學生共有 212 人。
  • ACL論文 | 深度學習大神新作,神經網絡的自然語言翻譯應用
    講座學者之一 Kyunghyn Cho 與深度學習「大神」 Yoshua Bengio、蒙特婁大學學者 Junyoung Chung 在 ACL 大會上發表了論文,進一步展現神經機器翻譯的研究結果。在此,雷鋒網(公眾號:雷鋒網)為大家分享名為《針對神經機器翻譯,無需顯性分割的字符等級解碼器》論文全文。
  • 國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文出爐
    機器之心報導機器之心編輯部昨晚,在北京舉行的信息檢索頂會 ACM CKIM 2019 上,來自以色列的研究者獲得了最佳論文獎項,阿里巴巴獲最佳應用論文獎,最佳 Demo 獎則頒給了 IBM 的研究者。最佳論文出爐CIKM 2019 論文獎項分為三個:最佳研究論文、最佳應用論文與最佳 Demo。最佳研究論文由來自以色列內蓋夫本-古裡安大學的 Noy Cohen 等人獲得。
  • 斯坦福教授ICLR演講:圖網絡最新進展GraphRNN和GCPN(附PPT下載)
    Jure Leskovec在今年 ICLR,Jure Leskovec 教授及斯坦福、MIT 的多名研究者發表論文 How Powerful Are Graph Neural Networks?(https://cs.stanford.edu/people/jure/pubs/gin-iclr19.pdf),詳細闡述了圖神經網絡背後的原理和其強大的表徵能力,認為圖神經網絡在因果推理方面有巨大的潛力,有望成為 AI 的下一個拐點。參考閱讀:圖神經網絡將成 AI 下一拐點!
  • 自「彩票假設」理論被授予2019 ICLR 最佳論文後,該領域又有了哪些...
    在本文中,我們會深入探討該假設,並回顧 Frankle 和 Carbin 在 ICLR 2019 上發表的那篇風光無限的最佳論文《THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS》。
  • 華人一作獲最佳論文獎,第四大視覺頂會BMVC大獎出爐!
    作者 | 陳大鑫近日,BMVC 2020最佳論文獎、最佳論文獎亞軍、最佳學生論文獎、最佳學生論文獎亞軍、最佳工業論文獎等五項大獎出爐。其中最佳論文獎四位作者當中包含一作在內有三位是加利福尼亞大學戴維斯分校以及英偉達公司的國人/華人學生。
  • 深度學習盛會ICLR2017最佳論文出爐,雷鋒網帶你10min過重點附論文...
    據雷鋒網消息,ICLR論文評選結果於今日新鮮出爐。經過列為評委的火眼金睛,在507份論文中共有15篇論文成功進入口頭展示階段,181篇進入海報展示階段。除了這些被選入ICLR 2017的論文,還有三篇論文成功當選為ICLR 2017最佳論文。今天,雷鋒網小編就帶大家領略一下這三篇最佳論文的風採。
  • NeurIPS18最佳論文NeuralODE,現在有了TensorFlow實現
    銅靈 發自 凹非寺量子位 出品 | 公眾號 QbitAI還記得NeurIPS 18的最佳論文Neural Ordinary Differential Equations(後簡稱NeuralODE)嗎,最近,有一個小哥用TensorFlow實現了它。
  • 98後常春藤學霸林之秋,一作拿下CVPR最佳論文提名,首次挑戰圖片...
    在一眾獲獎論文作者中,年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的「98後」後浪——林之秋。這位常春藤的大四學生以第一作者身份提交的論文《Visual Chirality》(《視覺手性》)榮獲CVPR 2020 最佳論文提名 (Best Paper Nomination)。
  • ...加法的神經網絡:實習生領銜打造,效果不輸傳統CNN | CVPR 2020...
    去年年底,來自北京大學、華為諾亞方舟實驗室、鵬城實驗室的研究人員將這一想法付諸實踐,他們提出了一種只用加法的神經網絡AdderNet(加法器網絡)。一作是華為諾亞方舟實習生,正在北大讀博三。如今,這篇文章已經被CVPR 2020收錄(Oral),官方也在GitHub上開放了原始碼。有興趣的同學不妨前往一試究竟。
  • ICLR最佳論文:MIT科學家提出彩票假設,神經網路縮小10倍並不影響結果
    》認為神經網絡就像中彩票並不是每一張都有用,但應設法找到最能中獎的那個,因此可通過消除神經網絡結構件不必要的連接(也稱修剪)適應低功率設備,在一系列條件下不斷重複該過程,神經網絡可縮小10%到20%,但並不影響準確率,甚至比原始網絡跟快。
  • TensorLayer 2.0:保有最多官方神經網絡層的通用Python庫
    這催生了獨立開發不隸屬於任何組織的深度學習開源框架,以分享最新的神經網絡設計、數據處理工具、訓練函數和代碼樣例等,支持開發日益複雜的深度神經網絡。2016年,董豪在帝國理工讀博期間在導師郭毅可院士的領導和支持下,在Github上開源了第一個版本的TensorLayer,並於2017年獲得ACM MM最佳開源軟體獎,目前已獲得17萬次下載,成為主流框架之一。
  • 何愷明包攬全部兩項最佳論文獎!清華北航上交論文活躍...
    今年3月上傳Arxiv的 Mask R-CNN 獲得了最佳論文獎,一作就是何愷明!8月的 Focal Loss for Dense Object Detection 獲得了最佳學生論文獎。何愷明供職的 Facebook 今年有15篇論文被收錄,其中三篇有他的名字;而這三篇中的兩篇就獲得了ICCV全部的兩項最佳論文獎,實在難得,令人豔羨!
  • 斯坦福ICLR 2018錄用論文:高效稀疏Winograd卷積神經網絡| ICLR 2018
    論文「Efficient Sparse-Winograd Convolutional Neural Networks」被 ICLR 2018 錄用,第一作者、史丹福大學的博士生劉星昱為雷鋒網AI 科技評論撰寫了獨家解讀稿件,未經許可不得轉載。引言卷積神經網絡在許多機器學習應用中體現出巨大優勢。
  • 硬核NeruIPS 2018最佳論文,一個神經了的常微分方程
    機器之心原創作者:蔣思源這是一篇神奇的論文,以前一層一層疊加的神經網絡似乎突然變得連續了,反向傳播也似乎不再需要一點一點往前傳、一層一層更新參數了。在最近結束的 NeruIPS 2018 中,來自多倫多大學的陳天琦等研究者成為最佳論文的獲得者。他們提出了一種名為神經常微分方程的模型,這是新一類的深度神經網絡。神經常微分方程不拘於對已有架構的修修補補,它完全從另外一個角度考慮如何以連續的方式藉助神經網絡對數據建模。
  • 【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看
    連同3篇最佳論文和9個邀請演講一起,新智元帶來本屆ICLR亮點的最全整理。 以下帶來ICLR 2018的最佳論文的介紹,以及DeepMind和谷歌的論文概況。 論文下載地址: https://deepmind.com/blog/deepmind-papers-iclr-2018/ https://research.googleblog.com/2018/04/google-at-iclr-2018.html
  • 北大,華為Oral論文提出加法神經網絡
    這是機器之心 CVPR 2020 線上分享的第一期,我們邀請到北京大學智能科學系陳漢亭(論文一作)為我們介紹他們的 Oral 論文《AdderNet: Do We Really Need Multiplications in Deep Learning?》。在此論文中,來自北大、華為諾亞方舟實驗室等機構的作者們提出完全用加法代替乘法,用 L1 距離代替卷積運算,從而顯著減少計算力消耗。
  • 華為開源只用加法的神經網絡:實習生領銜打造,效果不輸傳統CNN
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI沒有乘法的神經網絡,你敢想像嗎?無論是單個神經元的運算還是卷積運算,都不可避免地要使用乘法。然而乘法對硬體資源的消耗遠大於加法。去年年底,來自北京大學、華為諾亞方舟實驗室、鵬城實驗室的研究人員將這一想法付諸實踐,他們提出了一種只用加法的神經網絡AdderNet(加法器網絡)。一作是華為諾亞方舟實習生,正在北大讀博三。如今,這篇文章已經被CVPR 2020收錄(Oral),官方也在GitHub上開放了原始碼。
  • ECCV 2020最佳論文講了啥?作者為ImageNet一作、李飛飛高徒鄧嘉
    其中,最佳論文獎被ImageNet一作、李飛飛高徒鄧嘉及其學生摘得。這篇名為《RAFT: Recurrent All-Pairs Field Transforms for Optical Flow》的論文,究竟講了啥?一起來學習一下。視頻中的「光流預測」在解讀這篇論文前,先來大致回顧一下論文涉及的領域,即光流預測。