硬核!燒腦!ICLR2020最佳論文:ADAM作者-雙層神經網絡的泛化性能漸進分析

2021-03-02 Apollosian

「史上第一次在非洲舉行的 AI 頂會」ICLR 2020 將於明年 4 月 26 日於衣索比亞首都阿迪斯阿貝巴舉行。今年的 ICLR 也不算風平浪靜,收到新型冠狀病毒的影響也是首次在線上召開的AI。本次會議在最終提交的 2594 篇論文中,有 687 篇被接收,接收率為 26.5%;23% 的接收論文將進行口頭講述報告,其中 108 篇論文為 spotlight,演講時間 4 分鐘,48 篇論文將進行 10 分鐘以上的 talk。

在大會開始前的4月1號,大會評委公布了傑出論文獎:Generalization of Two-layer Neural Networks: An Asymptotic Viewpoint,雙層神經網絡的泛化性能漸進分析,本文一作正是adam的作者Jimmy Ba

我們都知道深度神經網絡性能十分強大,但具體效果為什麼這麼好,權重為什麼要這麼分配,可能連「設計者」自己都不知道如何解釋。本篇論文特別硬核!算出來了神經網絡預測誤差的顯示解!!!!!

本文研究了兩層神經網絡的泛化特性在高維度上,即當樣本數n,特徵d和神經元h以相同的速率趨於無窮大。具體來說,我們得出確切的總體兩層神經的非正規最小二乘回歸問題的風險使用梯度流訓練第一層或第二層時的網絡在不同的初始化設置下。當僅第二層係數為優化後,我們恢復了雙重下降現象:風險中的尖峰風險出現在h≈n處,進一步的過度參數化降低了風險。在相反,當優化第一層權重時,我們強調初始化的規模導致不同的歸納偏差,並表明風險與過度參數化無關。我們的理論和實驗結果表明,先前研究的模型設置可證明引起了雙重下降可能無法轉化為優化兩層神經網絡。

本文的出發點是熟知的雙重下降現象,包括卷積神經網絡(Convolutional Neural Networks,CNNs)、殘差網絡(Residual Networks,ResNets)與Transformers的許多現代深度學習模型均會出現「雙下降現象」(Double Descent Phenomenon):隨著模型大小、數據大小或訓練時間的增加,性能先提高,接著變差,然後再提高。其峰值出現在一個「臨界區」,即當模型幾乎無法擬合訓練集時。當增加神經網絡中的參數數目時,測試誤差最初會減小、增大,而當模型能夠擬合訓練集時測試誤差會經歷第二次下降。這種效果通常可以通過仔細的正則化來避免。


日本國民女團akb48白間美瑠也是double descent的忠實愛好者

雙重下降現象最早出現在人類學中(https://anthrosource.onlinelibrary.wiley.com/doi/pdf/10.1525/aa.1940.42.4.02a00020)

然後在人類學研究了雙重下降在分類問題中的表現(https://www.jstor.org/stable/2739593?seq=1#metadata_info_tab_contents),然後現在的雙重下降社群並沒有意識到這些先驅工作。這是仿生學在理解神經網絡的勝利。

這種漏cite的行為曾經讓一位researcher在iclr openreview平臺發狂(見圖)。然後這個漏cite的行為在這篇best paper也沒有得到修正。

漏citation讓人崩潰

國內也有媒體漏了這些先驅工作

這篇paper過於硬核,小編也沒有讀懂,只能截圖主要定理給大家欣賞。如此燒腦的公示,可能正是這篇paper獲得best paper的原因吧。

愚人節快樂

相關焦點

  • ICLR 2017即將開幕,機器之心帶你概覽論文全貌(附最佳論文與直播地址)
    提交論文的可視化在大會開始之前,我們覺得有必要了解下此屆 ICLR 大會所提交的論文的特點。不久之前,Carlos E. Perez 使用 OpenReview 上的公開數據,對 ICRL 2017 上提交的論文進行了可視化分析,這能幫助我們了解此次大會的一些概況,比如哪些論文文獻得到的評價好、作者以及引用量的分布。
  • 燒腦!CMU、北大等合著論文真的找到了神經網絡的全局最優解
    在 Zhang 等人的論文 [2016] 中,作者用隨機生成的標籤取代了真正的標籤,但仍發現隨機初始化的一階方法總能達到零訓練損失。人們普遍認為過參數化是導致該現象的主要原因,因為神經網絡只有具備足夠大的容量時才能擬合所有訓練數據。實際上,很多神經網絡架構都高度過參數化。例如,寬殘差網絡(Wide Residual Network)的參數量是訓練數據的 100 倍。
  • ICLR 2019論文解讀:量化神經網絡
    、Panda今年五月舉辦 ICLR 2019 會議共接收論文 502 篇,本文將解讀其中兩篇有關量化神經網絡的研究。id=ryM_IoAqYX深度神經網絡(DNN)已經極大推升了機器學習(ML)/人工智慧(AI)在許多不同任務中的性能,並由此帶來了許多我們日常生活中所見的成熟應用。
  • 乾貨 | 3分鐘讀完ICLR 2017最佳論文,谷歌佔據半壁江山
    此外,社區中的任何人都可以對提交內容進行評論,審核人員可以利用公眾討論來提高他們對論文的理解和評價。一、伯克利改進DeepMind神經編程解釋器,實現編程架構通用化最佳論文一是由伯克利的研究人員完成。題目是《通過遞歸實現神經編程架構通用化》。
  • Adam真的是最好的優化器嗎?有人認為不過是神經網絡進化的結果
    但近日,波士頓大學的一位助理教授做出了一個假設,他認為 Adam 或許不是最佳的優化器,只是神經網絡的訓練使其成為了最佳。Adam 優化器是深度學習中最流行的優化器之一。它適用於很多種問題,包括帶稀疏或帶噪聲梯度的模型。其易於精調的特性使得它能夠快速獲得很好的結果,實際上,默認的參數配置通常就能實現很好的效果。Adam 優化器結合了 AdaGrad 和 RMSProp 的優點。
  • 斯坦福馬騰宇:用顯式正則器提升深度神經網絡的泛化能力
    馬騰宇主要研究機器學習和算法等相關領域,目前已經在國際頂級會議和期刊上發表了40多篇高質量論文,還獲得了2018ACM博士論文獎、NeurIPS 2016最佳學生論文獎、 COLT 2018最佳論文獎等榮譽。 在馬騰宇的博士論文中,他提出了一種支持機器學習新趨勢的全新理論,該理論推進了對機器學習非凸優化算法收斂性的證明,概述了使用這種方法訓練的機器學習的模型特徵。
  • 【乾貨】ICLR'16 最佳論文獎得主剖析神經網絡深度壓縮及 DSD 訓練法
    壓縮模型而不丟失其精確度意味著在訓練好的模型中有嚴重的冗餘,這說明當前的訓練方法有不足之處。為了解決這個問題,我和來自NVIDIA的JeffPool、百度的Sharan Narang和Facebook的Peter Vajda合作開發了「密集-稀疏-密集」(DSD)的訓練方法。
  • 【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看
    ICLR 2018即將開幕,谷歌、DeepMind等大廠這幾天陸續公布了今年的論文,全是乾貨。連同3篇最佳論文和9個邀請演講一起,接下來將帶來本屆ICLR亮點的最全整理。ICLR 2018即將在明天(當地時間4月30日)在溫哥華開幕,谷歌、DeepMind等大廠這幾天陸續公布了今年的論文,全是乾貨。本文將同時介紹3篇最佳論文一起。
  • ICLR 2017匿名評審惹爭議,盤點10篇被拒卻值得一讀的好論文(附大會第一天亮點)
    id=SJZAb5cel說明:這是一篇真正新穎的論文,給出了一種逐步生長(grow)神經網絡的方法。這篇論文居然被拒了,真是讓人驚訝!這篇論文為什麼很重要呢?因為其表明了網絡可以如何通過遷移學習(transfer learning)和域適應(domain adaptation)的方式進行開發。目前還沒有多少論文在這個領域探索。2.
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    我們曾對 ICLR 2020 上的趨勢進行介紹,本文考慮的主題為知識圖譜。作者做波恩大學2018級博士生 Michael Galkin,研究方向為知識圖和對話人工智慧。在AAAI 2020 舉辦之際,他也曾對發表在AAAI 2020上知識圖譜相關的文章做了全方位的分析,具體可見「知識圖譜@AAAI2020」。
  • ICLR 2018最佳論文出爐,無華人獲獎
    大會開幕在即,主辦方於近日公布了三篇最佳論文,這三篇論文關注的分別是 Adam 的收斂性、球面 CNN、以及元學習方法。它們在  OpenReview  上的評分都比較高,均排在前十五名。上一屆 ICLR 大會,MIT 博士張馳原的成果「Understanding Deep Learning Requires Rethinking Generalization」獲得了最佳論文獎,但可惜的是,今年的三篇獲獎論文中並未出現華人的身影
  • ICLR 2020關鍵亮點與發展趨勢總結(附python實戰分析PyTorch vs Tensorflow使用情況)|文末送書
    會議總共接受了650多篇研究論文,每一篇論文都包括一個5分鐘的視頻演示和作者對論文本身的現場問答(在時間表中用綠色標記)。這段演示視頻可以說是論文的亮點,作者在其中介紹了他們的方法和主要發現。最後,想與大家分享一些有趣的資源,讓大家了解到2020年的ICLR是如何組織有序和全面的:大多數研究論文的視頻和幻燈片都是幻燈片直播,公眾可以觀看https://slideslive.com/iclr-2020輔導渠道對研究生特別有用,經驗豐富的研究人員對其問題的回答彙編在一份文件中:https://docs.google.com/document/d/1ETt6hqZAL90Cl45Hgv4S7mEJv95odG424oaDm42OH2Q
  • 神經網絡的準確率和魯棒性不能兼得?不,讓我們來仔細看看
    大量研究表明神經網絡極易受到對抗樣本的攻擊——輸入樣本上的微小擾動就能讓其預測錯誤。本文針對這個問題進行了進一步研究,發現真實圖像數據集一般是可劃分的,而利用數據集的可劃分屬性,神經網絡模型在一定條件下可以同時滿足高準確率和強魯棒性兩個要求。論文貢獻該論文的貢獻可以總結為以下三點:作者通過實驗證明了常用的真實圖像數據集是自然可劃分的。
  • 【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)
    與此同時,對存儲,特別是近年來對新型存儲結構(如 ReRAM、STT-RAM 等非易失性存儲器)以及存儲工藝(如 HBM 和 3DIC 等)的關注與日俱增。今年的 MICRO 會議中,就有採用 STT-RAM 來進行 GPU 存儲優化的論文(參見論文OSCAR)以及採用 3D 技術進行存儲功耗優化的論文(參見論文 Snatch)。
  • ECCV 2020|從一種拓撲視角來優化神經網絡的連通性的解讀
    本文是計算機視覺領域頂級會議 ECCV 2020 入選論文《Learning Connectivity of Neural Networks from a Topological Perspective》的解讀。
  • ECCV 2020 論文大盤點-光流篇
    Recurrent All-Pairs Field Transforms for Optical Flow』獲得 ECCV 2020 最佳論文獎(附相關視頻)。下載包含這些論文的 ECCV 2020 所有論文:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow作者 | Zachary Teed, Jia Deng單位 | 普林斯頓大學論文 | https://arxiv.org/abs/2003.12039代碼 | https:
  • KDD 2020最佳論文獎出爐!谷歌北航獲獎
    在繼時間檢驗獎,新星獎,創新獎,論文獎,服務獎等獎項公布之後,最佳論文獎也已出爐,其中最佳論文獎由谷歌研究院的 Walid Krichene 和 Steffen Rendle 摘得,最佳學生論文獎由杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍、楊建磊獲得。
  • 重磅論文 解析深度卷積神經網絡的14種設計模式(附下載)
    我們受到了之前這些在架構上的工作的啟發,決定闡釋神經網絡架構的可能設計模式。設計模式可以提供普遍性的指導原則,在這裡我們首先要定義用於神經網絡架構的設計模式。整體而言,要為所有的神經網絡和所有的應用定義設計原理是一項巨大的任務,所以我們將這篇論文的範圍限制在了卷積神經網絡(CNN)及其基本的圖像分類應用上。
  • 【ICML2020-斯坦福Facebook】神經網絡的圖結構:通過相關圖表達理解神經網絡
    作者系統的研究了神經網絡的圖結構是如何影響其性能的,為達成該目的,作者開發了一種新穎的稱之為relational graph(相關圖)的圖表示方式,神經網絡的層沿圖像結構進行多次信息交互。基於這種圖表示方式,作者發現了這樣幾點有意思發現:相關圖的靶點(sweet spot)可以促使神經網絡的性能極大提升;神經網絡的性能與聚類係數、平均路徑長度成平滑函數關係;優秀的神經網絡結構與真實生物神經網絡具有驚人的相似性。
  • 2020 年度 10 篇人工智慧經典論文
    學習者》(OpenAI) 榮譽 獲得 NeurIPS 2020 最佳論文。CheckList 行為測試》 榮譽 ACL 2020 最佳論文獎 摘要 雖然度量支持精度是評價泛化的主要方法,但它往往高估了 NLP 模型的性能,而用於評估模型的替代方法要麼側重於單個任務,要麼側重於特定的行為。