「史上第一次在非洲舉行的 AI 頂會」ICLR 2020 將於明年 4 月 26 日於衣索比亞首都阿迪斯阿貝巴舉行。今年的 ICLR 也不算風平浪靜,收到新型冠狀病毒的影響也是首次在線上召開的AI。本次會議在最終提交的 2594 篇論文中,有 687 篇被接收,接收率為 26.5%;23% 的接收論文將進行口頭講述報告,其中 108 篇論文為 spotlight,演講時間 4 分鐘,48 篇論文將進行 10 分鐘以上的 talk。
在大會開始前的4月1號,大會評委公布了傑出論文獎:Generalization of Two-layer Neural Networks: An Asymptotic Viewpoint,雙層神經網絡的泛化性能漸進分析,本文一作正是adam的作者Jimmy Ba
我們都知道深度神經網絡性能十分強大,但具體效果為什麼這麼好,權重為什麼要這麼分配,可能連「設計者」自己都不知道如何解釋。本篇論文特別硬核!算出來了神經網絡預測誤差的顯示解!!!!!
本文研究了兩層神經網絡的泛化特性在高維度上,即當樣本數n,特徵d和神經元h以相同的速率趨於無窮大。具體來說,我們得出確切的總體兩層神經的非正規最小二乘回歸問題的風險使用梯度流訓練第一層或第二層時的網絡在不同的初始化設置下。當僅第二層係數為優化後,我們恢復了雙重下降現象:風險中的尖峰風險出現在h≈n處,進一步的過度參數化降低了風險。在相反,當優化第一層權重時,我們強調初始化的規模導致不同的歸納偏差,並表明風險與過度參數化無關。我們的理論和實驗結果表明,先前研究的模型設置可證明引起了雙重下降可能無法轉化為優化兩層神經網絡。
本文的出發點是熟知的雙重下降現象,包括卷積神經網絡(Convolutional Neural Networks,CNNs)、殘差網絡(Residual Networks,ResNets)與Transformers的許多現代深度學習模型均會出現「雙下降現象」(Double Descent Phenomenon):隨著模型大小、數據大小或訓練時間的增加,性能先提高,接著變差,然後再提高。其峰值出現在一個「臨界區」,即當模型幾乎無法擬合訓練集時。當增加神經網絡中的參數數目時,測試誤差最初會減小、增大,而當模型能夠擬合訓練集時測試誤差會經歷第二次下降。這種效果通常可以通過仔細的正則化來避免。
日本國民女團akb48白間美瑠也是double descent的忠實愛好者
雙重下降現象最早出現在人類學中(https://anthrosource.onlinelibrary.wiley.com/doi/pdf/10.1525/aa.1940.42.4.02a00020)
然後在人類學研究了雙重下降在分類問題中的表現(https://www.jstor.org/stable/2739593?seq=1#metadata_info_tab_contents),然後現在的雙重下降社群並沒有意識到這些先驅工作。這是仿生學在理解神經網絡的勝利。
這種漏cite的行為曾經讓一位researcher在iclr openreview平臺發狂(見圖)。然後這個漏cite的行為在這篇best paper也沒有得到修正。
漏citation讓人崩潰
國內也有媒體漏了這些先驅工作
這篇paper過於硬核,小編也沒有讀懂,只能截圖主要定理給大家欣賞。如此燒腦的公示,可能正是這篇paper獲得best paper的原因吧。
愚人節快樂