「新奇」假設!Adam 或許不是最佳的深度學習優化器

2021-01-19 雷鋒網

譯者:AI研習社(Born alone°)

雙語原文連結:NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER

免責聲明:這篇文章和我平時的有些不同。事實上,我不會證明任何東西,我只是簡單地解釋一下我關於深度神經網絡優化的一些猜想。和我平時的帖子不同,我寫的東西完全有可能是錯的。

我已經從實踐和經驗的角度研究在線和隨機優化有一段時間了。所以,當Adam (Kingma and Ba, 2015)被提出時,我已經在這個領域了。

這篇論文還可以,但算不上突破,就今天的標準而言更是如此。事實上,這個理論是薄弱的:對於一種應該處理非凸函數隨機優化的算法給出了 regret guarantee。這些實驗也很弱:在這些日子裡,同樣的實驗肯定會遭到拒絕。晚些時候人們還在證明中發現了一個錯誤以及該算法不收斂於某些一維隨機凸函數的事實。儘管如此,現在 Adam 被認為是優化算法之王。讓我明確一點:眾所周知, Adam 不會總實現最佳性能, 但大多數時候,人們認為可以利用 Adam 的默認參數在處理某個深度學習問題上實現至少次優的性能。換句話說,Adam 現在被認為是深度學習的默認優化器。那麼,Adam 背後成功的秘密是什麼?

多年來,人們發表了大量的論文試圖解釋 Adam 和它的表現,太多了,不能一一列舉。從「適應學習率」(適應到什麼?沒有人確切地知道……)到動量,到幾乎標度不變性 ,它的神秘配方的每一個方面都被檢查過。然而,這些分析都沒有給我們關於其性能的最終答案。很明顯,這些成分中的大多數對任何函數的優化過程都是有益的,但仍然不清楚為什麼這個確切的組合而不是另一個組合使它成為最好的算法。混合物的平衡是如此的微妙以至於修正不收斂問題所需的小更改被認為比 Adam 表現稍差。

Adam 的名聲也伴隨著強烈的情感:閱讀 r/MachineLearning on Reddit上的帖子就足以看出人們對捍衛他們最喜歡的優化器的熱情。這種熱情你可以在宗教、體育和政治中看到。

然而,這一切的可能性有多大?我是說,Adam 是最佳優化算法的可能性有多大?幾年前,在一個如此年輕的領域,我們達到深度學習優化的頂峰的可能性有多大?它的驚人表現還有其他的解釋嗎?

我有一個假設,但在解釋之前,我們必須簡單談談深度學習社區。

在談話中,Olivier Bousquet 將深度學習社區描述為一個巨人 genetic algorithm:這個社區的研究人員正在以一種半隨機的方式探索各種算法和架構的空間。在大型實驗中一直有效的東西被保留,無效的被丟棄。請注意,這個過程似乎與論文的接受和拒絕無關:這個社區是如此的龐大和活躍,關於被拒絕論文的好想法仍然會被保存下來,並在幾個月內轉化為最佳實踐,參見舉例 (Loshchilov and Hutter, 2019)。類似地,發表的論文中的觀點被成百上千的人複製,他們無情地丟棄那些不會複製的東西。這個過程創造了許多啟發式,在實驗中始終產生良好的結果,這裡的重點是「始終如一」。事實上,儘管是一種基於非凸公式的方法,深度學習方法的性能證明是非常可靠的。(需要注意的是,深度學習社區對「名人」也有很大的偏好,所以並不是所有的想法都能得到同等程度的關注……)

那麼,這個巨大的遺傳算法和亞當之間有什麼聯繫?嗯,仔細觀察深度學習社區的創建過程,我注意到一個模式:通常人們嘗試新的架構,保持優化算法不變,大多數時候選擇的算法是 Adam。如上所述,這是因為 Adam是默認的優化器。

所以,我的假設是:Adam 是一個非常好的神經網絡架構的優化算法,我們幾年前就有了,人們不斷地發展新的架構,讓 Adam 在上面工作。因此,我們可能不會看到許多 Adam 不工作的架構,因為這些想法被過早地拋棄了!這樣的想法需要同時設計一個新的架構和一個新的優化器,這將是一個非常困難的任務。換句話說,社區只進化了一組參數(架構、初始化策略、超參數搜索算法等),大部分時間優化器都固定在 Adam 身上。

現在,我相信很多人不會相信這個假設,我相信他們會列出各種具體的問題,在這些問題中 Adam 不是最好的算法,在這些問題中 隨機梯度下降 動量是最好的,以此類推。然而,我想指出兩件事:1)我並不是在這裡描述自然規律,而是簡單地描述社區的一種趨勢,它可能會影響某些架構和優化器的共同進化;事實上,我有一些證據來支持這一說法。

如果我說的是真的,我們可以預期 Adam 在深度神經網絡方面會非常出色而在其他方面則會非常差。這確實發生了!例如,眾所周知,Adam在非深度神經網絡的簡單凸和非凸問題上表現很差,參見下面的實驗(Vaswani et al., 2019):

似乎當我們遠離深度神經網絡的特定設置,以及它們對初始化的特定選擇、特定權重的比例、特定的損失函數等,Adam 就失去了它的自適應能力,它神奇的默認學習率必須再次調整。請注意,您總是可以將線性預測器寫成單層神經網絡,但 Adam 在這種情況下也不太好用。因此,在深度學習中,所有特定的架構選擇可能已經進化到讓 Adam 工作得越來越好,而上述簡單的問題並沒有任何讓 Adam 發光的好特性。

總的來說,Adam 可能是最好的優化器,因為深度學習社區可能只在架構/優化器的聯合搜索空間中探索一小塊區域。如果這是真的,對於一個脫離凸方法的社區來說,這將是一個諷刺,因為他們只關注可能的機器學習算法的一個狹窄區域,它就像 Yann LeCun 「寫道:「在路燈下尋找丟失的車鑰匙,卻發現鑰匙丟在了別的地方。」

AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

相關焦點

  • 自Adam 出現以來,深度學習優化器發生了什麼變化?
    選自medium作者:Phúc Lê機器之心編譯參與:高璇、王淑婷Adam 自出道以來,就一直是最流行的深度學習優化器,哪怕現在其實已經有幾種可能更好用的優化器……如果將 Adam 優化出現以來產生的關於優化過程的有趣想法按時間順序排列的話,結果如下:
  • 優化器怎麼選?一文教你選擇適合不同ML項目的優化器
    編輯:小舟、杜偉為機器學習項目選擇合適的優化器不是一件簡單的事。優化器是深度學習領域的重要組成模塊之一,執行深度學習任務時採用不同的優化器會產生截然不同的效果。這也是研究者們不遺餘力「煉丹」的原因之一。
  • Uber AI 研究院深度解構 ICLR 2019 最佳論文「彩票假設」!
    在本文,Uber AI 研究院對這一「彩票假設」成果進行了深度解構,意外得到了具備強大剪枝能力的通用「超級掩模」(Supermask)!雷鋒網 AI 科技評論編譯如下。在 Uber,我們利用神經網絡從根本上提升我們對城市中的人和物的運動的理解。在其他用例中,我們使用神經網絡,通過自然語言模型來加速客戶服務響應速度,並通過跨城市需求的時空預測來縮短用戶等待時間。
  • 還不會使用PyTorch框架進行深度學習的小夥伴,看過來
    選自heartbeat.fritz.ai作者:Derrick Mwiti機器之心編譯參與:Geek AI、王淑婷這是一篇關於使用 PyTorch 框架進行深度學習的教程,讀完以後你可以輕鬆地將該框架應用於深度學習模型。
  • 圖靈獎「擁抱」深度學習
    ACM 將本屆圖靈獎頒給了深度學習領域,並且讚譽三位獲獎人為「深度學習之父」。他們分別是:Yoshua Bengio,蒙特婁大學教授,人工智慧孵化器 Element AI 聯合創始人;Geoffrey Hinton,多倫多大學名譽教授,Google Brain 高級研究員;Yann LeCun,紐約大學教授,Facebook 首席 AI 科學家。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    有無數的報告記錄了深度強化學習模型做出的各種意想不到的動作。強化學習通常被劃分為除監督機器學習和無監督機器學習以外的第三類,但在我看來,它其實就是監督學習。當前的強化學習實現步驟是這樣的:你開始訓練模型,然後你看著它失敗然後「死掉」,接著你花費大量的時間一次又一次調整獎勵函數,直到你「有可能」得到一個理想的結果,但僅僅是「有可能」。
  • 深度學習優化入門:Momentum、RMSProp 和 Adam
    原標題:深度學習優化入門:Momentum、RMSProp 和 Adam 雷鋒網 AI 研習社按:本文為雷鋒網字幕組編譯的技術博客,原標題 Intro to optimization in deep learning: Momentum, RMSProp
  • 自「彩票假設」理論被授予2019 ICLR 最佳論文後,該領域又有了哪些...
    近年來,在深度學習領域,人們將一個新的具有廣闊前景的研究領域隱喻為「彩票假說」(LTH)。在經過了大規模的實驗後,研究人員提出了許多有關深度學習的實驗性結論,但問題是:對於我們理解這些高度非線性的系統(深度神經網絡)來說,這些結論究竟有什麼含義?
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    學習和影響潛在意圖(LILI)算法。air hockey 實驗的學習結果。推薦:CoRL 2020 最佳論文。但是,隨著之前經驗的增加,需要遷移的技能也有所增多,這就對在下遊學習任務中探索全部可用技能增加了挑戰性。還好,直觀來看,並非所有技能都需要用相等的概率進行探索,例如當前狀態可以提示需要探索的技能。南加州大學的這項研究提出了一個深度潛變量模型,可以聯合學習技能的嵌入空間和來自離線智能體經驗的技能先驗。研究者將常見的最大熵強化學習方法進行擴展,以使用技能先驗引導下遊學習。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    近日,北京智源人工智慧研究院開展了第一次論壇,其以「人工智慧的數理基礎」這一重大研究方向為主題,從數學、統計和計算等角度討論了智能系統應該怎樣融合數學系統。在論壇中,北京大學董彬副教授、林偉研究院和張志華教授等研究者從基礎出發介紹了「數學」眼中的機器學習是什麼樣的。
  • 二階梯度優化新崛起,超越 Adam,Transformer 只需一半迭代量
    二階梯度是什麼想像一下,如果我們希望找到「谷底」,那麼沿著坡度一步一步往下走就行了。對於機器學習來說,「谷底」就是最優解,一步一步就是迭代過程。之前,我們採用一階梯度,也就是坡度的陡和緩來確定步子要邁多大。而當坡度是有變化的,即逐漸變陡或變緩,根據當前坡度來確定步子大小就有一些問題。
  • 2012年至今,細數深度學習領域這些年取得的經典成果
    該論文也被視作深度學習領域的經典之作。從原理來看,深度學習與神經網絡緊密相關:神經網絡由一層一層的神經元構成,層數越多,神經網絡越深,而所謂「深度學習」就是模擬人類大腦,運用深層神經網絡對輸入進行「思考」、「分析」並獲得目標輸出的過程。
  • 揭秘深度學習成功的數學原因:從全局最優性到學習表徵不變性
    本文將回顧近期研究,為深層網絡的若干屬性,如全局最優性、幾何穩定性、學習表徵不變性,提供一個數學證明。 1. 引言深層網絡 [1] 是在輸入數據上執行序列操作的參數模型。通俗講,每個這樣的操作被稱為「層」,每個層包括一個線性變換(比如其輸入的卷積)和一個逐點非線性「激活函數」(比如 Sigmoid)。
  • 關於深度學習優化器 optimizer 的選擇,你需要了解這些
    在很多機器學習和深度學習的應用中,我們發現用的最多的優化器是 Adam,為什麼呢?在 Sebastian Ruder 的這篇論文中給出了常用優化器的比較,今天來學習一下: 原文連結:https://arxiv.org/pdf/1609.04747.pdf本文將梳理:● 每個算法的梯度更新規則和缺點● 為了應對這個不足而提出的下一個算法● 超參數的一般設定值
  • 使用Numpy進行深度學習中5大反向傳播優化算法的性能比較
    在本文中,我們將通過計算二次凸函數的最優點來數值比較主要的深度學習優化算法的性能。簡介深度學習被稱為人工智慧的未來。現在,神經網絡被稱為通用函數逼近器,也就是說,它們有能力表示這個宇宙中任何複雜的函數。計算這個具有數百萬個參數的通用函數的想法來自優化的基本數學。優化可以通過多種方式完成,但在本文中,我們將重點討論基於梯度下降的優化技術。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • 深度學習的可解釋性研究(一):讓模型「說人話」
    大概是以比如 1/(e^-(2*1/(e^(-(2*x+y))+1) + 3*1/(e^(-(8*x+5*y))+1))+1) 是否大於 0.5 為標準(這已經是最簡單的模型結構了),這一連串的非線性函數的疊加公式讓人難以直接理解神經網絡的「腦迴路」,所以深度神經網絡習慣性被大家認為是黑箱模型。
  • 「深度學習才不是鍊金術」,Yann LeCun為這個和NIPS獲獎論文作者掐...
    不過意外的是,Yann LeCun 覺得自己被冒犯了,他非常不喜歡演講中把深度學習稱作「鍊金術」的說法。Yann LeCun 在自己 Facebook 上發出一條長動態清晰地表達了自己的觀點:Ali 的演講非常有趣,他的意思也講得很清楚。不過他想表達的東西我從根本上就不太同意。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    更重要的是,大家已經意識到了深度學習的種種限制,那麼想要破除限制、實現更高級的智慧時,就免不了需要思考,是「繼續改進深度學習就可以達到目標」,還是「我們需要在深度學習之外另起爐灶」,這裡也就引出了那個看似簡單,但大家尚未達成共識的問題「深度學習是什麼?」不少學者最近都參與了這個討論,雷鋒網 AI 科技評論帶大家回顧一下各方觀點。