Uber論文5連發宣告神經演化新時代,深度強化學習訓練勝過SGD和策略...

2020-12-08 雷鋒網

雷鋒網 AI 科技評論按:一直低調的 Uber AI 研究院近日連發 5 篇論文,介紹了他們在基因算法(genetic algorithm)、突變方法(mutation)和進化策略(evolution strategies)等神經演化思路方面的研究成果,同時也理論結合實驗證明了神經演化可以取代 SGD 等現有主流方法用來訓練深度強化學習模型,同時取得更好的表現。

神經演化(Neuroevolution)是一種符合直覺的、近年正在重新獲得關注的機器學習研究思路。生物進化是在繁衍中不斷產生突變、不斷出現帶有新的特性的個體,然後整個種群中能適應環境的個體生存下來、不能適應環境的就被淘汰。機器學習領域的研究者們就已經反覆嘗試過用這樣的思路探索高效的神經網絡架構(不再憑研究人員的直覺去設計),比如初始化一百個互相之間略有區別的網絡,訓練以後選出表現最好的那個,然後再拷貝出 100 個它的帶有小的隨機改變的副本(模擬生物進化中的突變),進行下一輪測試篩選和帶突變複製;前沿學術研究機構谷歌大腦(Google Brain)的負責人 Jeff Dean 也表示過神經演化是一個非常有潛力的研究方向(另一個他覺得很有潛力的方向是稀疏激活的網絡)。

但是根據這樣反覆變化+篩選的過程,我們已經可以推斷出用神經演化搜索神經網絡架構是一件非常耗費計算能力的事情,所以目前為止能得到的網絡規模也不大、完成的任務也不夠複雜。雷鋒網 AI 科技評論前段時間也報導過一篇在減小計算能力需求方面做出了很大進步的論文《進化算法可以不再需要計算集群,開普敦大學的新方法用一塊 GPU 也能刷新 MNIST 記錄》。

而這次 Uber 的論文探索了神經進化的另一種用法,就是用它訓練神經網絡。比如對於架構固定的神經網絡,用基於神經進化思路的微小擾動和突變改變連接權重,從而實現了網絡的訓練。並且他們新開發的技術可以讓網絡高效地進化,並在某些應用下取得了比基於傳統基於梯度的方法(SGD 和策略梯度)更好的表現。雷鋒網 AI 科技評論把 Uber AI 研究院綜述博文和論文簡介編譯如下。

在深度學習領域,大家已經習慣了用隨機梯度下降 SGD 來訓練上百層的、包含幾百萬個連接的深度神經網絡。雖然一開始沒能嚴格地證明 SGD 可以讓非凸函數收斂,但許多人都認為 SGD 能夠高效地訓練神經網絡的重要原因是它計算梯度的效率很高。

不過在 Uber 看來,SGD 雖然熱門,但它不一定總是最好的選擇。近日 Uber 就一口氣發布了關於神經演化(Neuroevolution)的 5 篇論文,其中的訓練方法不再是 SGD,而是進化算法;他們的研究結果表明,進化算法同樣可以高效地為強化學習模型訓練深度神經網絡。對 Uber 來說,能夠藉助數據持續自我改進的機器學習模型已經在他們的業務中佔據了不少地位,而開發出多種多樣的強有力的學習方法(比如神經進化算法)就能夠幫助他們更好地達成自己「開發更安全、更可靠的交通解決方案」的目標。

基因算法是訓練深度神經網絡時有競爭力的替代方案

藉助新開發出的技術,Uber AI 的研究人員已經可以讓深度神經網絡高效地進化。同時他們也驚訝地發現,一個非常簡單的基因算法(genetic algorithm)就可以訓練帶有超過四百萬個參數的卷積網絡,讓它能夠直接看著遊戲畫面玩 Atari 遊戲;這個網絡可以在許多遊戲裡取得比現代深度強化學習算法(比如 DQN 和 A3C)或者進化策略(evolution strategies)更好的表現,同時由於算法有更強的並行能力,還可以運行得比這些常見方法更快。

這個結果令人十分驚喜,一個原因是基因算法並不是基於梯度的,此前也沒人期待它對於四百萬個參數這樣大的參數空間還有很好的拓展性;另一個原因是,用簡單的基因算法就能達到與頂級的現代強化學習方法同等甚至更好的表現,此前也沒人覺得這事有任何可能性。

Uber AI 的研究人員們進一步的研究表明,現代的一些基因算法改進方案,比如新穎性搜索算法(novelty search)不僅在基因算法的效果基礎上得到提升,也可以在大規模深度神經網絡上工作,甚至還可以改進探索效果、對抗帶有欺騙性的問題(帶有有挑戰性的局部極小值的問題);Q-learning(DQN)、策略梯度(A3C)、進化策略、基因算法之類的基於反饋最大化思路的算法在這種狀況下的表現並不理想。

基因算法可以在 Frostbite 遊戲中玩到 10500 分;而 DQN、A3C 和進化策略的得分都不到 1000 分。

通過計算梯度做安全的突變

在另一篇論文中,Uber AI 的研究人員們展示出可以把梯度結合在神經演化中,提升它進化循環神經網絡和非常深的深度神經網絡的能力。這樣一來,超過一百層的深度神經網絡也可以進化,這要比之前的神經演化研究中得到的結果高出一個數量級。作者們的方法是計算網絡輸出關於連接權重的梯度(並不是傳統深度學習中計算訓練誤差的梯度),從而可以對隨機突變進行調節,對於最敏感那些的網絡參數也就可以處理得比以往精細得多。這樣一來就解決了以往大規模神經網絡中的隨機突變效果不好的問題。

兩張動圖展示的是同一個網絡的兩類不同的突變結果,它的目標是傳過這個迷宮(從左下角出發,目標點在左上角)。一般的突變在多數情況下都會讓模型失去走到迷宮盡頭的能力,而安全突變就很大程度上把這種能力保留了下來,同時還達成了一定的多樣性。這組對比就展示出了安全突變的明顯優勢。

進化策略 ES 和 SGD 之間有何聯繫

這項研究是對研究領域中已經出現的技巧運用的補充。OpenAI 的研究人員們首先注意到,神經演化中的各種進化策略(evolution strategy)可以用來優化深度神經網絡,尤其在深度強化學習任務中可以取得有競爭力的表現。不過目前為止這個結果更廣泛的意義和作用都還僅限於大家的猜測中。

在這項研究中,Uber AI 的研究人員們把注意力放在進化策略的進一步創新上,他們在 MNIST 數據集上進行測試,看看進化策略近似計算出的梯度和 SGD 算出的每個 mini-batch 的最優梯度到底有多大區別,以及它們之間的區別需要保持在什麼程度才能讓進化策略發揮出良好表現。實驗表明,只要提供了足夠計算資源用來提高梯度近似計算的質量,進化策略可以在 MNIST 上達到 99% 準確率。這同時也解釋了為什麼進化策略越來越成為深度強化學習領域的重要方法,就是因為隨著並行計算的程度越來越高,沒有什麼方法可以有獲得完美的梯度信息的「特權」,那麼只需近似的梯度就能發揮良好表現的進化策略在這時就會體現出優勢。

進化策略 ES 不僅僅是一個傳統的帶來有限數目的不同結果的方法

這項研究進一步拓展了對進化策略的理解。通過實證實驗表明,在足夠多的參數受到擾動時,進化策略的表現和 SGD 有所不同,因為進化策略優化的目標是由一個概率分布(體現為搜索空間中的點雲)描述的策略群落的預期回報,而 SGD 優化的目標是單獨一個策略的預期回報(搜索空間中的一個點)。 這種區別就會讓進化策略更多地在搜索空間中的不同位置上走來走去,不管最後的結果是更好還是更糟(兩種情況在論文中都有詳細介紹)。

為一個群落的參數擾動做優化還帶來另外一個結果,就是進化策略訓練出的模型要比 SGD 訓練出模型的健壯性好得多。進化策略優化一個參數群落的特點也體現出了進化策略和貝葉斯方法之間的有趣聯繫。

傳統的帶來有限個不同結果的方法(梯度下降)沒法穿過一個狹窄的不適應區(黑色),而進化策略就可以輕鬆地穿過它,來到另一側高適應性(高亮)的區域。

但另一方面,當適應區變得越來越狹窄時,進化策略會止步不前;傳統的帶來有限個不同結果的方法(梯度下降)就可以正常地沿這個方向走下去。前後這兩張圖就共同表明了這兩類方法之間的異同點和需要做出的取捨。

改進進化策略的探索能力

深度神經演化方面的研究帶來一個非常討人喜歡的結果,那就是本來為神經演化開發的各種工具如今都可以用來增強深度神經網絡的訓練過程。Uber AI 的研究人員們開發了一種新算法,它可以把進化策略的優化能力和可拓展性與神經演化中獨有的方法結合起來,用一個鼓勵各自做出不同行為的智能體群落提升強化學習任務中的探索能力。

這種基於群落的探索方式和傳統強化學習中只有一個智能體進行探索的做法有很大不同,其實乃至近期的關於深度強化學習的探索能力的研究都只靠一個智能體進行探索。Uber AI 的研究人員們通過實驗表明,增加的這種新的探索方式可以提高進化策略在許多領域的表現,包括一些 Atari 遊戲、模擬器中的仿人類行走,在這些任務中都需要躲開具有欺騙性的局部極小值。

這個智能體的目標是儘量往前走。原本的進化策略一直都沒能學會躲開這個欺騙性的陷阱。而新算法支持下的智能體身背著探索的壓力,就學會了如何躲開陷阱。

結論

對於有興趣往深度神經網絡方面多做探索的神經演化研究者們來說,有這麼幾件重要的事情需要考慮:首先,這些實驗需要的計算量要比以往大得多,Uber 這幾篇新論文中的實驗,往往需要在上百個甚至上千個同步的 CPU 集群上運行。不過,對更多 CPU 和 GPU 性能的渴求不應該被看作是對研究的阻礙。長遠來看,把演化算法拓展到大規模並行計算機系統上有很好的便捷性,也就意味著神經演化很有可能是最能在未來世界中佔到好處的算法。

這些新結果和以往在低維神經演化研究中得到的結果大有不同,它們推翻了這些年以來人們對神經演化的直覺,尤其為高維空間的搜索帶來了全新的啟示。就像人們在深度學習中發現的一樣,一旦方法的複雜度超過了某個閾值,高維空間的搜索好像反倒更容易了,因為它對局部極小值不再那麼敏感了。深度學習領域的研究者們當然已經對這種思考方法習以為常,不過神經演化領域的研究者們還只是剛剛開始消化這些見解。

舊算法和現代的海量計算能力結合起來就可以帶來好得令人驚訝的結果,神經演化的重新復興就是又一個有力的例子。神經演化方法的活力也很讓人感興趣,因為神經演化研究界開發出的許多技巧可以直接用在深度神經網絡尺度的網絡中,為有挑戰性的問題帶來各種各樣的工具。更進一步地,正如 Uber AI 在論文中展示的,神經演化的搜索方法和 SGD 的搜索方法不一樣,從而也給機器學習的各種方法裡新增了一個有趣的替代方案。Uber AI 已經開始琢磨神經演化會不會像深度學習那樣迎來一次全面復興,如果能的話,2017 年就會是這個時代的元年,而他們也非常期待在未來的幾年裡神經演化領域還能產生哪些精彩成果。

五篇新論文簡介

《Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning》

    https://arxiv.org/abs/1712.06567 

    深度神經進化:在強化學習中,基因算法是訓練深度神經網絡的有競爭力的替代方案

重點內容概要:

  • 用一個簡單、傳統、基於群落的基因算法 GA(genetic algorithm)就可以讓深度神經網絡進化,並且在有難度的強化學習任務中發揮良好表現。在 Atari 遊戲中,基因算法的表現和進化策略 ES(evolution strategies)以及基於 Q-learning(DQN)和策略梯度的深度強化學習算法表現一樣好。

  • 深度基因算法「Deep GA」可以成功讓具有超過四百萬個自由參數的網絡進化,這也是有史以來用傳統進化算法進化出的最大的神經網絡。

  • 論文中展現出一個有意思的現象:如果想要優化模型表現,在某些情況下沿著梯度走並不是最佳選擇

  • 新穎性搜索算法(Novelty Search)是一種探索算法,它適合處理反饋函數帶有欺騙性、或者反饋函數稀疏的情況。把它和深度神經網絡結合起來,就可以解決一般的反饋最大化算法(比如基因算法 GA 和進化策略 ES)無法起效的帶有欺騙性的高維度問題。

  • 論文中也體現出,深度基因算法「Deep GA」具有比進化策略 ES、A3C、DQN 更好的並行性能,那麼也就有比它們更快的運行速度。這也就帶來了頂級的編碼壓縮能力,可以用幾千個字節表示帶有數百萬個參數的深度神經網絡。

  • 論文中還嘗試了在 Atari 上做隨機搜索實驗。令人驚訝的是,在某些遊戲中隨機搜索的表現遠遠好於 DQN、A3C 和進化策略 ES,不過隨機搜索的表現總還是不如基因算法 GA。

《Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients》

    https://arxiv.org/abs/1712.06563 

    通過輸出梯度在深度神經網絡和循環神經網絡中安全地進行突變

重點內容概要:

  • 藉助梯度的安全突變 SM-G(Safe mutations through gradients)可以大幅度提升大規模、深度、循環網絡中的突變的效果,方法是測量某些特定的連接權重發生改變時網絡的敏感程度如何。

  • 計算輸出關於權重的梯度,而不是像傳統深度學習那樣計算訓練誤差或者損失函數的梯度,這可以讓隨機的更新步驟也變得安全、帶有探索性。

  • 以上兩種安全突變的過程都不要增加新的嘗試或者推演過程。

  • 實驗結果:深度神經網絡(超過 100 層)和大規模循環神經網絡只通過藉助梯度的安全突變 SM-G 的變體就可以高效地進化。

《On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent》

    https://arxiv.org/abs/1712.06564

    對 OpenAI 的進化策略和隨機梯度下降之間的關係的討論

重點內容概要:

  • 在 MNIST 數據集上的不同測試條件下,把進化策略 ES 近似計算出的梯度和隨機梯度下降 SGD 精確計算出的梯度進行對比,以此為基礎討論了進化策略 ES 和 SGD 之間的關係。

  • 開發了快速的代理方法,可以預測不同群落大小下進化策略 ES 的預期表現

  • 介紹並展示了多種不同的方法用於加速以及提高進化策略 ES 的表現。

  • 受限擾動的進化策略 ES 在並行化的基礎設施上可以大幅運行速度。

  • 把為 SGD 設計的 mini-batch 這種使用慣例替換為專門設計的進化策略 ES 方法:無 mini-batch 的進化策略 ES,它可以改進對梯度的估計。這種做法中會在算法的每次迭代中,把整個訓練 batch 的一個隨機子集分配給進化策略 ES 群落中的每一個成員。這種專門為進化策略 ES 設計的方法在同等計算量下可以提高進化策略 ES 的準確度,而且學習曲線即便和 SGD 相比都要順滑得多。

  • 在測試中,無 mini-batch 的進化策略 ES 達到了 99% 準確率,這是進化方法在這項有監督學習任務中取得的最好表現。

  • 以上種種結果都可以表明在強化學習任務中進化策略 ES 比 SGD 更有優勢。與有監督學習任務相比,強化學習任務中與環境交互、試錯得到的關於模型表現目標的梯度信息的信息量要更少,而這樣的環境就更適合進化策略 ES。

《ES Is More Than Just a Traditional Finite Difference Approximator》

    https://arxiv.org/abs/1712.06568

    進化策略遠不止是一個傳統的帶來有限個結果的近似方法

重點內容概要:

  • 提出了進化策略 ES 和傳統產生有限個結果的方法的一個重大區別,即進化策略 ES 優化的是數個解決方案的最優分布(而不是單獨一個最優解決方案)。

  • 得到了一個有意思的結果:進化策略 ES 找到的解決方案對參數擾動有很好的健壯性。比如,作者們通過仿人類步行實驗體現出,進化策略 ES 找到的解決方案要比基因算法 GA 和信賴域策略優化 TRPO 找到的類似解決方案對參數擾動的健壯性強得多。

  • 另一個有意思的結果:進化策略 ES 在傳統方法容易困在局部極小值的問題中往往會有很好的表現,反過來說也是。作者們通過幾個例子展示出了進化策略 ES 和傳統的跟隨梯度的方法之間的不同特性。

《Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents》

    https://arxiv.org/abs/1712.06560

    通過一個尋找新穎性的智能體群落,改進用於深度強化學習的進化策略的探索能力

重點內容概要:

  • 對進化策略 ES 做了改進,讓它可以更好地進行深度探索

  • 通過形成群落的探索智能體提高小尺度神經網絡進化的探索的算法,尤其是新穎性搜索算法(novelty search)和質量多樣性算法(quality diversity),可以和進化策略 ES 組合到一起,提高它在稀疏的或者欺騙性的深度強化學習任務中的表現,同時還能夠保持同等的可拓展性。

  • 確認了組合之後得到的新算法新穎性搜索進化策略 NS-ES 和質量多樣性進化策略 QD-ES 的變體 NSR-ES 可以避開進化策略 ES 會遇到的局部最優,並在多個不同的任務中取得更好的表現,包括從模擬機器人在欺騙性的陷阱附近走路,到玩高維的、輸入圖像輸出動作的 Atari 遊戲等多種任務。

  • 這一基於群落的探索算法新家庭現在已經加入了深度強化學習工具包。

via Uber Engineering Blog,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯

相關文章:

即使自動駕駛前途未卜,Uber還是建了一座模擬城市進行測試

Uber博客剛剛發文:展示其自動駕駛中的可視化工具

進化算法可以不再需要計算集群,開普敦大學的新方法用一塊GPU也能刷新MNIST記錄

谷歌最新研究成果:手工搭建神經網絡太費勁?來試試精確度高達94.1%的進化算法

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式
    許多人認為,SGD 算法有效計算梯度的能力對於這種訓練能力而言至關重要。但是,Uber 近日發布的五篇論文表明,神經進化(neuroevolution)這種利用遺傳算法的神經網絡優化策略,也是訓練深度神經網絡解決強化學習(RL)問題的有效方法。
  • 「句子級」的深度強化學習方法難以求解器空間
    backpropagation和progressivegradientxpress(引入hinton先驗,更多方法變為基於歷史記錄的scheme)都是深度學習起步之初的主流方法,除此之外還有包括reinforcementlearning和proximalandadaptiverl等重要進展。但是深度學習從起步到發展至今,說的上的諸多進展似乎都停留在rl的範疇。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    我們假設這這種方法具有線性和非線性策略的優點:可以提高訓練效率、最終的獎勵得分,以及保證學習策略的泛化性能,同時只需要較小的網絡並可以使用不同的通用訓練方法。我們通過OpenAI MuJoCo,Roboschool,Atari和定製的2維城市駕駛環境的模擬驗證了我們的假設的正確性,其中包括多種泛化性測試,使用多種黑盒和策略梯度訓練方法進行訓練。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    隨後,會討論強化學習的各種應用,包括在遊戲(特別是 AlphaGo)、機器人、口語對話系統(聊天機器人)、機器翻譯、文本序列預測、神經架構設計、個性化網絡服務、醫療、金融及音樂生成等方面的應用。我們會提到一些未覆蓋到的主題/論文。在列舉強化學習相關資源之後,我們將會以討論結束論文。
  • 專欄| 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解...
    對於裝箱問題,箱子的表面積取決於物品的放入順序、擺放的空間位置和擺放朝向。在這些因素中,物品的放入順序有著非常重要的影響。所以本文基於近些年被提出的、能夠有效解決某些組合優化問題的深度強化學習方法—Pointer Network 方法來優化物品的放入順序。本文基於大量實際業務數據對網絡模型進行了訓練和檢驗。結果表明,相對於已有的啟發式算法,深度強化學習方法能夠獲得大約 5% 的效果提升。
  • 神經網絡和深度學習簡史(全)
    「NavLab 1984 - 1994」正如論文所討論的,這一系統中的神經網絡通過普通的監督學習學會使用傳感器以及人類駕駛時記錄下的駕駛數據來控制車輛。也有研究教會機器人專門使用強化學習,正如1993年博士論文「Reinforcement learning for robots using neural networks」所示例的。
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。
  • 「深度學習」這十年:52篇大神級論文再現AI榮與光
    過去十年中有哪些有影響力的深度學習論文?從「深度學習三巨頭」到何愷明,從谷歌到MIT,52篇神級論文帶大家回顧深度學習這十年。戳右邊連結上新智元小程序了解更多! 隨著2020年的到來,人類進入了一個嶄新的十年。回顧過去10年,深度學習領域取得的巨大進步。
  • Atari 遊戲得分提升兩個數量級:Uber AI 的新強化學習算法 Go...
    然而,即使沒有任何領域知識,Go-Explore 在蒙特祖瑪中的得分也超過了 3.5 萬分,遠超現有技術三倍之多。 Go-Explore 與其他深度強化學習算法完全不同。Uber 研究院認為它可以在各種重要的,具有挑戰性的問題中取得快速進展,特別是機器人技術方面。因此他們也希望它能夠幫助 Uber 和其他團隊更多地利用人工智慧的優勢。
  • 使用深度學習來控制處於麻醉狀態的患者的意識狀態
    圖片提供:Schamberg,Badgeley和Brown。近年來,研究人員一直在為越來越廣泛的目的開發機器學習算法。這包括可應用於醫療保健環境的算法,例如幫助臨床醫生診斷特定疾病或神經精神疾病或隨時間推移監測患者的健康狀況。
  • ICML論文|阿爾法狗CTO講座: AI如何用新型強化學習玩轉圍棋撲克遊戲
    在此,我們為大家分享David Silver的論文《不完美信息遊戲中的深度強化學習自我對戰》。本篇論文主要以撲克進行實驗,探討深度強化學習與普通強化學習相比的優勢。研究此類遊戲不只是可以讓程序打贏人類大師,還可以幫助開發算法,應用於更複雜的真實世界環境中,例如機場和網絡安全、金融和能源貿易、交通管制和疏導,幫助人們在不完美的信息和高維度信息狀態空間中進行決策。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    這些技術允許深度強化學習更靈活地進行操作,能夠比之前的方法更快速地解決問題。深度強化學習的快與慢近期的 AI 研究引出了強大的技術,如深度強化學習。深度強化學習將表示學習和獎勵驅動的行為結合起來,似乎與心理學和神經科學具備內在的相關性。然而深度強化學習需要大量訓練數據,這表明深度強化學習算法與人類學習的底層機制存在根本區別。
  • 強化學習的10個現實應用
    本文我們將會聚焦於強化學習在現實生活中的實際應用。無人駕駛中的應用很多論文都提到了深度強化學習在自動駕駛領域中的應用。Wayve.ai已經成功應用了強化學習來訓練一輛車如何在白天駕駛。他們使用了深度強化學習算法來處理車道跟隨任務的問題。他們的網絡結構是一個有4個卷積層和3個全連接層的深層神經網絡。例子如圖。中間的圖像表示駕駛員視角。
  • 誰說RL智能體只能在線訓練?谷歌發布離線強化學習新範式
    谷歌的這項最新研究從優化角度,為我們提供了離線強化學習研究新思路,即魯棒的 RL 算法在足夠大且多樣化的離線數據集中訓練可產生高質量的行為。該論文的訓練數據集與代碼均已開源。機器之心友情提示,訓練數據集共包含 60 個雅達利遊戲環境,谷歌宣稱其大小約為 ImageNet 的 60 x 3.5 倍。
  • Nature重磅:科學家利用深度強化學習使全自動環境監測實現
    近日,來自谷歌研究院(Google Research )和 Alphabet 旗下公司 Loon 的研究人員組成的科研團隊,成功開發出的一種基於深度強化學習的高性能人工智慧控制器,能讓高空氣球一連數周待在原地,並根據環境因素進行實時決策並實現自主導航。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    1新智元推薦【新智元導讀】知乎專欄強化學習大講堂作者郭憲博士開講《強化學習從入門到進階》,我們為您節選了其中的第二節《基於gym和tensorflow的強化學習算法實現》,希望對您有所幫助。同時,由郭憲博士等擔任授課教師的深度強化學習國慶集訓營也將於 10 月 2 日— 6 日在北京舉辦。
  • 深度學習:神經網絡算法的昨天、今天和明天
    而這些應用背後的核心算法就是深度學習(Deep Learning),也是機器學習(Machine Learning)領域最火熱的一個分支。和其他機器學習算法有很大不同,深度學習依賴大量數據的迭代訓練,進而發現數據中內在的特徵(Feature),然後給出結果。這些特徵中,有很多已經超越了人為定義的特徵的表達能力,因此得以讓深度學習在很多任務的表現上大大超越了其他機器學習算法,甚至超越了人類自己。
  • 讓神經網絡給符號AI「打工」,MIT和IBM聯合解決深度學習痛點,未來...
    使用複雜的深度神經網絡可以解決此問題。但是,IBM、MIT和DeepMind的研究人員提出了一種截然不同的解決方案,顯示出符號AI的強大能力。該方法相關論文已經被ICLR 2019收錄。Lake和Wang分別用兩種不同方式來訓練遊戲AI。一種是監督學習,向神經網絡展示棋盤和人類提出的好問題。最終神經網絡學會了提問,但是很少有創造力。另一種是強化學習。
  • 南京大學俞揚博士:強化學習前沿(下)
    把它變成非線性函數,一個常用方法是用神經網絡,直接用神經網絡表示Q值。在更新的時候也很簡單,只需要把梯度傳到神經網絡中去就可以了,因為神經網絡的BP算法本身也是求梯度。用批量學習改進還有一些改進的方式。比如說我們在訓練近似模型的時候,在一個樣本上訓練可能會不穩定,所以可以用Batch Models的方式,積累一批數據來訓練這個模型。