谷歌開源SEED RL強化學習框架,訓練成本降低多達80%

2020-12-04 智東西

智東西3月24日消息,美國當地時間3月23日,谷歌開源了一個名為SEED RL的強化學習(RL)框架,能夠將人工智慧(AI)模型訓練擴展到數千臺機器,有助於在一臺機器上以每秒數百萬幀的速度進行訓練,並將訓練成本降低多達80%。

這一強化學習框架的開源,也將為那些AI創企和小型AI實驗室創造一個低成本、公平的競爭環境。

據了解,該研究論文已於2019年10月15日提交在預印本平臺arXiv,並在今年2月11日進行了最新修訂,名為《SEED RL:具有加速的集中推理功能的可擴展且高效的Deep-RL(SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference)》。

論文連結:https://arxiv.org/abs/1910.06591

一、為何要研發並開源RL框架?

實際上,就現階段而言,在雲端訓練複雜的機器學習模型十分昂貴。

據研究報告數據,華盛頓大學(University of Washington)的Grover專為生成和檢測假新聞而設計,該模型在兩周的在訓練中共花費了2.5萬美元;OpenAI訓練其GPT-2語言模型,每小時需花費256美元;谷歌訓練其BERT雙向轉換器模型,預估也花費了6912美元。

而這些模型前期的訓練成本,對一些大型AI實驗室或科技巨頭來說也許不足為提,但對於許多的AI創企和小型AI實驗室而言,卻帶來了壓力。

二、SEED RL的特點與性能

基於谷歌的TensorFlow 2.0框架,SEED RL的特點是能通過集中模型推理,來利用圖形卡和TPU(張量處理單元)。

為了避免數據傳輸瓶頸,SEED RL還使用學習器組件來集中執行AI推理,而該組件也使用來自分布式推理的輸入來訓練模型。

此外,目標模型的變量和狀態信息將保持在本地,並將每個環境步驟的觀察結果發送給學習器組件。同時,由於該模型使用了基於開放原始碼通用RPC框架的網絡庫,因此它的延遲也將保持在最低水平。

SEED RL的學習器組件能夠擴展到成千上萬個核心,例如在Cloud TPU上最多可擴展到2048個,而參與者的數量可擴展多達數千臺機器。

同時,一種名為V-trace的算法可從中採樣動作的分布,而另一種名為R2D2的算法則根據該動作的預測未來值來選擇動作。

三、如何評估SEED RL性能?

為了評估SEED RL,谷歌研究團隊在常用的Arcade學習環境、幾種DeepMind實驗室環境和谷歌足球環境中,對SEED RL進行了基準測試。

研究人員表示,他們利用SEED RL成功地解決了谷歌足球任務,並使用64個雲TPU核實現了每秒240萬幀的幀數,比以前最新的分布式代理提高了80倍。

「這大大縮短了掛鍾時間,實現了顯著的加速效果。同時,由於加速器的每次操作成本比CPU低幾個數量級,因此模型實驗的成本也實現了大幅降低。」在研究人員看來,SEED RL和提交的測試結果表明,在利用加速器方面,強化學習再次超越了深度學習的其他領域。

文章來源:VentureBeat

相關焦點

  • 每秒處理240萬幀遊戲畫面,AI訓練成本降低80%,谷歌開源SEED RL
    AI訓練中的並行計算就是如此,縱使你有一千張GPU,也無法實現單機訓練一千倍的效果。最近,不差錢的谷歌,開源了一種SEED RL框架,可以更容易地將AI訓練放在幾千臺機器上運行,效果比之前的方法最高提升近4倍。
  • 每秒處理240萬幀遊戲畫面,AI訓練成本降低80%,谷歌開源RL並行計算...
    AI訓練中的並行計算就是如此,縱使你有一千張GPU,也無法實現單機訓練一千倍的效果。最近,不差錢的谷歌,開源了一種SEED RL框架,可以更容易地將AI訓練放在幾千臺機器上運行,效果比之前的方法最高提升近4倍。如果你也不差錢,在雲端上進行大規模並行計算,那麼可以節約80%的訓練成本。
  • 集合三大類無模型強化學習算法,BAIR開源RL代碼庫rlpyt
    選自BAIR作者:Adam Stooke機器之心編譯參與:魔王、張倩近日,BAIR 開源強化學習研究代碼庫 rlpyt,首次包含三大類無模型強化學習算法,並提出一種新型數據結構。2013 年有研究者提出使用深度強化學習玩遊戲,之後不久深度強化學習又被應用於模擬機器人控制,自此以後大量新算法層出不窮。
  • Google開源了其大規模強化學習的框架
    > Source: https://morningpicker.com/business/googles-seed-rl-achieves-80x-speedup-of-reinforcement-learning-73788/深度強化學習(DRL)是深度學習領域研究最快的領域之一。
  • 誰說RL智能體只能在線訓練?谷歌發布離線強化學習新範式
    谷歌的這項最新研究從優化角度,為我們提供了離線強化學習研究新思路,即魯棒的 RL 算法在足夠大且多樣化的離線數據集中訓練可產生高質量的行為。該論文的訓練數據集與代碼均已開源。機器之心友情提示,訓練數據集共包含 60 個雅達利遊戲環境,谷歌宣稱其大小約為 ImageNet 的 60 x 3.5 倍。「異策略學習的潛力依然很誘人,但實現它的最佳方式依然是個謎。」
  • Google 開源可大規模擴展的深度強化學習新架構 SEED RL
    圖源:Google AI 官博作者 | Jesus Rodriguez譯者 | 彎月,責編 | 夕顏出品 | CSDN(ID:CSDNnews)如今,深度強化學習(Deep reinforcement learning
  • 使用SEED RL大規模擴展強化學習!
    過去幾年來,強化學習(RL)在解決Go和Dota 2等遊戲方面取得的成功證明了令人矚目的進步。模型或代理通過探索環境(例如遊戲)並針對特定目標進行優化來學習。但是,當前的RL技術需要越來越多的培訓才能成功學習甚至簡單的遊戲,這使得迭代研究和產品構想在計算上既昂貴又耗時。
  • Google發布「多巴胺」開源強化學習框架,三大特性全滿足
    麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩定的。但不用擔心,Google 近日發布了一個替代方案:基於 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。 Google 的博文中提到,這個基於 Tensorflow 的強化學習框架,旨在為 RL 的研究人員提供靈活性,穩定性和可重複性的研究。
  • 人工智慧的新希望——強化學習全解
    因此,熟悉強化學習的技術會對深入學習和使用機器學習非常有幫助。如果您還沒聽說過強化學習,我建議您閱讀我之前關於(RL)平臺的介紹文章。強化學習和開源強化學習如果您已經了解了一些強化學習的基礎知識,請繼續閱讀本文。讀完本文,您將會對強化學習及實戰中實現算法有著更透徹的了解。附:下面這些算法實現的講解中,我們將假設您懂得Python的基本知識。
  • 阿里宣布開源深度學習框架XDL?谷歌、百度:沒上當
    近日,阿里巴巴透露將開源內部深度學習框架 X-DeepLearning(以下簡稱XDL),並稱其為業界首個面向廣告、推薦、搜索等高維稀疏數據場景的深度學習開源框架,可以與谷歌TensorFlow、臉書PyTorch 、亞馬遜MXNet 等現有框架形成互補。
  • 谷歌推出新型強化學習框架Dopamine
    Bellemare機器之心編譯參與:路、張倩今日,谷歌發布博客介紹其最新推出的強化學習新框架 Dopamine,該框架基於 TensorFlow,可提供靈活性、穩定性、復現性,以及快速的基準測試。這種進步非常重要,因為算法催生的這些進展還可用於其他領域,如機器人學(參見:前沿 | 谷歌提出 Sim2Real:讓機器人像人類一樣觀察世界)。通常來講,取得此類進展需要在設計上進行快速迭代(通常沒有明確的方向),打破已有方法的結構。然而,多數現有強化學習框架並不同時具備可讓研究者高效迭代 RL 方法的靈活性和穩定性,因此探索新的研究方向可能短期內無法獲得明顯的收益。
  • 谷歌,DeepMind,微軟和Uber大規模訓練深度學習模型框架簡介
    大規模訓練是在現實世界中構建深度學習解決方案最具挑戰性的方面之一。從訓練到優化,深度學習程序的生命周期需要健壯的基礎設施構建塊,以便能夠並行化和擴展計算工作負載。儘管深度學習框架正在快速發展,但相應的基礎架構模型仍處於初期階段。
  • 物理實驗成本為零!南大LAMDA開源虛擬RL訓練環境
    根據當前強化學習方法的要求,在物理環境中進行大量實驗是不可行的。  南京大學LAMDA 侍競成、俞揚等人團隊最近發表在 AAAI 2019 的論文,描述了在淘寶這個大型在線零售平臺、同時也是一個採樣成本較高的物理環境中,利用強化學習來更好地進行商品搜索的項目。
  • 谷歌開源 TensorFlow Quantum,用於訓練量子模型的機器學習框架
    谷歌在其官方 AI 博客宣布推出 TensorFlow Quantum(TFQ),這是一個開源的量子機器學習庫,可將量子計算與機器學習結合在一起,訓練量子模型。谷歌表示,這種量子機器學習模型能夠處理量子數據,並能夠在量子計算機上執行。
  • 谷歌開源序列建模框架Lingvo
    機器之心編譯機器之心編輯部自然語言處理在過去一年取得了很大進步,但直接關注 NLP 或序列建模的框架還很少。本文介紹了谷歌開源的 Lingvo,它是一種建立在 TensorFlow 上的序列建模框架。該框架重點關注協作實現與共享代碼庫,能極大提升代碼復用與研究迭代速度,NLP 的今年就靠你了~Lingvo 是世界語(Esperanto)中的一個單詞,它表示「語言」的意思。這一命名展示了 Lingvo 框架的根源:它是由 TensorFlow 開發的通用深度學習框架,它重點關注自然語言處理相關的序列建模方法,包括機器翻譯、語音識別和語音合成等。
  • 又一家中國企業曠視開源深度學習框架,面對谷歌採取局部突破戰略
    3月25日,曠視科技宣布開源深度學習框架天元(MegEngine),期望吸引開發者在此基礎上進行大規模深度學習模型訓練和部署。什麼是深度學習框架?曠視科技創始人&CTO唐文斌打了個比喻,數據是各種各樣的食材,是「炒制」算法的原材料;而算法的訓練和推理就像是烹製的過程,需要鍋具,而深度學習框架就是這樣的鍋;算力則是一灶猛火,火候到位才能燒得好菜。
  • 新智元專訪:清華大學深度強化學習框架「天授」開源|900星
    日前,清華大學人工智慧研究院基礎理論研究中心發布了深度強化學習框架「天授」,代碼已在GitHub開源(https://github.com/thu-ml/tianshou)。這也是繼「珠算」可微分概率編程庫之後,該中心推出的又一個面向複雜決策任務的編程庫。
  • 字節跳動開源高性能分布式訓練框架BytePS:兼容主流訓練框架
    近日,字節跳動人工智慧實驗室宣布開源一款高性能分布式深度學習訓練框架BytePS,在性能上顛覆了過去幾年allreduce流派一直佔據上風的局面,超出目前其他所有分布式訓練框架一倍以上的性能,且同時能夠支持Tensorflow、PyTorch、MXNet等開源庫。
  • TensorFlow與PyTorch之爭,哪個框架最適合深度學習
    選自builtin作者:Vihar Kurama機器之心編譯參與:吳攀、杜偉谷歌的 Tensorflow 與 Facebook 的 PyTorch 一直是頗受社區歡迎的兩種深度學習框架。那麼究竟哪種框架最適宜自己手邊的深度學習項目呢?
  • 訓練並行性:微軟谷歌再放大招,開源新框架
    圖源:Stanford微軟和谷歌一直積極致力於開發訓練深度神經網絡的新模型。最近,他們發布了兩個新框架:微軟的PipeDream和谷歌的GPipe。這兩個框架都遵循相似的原則,來擴展深度學習模型訓練,二者在各自的研究論文中都有詳細介紹,今天我將嘗試對其進行總結。訓練是深度學習項目生命周期中的一個領域,在模型達到一定規模前,通常認為其挑戰性不高。雖然在實驗過程中訓練基本模型比較簡單平常,但其複雜性會隨著模型的質量和大小呈線性增長。