每秒處理240萬幀遊戲畫面,AI訓練成本降低80%,谷歌開源SEED RL

2020-12-24 量子位

曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI

對土豪來說最痛苦的是什麼,就是有一大堆硬體卻不能實現1+1=2的效果。

AI訓練中的並行計算就是如此,縱使你有一千張GPU,也無法實現單機訓練一千倍的效果。

最近,不差錢的谷歌,開源了一種SEED RL框架,可以更容易地將AI訓練放在幾千臺機器上運行,效果比之前的方法最高提升近4倍

如果你也不差錢,在雲端上進行大規模並行計算,那麼可以節約80%的訓練成本。考慮到現在一個大型AI模型動輒上百萬的訓練費用,真的是非常可觀了。

在訓練AI玩足球遊戲這件事情上,SEED RL的處理速度可以達到每秒240萬幀。如果以60fps計算,相當於每秒可處理11小時的遊戲畫面。

SEED RL體系架構

上一代的分布式強化學習智能體IMPALA,其體系架構中包含Actor和Learner兩部分。

Actor通常在CPU上運行,並且在環境中採取的步驟與對模型進行推斷之間進行迭代,以預測下一個動作。

Actor經常會更新推理模型的參數,並且在收集到足夠數量的觀測結果後,會將觀測結果和動作的軌跡發送給Learner,從而對Learner進行優化。

在這種架構中,Learner使用來自數百臺機器上的分布式推理輸入在GPU上訓練模型。

但IMPALA存在著許多缺點:

1、使用CPU進行神經網絡推理,效率低下。而且隨著模型變大、運算量變大,問題會越來越嚴重。

2、Actor和Learner之間模型參數的帶寬成為性能的瓶頸。

3、資源利用效率低,Actor在環境和推理兩個任務之間交替進行,而這兩個任務的計算要求不同,很難在同一臺機器上充分利用資源。

SEED RL體系架構解決了以上這些缺點。Actor可以在GPU、TPU這類AI硬體加速器上完成推理,通過確保將模型參數和狀態保持在本地來加快推理速度,並避免數據傳輸瓶頸。

與IMPALA體系結構相反,SEED RL中的Actor僅在環境中執行操作。Learner在硬體加速器上使用來自多個Actor的成批數據來集中執行推理。

SEED RL在每個環境步驟將觀測結果發送給Learner的同時,使用gPRC框架的網絡庫,將延遲保持在較低水平。這使SEED RL在一臺機器上每秒最多可以實現一百萬個查詢。

Learner可以擴展到幾千個核心上,Actor的數量可以擴展到幾千臺機器,從而實現每秒百萬幀的訓練速度。

SEED RL用到了兩種最先進的算法:V-traceR2D2

V-trace負責從採樣的動作中預測動作的分布,R2D2負責根據動作的預測未來值選擇一個動作。

V-trace是基於策略梯度的方法,最早被IMPALA採用。由於Actor和Learner是異步執行,而V-trace在異步體系架構中的效果很好

第二種算法是R2D2,這是一種Q學習方法,DeepMind曾用這種算法將強化學習智能體在Atari遊戲上的水平提高了4倍,並在52款遊戲上超過了人類水平。

這種方法允許Q學習算法大規模硬體上運行的同時仍然可以使用RNN。

實驗結果

谷歌在DeepMind最近研究的開源足球遊戲項目Google Research Football中進行了基準測試。

使用64個Cloud TPU核心實現了每秒240萬幀的數據傳輸速度,與之前的最新分布式IMPALA相比,提高了80倍

IMPALA要想達到相同的速度,需要14000個CPU,而SEED RL只用了4160個CPU。對於相同的速度,IMPALA需要的CPU是SEED RL的3~4倍。

通過對並行計算的硬體加速器進行優化,我們就可以放心大膽地提高模型的大小。

在上面的足球遊戲任務中,通過增加模型大小和輸入解析度,可以解決從前未能解決的一些困難,讓訓練模型的效率大幅提高。

傳送門

論文地址:https://arxiv.org/abs/1910.06591

GitHub地址:https://github.com/google-research/seed_rl

相關焦點

  • 每秒處理240萬幀遊戲畫面,AI訓練成本降低80%,谷歌開源RL並行計算...
    AI訓練中的並行計算就是如此,縱使你有一千張GPU,也無法實現單機訓練一千倍的效果。最近,不差錢的谷歌,開源了一種SEED RL框架,可以更容易地將AI訓練放在幾千臺機器上運行,效果比之前的方法最高提升近4倍。如果你也不差錢,在雲端上進行大規模並行計算,那麼可以節約80%的訓練成本。
  • 谷歌開源SEED RL強化學習框架,訓練成本降低多達80%
    智東西3月24日消息,美國當地時間3月23日,谷歌開源了一個名為SEED RL的強化學習(RL)框架,能夠將人工智慧(AI)模型訓練擴展到數千臺機器,有助於在一臺機器上以每秒數百萬幀的速度進行訓練,並將訓練成本降低多達
  • Google開源了其大規模強化學習的框架
    > Source: https://morningpicker.com/business/googles-seed-rl-achieves本質上,DRL包含各種任務,例如運行環境,模型推斷,模型訓練或重放緩衝區。 大多數現代DRL體系結構無法有效地分配用於此任務的計算資源,從而使其實施成本不合理。 諸如AI硬體加速器之類的組件已幫助解決了其中一些限制,但它們只能走得那麼遠。 近年來,出現了新架構,這些新架構已被市場上許多最成功的DRL實現所採用。
  • 使用SEED RL大規模擴展強化學習!
    過去幾年來,強化學習(RL)在解決Go和Dota 2等遊戲方面取得的成功證明了令人矚目的進步。模型或代理通過探索環境(例如遊戲)並針對特定目標進行優化來學習。但是,當前的RL技術需要越來越多的培訓才能成功學習甚至簡單的遊戲,這使得迭代研究和產品構想在計算上既昂貴又耗時。
  • 集合三大類無模型強化學習算法,BAIR開源RL代碼庫rlpyt
    在大量已有實現中,rlpyt 對於研究者而言是更加全面的開源資源。rlpyt 的設計初衷是為深度強化學習領域中的中小規模研究提供高吞吐量代碼庫。本文將簡要介紹 rlpyt 的特徵,及其與之前工作的關聯。
  • Google 開源可大規模擴展的深度強化學習新架構 SEED RL
    本質上,DRL包含各種任務,例如運行環境、模型推斷、模型訓練或重放緩衝等等。大多數現代DRL架構都無法有效地分配這類任務的計算資源,從而導致實現成本不合理。在AI硬體加速器等組件的幫助下,我們已經克服了其中的一些限制,但仍然很有限。近年來出現的新架構已被市場上許多成功的DRL實現所採用。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    翻譯 | 林椿眄編輯 | 阿司匹林出品 | AI科技大本營近日,Facebook 在年度開發者大會 F8 上宣布開源多款 AI 工具,除了 PyTorch、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多
  • 誰說RL智能體只能在線訓練?谷歌發布離線強化學習新範式
    谷歌的這項最新研究從優化角度,為我們提供了離線強化學習研究新思路,即魯棒的 RL 算法在足夠大且多樣化的離線數據集中訓練可產生高質量的行為。該論文的訓練數據集與代碼均已開源。機器之心友情提示,訓練數據集共包含 60 個雅達利遊戲環境,谷歌宣稱其大小約為 ImageNet 的 60 x 3.5 倍。「異策略學習的潛力依然很誘人,但實現它的最佳方式依然是個謎。」
  • YouTube 直播現支持 60 幀每秒的畫面:遊戲操作溜,直播一樣溜
    在遊戲視頻流媒體裡,YouTube 是 Twitch
  • 遊戲120幀顯示器60幀有用嗎?
    這30幀這只是一個估值,根據大多數人的感覺而定的,當然人與人的感覺還有些差異。再一,當時提出這一概念的時候,已經是至少十幾二十年以前甚至更早,那時候的計算機處理器處理能力也遠遠達不到現當今計算機。30幀的概念在當時是給開發者們做開發參考用的,這個值作為一個動態畫面幀數的最低下限。
  • 英偉達首次利用AI自動生成電子遊戲視頻畫面
    在一篇研究論文中,該公司的工程師解釋了他們如何基於一些現有方法,包括一個有影響力的開源系統pix2pix。此外英偉達的工作中還應用到了生成對抗網絡(GAN)。這些方法已經廣泛用於AI圖像生成。但是英偉達還是在新產品中引入很多創新,這是世界上首個利用AI生成圖形畫面的視頻遊戲演示。
  • 因為谷歌承諾將以每秒60幀的速度提供4KHDR遊戲
    Google在今年早些時候宣布了史上第一款遊戲流媒體服務Stadia時,引起了巨大的轟動。可以理解,這項服務具有巨大的潛力,因為Google承諾將以每秒60幀的速度提供4K HDR遊戲,作為每個具有屏幕和良好網際網路連接的人的訂閱服務。但是,啟動活動未提及有關該服務的許多細節,包括其發布日期。
  • 為什麼大部分電影都是每秒 24 幀?|大象公會
    不過,普通觀眾很難對120幀有一個明確的感知;對他們來說,這部在劇情上不夠出彩的影片,觀影體驗上也僅僅是「更流暢」「更清楚」了一些而已。然而,如果拋開劇本不談,「每秒多少幀」就真的這麼無足輕重嗎?以60幀和120幀為代表的「更清晰、更流暢的世界」,又意味著什麼?為什麼電影選擇了每秒24幀?
  • 高速相機如果每秒拍攝1000億幀會是怎樣?
    根據最新一期的《自然》雜誌報導,每秒拍攝 1000 億幀,可以讓你看清光線本身。在這樣高速的拍攝下,足以捕捉到光的組成成分——光子的運動。對大多數人來說,圖像的高速捕捉,每秒 120 幀或 240 幀就足以讓我們看清「一眨眼」所發生的事情,比如一滴水滴到地面的過程。工業級高速攝像機有一些每秒可以達到每秒上萬幀,用來記錄撞擊測試、彈道軌跡,有時也用於體育比賽中擊球姿勢的分析,或者是電影特效。
  • 肉眼每秒能捕捉多少畫面?遊戲幀數達到最佳視覺效果的奧秘
    越來越多的玩家開始注意幀數的議題,像是每秒有幾幀、幀數是否穩定、掉幀的幅度有多大等等。然而比起遊戲幀數,我們也該關注肉眼對幀數的接受度。人類的肉眼每秒能夠捕捉多少畫面?肉眼與幀數之間有著什麼樣的關係呢?
  • 谷歌開源 TensorFlow Quantum,用於訓練量子模型的機器學習框架
    谷歌在其官方 AI 博客宣布推出 TensorFlow Quantum(TFQ),這是一個開源的量子機器學習庫,可將量子計算與機器學習結合在一起,訓練量子模型。谷歌表示,這種量子機器學習模型能夠處理量子數據,並能夠在量子計算機上執行。
  • 谷歌開源新AI框架 用手機實時識別3D物品位置大小方向
    3月12日,谷歌AI在其官方博客上發布了一款名為MediaPipe Objectron的算法框架,利用這個算法框架,只要一部手機,就能實時從2D視頻裡識別3D物品的位置、大小和方向。這一技術可以幫助機器人,自動駕駛汽車,圖像檢索和增強現實等領域實現一系列的應用。
  • 谷歌繼續開源新AI框架,可實現手機高效實時3D目標檢測
    分開來解釋,MediaPipe是一個開原始碼跨平臺框架,主要用於構建處理不同形式的感知數據,而 Objectron在MediaPipe中實現,並能夠在行動裝置中實時計算面向對象的3D邊界框。在計算機視覺領域裡,跟蹤3D目標是一個棘手的問題,尤其是在有限的計算資源上,例如,智慧型手機上。
  • 60Hz的屏幕,遊戲幀率超過60幀還有意義嗎?終於明白了
    某品牌240Hz顯示器產品詳情頁截圖當然也有許多人在使用著60Hz顯示器,就比如我。在使用這類屏幕玩遊戲時,在關閉垂直同步的條件下,也就是不鎖定遊戲幀率為60幀時,實際遊戲幀率往往會遠高於60Hz。2、幀率而幀率是用於遊戲等領域的名詞,單位是幀每秒FPS(Frame per Second)。我們知道從顯卡渲染的遊戲畫面是一幀一幀的輸出到顯示器,幀率就是指每秒由顯卡渲染生成的靜態圖像數量。幀率越高,遊戲畫面也就更順滑流暢。
  • 超強視頻拍攝 iPhone 12或支持4K 240幀視頻錄製
    近日,有外媒報導,iPhone 12的部分機型在相機方面迎來一項重大升級,將支持4K 120fps和4K 240fps兩種格式的視頻錄製。這將是對比蘋果當前在iPhone 11系列上的重大升級,就目前iPhone 11 Pro最高也是支持4K 60fps視頻錄製而已。