智東西3月24日消息,美國當地時間3月23日,谷歌開源了一個名為SEED RL的強化學習(RL)框架,能夠將人工智慧(AI)模型訓練擴展到數千臺機器,有助於在一臺機器上以每秒數百萬幀的速度進行訓練,並將訓練成本降低多達80%。
這一強化學習框架的開源,也將為那些AI創企和小型AI實驗室創造一個低成本、公平的競爭環境。
據了解,該研究論文已於2019年10月15日提交在預印本平臺arXiv,並在今年2月11日進行了最新修訂,名為《SEED RL:具有加速的集中推理功能的可擴展且高效的Deep-RL(SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference)》。
論文連結:https://arxiv.org/abs/1910.06591
一、為何要研發並開源RL框架?
實際上,就現階段而言,在雲端訓練複雜的機器學習模型十分昂貴。
據研究報告數據,華盛頓大學(University of Washington)的Grover專為生成和檢測假新聞而設計,該模型在兩周的在訓練中共花費了2.5萬美元;OpenAI訓練其GPT-2語言模型,每小時需花費256美元;谷歌訓練其BERT雙向轉換器模型,預估也花費了6912美元。
而這些模型前期的訓練成本,對一些大型AI實驗室或科技巨頭來說也許不足為提,但對於許多的AI創企和小型AI實驗室而言,卻帶來了壓力。
二、SEED RL的特點與性能
基於谷歌的TensorFlow 2.0框架,SEED RL的特點是能通過集中模型推理,來利用圖形卡和TPU(張量處理單元)。
為了避免數據傳輸瓶頸,SEED RL還使用學習器組件來集中執行AI推理,而該組件也使用來自分布式推理的輸入來訓練模型。
此外,目標模型的變量和狀態信息將保持在本地,並將每個環境步驟的觀察結果發送給學習器組件。同時,由於該模型使用了基於開放原始碼通用RPC框架的網絡庫,因此它的延遲也將保持在最低水平。
SEED RL的學習器組件能夠擴展到成千上萬個核心,例如在Cloud TPU上最多可擴展到2048個,而參與者的數量可擴展多達數千臺機器。
同時,一種名為V-trace的算法可從中採樣動作的分布,而另一種名為R2D2的算法則根據該動作的預測未來值來選擇動作。
三、如何評估SEED RL性能?
為了評估SEED RL,谷歌研究團隊在常用的Arcade學習環境、幾種DeepMind實驗室環境和谷歌足球環境中,對SEED RL進行了基準測試。
研究人員表示,他們利用SEED RL成功地解決了谷歌足球任務,並使用64個雲TPU核實現了每秒240萬幀的幀數,比以前最新的分布式代理提高了80倍。
「這大大縮短了掛鍾時間,實現了顯著的加速效果。同時,由於加速器的每次操作成本比CPU低幾個數量級,因此模型實驗的成本也實現了大幅降低。」在研究人員看來,SEED RL和提交的測試結果表明,在利用加速器方面,強化學習再次超越了深度學習的其他領域。
文章來源:VentureBeat