Atari 遊戲得分提升兩個數量級:Uber AI 的新強化學習算法 Go...

2020-12-06 雷鋒網

雷鋒網 AI 科技評論按:近期,Uber AI 研究院提出了一種新的強化學習算法 Go-Explore ,它的目標是克服當前熱門的好奇心(內在獎勵)大類方法尚未克服的遺忘和重複探索問題。他們也在極具挑戰的 Atari 遊戲「蒙特祖瑪的復仇」和「Pitfall」中實驗了算法,取得了好幾個數量級的表現提升。雷鋒網 AI 科技評論介紹如下。

在強化學習(RL)中,解決 Atari 經典遊戲「蒙特祖瑪的復仇」和「Pitfall」是一項巨大的挑戰。這些遊戲代表了一類具有普遍挑戰性的現實問題——「硬探索問題」,即智能體必須通過非常稀疏或有欺騙性的反饋來學習複雜任務。

之前最先進的算法玩蒙特祖瑪的平均分為 11,347,最高分為 17,500,並且在十次闖關後通過了第一關。令人驚訝的是,儘管進行了大量的研究工作,但到目前為止對於 Pitfall,還沒有算法能獲得大於 0 的分數。

Atari 遊戲得分的新突破

今天介紹的 Go-Explore,是一個新的算法類型,它能夠在蒙特祖瑪上得分超過 2 百萬分,平均得分超過 400萬分!Go-Explore 可以很穩定的通關整個遊戲,其實這個遊戲只有前三關不一樣,後續關卡都是前三關的衍生(每個關卡僅在時間的長短和屏幕顯示的分數上有所不同而已)。Go-Explore 甚至可以達到159級!

在 Pitfall 中,Go-Explore的平均得分超過 21,000,遠超人類的平均表現,並且首次在已有算法上實現零得分的突破。為此,它要穿過 40 個房間,完成水上繩索跳躍、跳過鱷魚、陷阱門、移動桶、爬梯子和躲避其他危險物。

總而言之,Go-Explore 算法分別將蒙特祖瑪的復仇和 Pitfall 的得分現狀提升了兩個數量級和 21,000 分。再者它無需「人工演示」,並且在性能上完勝目前所有涉及「人工演示」的最先進的算法。

Go-Explore 可以從人工領域知識中受益,無需人工通關遊戲作為演示。領域知識很小,很容易從像素中獲得,這突出了 Go-Explore 利用最小先驗知識的深刻能力。然而,即使沒有任何領域知識,Go-Explore 在蒙特祖瑪中的得分也超過了 3.5 萬分,遠超現有技術三倍之多。

Go-Explore 與其他深度強化學習算法完全不同。Uber 研究院認為它可以在各種重要的,具有挑戰性的問題中取得快速進展,特別是機器人技術方面。因此他們也希望它能夠幫助 Uber 和其他團隊更多地利用人工智慧的優勢。

探索的挑戰

獎勵稀疏的問題很難解決,因為隨機行為無法產生獎勵,因此無法學習。蒙特祖瑪就是這樣一個獎勵稀疏的問題。獎勵具有欺騙性時就更棘手,這意味著在短期內最大化獎勵可能會使智能體在總分上表現不佳。Pitfall 中的獎勵則具有欺騙性,許多行為會導致小的負面獎勵(比如擊中敵人),因此大多數算法都選擇智能體不移動,因此永遠無法收集到其他獎勵。許多具有挑戰性的現實問題的獎勵都是稀疏和有欺騙性的。

普通的 RL 算法通常無法離開蒙特祖瑪的第一個房間(得分為400或更低)並且在 Pitfall 上得分為 0 或更低。為了嘗試解決這些挑戰,研究人員為智能體增加了探索獎勵,通常稱為內在動機(intrinsic motivation,IM),鼓勵他們到達新狀態(情境或地點)。儘管 IM 算法專門用於解決稀疏獎勵問題,但他們在蒙特祖瑪和Pitfall的任務中仍表現不佳,在蒙特祖瑪中表現最好的也鮮有能過第一關的,在Pitfall中更是以0分完敗。

Uber AI 的研究人員們猜測當前 IM 算法的一個主要弱點是分離,即算法忘記了他們訪問過的「有獎勵」的區域,這意味著他們返回這些區域的時候不會再有新的獎勵。舉個例子,想像智能體處在兩個迷宮入口之間。它先從左邊的迷宮開始隨機搜索,由於 IM 算法有要求智能體隨機的嘗試新行為以找到更多的內在獎勵的機制,在搜索完左邊迷宮的 50 %時,智能體會在任意時刻開始對右邊迷宮的搜索,但由於深度學習自身的災難性遺忘問題,在完成右邊的搜索後智能體並不記得在左邊迷宮中探索的事情;更糟糕的是,左邊迷宮的一部分已經被探索過,所以幾乎沒有可獲得的內在獎勵,這就嚴重影響了智能體的學習過程。Uber AI 的研究人員們將這種狀況稱為:算法從提供內在動機的狀態範圍分離開了。因此,當已經探索了當前智能體訪問過的區域時,探索可能會停滯。如果智能體能夠返回到先前發現的有獎勵的探索區域,就可以解決這個探索停滯問題。

內在動機(IM)算法中的分離示例。 綠色區域表示內在獎勵,白色表示沒有內在獎勵的區域,紫色區域表示算法當前正在探索的位置。

GO-explore

Go-Explore算法的高度概括

而 Uber AI 提出的新算法 Go-Explore 將學習分為兩個步驟:探索和強化。

階段1:探索到解決為止Go-Explore 構建了一個有趣的不同遊戲狀態(稱之為「單元格」)和導致狀態軌跡的存檔,如下所示:

重複到解決為止:

根據概率選擇存檔中的單元格(可選擇有可能有獎勵的單元格,例如更新的單元格)回到那個單元格從該單元格開始探索(例如,隨機進行 n 個步驟)對於所有訪問的單元格(包括新單元格),如果新的軌跡更好(例如更高的分數),則更新單元格軌跡。通過在存檔中明確記錄狀態的軌跡,Go-Explore 能夠記住並返回到「有獎勵」的區域進行探索(這不同於內在動機的訓練策略)。此外,通過探索單元格前先返回單元格的操作,特別是對於那些距離遠的、難以到達的單元格,Go-Explore 避免過度探索容易達到的狀態(例如在起點附近),而是專注於擴展其知識領域。最後,因為 Go-Explore 嘗試訪問所有可達狀態,所以它不太容易受到欺騙性獎勵的影響。熟悉質量多樣性算法的人可以理解這些想法。下文將繼續討論 Go-Explore 如何表示一種新型的質量多樣性算法。

階段2:強化(如有必要)。如果找到的解決方案對噪聲的魯棒性較差,可以使用模擬學習算法將它們置於深度神經網絡中。

單元格表示

為了能夠駕馭 Atari 遊戲這樣的高維狀態空間,Go-Explore 需要一個較低維度的單元格表示來進行存檔。因此,單元格表示應該將十分相似且無需單獨探索的狀態進行合併(但不混合意義上有差別的狀態)。重要的是,創建這樣的表示不需要遊戲特定的領域知識。經研究發現,最樸素的單元格表示可能非常有效:只需對當前遊戲框架進行下採樣。

返回單元格

根據環境的限制,可以通過以下三種方式實現探索之前先返回單元格的操作。為了提高效率:

可重置環境中,可以簡單地將環境狀態重置為單元格的狀態在確定性環境中,可以重現到細胞的軌跡在隨機環境中,人們可以訓練一個學習可靠返回到單元格的目標條件策略雖然大多數有趣的問題都是隨機的,但 Go-Explore 背後的一個核心思想是我們可以先解決問題,之後再想辦法使解決方案更加具有魯棒性(如有必要)。特別是,我們通常認為確定性會阻礙產生更具魯棒性、更高性能的智能體,但 Go-Explore 觀點與之相反,當我們了解到模擬器是確定的和可重置的(通過保存和還原模擬器狀態)事實後,確定性可能還有助於產生更高性能的智能體,然後可以隨機創建一個更強大的策略(包括添加領域隨機化)。此觀察結果與機器人任務尤為相關,在策略遷移到實際任務之前,需要在模擬器中完成相關訓練。

Atari 遊戲是可重置的,因此出於效率原因,Uber AI 的研究人員們通過加載遊戲狀態返回到先前訪問過的單元格。在蒙特祖瑪的復仇中,這種優化使他們能夠比「回顧軌跡方法」快 45 倍地通關第一級。然而,Go-Explore 不需要訪問模擬器,訪問模擬器只是為了讓它變得更快。

在這項工作中,當智能體返回一個經隨機行為探索的單元格後(很可能重複以前的行為)。儘管在強化中常常會用到神經網絡,但這種探索不需要神經網絡或其他控制器,並且後續實驗中所有的探索都不使用。完全隨機的探索工作非常好的突出了僅返回目標單元格的驚人能力。

探索階段的結果

通過下採樣圖像單元格表示,在蒙特祖瑪遊戲中, Go-Explore 僅用了先前技術的 65% 的時間就通關了第一關(其中包含24個不必要探索的房間),平均到達房間 37 個,而先前的技術水平平均只探索了22個房間。

Go-Explore在沒有領域知識(通過縮小像素表示)的探索階段發現的房間數量

魯棒化

Uber AI 當前版本的 Go-Explore 利用確定性來更快地找到解決方案(高性能軌跡)。這樣的軌跡是脆弱的:不能泛化到其他差異場景中,包括那些通過使 Atari 遊戲有點隨機的經典方式所創造的狀態,即迫使智能體在開始遊戲之前隨機 30 多次什麼都不做。

Go-Explore 通過模仿學習解決了這個脆弱性問題,模仿學習是一種可以從演示中學習魯棒無模型策略的算法。通常這樣的算法需要人工演示,但是 Go-Explore 的第1階段可以自動生成這樣的演示(其中一部分比人工演示效果更好)。

任何可靠的模仿學習算法都可行。起初 Uber AI 的研究人員們選擇了 Salimans 和 Chen 的「後向算法」,因為它是開源的,並且在提供人工演示時可以解決蒙特祖瑪的問題。

他們還發現從單一演示中學習有點不可靠。然而,因為 Go-Explore 可以產生大量的演示,他們為了同時學習多個演示而改進了後向算法(在這種情況下學習 4 個演示,以及後面的領域知識實驗中 10 個)。他們還在初始條件中添加了一個隨機數的無操作(不執行任何命令),以使策略對此類隨機性具有魯棒性。

結果具有強大的深度神經網絡策略

所有試圖從蒙特祖瑪第一關通關軌跡中學習的魯棒策略都有效。平均得分為 35,410 分,是之前技術水平均分 11,347 分的 3 倍以上,並略高於人類專家的均分 34,900 分!

無領域知識的Go-Explore與其他RL算法在Montezuma復仇中的比較。情節中的每一點都代表了一個不同的算法,測試蒙特祖瑪的復仇。

添加領域知識

算法能將易得的領域知識集成的能力是很重要的。Go-Explore 支持利用單元格表示中的領域知識。Uber AI 的研究人員們在蒙特祖瑪上測試了具有領域知識的 Go-Explore 版本,其中單元格被定義為智能體的 x-y 位置、當前房間、當前關卡和當前持有的密鑰數量的唯一組合。他們編寫了簡單的代碼來直接從像素中提取這些信息。

通過這種改進的狀態表示,在 Go-Explore 的第 1 階段,智能體就驚人地發現了 238 個房間,平均通過 9 個關卡,並且在模擬器中,相比與縮略圖的單元格表示,Go-Explore 智能體僅用了一半步驟就完成了該任務。

僅使用由像素導出的領域知識的單元格表示,Go-Explore第1階段發現的房間數量,

強化的結果

利用有領域知識的 Go-Explore 版本找到的軌跡的而產生的深度神經網絡策略,可以穩定的通過蒙特祖瑪的前三個關卡(並且對隨機數量的初始無操作具有魯棒性)。因為在這個遊戲中,3 級以上的所有關卡幾乎相同(如上所述),Go-Explore 已經通關了整個遊戲!

事實上,Uber AI 的智能體大致已經超過了他們的初始軌跡,平均通過 19 關並獲得了 469,209 的分數!這就已經突破了蒙特祖瑪的最好成績,無論是相對於傳統的 RL 算法還是以人工演示形式提供解決方案的模仿學習算法。令人難以置信的是,一些 Go-Explore 的神經網絡得到了 200 多萬分、159級!為了充分了解這些智能體可以做到什麼程度,Uber AI 增加了 OpenAI 的 Gym 允許智能體玩遊戲的時間。 Go-Explore 的最高分數遠高於人類世界紀錄 1,219,200,可以說達到了嚴格意義上的「超越人類表現」。

結合領域知識的GO-EXPLORE與其他RL算法的比較。紅點表示以人工演示的形式給出的解決方案的算法

這個破紀錄的完整視頻在加速 4 倍後仍然有 53 分鐘長。智能體不會死亡,只是達到了最大時間限制(儘管時間已經大大增加)。

Pitfall 遊戲

Pitfall 也需要大量的探索,並且比蒙特祖瑪更難,因為它的獎勵更稀疏(只有 32 個積極獎勵分散在 255 個房間中),許多行動產生小的負面獎勵,阻止 RL 算法探索環境。目前為止,所有已知的 RL 算法在這個遊戲中甚至沒有收到任何一個積極獎勵(沒有給人工演示的情況下)。

相比之下,Go-Explore 在具有最小領域知識的情況下,即我們從像素中獲得的屏幕上的位置和房間號,其能夠訪問所有 255 個房間並在算法的探索階段收集超過 60,000 個點。沒有領域知識(即在縮小的像素表示)的情況下,Go-Explore 找到了 22 個房間,但沒有找到任何獎勵。Uber AI 的研究人員們認為縮小的像素表示在Pitfall上的表現不佳,因為遊戲包含許多具有相同像素表示的不同狀態(即遊戲中位置不同但外觀相同的房間)。在沒有領域知識的情況下區分這些狀態可能需要考慮先前狀態的狀態表示,或者開發其他技術。

在Go-Explore 在Pitfall遊戲中探索階段發現的房間(左)和獲得的獎勵(右)。

從探索階段收集的軌跡中,Uber AI 能夠可靠地收集超過 21,000 點的軌跡進行強化,這大大超過現有技術水平和人類平均表現。 更長、更高得分的軌跡強化起來很困難,可能是因為視覺上無法區分的狀態可能需要採取不同的行為。 他們相信可以通過進一步研究智能體消除狀態歧義的技術來解決這個問題。

三大關鍵原則

Uber AI 認為 Go-Explore 之所以在「硬探索問題」上表現非常出色是源於三個關鍵原則:

記住探索過程中好的「基礎步驟」(目前為止訪問到的不同的有趣場景)先返回到一個場景,然後再探索先解決問題,然後進行魯棒化(如有必要)大多數 RL 算法中都沒有應用這些思想,但如果把這些思想嵌入到以往 RL 算法中,那將會是一件有意思的事情。如上所述,目前的 RL 算法不會考慮第一點。第二點很重要,因為當前的 RL 算法採用隨機擾動參數或隨機動作的探索策略是希望能夠探索到環境內的新區域,這些區域可能會因為一些策略上的改變而使得智能體表現的非常差,如在進行進一步區域探索之前不能先返回到難以到達的場景中。這個問題會隨著到達狀態的必要動作序列更長、更複雜、要求更為精確變得越來越嚴重。Go-Explore 通過首先返回狀態然後從那裡開始探索來解決這個問題。這樣做可以保證找到問題解決方案後的深入探索,然後在此基礎上魯棒化以產生更可靠的策略(原則3)。

從存檔的軌跡中保存和探索的想法來自質量多樣性(QD)算法類型(如 MAP-elites 和本地比賽的新穎搜索),Go-Explore 是基於 MAP-Elites 的增強 QD 算法。然而,之前的 QD 算法側重於通過隨機擾當前存檔策略來探索行為空間,而不是通過重新探索來明確探索狀態空間。從狀態空間的確切位置開始,之前的探索就停止了。實際上,Go-Explore 提供了比其他 QD 方法更有控制的狀態空間探索,確保探測範圍通過狀態空間累積,因為每個新的探索軌跡都離開了前一個探測軌跡的終點。

值得注意的是,當前版本的 Go-Explore 通過在探索時採取完全隨機的行為(沒有任何神經網絡!)來工作,並且即使應用在狀態空間的簡單離散化上也很有效。儘管搜索如此簡單,但它的成功有力地表明了記住和探索良好的軌跡是有效探索的關鍵,並且進行簡單探索比深層RL方法更有助於尋找新狀態並完成狀態表示。如果將其與有效的,經過學習的表示相結合,並用更智能的探索策略取代當前的隨機探索,Go-Explore 可以更加強大。這也是我們正在追求的兩種途徑。

Go-Explore 還演示了解決探索和處理環境隨機性的問題是可以通過以下兩個階段分別完成的,即先在確定性環境中進行探索然後強化相關解決方案。依賴於訪問確定性環境最初可能看起來像是 Go-Explore 的缺點。但是,Uber AI 認為確定性環境可用於許多流行的 RL 領域,包括計算機遊戲,機器人模擬器,甚至學術世界模型。一旦找到一種或多種魯棒性較弱的解決方案後,就可以在模擬中生成穩健的解決方案。如果最終目標是應用於現實中的策略(例如,機器人技術),則可以使用許多可用技術中的任何一種將強健策略從模擬器中轉移到現實世界。此外,Uber AI 計劃證明用目標條件策略替代加載確定性狀態的可能性,該策略從一開始就學習處理隨機環境。這樣的算法仍然可以從 Go-Explore 的三個關鍵原則中受益。

有些人可能持反對意見,雖然這種方法已經在採集原始像素進行 Atari 的高維域中證明有效,但它無法擴展到真實的高維域,如現實世界的模擬器中。Uber AI 則相信這種方法在真實高維域也可以工作,但它必須將不同的有趣狀態(例如,世界的學習,壓縮表示)的更智能的單元格表示與智能探索策略(不是隨機策略)相結合。有趣的是,狀態合併的越多(將更多的狀態映射到同一個單元格表示),就越需要進行智能探索以到達這些本質上不同的單元格。另外,從任意給定單元格中學習智能探索需要有效地重用探索必備技能(如遊走)。

相關工作

Go-Explore 讓人想起早期分離探索和開發的工作。然而,Go-Explore 進一步分解了探索的三個要素:積累基礎步驟、返回有獎勵的基礎步驟,並從中尋找額外的基礎步驟(即上面的原理#1和#2)。通過為每個元素插入非常簡單的算法,Go-Explore 實現了令人印象深刻的結果,這顯示了分解的價值。如上所述,與 QD 算法相比,所有當前 RL 算法的另一個不同之處在於 Go-Explore 不會通過擾亂新狀態的策略來嘗試探索新的高性能的狀態,而是首先返回到一個確定的狀態,然後從中探索。

Go-Explore 首先找到一個解決方案然後圍繞它進行優化的思路在「引導策略搜索」(https://arxiv.org/pdf/1504.00702.pdf)中已有先例。然而,這種方法需要一種無欺騙性、非稀疏、可微分的損失函數來尋找解決方案,這意味著它不能直接應用於如 某些 Atari 遊戲許多現實世界的問題一樣,獎勵是離散的、稀疏的、具有欺騙性的問題。此外,引導式策略搜索需要有可微分的全局模型或學習一組局部模型,這些局部模型易於處理,需要在訓練期間觀察系統的完整狀態。

結論

總體而言,Go-Explore 是一個用於解決硬探索的強化學習問題(即具有稀疏和/或欺騙性獎勵的問題)的令人興奮的新算法類型。 它開闢了大量新的研究方向,包括測試不同的存檔,選擇返回單元格的不同方法,不同的單元格表示,不同的探索方法,以及不同的模擬方法,如不同的模仿學習算法。 Uber AI 也很高興看到 Go-Explore 的優勢與不足, 這像是一個探索可能性的新樂園,也希望更多研究人員能和他們一起進行該領域的研究。

Uber AI 正在撰寫這篇論文,預計很快就會正式發表。介紹博客原地址為 https://eng.uber.com/go-explore/,文末也對博客發布後來自其它研究人員們的疑問給出了回應。感興趣的讀者可以繼續關注。

雷鋒網 AI 科技評論編譯。

相關焦點

  • DeepMind秀出最強遊戲AI!57場Atari遊戲超過人類,復盤遊戲AI進化史
    在維基百科上,智能代理被解釋為「一個可以觀察周遭環境並做出行動以達到目標的自主實體」,具有深度強化學習(reinforcement learning)能力。通常來說,智能代理的形態是軟體程序。而要衡量代理的深度強化學習能力,就需要一套普適的測試流程與劃分標準。1、遊戲環境是絕佳測試場地研究人員認為,遊戲是測試自適應算法的絕佳選擇。
  • AI學會「以牙還牙」,OpenAI發布多智能體深度強化學習新算法LOLA
    編者按:本文由新智元編譯,來源:OpenAI,編譯:文強,劉小芹;36氪經授權發布。OpenAI和牛津大學等研究人員合作,提出了一種新的算法LOLA,讓深度強化學習智能體在更新自己策略的同時,考慮到他人的學習過程,甚至實現雙贏。每個LOLA智能體都調整自己的策略,以便用有利的方式塑造其他智能體的學習過程。
  • 最強通用棋類AI,AlphaZero強化學習算法解讀
    AlphaZero是一個令人大開眼界且超乎尋常的強化學習算法,它以絕對的優勢戰勝了多名圍棋以及西洋棋冠軍。本文將會帶你使用AlphaZero來解決一個益智小遊戲(Dots and Boxes)並將其部署成一個純JavaScript構建的Web應用。
  • 前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式
    遊戲;而且,它能在許多遊戲中比現代深度強化學習(RL)算法(例如 DQN 和 A3C)或進化策略(ES)表現得更好,同時由於更好的並行化能達到更快的速度。要知道,這些欺騙性問題通常對獎勵最優化算法形成障礙,例如 Q 學習(DQN)、策略梯度算法(A3C)、進化策略(ES)以及遺傳算法。 左:遺傳算法在 Frostbite 中得分 10500。DQN、AC3 和 ES 的得分均未超過 1000;右:遺傳算法在 Asteroids 也表現得很好。
  • 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!
    伯克利 AI 研究院給出了一個很好的答案——元強化學習(meta-RL)。但這一次伯克利 AI 研究院不只是使用了元強化學習,還考慮POMDP、異步策略梯度等等知識體系,最終得到了一個高樣本效率、高探索效率的新算法「PEARL」。這一成果不僅為解決 AI 的實際問題提供新的思考角度;同時也是實現在現實系統中規模化應用元強化學習的的第一步。
  • OpenAI發布強化學習環境Gym Retro:支持千種遊戲
    在本次發布之後,OpenAI 公開發布的遊戲數量將從大約 70 個雅達利和 30 個世嘉遊戲增加到了 1000 多個遊戲,其中包括對任天堂 Game boy 等各種模擬器的支持。此外,OpenAI 還將發布用於向 Gym 平臺添加新遊戲的工具。OpenAI 利用 Gym Retro 對強化學習算法及學習能力的泛化進行了研究。
  • OpenAI「約束強化學習」:AI安全探索要從娃娃抓起! | 獵雲網
    如今OpenAI在「安全約束性」上又玩出了新花樣:開源了Safety Gym。Safety Gym:為拯救「AI犯錯」不遺餘力Safety Gym是一套用於評估強化學習智能體在訓練過程中是否遵守了「安全性約束」的訓練環境和工具,簡單來講,這套工具是要讓AI減少試錯的可能性,在其訓練的過程中約束、規範他們。
  • Uber論文5連發宣告神經演化新時代,深度強化學習訓練勝過SGD和策略...
    同時他們也驚訝地發現,一個非常簡單的基因算法(genetic algorithm)就可以訓練帶有超過四百萬個參數的卷積網絡,讓它能夠直接看著遊戲畫面玩 Atari 遊戲;這個網絡可以在許多遊戲裡取得比現代深度強化學習算法(比如 DQN 和 A3C)或者進化策略(evolution strategies)更好的表現,同時由於算法有更強的並行能力,還可以運行得比這些常見方法更快。
  • 谷歌發布離線強化學習新範式
    谷歌的這項最新研究從優化角度,為我們提供了離線強化學習研究新思路,即魯棒的 RL 算法在足夠大且多樣化的離線數據集中訓練可產生高質量的行為。該論文的訓練數據集與代碼均已開源。機器之心友情提示,訓練數據集共包含 60 個雅達利遊戲環境,谷歌宣稱其大小約為 ImageNet 的 60 x 3.5 倍。
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    誰能想到,僅僅淡出了兩年,DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽,利用多項常規和殘局訓練,實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出(2019年,該文章在預印本平臺發布)。
  • 深度強化學習從入門到大師:以刺蝟索尼克遊戲為例講解PPO(第六部分)
    我們要開始復現最先進的算法,因此需要代碼的更高的效率。這也是為什麼,我們將整個代碼分為不同對對象和文件來實現。 為了實現一個PPO智能體,需要讀一讀如下包含完成PPO過程的筆記和代碼解釋: (((0)))(((1))) 如上所述,你已經創建了一個學習如何玩刺蝟索尼克系列遊戲1,2,3的智能體。太棒了!一個好的智能體需要在一個GPU上訓練10到15小時。
  • Uber 開源 AI 可視化調試工具 Manifold,2 個工作流讓計算性能提升...
    /wiki/Mean_absolute_error 為了讓模型迭代過程更加可操作,並能夠提供更多的信息,Manifold 應運而生,它是一個用於機器學習性能診斷和模型調試的可視化工具。該方法演變成了最終的性能圖表,並具有兩個顯著的優點:而在工具的「性能比較」視圖中顯示模式的關鍵,在於把測試數據集分成子集。在 Manifold 中,子集是基於一個或多個性能列的聚類算法自動生成的,於每個模型,具有相似性能的數據被分到同一個組中(因為該算法確保模型 X 的性能對於子集 Y 中不同的數據點是一致的)。下圖則說明了這個過程:
  • 華為諾亞ICLR 2020滿分論文:基於強化學習的因果發現算法
    在此論文中,華為諾亞方舟實驗室因果研究團隊將強化學習應用到打分法的因果發現算法中,通過基於自注意力機制的 encoder-decoder 神經網絡模型探索數據之間的關係,結合因果結構的條件,並使用策略梯度的強化學習算法對神經網絡參數進行訓練,最終得到因果圖結構。在學術界常用的一些數據模型中,該方法在中等規模的圖上的表現優於其他方法,包括傳統的因果發現算法和近期的基於梯度的算法。
  • ICML論文|阿爾法狗CTO講座: AI如何用新型強化學習玩轉圍棋撲克遊戲
    在此,我們為大家分享David Silver的論文《不完美信息遊戲中的深度強化學習自我對戰》。本篇論文主要以撲克進行實驗,探討深度強化學習與普通強化學習相比的優勢。研究此類遊戲不只是可以讓程序打贏人類大師,還可以幫助開發算法,應用於更複雜的真實世界環境中,例如機場和網絡安全、金融和能源貿易、交通管制和疏導,幫助人們在不完美的信息和高維度信息狀態空間中進行決策。
  • 深度強化學習:阿里巴巴「AI 智能體」認知
    阿里巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智慧的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。本文轉自「新智元」,作者:胡祥傑;經億歐編輯,供業內人士閱讀。
  • 「重磅」AlphaZero煉成最強通用棋類AI,DeepMind強化學習算法8小時...
    一個通用強化學習算法,橫跨多個高難度領域,實現超人性能David Silver曾經說過,強化學習+深度學習=人工智慧(RL+DL=AI)。而深度強化學習也是DeepMind一直以來致力探索的方向。AlphaZero論文也體現了這個思路。論文題目是《用通用強化學習自我對弈,掌握西洋棋和將棋》。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    1新智元推薦【新智元導讀】知乎專欄強化學習大講堂作者郭憲博士開講《強化學習從入門到進階》,我們為您節選了其中的第二節《基於gym和tensorflow的強化學習算法實現》,希望對您有所幫助。同時,由郭憲博士等擔任授課教師的深度強化學習國慶集訓營也將於 10 月 2 日— 6 日在北京舉辦。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    原論文 BOX 1 圖 1:深度強化學習的代表性示例。根據這一衡量標準,最初的深度 RL 系統確實與人類學習者有著很大區別。為了在雅達利視頻遊戲等任務上達到媲美人類專家的水平,深度 RL 系統需要比人類專家多得多(多幾個數量級)的訓練數據 [22]。簡而言之,最初的深度 RL 速度太慢,無法為人類學習提供可信的模型。這一評論確實適用於自 2013 年出現的第一波深度 RL。
  • 用於深度強化學習的結構化控制網絡(ICML 論文講解)
    所提出的結構化控制網(Structured Control Net ,SCN)將通用多層感知器MLP分成兩個獨立的子模塊:非線性控制模塊和線性控制模塊。直觀地,非線性控制用於前視角和全局控制,而線性控制圍繞全局控制以外的局部動態變量的穩定。我們假設這這種方法具有線性和非線性策略的優點:可以提高訓練效率、最終的獎勵得分,以及保證學習策略的泛化性能,同時只需要較小的網絡並可以使用不同的通用訓練方法。
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。