前沿 | 不使用深度學習,進化算法也能玩Atari遊戲!

2021-02-15 機器之心

選自arXiv

作者:Dennis G Wilson等

機器之心編譯

深度學習因為其強大的表徵能力,在很多方面都有非常優秀的性能,它不論是在計算機視覺、自然語言處理,還是在遊戲智能體上都能構建出優秀的模型。而最近土魯斯聯邦大學等研究者表示進化算法也有著與深度學習相類似的潛力,它可以進化出一些能玩 Atari 遊戲的智能體,並取得與人類相匹配的性能。

近期街機學習環境(ALE)被用於對比不同的控制器算法,從深度 Q 學習到神經進化算法。Atari 遊戲的環境在一個通用界面上提供了大量不同任務、可理解的獎勵度量和令人興奮的研究領域,且它所需的計算資源相對有限。無怪乎該基準套件得到了如此廣泛的應用。

Atari 領域中的一個困難在於使用純像素的輸入。儘管與現代遊戲平臺相比,Atari 的屏幕解析度不算高,但處理這類視覺信息對於人工智慧體來說仍然是個挑戰。人們使用目標表徵和像素縮減方法,將該信息壓縮成更適合進化控制器的形式。這裡深度神經網絡控制器表現更加優秀,原因在於卷積層和在計算機視覺領域的長期應用。

笛卡爾遺傳規劃(Cartesian Genetic Programming,CGP)在計算機視覺領域的應用也有很長的歷史,儘管比深度學習稍微短了一些。CGP-IP 能夠創建圖像濾波器,用於去噪、目標檢測和質心定位(centroid determination)。在強化學習任務中使用 CGP 的研究相對較少,本論文將展示首次使用 CGP 作為遊戲智能體的研究。

簡單而言,笛卡爾遺傳規劃是遺傳規劃的一種形式,其中程序表徵為有向的、通常由笛卡爾坐標索引的非循環圖。其中功能性節點通常由一組進化的基因定義,並通過它們的坐標連接輸入與其它功能性節點。程序的輸出由任何內部節點或程序輸入基於進化的輸出坐標得出。

ALE 提供了 CGP 和其他方法之間的定量對比。直接將 Atari 遊戲分數與之前研究中的不同方法結果進行對比,以對比 CGP 與其他方法在該領域的能力。

CGP 的獨特優勢使得其應用在 ALE 上非常合適。通過定長的基因組,小型程序能通過進化生成並被讀取以理解。雖然深度 actor 或進化神經網絡的內部機制可能難以了解,但 CGP 進化的程序可以讓我們深入理解玩 Atar 遊戲的策略。最後,通過使用用於矩陣運算的函數集,CGP 能夠僅使用像素輸入而不使用先驗遊戲知識,在多種遊戲上實現與人類相當的性能。

論文:Evolving simple programs for playing Atari games

摘要:笛卡爾遺傳規劃(Cartesian Genetic Programming,CGP)之前已被證明在圖像處理任務中具備使用計算機視覺專用的函數集來進化程序的能力。類似的方法也可用於 Atari 遊戲。使用混合型 CGP 和適用於矩陣運算的函數集(包括圖像處理)來進化程序,但是允許出現控制器動作。儘管這些程序相對較小,但很多控制器的性能與 Atari 基準集的最優方法不相上下,且需要的訓練時間更短。通過評估最優進化的程序,我們可以找到簡單卻有效的策略。

3 方法

儘管有很多在圖像處理中使用 CGP 的案例,但在玩 Atari 遊戲時這些實現必須進行修改。最重要的是,輸入像素必須通過進化程序處理以確定標量輸出,這需要程序減少輸入空間。本研究選擇的方法可確保和其它 ALE 結果的可比較性,同時鼓勵有競爭力且簡單的程序的進化。

圖 1:使用 CGP 來玩 Atari 遊戲,藍色像素矩陣是進化程序的輸入,進化的輸出決定最後的控制器動作。這裡展示了所有控制器動作,但大多數遊戲僅使用可用動作的子集。帶紅色標記的動作表示一個按鈕。

4 結果

圖 2: Kung-Fu Master 遊戲的蹲伏方法和玩家功能圖。為簡潔起見,這裡忽略未激活的輸出和導致這些輸出的計算圖。

圖 3:Centipede 玩家,僅激活了輸出 17,下-左-開火。所有其它輸出導致空值或恆定零輸入,此處未展示。

圖 4:Boxing 遊戲,使用像素輸入來連續移動和採取不同動作。這裡,CGP 智能體通過不斷打擊 Atari 玩家來緩慢移動,將 Atari 玩家逼到圍繩處。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

相關焦點

  • 深度學習不是萬能的,進化算法在遊戲中表現更佳
    答案是:不完全是。一種全新的算法甚至比深度學習和神經網絡有更明顯的優勢:這種算法是基於創造人類大腦的方式——進化來進行的。換句話說,人類是在一系列迭代和擇優中產生的,由此誕生了眼睛、耳朵、大腦等精密的工具,足以可見進化的力量。
  • 深度增強學習PPO(Proximal Policy Optimization)算法源碼走讀
    原文地址:https://blog.csdn.net/jinzhuojun/article/details/80417179作者:ariesjzjOpenAI出品的baselines項目提供了一系列deep reinforcement learning(DRL,深度強化學習或深度增強學習
  • 前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式
    遺傳算法——訓練深度學習網絡的有力競爭者 我們驚訝地發現,通過使用我們發明的一種新技術來高效演化 DNN,一個極其簡單的遺傳算法(GA)可以訓練含有超過 400 萬參數的深度卷積網絡,從而可以在像素級別上玩 Atari
  • 從FPS到RTS,一文概述遊戲人工智慧中的深度學習算法
    我們對能夠玩好電子遊戲(非棋類遊戲,如圍棋等)的方法很感興趣。本文分析了多種遊戲,指出這些遊戲給人類和機器玩家帶來的挑戰。必須說明,本文並未涉及所有 AI 在遊戲中的應用,而是專注於深度學習方法在電子遊戲中的應用。深度學習並非唯一應用於遊戲中的 AI 方法,其他有效方法還有蒙特卡洛樹搜索 [12] 和進化計算 [85], [66]。2.
  • 進化計算前沿綜述:值得算法學習的6個生物進化特徵
    甚至可以利用進化算法來修復程序中的bug。圖1A:進化算法中的編碼示意、突變和重組;圖1B:進化算法如何與環境互動;圖1C:進化算法隨時間迭代的演變隨著數據規模的增加與複雜性的提升,研究人員需要在工程乃至未知的領域中考慮所有合理的可能性。2018年諾貝爾化學獎得主 Frances Arnold 使用定向進化來設計酶,使之改進並產生新的功能。
  • DeepMind 第四代:不學規則就能下棋玩遊戲
    近日,谷歌 DeepMind 人工智慧已進化到第四代,名為 MuZero,最突出的能力是無需提前學習規則就可以下棋玩遊戲。
  • 深度強化學習(一)----深度學習介紹系列
    昨天大致介紹了機器學習與深度學習的基本概念,本系列的目錄,深度學習的優勢等。這是源自 DeepMind團隊在《Nature》雜誌發表論文(Human-level control through deep reinforcement learning),公布玩遊戲比人厲害的 AI 是如何做出來的。他們在Stella模擬機上讓機器自己玩了7個Atari 2600的遊戲,結果是玩的衝出美洲,走向世界,超越了物種的局限。
  • 「人工智慧研學社· 強化學習組」第二期:超越職業玩家的算法 - Deep Q-network
    它介紹了 Deep Q-Networks (DQN) 算法,並且在 49 個 Atari 遊戲上取得了很好的性能:基本都超越了以前的算法,大部分比職業玩家要好。這一算法的突出貢獻是,在 Q-learning 中引入了深度神經網絡,並且通過 experience replay 和 target network 技術穩定學習過程。
  • DQN算法原理及應用(實現Atari遊戲)
    CNN 由於能夠提取空間信息,能夠從原始像素數據中學習得到控制策略。由於前面已經介紹了卷積神經網絡,所以本節不再介紹基礎知識。本節內容基於原始的 DQN 論文,DeepMind 使用深度強化學習玩轉 Atari,這篇論文中提到了一種稱為經驗回放(experience replay)的概念,隨機抽樣前一個遊戲動作(狀態、動作獎勵、下一個狀態)。
  • 神經進化:一種不一樣的深度學習
    因此,為神經進化算法定義突變有以下三種情況。1、遺傳編碼的哪一部分會發生突變?是拓撲、權重、還是超參數?2、基因組中選定的部分會發生多大程度的突變?例如,神經進化算法可以對低適應度基因組使用較大的突變,對高性能基因組使用微小的突變。3、突變採用何種方式。是定向?還是隨機?
  • 教程 | 深度Q學習:一步步實現能玩《毀滅戰士》的智能體
    機器之心也曾發布過很多介紹強化學習基本理論和前沿進展的文章,比如《專題 | 深度強化學習綜述:從 AlphaGo 背後的力量到學習資源分享(附論文)》。近日,深度學習工程師 Thomas Simonini 在 freeCodeCamp 上發表了介紹深度強化學習的系列文章,已發布的三篇分別介紹了強化學習基本概念、Q 學習以及在《毀滅戰士》遊戲上開發智能體的過程。
  • 數據+ 進化算法 = 數據驅動的進化優化?進化算法 PK 數學優化
    數據驅動的進化優化是什麼,僅僅就是數據 + 優化算法嗎?數據驅動的進化優化適用於哪些應用場景?傳統的數學優化方法是否迎來了新一輪的挑戰。本文將為您深入淺出的解答以上問題。文末我們還附上了相關資料與參考文獻的大禮包,這些資料並非一個簡單的書單,是經過本文兩位作者多年的研究經驗和學習歷程精心挑選整理的,有頂級期刊的優質論文,也有科普大眾的通俗講義。
  • Nature重磅:OpenAI科學家提出全新增強學習算法,玩遊戲可完勝人類,或推動AI向真正智能學習體進化
    作為機器學習的一大關鍵領域,強化學習側重如何基於環境而行動,其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。但是,這種算法思路有著明顯的短板:許多成功案例都要通過精心設計、信息量大的獎勵機制才能實現,當遇到很少給予反饋的複雜環境時,強化學習算法就很容易碰壁。
  • 獨家 | 深度學習 V.S. 謎題遊戲
    本文為大家介紹了作者使用不同的算法來解決Free Flow謎題遊戲的心路歷程,從一開始的A*,Q-learning,到最後的卷積神經網絡,作者詳細的介紹了在使用這些算法時遇到的困難和得到的啟示。深度學習比古老的蠻力技術更適合解決FlowFree問題嗎?我們都有過這種經歷。
  • OpenAI詳解進化策略方法:可替代強化學習
    )》,機器之心當時也對那篇論文和另一篇來自谷歌的相關論文進行了介紹,參閱《深度 | 谷歌和 OpenAI 新研究:如何使用達爾文進化論輔助設計人工智慧算法?》。進化策略和強化學習間的權衡相比於強化學習算法,進化策略有多個優勢(一些優勢有些技術性)不需要反向傳播。進化策略只需要策略的前向通過,不需要反向傳播(或價值函數評估),這使得代碼更短、在實踐中速度快了 2-3 倍。在內存有限的系統中,也不需要保留 episode 的記錄從而進行後續的更新。我們也不需要擔心 RNN 中的梯度爆炸問題。
  • Uber論文5連發宣告神經演化新時代,深度強化學習訓練勝過SGD和策略...
    同時他們也驚訝地發現,一個非常簡單的基因算法(genetic algorithm)就可以訓練帶有超過四百萬個參數的卷積網絡,讓它能夠直接看著遊戲畫面玩 Atari 遊戲;這個網絡可以在許多遊戲裡取得比現代深度強化學習算法(比如 DQN 和 A3C)或者進化策略(evolution strategies)更好的表現,同時由於算法有更強的並行能力,還可以運行得比這些常見方法更快。
  • 著名人工實驗室的前沿研究和深度學習最新進展
    這時深度學習這匹「千裡馬」,也只能是「雖有千裡之能,食不飽,力不足,才美不外見」。再有,理論上深度學習也不是萬能的。著名的「沒有免費的午餐」定理說明了這一點。該定理指出,針對任意兩個機器學習方法:方法一和方法二,如果存在一個問題,方法一比方法二學到的模型預測精度高,那麼一定存在另一個問題,方法二比方法一學到的模型預測精度高。
  • Playing Atari with Deep Reinforcement Learning
    原文旨在通過單個網絡來學習儘可能多的遊戲,即不提供遊戲特定的信息以及手工設計的特徵,使用完全和人類玩家同等的視頻信號、動作集以及獎勵來訓練代理,且網絡的結構與超參數在訓練不同的遊戲時保持不變。如之前所述,為了證明模型的魯棒性,所有遊戲使用相同的網絡結構、學習算法和超參數設置。與真實遊戲反饋相比,實驗的唯一不同在於對遊戲的獎勵進行了修改。由於不同遊戲的實際獎勵得分差異較大,為了便於訓練,將所有的正向獎勵置為 1,負向獎勵置為 -1,不變則為 0。這種裁剪可以幫助減少訓練誤差,讓不同的遊戲可以使用相同的學習率,提升最終的表現。
  • 深度強化學習算法與應用研究現狀綜述
    概述了基於值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,並綜述了深度強化學習在視頻遊戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最後,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
  • 學界 | 使用深度學習和樹搜索進行從零開始的既快又慢的學習
    而持續的深入學習又能逐漸提升直覺,從而使更準確的直覺回饋到更強大的分析中,這就形成了一個閉合的學習迴路。換言之,人類是通過既快又慢的思考方式來學習的 [1]。目前的深度強化學習存在什麼問題?在當前的深度強化學習算法中,例如策略梯度(Policy Gradient)和 DQN3[3], 神經網絡在選擇動作的時候沒有任何前瞻性;這個和系統 1 類似。與人類直覺不同的是,這些強化學習算法在訓練的過程中並沒有一個「系統 2」來給它們推薦更好的策略。AlphaGo 這類 AI 算法的一個缺陷之處在於,它們使用了人類專業玩家的資料庫 [4]。