深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?

2021-01-08 雷鋒網

2019 年,深度強化學習可以算得上 AI 研究的 Top 關鍵詞之一。

無論是 DeepMind 星際2 AI 「AlphaStar」血虐人類玩家,還是 OpenAI 最終因太過強大而被認為可能有風險所以不公開發布的語言模型 GPT-2,無疑都在過去一年中最轟動的 AI 大事件之列,也吸引了 AI 社區的越來越多的研究者投身深度強化學習研究之列。

然而,也有很多反對的聲音認為深度強化學習現在的一系列成果,其實更像是一種虛假的「繁榮」。

本文作者朱仲光便是其中的一位。他指出,深度強化學習會給研究者們尤其是各位不明真相的大眾帶來「離通用人工智慧越來越近」的錯覺,而更為嚴重的是,深度強化學習會耗費掉研究者們本可以用來研究其他更重要的問題和更有前景的方向的時間和精力。

他的具體觀點,我們下面來看:

一、2019 年都過去了,並沒有離現實世界更進一步

隨著 2019 年的結束,我想回顧一下人工智慧所取得的進展。在這一年,AI 社區尤其將深度強化學習大肆宣揚為下一個朝著通用人工智慧(AGI)前進的革命性的一步。

通用人工智慧,顧名思義,就是指能夠像人類一樣以一種通用的方式學習萬事萬物的計算機算法。

近年來,研究者們針對深度強化學習開展了大量研究工作,現在也逐漸取得了一定進展。

圍繞深度強化學習的想法和期望是,理論上,我們能輕而易舉地訓練一個能做任何事情的智能體,比如開車、疊衣服、玩電子遊戲、打掃房間、玩魔方等等,並且所有智能體的學習過程都不需要人工幹涉。其中一些實驗已經取得一些成功,你可以教一個深度強化學習的智能體玩一些電子遊戲和棋類遊戲,但是一旦涉及現實世界,進入生產系統,這些實驗都會以失敗告終。

據我所知,2019 年都過去了,仍然沒有出現任何能夠使用深度強化學習技術的生產系統。

二、到底解決哪些問題,才有意義?

深度強化學習系統有許多問題,我並不打算詳細討論這些問題的細節,因為有很多博客文章已經討論過這些問題。感興趣的讀者可參考下文:

如果這些問題中有一部分得到改善或解決,例如找到更抽象的方式來表徵神經網絡內部的信息,我也不會太驚訝,但如果不能解決我所認為的核心問題,即有關手動設置獎勵的問題,那所謂的「改善」或「解決」也就意義不大了。

在深度強化學習中,我認為大部分時間都花在了設計獎勵函數來讓智能體完成想讓它做的事情。用更傳統的機器學習術語來說,獎勵函數就是目標函數,指的是算法利用獎勵函數來了解系統是否朝著正確的方向運行,模型得到的獎勵越多,它就「越好」。

比如教一支機械臂疊衣服,假如說你有一堆褲子,那麼你如何編寫獎勵函數來讓機械臂正確地疊這些褲子呢?當向另外一個人解釋這一點時,聽起來很簡單,只是「把褲子疊成整齊的一堆」,但是計算機並不知道這些規則的含義。

對於每一個實驗,你設計的獎勵必須要讓計算機在完全不知道自己實際正在做什麼的情況下,可以自己衡量自己的運行過程。因此,你設計的獎勵程序可以在機械臂碰到褲子時就開始給它獎勵,之後再針對是否正確抓住了褲子以及移動了褲子,來給它更多獎勵得分。

那如何基於機械臂在實際摺疊褲子中的表現給予獎勵?疊三次可以得分嗎?沒有將褲子疊皺又得多少分?

最終,你花了太多時間試圖去引導智能體遵循正確的路徑,以至於它基本上處在完全的監督之下。

理論上,你的確可以讓一個人監督著整個訓練過程,這個人可以為系統採取的每一個動作指定一個分數,但這種方式是不能泛化的。

這些深度強化學習系統需要基於數萬到數百萬次的迭代來試驗動作的每一個變化,以找出實現最終目標的正確序列,個人很難監控計算機採取的所有步驟。研究者也正在積極探索,試圖將這個範圍縮小至有限次數的學習,但對我來說,這只是試圖改進一些從根本上而言沒有意義的東西。

在你試圖訓練機器人摺疊褲子的過程中,你可能需要不斷調整獎勵函數,因為它可能會意外地撕破褲子、弄掉一些零部件、不把褲子翻出來就直接摺疊,或者以看起來毫無意義的奇怪方式摺疊褲子。這樣的話,獎勵的設計變成了一個試驗性的過程,即通過反覆的嘗試和試錯來確定什麼是有效的獎勵。有無數的報告記錄了深度強化學習模型做出的各種意想不到的動作。

強化學習通常被劃分為除監督機器學習和無監督機器學習以外的第三類,但在我看來,它其實就是監督學習。

當前的強化學習實現步驟是這樣的:你開始訓練模型,然後你看著它失敗然後「死掉」,接著你花費大量的時間一次又一次調整獎勵函數,直到你「有可能」得到一個理想的結果,但僅僅是「有可能」。

這個過程中有哪一步你沒有給系統提供訓練數據?事實上你把整個過程複雜化了,你僅僅是把答案以間接的方式提供給智能體,而這恰恰讓一切變得更加困難。

如果計算機要從周圍的環境中學習,那必須在一個 100% 無監督的環境裡進行。

三、當公關大於實質進步,會帶來哪些危害?

那麼,為什麼關於深度強化學習的炒作如此之多?

如果你站在一個抽象的角度來看待深度強化學習,你就會知道它被描述為一個隨著時間的推移從其環境中學習的智能體。

這似乎是絕對正確的,而且確實「很像」是真的,所有生物都是從出生開始學習如何從其環境中生存和行動。

我們之所以知道這一點,是因為我們做了許多實驗,經驗告訴我們,如果我們改變和限制新生有機體的環境,它們會學到不同的東西,行為也會有所不同。

深度強化學習與諸如監督分類的傳統機器學習方法有很大的不同,傳統的機器學習是一個靜態模型,它獲取原始數據和答案並最終建立一個模型用於生產。在傳統的深度強化學習框架中,系統犯錯的部分就是信號的來源。這些人工智慧體必須直接從它們自身和環境中學習,而不是從我們提供給它們的某種人工獎勵函數中學習。

當 DeepMind 推出一個單一的不進行任何人為幹涉就可以學會玩 Atari 電子遊戲的深度強化學習智能體時,人們認為這種智能體可以泛化到其他領域的各種問題,甚至是通用人工智慧。

但我們所了解到的是,有機體和人類所做的大多數事情,都無法建模成通過讓智能體持續優化從而儘可能獲得更多獎勵的電子遊戲。不要被「深度強化學習不需要人為幹涉就能夠在遊戲中獲勝」的新聞所愚弄!設計獎勵這一操作仍然存在,並且在 40 年前,當電子遊戲製造商僱傭整支隊伍來製作這些遊戲時,就已存在這種操作。

很多人都誤認為深度強化學習是實現通用人工智慧的下一個創舉,甚至谷歌也「過分熱情」地花了 5 億多美元收購 DeepMind,希望把人工智慧提升到一個新的水平。與此同時,AI 社區似乎也把深度強化學習當成了聖杯,因為它是在某種程度上與我們所處的世界最接近的機器學習形式,儘管實際上還相差甚遠。

我們最終實現的不過是一些「小把戲」,這些智能體也不過是可以玩各種各樣的電子遊戲、棋類遊戲的小 AI 玩具。

從更傳統的機器學習方法向深度學習轉變的主要好處是,不再需要手動的工程設計。理論上,你可以給模型提供一堆數據,運行優化算法,它不需要你手動編寫特徵提取代碼也能進行學習。因此,深度學習已經被應用到部分強化學習中,主要體現在智能體以像素的形式接收感知數據的部分,但是仍然需要研究者花大部分時間來手動設計程序。

這在我看來,深度學習並沒有發揮什麼作用!我甚至沒有具體討論其他深度強化學習問題,比如如果你需要稍微調整一下目標,那麼你就要準備好重新訓練整個系統,以及環境中的細微變化通常也會導致整個系統徹底失敗,等等。通往通用人工智慧的路還很長……

現在DeepMind 和 OpenAI 這樣頂尖的機器學習研究機構,仍然在深度強化學習研究上投入主要的時間和資源。他們不斷地用發布公關新聞轟炸網際網路,展示他們正在取得的巨大進步:深度強化學習系統可以下圍棋,玩 StarCraft、Dota 2,玩魔方等等。

我很困惑,為什麼他們繼續花那麼多時間來開發有明確的定義規則和得分的系統、能在遊戲中獲勝的深度強化學習系統?

我相信現在每個人都明白,如果有足夠多的時間、金錢和計算機來機械地訓練每一個可能的動作,深度強化學習系統幾乎可以在任何遊戲中獲勝。我認為他們大部分的策略僅僅是用一些「小把戲」來不斷製造公關效應,以展示最新的深度強化學習系統如何在下一個最佳遊戲中大獲全勝,這樣他們就可以繼續從那些不太「懂行」的人那裡獲得投資,比如微軟最近給 OpenAI 的  投了10 億美元,谷歌則繼續作為 DeepMind 的「存錢罐」給其投入資金。

DeepMind 最近,也就是在被谷歌收購 5 年後的一個成功案例是,他們訓練了一個深度強化學習的智能體來下圍棋、西洋棋、將棋和玩 Atari 遊戲。是的,更多的電子遊戲!!!

我的本意並不是抨擊他們,我真的很高興他們仍然在為實現通用人工智慧貢獻力量。但問題是,他們製造了很多錯誤的認知,並最終導致大量的人力物力浪費在「死胡同」上。

首先,他們發布的所有公關言論,比如「我們的文本生成模型(GPT-2)太危險了,不能發布」,使得普通大眾認為我們離通用人工智慧更近了,然而 AI 行業中的每個人都明白並沒有更近。

其次也是更重要的是,他們錯誤地引導著人工智慧研究者們花更多的時間在深度強化學習上。許多研究人員和黑客從這些研究深度學習的公司那裡看到了一波又一波為深度強化學習「叫好」的 PR 新聞,當他們原本可以將精力集中在更大、更根本的問題上時,他們卻花費了無數的時間去破解那些相同的問題。

四、要實現通用人工智慧,真正要做的是什麼?

如果人工智慧和通用人工智慧要向前發展,我認為是時候停止讓深度強化學習系統玩電子遊戲,轉而集中精力解決更棘手的問題了。

所幸 DeepMind 和 OpenAI 的確有花時間解決其他問題,但正如我所說,深度強化學習似乎仍然是他們的主要關注點。

目前的深度強化學習系統似乎可以很好地契合已經有基礎訓練的系統。遷移學習中的智能體已經對其環境和自身有了基本的了解。我們不妨觀察一個人類嬰兒的學習歷程:從出生開始,她(他)首先開始學習觀察形狀和顏色,移動手指,觸摸物體,控制自己的身體,辨別聲音,學習有關重力、物理、墜落、蠕動、彈跳的知識,學習物體恆常性等。每一個人或有機體都會在不同程度上經歷這些學習過程。

通常在嬰兒掌握了大量的知識之後,即當她(他)可以走路、抓握物體、自己上廁所、進行基本的交流等等之後,接下來就是更為正式的訓練,比如家長會送孩子去學校,孩子在學校中會經歷一個結構性更強的學習過程:學校通過家庭作業、評分以及測驗訓練孩子從課程中學習知識。

當前的深度強化學習系統似乎原本可以很好地適用於這種形式化的訓練,在這種訓練中,當智能體對環境有了基本的了解之後,系統可以清晰地、最大程度自動化地給所期待達成的目標指定分數。比方說如果孩子不能背誦 ABC 這三個字母,記為不及格,但如果他們能背誦整個字母表則記為及格。

當前深度強化學習技術正在本末倒置,我們正試圖訓練計算機從零開始完成一些複雜的任務,這種訓練有時可能會有效,但由於這些模型是針對特定的任務而不是泛化能力而訓練的,它們對自己的環境沒有泛化的了解,最終導致系統過於脆弱,效果也不是很好。

只要獎勵函數的問題沒有被解決,再多新的學習算法,如BP 算法、DQN、PPO、DDPG、TRPO 都無法真正解決深度強化學習的問題。

我確信我們會有一些進步,也許會在 Starcraft 中贏得更多的分數,但是如果沒有一個根本性的架構轉變,來實現智能體在無監督的情況下從環境中進行學習,那麼這些所謂的進步對於我們實現通用人工智慧這一偉大夢想,也就沒有太多的意義。

我自己的假設是,針對學習體的獎勵函數實際上是由維持穩態和將「意外」最小化的動力所驅動的。

穩態是生物維持生存所需的穩定條件的過程。任何有機體都要生存,都必須保持其身體與外界環境分離。生物飢餓的時候要進食,疲倦的時候要睡覺,口渴的時候要喝水,受傷的時候要休息,被獵殺的時候要逃離,炎熱的時候要讓自己涼快一點等等。有機體在環境中行動時,這些與生俱來的原始信號指導著它們該做什麼和該關注什麼。如果它們不能勝任這些事情,則會導致有機體內失去平衡,最終導致過早死亡。

當生物在四處遊蕩時,它會建構自己的感知運動交互作用模型以及與周圍世界交互作用的環境,該模型開始把各種事件匯聚到一起:天黑的時候應該比較冷;當我打嗝,我應該聽到打嗝的聲音;當我向左移動,我應該看到視野在 X 軸上變化;當一隻動物走在我前面,它應該繼續向前移動;當我的手指在杯子上掃過,我應該感受到光滑的表面;當我通過聲帶發出聲音,我應該能在我的耳朵裡聽到相應的聲音等等。

如果有什麼意外的事情發生,有什麼東西偏離了它的模型,那麼該模型會重新調整它的預期,直到得到它所預期的結果,這也可能會導致更多的移動。如果最終不能得到預期的結果,那麼真正的「意外」就會出現,這些神經元就被標記為「需要更新模型」,在這種情況下,重新學習和重新優化可能會實時發生,也可能是在機體處於睡眠狀態時發生。

優化過程會在智能體的內部環境模型和實際環境之間進行,並持續優化以使意外最小化。神經科學和哲學已經在很長一段時間裡對這些思想展開過討論,比如 Andy Clark 提出的預測處理的思想以及 Karl Friston 提出的自由能量原理(Free Energy Principle)。

據我所知,這些思想還沒有成功地應用於機器學習環境中。我認為這其中有很多技術問題:如何在計算機中模擬穩態狀態,如何存儲模型的內部表徵,智能體的感官和環境之間的低解析度以及低保真環境等等。

我並非意在採用一個煽動性的標題來寫這篇文章,但我也無法以一種更恰當的方式來向人們說明「當前的深度強化學習架構從根本上而言就是錯的」這一問題。

我們不需要更多可以玩多種電子遊戲的深度強化學習模型,我們需要實現的模型是這樣的:它可以在完全無監督的環境中學習智能體和環境之間的泛化表徵。這種新的架構可以被稱為「深度強化學習 3.0」、「積極推理」、「預測處理」或其他完全不同的東西,但是請不要再在這個「死胡同」上浪費時間了。

深度強化學習的研究已經取得了一些很有成效且有趣的成果,但是時候繼續前進了。誰能找到方法來構建一個可以在無監督情況下從環境中學習的泛化的人工智慧系統,誰就會對 AI 領域做出巨大的貢獻並推動這個領域繼續向前發展。

via http://www.jtoy.net/blog/deep-reinforcement-learning-is-a-waste-of-time.html  雷鋒網雷鋒網雷鋒網(公眾號:雷鋒網)

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 圖靈獎「擁抱」深度學習
    「人工智慧是現在所有科學中發展最快的領域之一,也是社會上談論最多的話題之一。」ACM 主席 Cerri M. Pancake 說,「人工智慧的發展很大程度上歸功於由三位奠定基礎的深度學習領域內的最新成就。」「只要口袋裡有智慧型手機的人都可以切實體會到自然語言處理和計算機視覺方面的技術進步,這在十年前是無法想像的。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    神經網絡和「深度學習」的復興推動了圖像識別、自然語言處理等許多領域的突破。這些發展引起了越來越多心理學家、心理語言學家和神經學家的興趣,他們對 AI 發展是否意味著關於人類認知和腦功能的新假設展現出了充分的好奇心。從這個角度來講,AI 中最具吸引力的領域就是深度強化學習。因為它將神經網絡建模與強化學習充分的結合起來,形成了一套從獎懲中學習而非從準確教學中學習的方法。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    更重要的是,大家已經意識到了深度學習的種種限制,那麼想要破除限制、實現更高級的智慧時,就免不了需要思考,是「繼續改進深度學習就可以達到目標」,還是「我們需要在深度學習之外另起爐灶」,這裡也就引出了那個看似簡單,但大家尚未達成共識的問題「深度學習是什麼?」不少學者最近都參與了這個討論,雷鋒網 AI 科技評論帶大家回顧一下各方觀點。
  • 傅聰:個別國家以意識形態劃線鼓譟科技脫鉤 只會走入死胡同
    來源:澎湃新聞原標題:傅聰:個別國家以意識形態劃線鼓譟科技脫鉤,只會走入死胡同外交部網站12月11日消息,2020年12月9日至10日,第十六屆亞洲防擴散高級別對話會以視頻會議方式舉行。個別國家以退群毀約等手段謀求絕對安全,以極限施壓和單邊制裁替代對話協商,以意識形態劃線鼓譟科技脫鉤,事實證明只會走入死胡同,國際社會應堅決予以抵制。傅聰表示,為推動國際防擴散進程回到正軌,應堅持多邊主義,維護聯合國憲章的宗旨和原則,尊重各國主權、安全和發展利益,通過對話協商解決防擴散問題。應堅定維護現有防擴散機制,確保相關條約和協議義務得到全面、平衡、有效執行。
  • 進化是把雙刃劍,有些生物就走入了進化的死胡同,徘徊於滅絕邊緣
    淘汰不適應環境的基因,留下與環境相適應的基因,在自然選擇的基礎上,生物本應該通過進化變得越來越好,但事實上並不完全如此,因為也有為數不少的生物逐漸走入了進化的死胡同,徘徊於滅絕的邊緣,而這些走入死胡同的生物中,有很多是我們非常熟悉的,我們甚至從未意識到它們已經走到了進化的懸崖邊緣。
  • 谷歌最新驗證系統又雙叒被「破解」了,這次是強化學習
    但再強的系統也會有漏洞,來自加拿大和法國的研究者另闢蹊徑,用強化學習「破解」了這個最新的驗證系統。谷歌的 reCAPTCHA 驗證系統對於谷歌瀏覽器的用戶來說,上面這幅畫面想必並不陌生。這是谷歌開發的驗證碼系統 reCaptcha,旨在確認訪問者是人還是程序,並防止惡意程序的入侵。
  • 深度學習與強化學習
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    近日,北京智源人工智慧研究院開展了第一次論壇,其以「人工智慧的數理基礎」這一重大研究方向為主題,從數學、統計和計算等角度討論了智能系統應該怎樣融合數學系統。在論壇中,北京大學董彬副教授、林偉研究院和張志華教授等研究者從基礎出發介紹了「數學」眼中的機器學習是什麼樣的。
  • 微軟推出深度學習加速平臺「Project Brainwave」
    近日在 Hot Chips 2017 上,微軟團隊推出了一個新的深度學習加速平臺,其代號為腦波計劃(Project Brainwave),機器之心將簡要介紹該計劃。腦波計劃在深度學習模型雲服務方面實現了性能與靈活性的巨大提升。微軟專為實時人工智慧設計了該系統,它可以超低延遲地處理接收到的請求。
  • 神經網絡和深度學習簡史(全)
    在聽了數節機器學習課堂,甚至在本科研究中使用它以後,我不禁好奇:這個新的「深度學習」會不會是一個幻想,抑或上世紀80年代已經研發出來的「人工智慧神經網絡」擴大版?讓我告訴你,說來話長——這不僅僅是一個有關神經網絡的故事,也不僅僅是一個有關一系列研究突破的故事,這些突破讓深度學習變得比「大型神經網絡」更加有趣,而是一個有關幾位不放棄的研究員如何熬過黑暗數十年,直至拯救神經網絡,實現深度學習夢想的故事。
  • 多智能體系統創始人 Victor Lesser:深度學習之外,AI 其他領域亦有...
    在此前,我們已經先後與 2007 年「卓越研究獎」得主 Alan Bundy、2011年「卓越研究獎」得主 Robert Kowalski、IJCAI「中國參會第一人」林堯瑞、IJCAI「首位發表論文的中國學者」張鈸進行了對話,在深入了解他們的職業生涯、研究成果的同時,也從這些見證了 IJCAI 不同階段歷史的科學家們口中聽到了不少 IJCAI 背後的故事。
  • 「國產狗」勝「日本狗」,圍棋龍星戰騰訊絕藝報「一箭之仇」
    ,「國產狗」絕藝戰勝「日本狗」DeepZenGo(深禪),奪得冠軍,報了今年 8 月份的「一箭之仇」。當然,絕藝進步的神速得益於騰訊站在巨人的肩膀上,正如騰訊絕藝研製團隊之前的採訪中談到的:「絕藝」背後,是深度學習和強化學習這兩個機器學習十分熱門的研究領域,它的總體框架遵循 AlphaGo 去年 1 月在《Nature》上發表的文章,是一個純機器學習系統,但在實踐中做了超出論文的創新。
  • 別忽視深度學習的種種問題,Gary Marcus 潑冷水義不容辭
    Gary Marcus 也曾號召研究人員們「借用認知科學領域的知識」,更多地構建和人類類似的認識概念。然而 Gary Marcus 卻不是一個令人深受鼓舞的「正面人物」,實際上他曾反覆對人工智慧和深度學習潑冷水,警告大家我們現在取得的進展多麼微不足道、人們又有多麼過於樂觀。
  • 深度學習的可解釋性研究(一):讓模型「說人話」
    大概是以比如 1/(e^-(2*1/(e^(-(2*x+y))+1) + 3*1/(e^(-(8*x+5*y))+1))+1) 是否大於 0.5 為標準(這已經是最簡單的模型結構了),這一連串的非線性函數的疊加公式讓人難以直接理解神經網絡的「腦迴路」,所以深度神經網絡習慣性被大家認為是黑箱模型。
  • 強化學習與3D視覺結合新突破:高效能在線碼垛機器人
    基於帶約束強化學習的 BPP-1 求解強化學習是一種通過自我演繹並從經驗中學習執行策略的算法,很適合求解 Online BPP 這種基於動態變化觀察的序列決策問題。同時,堆箱子過程的模擬仿真非常「廉價」,因而強化學習算法可以在模擬環境中大量執行,並從經驗中學習碼垛策略。
  • 百度推「一次包會」模型:「一次性」教會智能體認知新事物
    through a Conversational Game」,排在「AI影響因子」前列。百度提出的聯合仿真和強化方法可以通過一個對話互動遊戲,來訓練 AI 智能體學習接地氣的語言和進行快速概念學習。 用該方法訓練的 AI 智能體可以提問關於新事物的問題以主動獲得信息,並在隨後的對話中使用剛剛學到的知識;這個學習過程是單樣本學習的。
  • 強化學習如何使用內在動機?
    RL 被稱為「啟發式動態規劃」和「神經動力學規劃」。RL 算法解決了行為智能體如何在與環境直接交互的同時學習最佳行為策略(通常稱為策略 Policy)的問題。強化學習之父 Barto 在文獻 [2] 中闡述了在 RL 框架中引入內在動機的可能性和重要性。
  • 深度學習之後,我們或許可以從進化論中找到新的突破口
    應用進化策略ES訓練的智能體被困在陷阱1裡且沒有繼續進化。經過基因算法GA訓練的智能體表現更好一些,但還是被困在了陷阱 2 裡。當同時根據適應性得分和智能體所表現出的探索性行為(GA-NS)挑選可繼續繁殖的智能體時,智能體很快進化出了解謎的能力。而應用強化學習方法(A2C和DQN)訓練的智能體就沒有習得解謎的能力。
  • 前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式
    遊戲;而且,它能在許多遊戲中比現代深度強化學習(RL)算法(例如 DQN 和 A3C)或進化策略(ES)表現得更好,同時由於更好的並行化能達到更快的速度。這種基於群體的探索有別於強化學習中單一智能體傳統,包括最近在深度強化學習領域的探究工作。我們的實驗表明,通過增加這種新的探索方式,能夠提高 ES 在許多需要探索的領域(包括一些 Atari 遊戲和 Mujoco 模擬器中的類人動作任務)的性能,從而避免欺騙性的局部最優。