人腦的前額皮質裡藏了一個強化學習系統,DeepMind如是說

2020-12-01 雷鋒網

雷鋒網 AI 科技評論按:最近,AI 系統已經學會一系列遊戲的玩法,如雅達利經典遊戲 Breakout 和 Pong。儘管這樣的表現令人印象深刻,但其實人工智慧需要數千小時的遊戲時間才能達到並超越人類玩家的水平。相比之下,我們則可以在幾分鐘內掌握以前從未玩過的遊戲的基礎操作。DeepMind 對這個問題進行了研究,論文《Prefrontal cortex as a meta-reinforcement learning system》發表了在了《自然》神經科學子刊上。隨著論文發表,DeepMind 也撰寫了一篇解讀博客,介紹了論文的主要內容。雷鋒網 AI 科技評論編譯如下。

什麼是元學習?

人類只接受這麼少的信息就能幹這麼多的事情,這項能力牽扯到了元學習理論,或者叫「學會學習」。我們日常的學習有兩個時間尺度,短期學習中我們專注於學習具體的例子。而在長期學習中,我們通常要學會抽象出規律和技巧來完成任務。我們之所以能如此高效的學習以及如此靈活而快速的應用各種知識正是因為這種學習組合。在 AI 系統中重現這種元學習結構或者叫元強化學習對於實現快速、一次性學習卓有成效(詳見我們的在 OpenAI 的論文及工作)。但是元學習這一過程具體的實現機制在神經科學中依舊是未解之謎。

在 Jane Wang 團隊新發表在《自然》神經科學子刊上的論文中,他們在 AI 研究中使用元強化學習架構來探究大腦中的多巴胺在人類學習過程中起到的作用。多巴胺通常被認為是大腦的愉悅信號,也經常被認為類似於 AI 強化學習算法中的獎勵函數。這些 AI 系統就是在獎勵的指導下反覆試驗。他們認為多巴胺的作用不僅僅是作為獎勵來評估過去行為的價值,它在前額葉皮層區也發揮著不可或缺的作用,使人類能夠有效,快速,靈活地學習新任務。

引入神經科學

他們通過虛擬重建神經科學領域的六個元學習實驗來測試他們的理論,其中每個實驗都需要一個代理程序來執行基本原則(技能)相同但在某些維度上有所不同的任務。他們先使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個遞歸的神經網絡(代表前額皮質),然後再對比遞歸網絡的活動動態與以前神經科學實驗真實數據的異同。遞歸網絡是元學習的優秀代理程序,因為它們能夠內化過去的行為和觀察內容,然後在訓練其他任務時借鑑這些經驗。

類比 20 世紀 40 年代的心理學測試—Harlow 實驗,他們重新創建了一個實驗用於探索元學習的概念。在最初的 Harlow 實驗中,一組猴子面前有兩個不同的供選擇的物品,其中一個可以給它們帶來食物獎勵。然後實驗人員將這兩個物品一左一右在猴子面前展示六次,每次物品的左右位置都是隨機的,所以猴子必須知道哪個物品可以帶來食物獎勵。然後研究人員又展示了兩個全新的物品,依舊只有一個會帶來食物獎勵。在這次訓練過程中,猴子學會了一種策略來選擇獎勵關聯物品:它第一次會隨機選擇,然後基於獎勵反饋選擇特定物品,並不在乎在左側還是右側。實驗表明,猴子可以領悟任務的基本原理,並學會抽象的規則結構,這其實就是學會學習。

當 Jane Wang 團隊使用虛擬計算機屏幕和隨機選擇的圖像模擬一個非常相似的測試時,他們發現他們的元強化學習代理程序的學習方式就像 Harlow 實驗中的猴子一樣,即使換新圖像代理程序也能像猴子一樣適應。

事實上,他們發現元強化學習代理程序學會了如何快速適應擁有不同規則和結構的任務。而且在它學會如何適應各種任務的過程中它還學會了提高學習效率的通用方法。

元學習與神經科學相互指導

重要的是,大多數學習都產生在遞歸網絡中,這為他們的看法提供了有力支撐,即多巴胺在元學習過程中扮演著超越以往認知的更加重要的角色。多巴胺可以通過加強前額系統中的突觸聯繫來增強特定的行為。在 AI 系統中,這意味著神經網絡中的類多巴胺獎勵信號可以調整人工突觸權重,使系統可以學習解決任務的正確方法。然而,在 Jane Wang 團隊的實驗中,神經網絡的權重被凍結了,這意味著權重在學習過程中不能被調整,然而,元強化學習代理程序仍然能夠解決並適應新的任務。這表明類多巴胺獎勵不僅用於調整權重,還對抽象任務和規則結構的重要信息進行傳達和編碼,從而使系統更快適應新任務。

神經科學家很早就觀察到了類似的前額葉皮層神經激活模式,他們發現這種模式適應性強並且很靈活,之後他們一直在努力尋找這種現象的原因。其中一種看法是前額葉皮層不依賴緩慢的突觸權重變化來學習規則結構,而是通過直接由多巴胺編碼的基於抽象模型的信息的來學習規則結構,這能更好的解釋多巴胺的功能多樣性。

為了證明元強化學習的關鍵成分也存在於大腦中,Jane Wang 團隊提出了一種理論,該理論不僅與多巴胺和前額皮層的那套理論相符,而且還可以解釋一系列神經科學和心理學的神秘發現。該理論重點揭示了大腦中基於模型的結構化學習是如何出現的,為什麼多巴胺含有基於模型的信息,以及前額葉皮質中的神經元如何根據學習信號進行調整。人工智慧的洞察力可以用來解釋神經科學和心理學的發現,也提升了每個領域研究成果的價值。展望未來,他們在設計新強化學習模型的時候可以從具體的大腦迴路組織中獲得靈感,神經科學與 AI 相得益彰。

論文地址:

via DeepMind Blog,雷鋒網AI科技評論編譯

相關焦點

  • DeepMind用強化學習探索大腦多巴胺對學習的作用
    多巴胺——通常被稱為大腦的愉悅因子——被認為與AI強化學習算法中使用的獎勵預測誤差信號類似。AI系統通過獎勵(reward)指引的試錯來學習如何行動。研究者認為,多巴胺的作用不僅僅是利用獎勵來學習過去行為的價值,而且,多巴胺在大腦的前額葉皮層區扮演者不可或缺的角色,使我們能夠高效、快速、靈活地學習新任務。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    看似深度強化學習和人類的學習方式完全不同:有人認為,這種差異在於二者的樣本效率(學習系統達到任何選定目標性能水平所需的數據量)。基於這一標準,一代 Deep RL 確實與人類學習者有著極大的不同。為了在 Atari 遊戲或西洋棋等任務中獲得專業人士級表現,深度強化學習系統需要比人類多幾個數量級的訓練數據。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    也許結合了「快」與「慢」的強化學習,才是以後真正理想的強化學習。強大但慢速:第一波深度強化學習從這個角度來看,AI 研究中一個極具吸引力的領域是深度強化學習。深度強化學習將神經網絡建模和強化學習相結合。過去幾十年來,深度強化學習一直可望而不可及。
  • 5分鐘散步讓孩子更專注學習?激活大腦前額皮質,提高孩子意志力
    為什麼有的孩子可以持續、專注地學習幾個小時,而有的孩子卻連堅持半個小時都有問題?這主要是因為他們的意志力有高有低。而意志力的高低取決於我們大腦中的前額皮質,它位於額頭和眼睛後面的神經區。前額皮質並不是擠成一團的灰質,而是分成了三個區域,分管「我要做」、「我不要」和「我想要」三種力量。這三種力量決定了我們的意志力。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    如果你也有一個創新而又聰明的想法,那麼去尋找最好的平臺是明智的選擇,去創造一個高度專業和有效的演示。通用學習算法DeepMind的通用學習算法非常有趣,有助於更好地理解人腦。為做到這一點,該公司已經開始開發可以玩各種不同遊戲的系統。一位創始人認為,當一個程序可以玩不同的遊戲時,人工智慧就能達到人類水平。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    了解 AlphaGo 的勝率預測AlphaGo 的下法不一定總是具有最高的勝率,這是因為每一個下法的勝率都是得自於單獨的一個 1000 萬次模擬的搜索。AlphaGo 的搜索有隨機性,因此 AlphaGo 在不同的搜索可能會選擇勝率接近的另一種下法。
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這兩個系統各有各的優點,深度學習系統能適用於噪聲數據,但難以解釋,而且需要大量訓練數據;符號系統更易於解釋,需要的訓練數據也更少,但一遇到噪聲數據就不行了。人類認知將這兩種截然不同的思維方式無縫結合在了一起,但想要把這種結合複製到一個AI系統裡,我們還不太清楚是否可能、如何做到。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法
    今天,DeepMind 在 Nature Neuroscience 發表新論文,該研究中他們根據神經科學中的多巴胺學習模型的局限,強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的整體作用,並據此提出了一種新型的元強化學習證明。DeepMind 期望該研究能推動神經科學自 AI 研究的啟發。
  • Deepmind Nature論文揭示最強AlphaGo Zero
    今天,Deepmind在如約在Nature發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文中,Deepmind展示了他們更強大的新版本圍棋程序「AlphaGo Zero」,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • 研究稱愛因斯坦極聰明因大腦前額皮質超凡(圖)
    研究稱愛因斯坦的大腦有著超凡的前額皮質,這或許可以解釋他的非同尋常的認知能力,特別是他天才的想像力以及大腦推演能力。  長期以來,人們一直好奇愛因斯坦為何如此聰明。  福爾克說:「儘管愛因斯坦的大腦的整體大小和不對稱形狀與常人無異,但其前額皮層、體覺皮層、初級運動皮層、頂骨皮層、太陽穴皮層以及枕骨皮層都與眾不同。其中,前額皮層的一些部位褶皺"大大"多於常人。這些可能為他的視覺空間和計算能力提供了神經學上的支撐。」這項研究成果發表在11月16日的《腦》期刊上。
  • 多巴胺引領下的分布式強化學習
    1月份有關機器學習和神經科學研究領域的重大論文可謂這一篇Nature主刊的文章, 一出頭便引爆朋友圈:這篇署名作者包含了deepmind 創始人Demis Hassabis的文章,到底意義在哪裡?我們從多巴胺和強化學習的研究歷史中娓娓道來一窺究竟。
  • DeepMind 論文三連發:如何在仿真環境中生成靈活行為
    但是你如何描述定義一個後空翻動作,或者跳躍。當教授人工系統學習運動技能時,精確描述複雜行為的困難是普遍存在的。在這一工作中,僅通過使用高水平的對象(比如向前移動而不摔倒),我們探索了如何通過身體與環境的交互從頭創建精密的行為。尤其地,我們使帶有不同仿真身體的智能體穿過不同的地形(這需要跳躍、轉向、蹲伏),從而完成其訓練。
  • Deepmind新一代AlphaGo Zero自學3天打敗AlphaGo
    ,直接通過自我純強化學習,於短短的3天自我訓練時間後,以100:0的戰績擊敗曾經的AlphaGo。但是它的大表哥AlphaGo Zero是從一個完全不懂圍棋知識和規則的神經網絡開始,AlphaGo Zero每天就默默的自己一個人玩,不會像我們一樣整天突擊學習各種歷史棋譜,參考前輩們的經驗知識,它完全依靠自己的悟性(自我強化學習),在這個過程中,神經網絡會不斷更新、調整,來預測落子的位置,發展新的策略。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    例如,儘管上下班尖峰時間都會發生在早上、晚上,但具體的確切時間可能每天、每月都有很大差異;一條小巷的擁堵,就會蔓延到下一個大路——這一點,地圖往往無法實時監控;另外,道路質量、限速、事故和封路等因素,都會給預測模型帶來麻煩。
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    平心而論,再早之前 「深藍」就已經深深傷過棋手們的心,各類智力比賽和遊戲當中,圍棋可以說是難度非常高的了,本以為圍棋 324 格棋盤生出千萬般變化能夠守住人類的陣地,結果 AlphaGo 虐哭柯潔, Alpha Zero 還說 「我能自己學」,MuZero 說 「我能自己學,還不需要規則」,就像 AI 世界裡的葉問,一個馬步攤手,豪氣發問:「我要打十個,還有誰?」
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。