DeepMind用強化學習探索大腦多巴胺對學習的作用

2020-12-03 新智元

新智元報導

來源:DeepMind

編輯:肖琴

【新智元導讀】繼上周在 Nature 發表極受關注的「網格細胞」研究後,DeepMind今天又在《自然-神經科學》發表一篇重磅論文:利用強化學習探索多巴胺對學習的作用,發現AI的學習方式與神經科學實驗中動物的學習方式類似。該研究提出的理論可以解釋神經科學和心理學中的許多神秘發現。

AI系統已經掌握了多種電子遊戲,如雅達利經典的「突出重圍」(Breakout)和「桌球」(Pong)遊戲。但儘管AI在玩遊戲方便的表現令人印象深刻,它們仍然是依靠相當於數千小時的遊戲時間訓練,才達到或超越人類的水平。相比之下,我們人類通常只花幾分鐘就能掌握一款我們從未玩過的電子遊戲的基礎知識。

為什麼只有這麼少的先驗知識,人類的大腦卻能做這麼多的事情呢?這就引出了「元學習」(meta-learning)的理論,或者說「學習如何學習」(learning to learn)。人們認為,人是在兩個時間尺度上學習的——在短期,我們專注於學習具體的例子;而在較長的時間尺度,我們學習完成一項任務所需的抽象技能或規則。正是這種組合被認為有助於人高效地學習,並將這些知識快速靈活地應用於新任務。

在 AI 系統中重建這種元學習結構——稱為元強化學習(meta-reinforcement learning)——已經被證明能夠促進智能體(agents)快速、one-shot的學習。這方面的研究已經有很多,例如DeepMind的論文「Learning to reinforcement learn」和OpenAI的「RL: Fast Reinforcement Learning via Slow Reinforcement Learning」。然而,促使這個過程在大腦中發生的具體機制是怎樣的,這在神經科學中大部分仍未得到解釋。

今天,DeepMind在《自然-神經科學》(Nature Neuroscience)發表的新論文中,研究人員使用AI研究中開發的元強化學習框架來探索多巴胺在大腦中幫助我們學習時所起的作用。論文題為:Prefrontal cortex as a meta-reinforcement learning system

多巴胺——通常被稱為大腦的愉悅因子——被認為與AI強化學習算法中使用的獎勵預測誤差信號類似。AI系統通過獎勵(reward)指引的試錯來學習如何行動。研究者認為,多巴胺的作用不僅僅是利用獎勵來學習過去行為的價值,而且,多巴胺在大腦的前額葉皮層區扮演者不可或缺的角色,使我們能夠高效、快速、靈活地學習新任務。

DeepMind的研究人員通過模擬重建神經科學領域的6個元學習實驗來測試他們的理論——每個實驗都要求一個agent執行任務,這些任務使用相同的基礎原則(或同一套技能),但在某些方面有所不同。

我們使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個循環神經網絡(代表前額葉皮質),然後將這個循環網絡的活動狀態與之前在神經科學實驗中得到的實際數據進行比較。對於元學習來說,循環網絡是一個很好的代理,因為它們能夠將過去的行為和觀察內在化,然後在訓練各種各樣的任務時借鑑這些經驗。

我們重建的一個實驗叫做Harlow實驗,這是20世紀40年代的一個心理學實驗,用於探索元學習的概念。在原版的測試中,一組猴子被展示兩個不熟悉的物體,只有其中一個會給他們食物獎勵。兩個物體一共被展示了6次,每次的左右放置都是隨機的,所以猴子必須要知道哪個會給它們食物獎勵。然後,他們再次被展示另外兩個新的物體,同樣,只有其中一個會給它們食物。

在這個訓練過程中,猴子發展出一種策略來選擇能得到獎勵的物體:它學會了在第一次的時候隨機選擇,然後,下一次根據獎勵的反饋選擇特定的對象,而不是從左到右選擇。這個實驗表明,猴子可以將任務的基本原理內化,學會一種抽象的規則結構——實際上就是學會了如何學習。

meta-RL 的架構

當我們使用虛擬的計算機屏幕和隨機選擇的圖像來模擬一個非常相似的測試時,我們發現,我們的「元強化學習智能體」(meta-RL agent)似乎是以類似於Harlow實驗中的動物的方式在學習,甚至在被顯示以前從未見過的全新圖像時也是如此。

實際上,我們發現meta-RL agent可以學習如何快速適應規則和結構不同的各種任務。而且,由於網絡學會了如何適應各種任務,它也學會了關於如何有效學習的一般原則

很重要的一點是,我們發現大部分的學習發生在循環網絡中,這支持了我們的觀點,即多巴胺在元學習過程中的作用比以前人們認為的更為重要。傳統上,多巴胺被認為能夠加強前額葉系統的突觸連接,從而強化特定的行為。

在AI中,這意味著類多巴胺的獎勵信號在神經網絡中調整人工突觸的權重,因為它學會了解決任務的正確方法。然而,在我們的實驗中,神經網絡的權重被凍結,這意味著在學習過程中權重不能被調整。但是,meta-RL agent仍然能夠解決並適應新的任務。這表明,類多巴胺的獎勵不僅用於調整權重,而且還能傳遞和編碼有關抽象任務和規則結構的重要信息,從而加快對新任務的適應。

長期以來,神經科學家在大腦的前額葉皮質中觀察到類似的神經活動模式,這種模式能夠快速適應,而且很靈活,但一直以來科學家難以找到能夠解釋為什麼會這樣的充分理由。前額葉皮層不依賴突觸重量的緩慢變化來學習規則結構,而是使用直接編碼在多巴胺上的、抽象的基於模式的信息,這一觀點提供了一個更令人信服的解釋。

為了證明AI中存在的引起元強化學習的關鍵因素也存在於大腦中,我們提出了一個理論,該理論不僅與已知的關於多巴胺和前額葉皮層的了解相符,而且可以解釋神經科學和心理學中的許多神秘發現。特別是,該理論對了解大腦中結構化的、基於模式的學習是如何出現的,為什麼多巴胺本身包含有基於模式的信息,以及前額葉皮質中的神經元是如何調整為與學習相關的信號等問題提出了新的啟發。

來自AI研究的見解可以用於解釋神經科學和心理學的發現,這強調了,一個研究領域的價值可以提供給另一個領域。展望未來,我們期望能從反過來的方向得到更多益處,通過在為強化學習智能體的學習設計新的模型時,從特定腦迴路組織得到啟發。

相關焦點

  • 多巴胺引領下的分布式強化學習
    1月份有關機器學習和神經科學研究領域的重大論文可謂這一篇Nature主刊的文章, 一出頭便引爆朋友圈:這篇署名作者包含了deepmind 創始人Demis Hassabis的文章,到底意義在哪裡?我們從多巴胺和強化學習的研究歷史中娓娓道來一窺究竟。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    其驅動學習的機制最初是受動物調節作用的啟發,並且被認為和基於獎勵學習(以多巴胺為中心)的神經機制密切相關。同時,深度強化學習利用神經網絡來學習支持泛化和遷移的強大表徵,這正和生物大腦的核心相契合。而正是這些關聯,使那些對人類和動物的行為與神經科學學習感興趣的研究人員,產生了豐富的聯想與假設,從而開始將目光轉向了深度強化學習。
  • DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法
    上周,DeepMind在 Nature 發表論文,用 AI 復現大腦的導航功能。今天,DeepMind 在 Nature Neuroscience 發表新論文,該研究中他們根據神經科學中的多巴胺學習模型的局限,強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的整體作用,並據此提出了一種新型的元強化學習證明。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    深度 RL 中驅動學習的機制最初是受動物條件作用研究啟發的,並被認為與基於獎勵學習(以多巴胺為中心)的神經機制密切相關。同時,深度強化學習利用神經網絡來學習支持泛化和遷移的強大表徵,而這正是生物大腦的核心能力。鑑於這些聯繫,深度 RL 似乎為對人類和動物學習感興趣的研究者提供了豐富的想法和假設,無論是行為還是神經科學層面。而這些研究者也的確開始將目光轉向深度強化學習。
  • 人腦的前額皮質裡藏了一個強化學習系統,DeepMind如是說
    在 AI 系統中重現這種元學習結構或者叫元強化學習對於實現快速、一次性學習卓有成效(詳見我們的在 OpenAI 的論文及工作)。但是元學習這一過程具體的實現機制在神經科學中依舊是未解之謎。在 Jane Wang 團隊新發表在《自然》神經科學子刊上的論文中,他們在 AI 研究中使用元強化學習架構來探究大腦中的多巴胺在人類學習過程中起到的作用。
  • 大腦對時間的彈性感知,竟和強化學習中的獎勵有關
    在我們覺得特定時段內流逝了多少時間這件事上,多巴胺的多種作用往往是令人困惑的相互矛盾。有些研究指出,多巴胺的分泌,加速了生物體對時間的感受,使其高估時間的流逝,另外的研究指出多巴胺壓縮了對時間的感受,使人感覺時間過得更快。還有人發現取決於不同的場景,上述兩種影響同時存在。多巴胺對時間的感受之所以有趣,部分是由於這種神經遞質因其在獎勵和強化學習中的功能而廣為人知。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    通過這個工具,大家可以探索圍棋奧妙,比較 AlphaGo 的下棋路數與專業選手、業餘選手的不同點,從中學習。官網上對於工具的使用也有相關說明:如何使用這一工具?點擊棋盤上的彩色圓圈,或使用棋盤下方的導航工具,即可探索不同的開局變化,以及 AlphaGo 對於每一步棋的黑棋勝率預測。圓圈中的數字代表了該步棋的黑棋勝率。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    最近大家比較關心的圍棋人機大戰(Alphago vs 李世石)中,deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。
  • DeepMind研究表明,大腦使用與AI類似的分布獎勵機制
    基於動物學習過程中對獎勵和懲罰的反應,他創造了一臺可以通過不斷學習來解決迷宮問題的計算機。雖然神經科學家當時還沒有弄清楚大腦這種學習機制的原理,但 Minsky 仍然能夠在一定程度上模仿和複製這種行為,推動了人工智慧(AI)的發展。如今在計算機科學領域,這種機制就是我們熟知的強化學習技術。
  • :嬰兒學習行為可能與大腦內多巴胺水平有關
    如嬰兒從偏好學習(preference learning)向厭惡性學習(aversion learning)轉變。但這種轉變所包含的生物學機一直是神經生物學家無法解釋的難題。最近,紐約大學的神經生物學家在9月27日Nature  Neuroscience雜誌上發表了一篇研究報告,他們對剛出生大鼠的大腦功能的分子機制進行探索。
  • 【芥末翻Summary】通過大腦預測誤差來進行社會學習(1)
    2.強化學習在預測他人行為時,大腦特別需要用到強化學習強化學習:是多學科多領域交叉的一個產物,它的本質就是解決「decision making」問題,即學會自動進行最優決策。神經科學領域的最新進展為運用強化學習機制向他人學習提供了各種支持。雖然紋狀體長期以來一直是大腦中自我參照獎勵信息和預測錯誤的焦點,但紋狀體在學習中的作用並不限於自我參照處理。在一項關於多巴胺釋放的觀察性學習和替代性強化的研究中,當觀察到另一隻老鼠接受獎勵,相比獎勵品被投放至某個空盒子裡時,觀察鼠在腹側紋狀體中發出更多的聲音並釋放明顯更多的多巴胺。
  • 紋狀體和伏隔核:快樂、獎賞、動機、強化學習、恐懼及衝動的指示器
    它接收來自大腦皮層的輸入信息,並將信息輸入基底核。伏隔核也是基底核的一部分,伏隔核與快樂、獎賞、動機、強化學習、恐懼、成癮、衝動和安慰劑的效果相關。伏隔核以其在成癮中的作用而聞名。功能成像研究顯示,服用成癮藥物與環境相關,而成癮藥物能夠觸發伏隔核中多巴胺的釋放。對於大多數教練來說,他們更感興趣的是伏隔核在記憶編碼中處理獎勵和創新過程中的作用。
  • 100分獎勵新衣服:會削弱孩子的學習積極性。要用多巴胺控制法
    大腦因體驗到成功而分泌了多巴胺,多巴胺能讓人感到愉悅。科學研究表明:當人類完成某項工作或克服困難,即體驗成功時,大腦都會分泌多巴胺。也就是指「受大腦內A10神經的刺激,釋放多巴胺」的大腦機制。多巴胺當大腦分泌了大量的多巴胺之後,人會產生愉悅感。
  • 孩子學習動力不足,不是激勵措施不到位,而是「多巴胺」分泌不足
    我們在不知不覺中讓孩子失去了學習的動力,我當初正是因為犯了這樣的錯誤,才導致孩子學習動力不足。多巴胺控制法激發大腦的主動性《超級大腦的7個習慣》中說,影響大腦行動力的基本物質就是多巴胺:受大腦內A10神經的刺激,釋放多巴胺。
  • 大腦海馬體藏有學習本質的秘密,這是DeepMind新發現 | 附論文
    在《自然神經科學》(Nature Neuroscience)上新發布的論文中,DeepMind將神經科學知識應用於機器學習中的數學理論,從而帶來關於學習和記憶本質的新見解。 具體來說,DeepMind認為,大腦中的一塊區域,即海馬體,對這個問題提供了獨特的解決方案。海馬體運用被DeepMind稱作「預測地圖」的機制來高度總結未來的事件。
  • 強化學習如何使用內在動機?
    從進化的角度分析,外在動機指導人們學習直接提高適應度的行為,而內在動機推動人或者智能體本身知識和技能的獲得,這些知識和技能有助於智能體產生只在後期才能夠顯現作用的行為。基於這一差異,外在動機根據涉及身體自我平衡調節的事件生成學習信號,而內在動機則根據發生在大腦內部的事件生成學習信號。近年來,內在動機問題引起了計算建模和機器學習等領域研究人員的關注。
  • 專題| 深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附...
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • ...深度強化學習綜述:從AlphaGo背後的力量到學習資源分享(附論文)
    而在最近深度學習的突破性進展之下(LeCun et al., 2015; Goodfellow et al., 2016),得益於大數據的普及、計算能力的提升及新的算法技術,我們正見證著強化學習的復興(Krakovsky, 2016),特別是強化學習及深度學習的結合(也就是深度強化學習(deep RL))。
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這種區別對我們來說很有意思,因為這兩類思維對應著兩種不同的機器學習方法:深度學習和符號程序合成(symbolic program synthesis)。深度學習專注於直觀的感性思維,而符號程序合成專注於概念性的、基於規則的思考。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。有別於功能應用越來越細分的AI,AGI可簡單理解為我們在各種大片中看到的機器人,具備與人類相近的大腦獨立思考能力的人工智慧。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。