DeepMind研究表明,大腦使用與AI類似的分布獎勵機制

2021-01-09 DeepTech深科技

1951 年,「人工智慧之父」Marvin Minsky 借鑑了巴甫洛夫對動物行為的觀察結果,開始嘗試設計最早的智能機器和神經網絡模擬原型。基於動物學習過程中對獎勵和懲罰的反應,他創造了一臺可以通過不斷學習來解決迷宮問題的計算機。

雖然神經科學家當時還沒有弄清楚大腦這種學習機制的原理,但 Minsky 仍然能夠在一定程度上模仿和複製這種行為,推動了人工智慧(AI)的發展。

如今在計算機科學領域,這種機制就是我們熟知的強化學習技術。隨著強化學習的不斷完善,它反過來可以幫助神經科學家們更深入地了解動物大腦的這種機制,促進了兩個領域之間良性循環發展。

《自然》雜誌上發表的一篇最新論文中,DeepMind 借鑑了研究強化學習技術得出的經驗,提出了一套關於我們大腦內獎勵機制的新理論。該假設初步得到了實驗結果支持,不僅增進了我們對心理健康和行動動機的理解,還足以證明 AI 研究正朝著通用人工智慧技術的方向邁進。

就像開頭所說,強化學習算法的內在邏輯建立在巴甫洛夫對動物的實驗結果上:僅通過給予積極和消極反饋,就可以教會動物完成複雜而陌生的任務。

對於算法來說,它在學習之初會隨機預測哪個行動可能會帶來獎勵,在採取相應行動後觀察實際回報,並且根據誤差來調整其預測方式。在最理想的情況下,經過數百萬次以上的嘗試,該算法的預測誤差會收斂至零,這時它就能準確地知道採取哪些行動可以帶來最大回報,從而順利完成任務。

早在 20 世紀 90 年代,受到強化學習算法啟發的研究就已經證明,動物大腦中獎勵系統的運作方式幾乎與這套機制相同。當人或動物將要執行某項行動時,大腦中掌管獎勵機制的多巴胺神經元就會計算預期回報。一旦收到了實際獎勵,它們便會釋放出與預測誤差成正比的多巴胺。

如果實際獎勵高於預期,就會觸發強烈的多巴胺分泌,令人倍感愉悅,而低於預期的回報則會抑制它的產生。換句話說,多巴胺可以被視為是一種校正信號,告訴神經元調整其預測模式,直到它們收斂到符合現實為止。

這種現象稱為獎勵預測誤差(reward prediction error),其工作原理就類似於強化學習算法。

DeepMind 的新論文建立在自然學習機制和人工學習機制之間的緊密聯繫上。2017 年,其研究人員曾推出了一種改進型強化學習算法,名為分布式強化學習(Distributional RL),在很多任務上的表現令人印象深刻。

他們現在認為,這種算法還可以為多巴胺神經元在大腦中的工作機制提供更準確的解釋。

圖 | 當未來的結果不確定時,獎勵可以被視為一種概率分布:綠色代表好的可能,紅色代表壞的可能。經過訓練的算法可以掌握這種概率分布模式。(來源:DeepMind)

具體來說,改進的新算法改變了預測獎勵的方式。舊方法將獎勵估算為一個 「等於平均預期結果」 的整數,而新方法更準確地將其以分布的形式表示出來。這有點類似於賭博或者抽獎的遊戲機制,雖然輸贏和獲勝概率有平均預期值,比如在氪金遊戲中常見的抽獎概率 x%,但真實情況卻是呈分布狀態的,幾乎不可能抽 100 次就一定會中 x 次。

採用分布形式的新算法由此引出了一個新的假設:大腦中的多巴胺神經元是否也以類似的分布方式預測獎勵呢?

為了驗證這一理論,DeepMind 與哈佛大學的一個小組合作,觀察了小鼠大腦中多巴胺神經元的活動模式。

他們給一些小鼠安排了任務,然後根據擲骰子結果獎勵它們。在整個過程中,研究人員會測量小鼠多巴胺神經元的放電情況,即信號發送情況。他們發現每個神經元釋放多巴胺的程度不同。這意味著它們對同一項任務給出了不同的預測結果。

有些神經元會過於「樂觀」,預測獎勵比實際獲得的更高,但另一些則更為「悲觀」,會低估實際獎勵。研究人員隨後繪製出了預測結果的分布圖,發現它跟實際獎勵的分布圖非常相似。這些數據提供了令人信服的證據,表明大腦確實使用了分布獎勵預測來增強其學習算法。

圖 | 神經元預測獎勵(藍色)和實際獎勵(灰色)呈現出相似的分布規律(來源:DeepMind)

未參與研究的多巴胺神經元行為研究先驅 Wolfram Schultz 在電子郵件中表示,「這是對基於獎勵預測誤差的多巴胺編碼機制的很好擴展。最令人驚訝的是,這種非常簡單的多巴胺反應遵循了基本生物學的直觀學習過程,而且已經成為了 AI 的組成部分。」

這項研究對 AI 和神經科學都有深刻影響。

首先,它驗證了分布強化學習是通往更高級 AI 功能的有效方法,很有希望。DeepMind 神經科學研究主管,論文的主要作者之一 Matt Botvinick 在新聞發布會上說:「如果大腦(選擇)遵循了一種模式,那它可能是個好想法。它告訴我們,這是一種可以在現實世界中擴展的計算技術,也會適合其他計算過程。」

其次,該研究可以對神經科學中有關大腦獎勵系統的經典理論提供重要更新,從而增進我們對行為動機和心理健康等研究課題的了解。例如,多巴胺神經元會傾向於 「悲觀」 和「樂觀」意味著什麼?如果大腦選擇性地只聽其中一個,會導致化學物質失衡,甚至導致抑鬱嗎?

從根本上講,後續研究會為分析大腦活動提供新的視角,進一步解碼大腦的活動機制或許會揭示更多的大腦未解之謎,有望深入挖掘是什麼創造了人類的智力。

相關焦點

  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    研究科學家,主要負責前沿AI 平臺的開發以及前沿的深度學習研究。史丹福大學心智、大腦和計算中心主任 Jay McClelland 稱,這項研究將成為人工智慧領域「有趣且重要的裡程碑」。那麼我們究竟該如何看待谷歌 Deepmind 團隊最新發布的可微分神經計算機 DNC 呢?果然,已經有人在知乎上提出這個問題。編者註:該知乎提問中「谷歌deeplearning團隊」實際上應該指的是「谷歌Deepmind團隊」。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    DeepMind此次的研究,就是如何解決這個動態預測問題。把道路劃片處理道路網(road network),指的是在一定區域內,由各種道路組成的相互聯絡、交織成網狀分布的道路系統,類似下圖這樣:但這樣的數據太龐大了,於是,谷歌地圖將道路網劃分為幾個「超級路段」。
  • DeepMind用強化學習探索大腦多巴胺對學習的作用
    這方面的研究已經有很多,例如DeepMind的論文「Learning to reinforcement learn」和OpenAI的「RL: Fast Reinforcement Learning via Slow Reinforcement Learning」。然而,促使這個過程在大腦中發生的具體機制是怎樣的,這在神經科學中大部分仍未得到解釋。
  • AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底
    在 PR 和吸引公眾目光方面,Deepmind 也是首屈一指的,例如 DQN-Atari 和創造歷史的 AlphaGo 時的 PR。每當 Deepmind 發一篇論文,很快就會出現在 Reddit 機器學習板塊和 Hacker News 的頂部,表明他們在技術社區多麼受到推崇。梯隊2.
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    之後,建立了一個基於注意力機制的神經網絡系統,端到端進行了訓練。此外,AlphaFold還使用了內部置信度度量指標來判斷蛋白質結構中哪些部分是可靠的。這個訓練過程花費了幾周的時間,使用了大約128個TPUv3內核(大約相當於100-200個GPU)。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    這一飛躍證明了計算方法將轉變生物學研究,並為加速藥物發現過程具有廣闊的前景。AlphaFold背後的AI機制摺疊的蛋白質可以看作是一個「空間圖形」,其中殘基是節點和邊緊密連接在一起。對於AlphaFold的最新版本,研究人員創建了一個基於注意力機制的神經網絡系統,經過端到端的訓練來試圖解釋這個圖的結構,同時對它所構建的隱式圖進行推理。它通過使用多重序列對齊 (MSA) 和胺基酸殘基對的表示來精化這個圖形結構。通過迭代這個過程,系統可以對蛋白質的基本物理結構做出準確的預測,並能夠在幾天的時間內確定高度精確的結構。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    有別於功能應用越來越細分的AI,AGI可簡單理解為我們在各種大片中看到的機器人,具備與人類相近的大腦獨立思考能力的人工智慧。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。
  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    首先,研究小組訓練了一個深度神經網絡,來預測蛋白質中每對胺基酸殘基之間距離的分布情況。然後,研究人員將這些數值轉化為評分,來對蛋白質結構的精確程度進行評估。同時,研究人員還另外訓練了一個神經網絡,利用這些距離數值來評估預測結構與真實結構的接近程度。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    這一飛躍證明了計算方法將轉變生物學研究,並為加速藥物發現過程具有廣闊的前景。AlphaFold背後的AI機制摺疊的蛋白質可以看作是一個「空間圖形」,其中殘基是節點和邊緊密連接在一起。對於AlphaFold的最新版本,研究人員創建了一個基於注意力機制的神經網絡系統,經過端到端的訓練來試圖解釋這個圖的結構,同時對它所構建的隱式圖進行推理。它通過使用多重序列對齊 (MSA) 和胺基酸殘基對的表示來精化這個圖形結構。通過迭代這個過程,系統可以對蛋白質的基本物理結構做出準確的預測,並能夠在幾天的時間內確定高度精確的結構。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    對於AlphaFold的最新版本,研究人員創建了一個基於注意力機制的神經網絡系統,經過端到端的訓練來試圖解釋這個圖的結構,同時對它所構建的隱式圖進行推理。它通過使用多重序列對齊 (MSA) 和胺基酸殘基對的表示來精化這個圖形結構。通過迭代這個過程,系統可以對蛋白質的基本物理結構做出準確的預測,並能夠在幾天的時間內確定高度精確的結構。
  • 新的研究揭示了大腦體驗時間的機制
    今年8月,以色列魏茨曼科學研究所的三位研究人員在《自然神經科學》雜誌上發表了一些關於時間的新見解,闡釋了是什麼拉伸和壓縮了我們的時間體驗。他們發現了時間感知和通過獎勵和懲罰幫助我們學習的機制之間存在聯繫的證據。他們還證明,對時間的感知與我們大腦不斷更新的對接下來將要發生的事情的預期緊密相連。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    其驅動學習的機制最初是受動物調節作用的啟發,並且被認為和基於獎勵學習(以多巴胺為中心)的神經機制密切相關。同時,深度強化學習利用神經網絡來學習支持泛化和遷移的強大表徵,這正和生物大腦的核心相契合。而正是這些關聯,使那些對人類和動物的行為與神經科學學習感興趣的研究人員,產生了豐富的聯想與假設,從而開始將目光轉向了深度強化學習。
  • 吳恩達deeplearning.ai五項課程完整筆記了解一下?
    自吳恩達發布 deeplearning.ai 課程以來,很多學習者陸續完成了所有專項課程並精心製作了課程筆記,在此過程中機器之心也一直在為讀者推薦優質的筆記。上個月,deep learning.ai 第五課發布,該系列課程最終結課。Mahmoud Badry 在 GitHub 上開源了五項課程的完整筆記,介紹了包括序列模型在內的詳細知識點。
  • DeepMind最新發現!神經網絡的性能竟然優於神經符號模型
    在論文中,作者描述了一種關於視頻的時空推理的體系結構,此結構可以學習到視頻中的所有成分,並且所有中間的表示都貫穿分布在整個神經網絡層中。 計算機視覺中的注意力機制(attention)的基本思想,就是想讓系統學會注意力——能夠忽略無關信息而關注重點信息。 總的來說,注意力機制就是一種一次只專注於一個元素或幾個元素的算法機制。
  • 剖析DeepMind神經網絡記憶研究:模擬動物大腦實現連續學習
    2015 年的另一項研究表明當特定的樹突棘被擦除時,其對應的技能也會隨之消失。Kirkpatrick et.之前的研究表明對於大型網絡而言,許多不同的參數配置可以實現類似的表現。通常,這意味著網絡被過參數化了,但是我們可以利用這一點:過參數化(overparameterization)能使得任務 B 的配置可能接近於任務 A 的配置。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    值得一提的是,AlphaFold 關注從頭開始建模目標形狀,且並不使用先前已經解析的蛋白質作為模板。AlphaFold 在預測蛋白質結構的物理性質上達到了高度的準確性,然後基於這些預測可以使用兩種不同的方法預測構建完整的蛋白質結構。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    在本文中,DeepMind 研究人員利用最近開發的技術反駁了這一批評。這些技術允許深度強化學習更靈活地進行操作,能夠比之前的方法更快速地解決問題。深度強化學習的快與慢近期的 AI 研究引出了強大的技術,如深度強化學習。深度強化學習將表示學習和獎勵驅動的行為結合起來,似乎與心理學和神經科學具備內在的相關性。
  • DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法
    然而,大腦中允許該過程的特定機制目前在神經科學中基本未得到解釋。在 DeepMind 剛發表在 Nature Neuroscience 的新論文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中開發出來的元強化學習框架來探索大腦中的多巴胺所發揮的幫助學習的作用。