1951 年,「人工智慧之父」Marvin Minsky 借鑑了巴甫洛夫對動物行為的觀察結果,開始嘗試設計最早的智能機器和神經網絡模擬原型。基於動物學習過程中對獎勵和懲罰的反應,他創造了一臺可以通過不斷學習來解決迷宮問題的計算機。
雖然神經科學家當時還沒有弄清楚大腦這種學習機制的原理,但 Minsky 仍然能夠在一定程度上模仿和複製這種行為,推動了人工智慧(AI)的發展。
如今在計算機科學領域,這種機制就是我們熟知的強化學習技術。隨著強化學習的不斷完善,它反過來可以幫助神經科學家們更深入地了解動物大腦的這種機制,促進了兩個領域之間良性循環發展。
《自然》雜誌上發表的一篇最新論文中,DeepMind 借鑑了研究強化學習技術得出的經驗,提出了一套關於我們大腦內獎勵機制的新理論。該假設初步得到了實驗結果支持,不僅增進了我們對心理健康和行動動機的理解,還足以證明 AI 研究正朝著通用人工智慧技術的方向邁進。
就像開頭所說,強化學習算法的內在邏輯建立在巴甫洛夫對動物的實驗結果上:僅通過給予積極和消極反饋,就可以教會動物完成複雜而陌生的任務。
對於算法來說,它在學習之初會隨機預測哪個行動可能會帶來獎勵,在採取相應行動後觀察實際回報,並且根據誤差來調整其預測方式。在最理想的情況下,經過數百萬次以上的嘗試,該算法的預測誤差會收斂至零,這時它就能準確地知道採取哪些行動可以帶來最大回報,從而順利完成任務。
早在 20 世紀 90 年代,受到強化學習算法啟發的研究就已經證明,動物大腦中獎勵系統的運作方式幾乎與這套機制相同。當人或動物將要執行某項行動時,大腦中掌管獎勵機制的多巴胺神經元就會計算預期回報。一旦收到了實際獎勵,它們便會釋放出與預測誤差成正比的多巴胺。
如果實際獎勵高於預期,就會觸發強烈的多巴胺分泌,令人倍感愉悅,而低於預期的回報則會抑制它的產生。換句話說,多巴胺可以被視為是一種校正信號,告訴神經元調整其預測模式,直到它們收斂到符合現實為止。
這種現象稱為獎勵預測誤差(reward prediction error),其工作原理就類似於強化學習算法。
DeepMind 的新論文建立在自然學習機制和人工學習機制之間的緊密聯繫上。2017 年,其研究人員曾推出了一種改進型強化學習算法,名為分布式強化學習(Distributional RL),在很多任務上的表現令人印象深刻。
他們現在認為,這種算法還可以為多巴胺神經元在大腦中的工作機制提供更準確的解釋。
圖 | 當未來的結果不確定時,獎勵可以被視為一種概率分布:綠色代表好的可能,紅色代表壞的可能。經過訓練的算法可以掌握這種概率分布模式。(來源:DeepMind)
具體來說,改進的新算法改變了預測獎勵的方式。舊方法將獎勵估算為一個 「等於平均預期結果」 的整數,而新方法更準確地將其以分布的形式表示出來。這有點類似於賭博或者抽獎的遊戲機制,雖然輸贏和獲勝概率有平均預期值,比如在氪金遊戲中常見的抽獎概率 x%,但真實情況卻是呈分布狀態的,幾乎不可能抽 100 次就一定會中 x 次。
採用分布形式的新算法由此引出了一個新的假設:大腦中的多巴胺神經元是否也以類似的分布方式預測獎勵呢?
為了驗證這一理論,DeepMind 與哈佛大學的一個小組合作,觀察了小鼠大腦中多巴胺神經元的活動模式。
他們給一些小鼠安排了任務,然後根據擲骰子結果獎勵它們。在整個過程中,研究人員會測量小鼠多巴胺神經元的放電情況,即信號發送情況。他們發現每個神經元釋放多巴胺的程度不同。這意味著它們對同一項任務給出了不同的預測結果。
有些神經元會過於「樂觀」,預測獎勵比實際獲得的更高,但另一些則更為「悲觀」,會低估實際獎勵。研究人員隨後繪製出了預測結果的分布圖,發現它跟實際獎勵的分布圖非常相似。這些數據提供了令人信服的證據,表明大腦確實使用了分布獎勵預測來增強其學習算法。
圖 | 神經元預測獎勵(藍色)和實際獎勵(灰色)呈現出相似的分布規律(來源:DeepMind)
未參與研究的多巴胺神經元行為研究先驅 Wolfram Schultz 在電子郵件中表示,「這是對基於獎勵預測誤差的多巴胺編碼機制的很好擴展。最令人驚訝的是,這種非常簡單的多巴胺反應遵循了基本生物學的直觀學習過程,而且已經成為了 AI 的組成部分。」
這項研究對 AI 和神經科學都有深刻影響。
首先,它驗證了分布強化學習是通往更高級 AI 功能的有效方法,很有希望。DeepMind 神經科學研究主管,論文的主要作者之一 Matt Botvinick 在新聞發布會上說:「如果大腦(選擇)遵循了一種模式,那它可能是個好想法。它告訴我們,這是一種可以在現實世界中擴展的計算技術,也會適合其他計算過程。」
其次,該研究可以對神經科學中有關大腦獎勵系統的經典理論提供重要更新,從而增進我們對行為動機和心理健康等研究課題的了解。例如,多巴胺神經元會傾向於 「悲觀」 和「樂觀」意味著什麼?如果大腦選擇性地只聽其中一個,會導致化學物質失衡,甚至導致抑鬱嗎?
從根本上講,後續研究會為分析大腦活動提供新的視角,進一步解碼大腦的活動機制或許會揭示更多的大腦未解之謎,有望深入挖掘是什麼創造了人類的智力。