人類對大腦多巴胺機制理解錯了!頂級版AlphaGo背後技術啟發腦科學

2020-12-04 量子位

賴可 乾明 十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI

人工智慧,往往從人類思維方式中獲取靈感。

但現在反過來了!

人工智慧的進步,已經能夠為揭秘大腦如何學習提供啟發。

這是來自DeepMind的最新研究,剛登上Nature,研究證明:

分布式強化學習,也就是AlphaGo的頂級版Alpha Zero和AlphaStar背後的核心技術,為大腦中的獎賞通路如何工作提供了新解釋。

如此結論,也讓DeepMind創始人哈薩比斯非常激動,發表推文表示:

我們在機器學習方面的研究,能夠重新認識大腦的工作機制,這是非常令人興奮的!

他當然有理由興奮。

從長遠來看,這也證明了DeepMind提出的算法與大腦運作邏輯相似,也就意味著能夠更好地拓展到解決複雜的現實世界問題上。

而且一直以來,哈薩比斯的目標就是打造通用人工智慧。

Alpha系列背後利器:分布式強化學習

強化學習,就是讓智能體在一個未知的環境中,採取一些行動,然後收穫回報,並進入下一個狀態。

而時間差分學習(temporal difference learning,TD)算法,可以說是強化學習的中心。

它是一種學習如何根據給定狀態的未來值,來預測價值的方法。

算法會將新的預測和預期進行比較。

如果發現兩者不同,這個「時間差分」就會把舊的預測調整到新的預測中,讓結果變得更加準確。

一個特定的行為所帶來的未來獎勵數量,

分布式強化學習則是更複雜的預測方式,會預測所有未來獎勵的概率分布

那人類大腦的多巴胺獎賞機制是怎麼樣的呢?

然後研究的雛形就在DeepMind研究人員的腦海中生根了。

不研究不知道,一研究真的「嚇一跳」。

過去,人們認為多巴胺神經元的反應,應該都是一樣的。

有點像在一個詩唱班,每個人唱的都是一模一樣的音符。

但研究小組發現,單個多巴胺的神經元似乎有所不同——所呈現的積極性是多樣的。

於是研究人員訓練小鼠執行一項任務,並給予它們大小各異且不可預測的獎勵。

他們從小鼠腹側被蓋區域(Ventral tegmental area,控制多巴胺向邊緣和皮質區域釋放的中腦結構)中發現了「分布式強化學習」的證據。

這些證據表明,獎勵預測是同時並行地由多個未來結果表示的。

這和分布式機器學習的原理也太像了吧?

解釋大腦多巴胺系統

實驗運用了光識別技術來記錄小鼠大腦中腹側被蓋區中單個多巴胺神經元的反應。

腹側被蓋區富含多巴胺與5-羥色胺神經,是兩條主要的多巴胺神經通道的一部分

基於強化學習理論,研究假設大腦存在多巴胺的獎賞預測誤差(RPE)。

一個信號會引起一個獎賞預測,當獎賞預測低於分布的均值時,會引起負的RPE,而較大的獎勵會引起正的RPE。

在一般強化學習中,獲得的獎勵幅度低於平均值分布將引起消極(負)的RPE,而較大的幅度將引出積極(正)的RPE(如上圖a左所示)。

在分布式強化學習中,每個通道都攜帶不同的RPE價值預測,不同通道的積極程度不同。

這些值的預測反過來又為不同的RPE信號提供了參考點。在最後的結果上,一個單一的獎勵結果可以同時激發積極(正)的RPE和消極的RPE(如上圖a右所示)。

記錄結果顯示,小鼠大腦的多巴胺神經元反轉點根據積極程度的不同而不同。符合分布式強化學習的特點(如上圖b所示)。

為了驗證神經元反應多樣性不是隨機的,研究者做了進一步驗證。

將隨機地將數據分成兩半,並在每一半中獨立地估計反轉點。結果發現其中一半的反轉點與另一半的反轉點是相關的。

為了進一步了神經元對獎賞預測的處理方式。研究者給神經元進行了三種不同的信號刺激。

分別是10%、50%、90%的獎賞概率,並同時記錄了四個多巴胺神經元的反應。

每條軌跡都是對三種線索之一的平均反應,零時是開始時間。

結果顯示,一些細胞將50%的線索編碼為90%的線索,而另一些細胞同時將10%的線索編碼為10%的線索。

最後 ,研究者還進行了驗證,試圖從多巴胺細胞的放電率來解碼獎賞分布。

通過進行推理,成功地重建了一個與老鼠參與的任務中獎勵的實際分配相匹配的分配。

初步驗證了小鼠的大腦分布式強化學習機制,給研究員帶來了更多的思考:

是什麼電路或細胞級機制導致了不對稱的多樣性?不同的RPE通道是如何與相應的獎勵預測在解剖學上結合?

這些大腦的謎團都有待於進一步了解。

而且這一研究結果也驗證了之前多巴胺分布對成癮和抑鬱等精神障礙機制影響的假說。

有理論認為,抑鬱症和雙相情感障礙都可能涉及關於未來的負面情緒。

這些情緒與未來的負面預測偏差有關,偏差則可能來自於RPE coding28、29中的不對稱。

但更多的意義,則是對當前機器學習技術發展的激勵。

DeepMind 神經科學研究負責人Matt Botvinick說:「當我們能夠證明大腦使用的算法,與我們在人工智慧工作中使用的算法類似時,這將增強我們的信心。」

跨學科研究團隊的成果

這篇論文中一共有3位共同一作,也是跨學科團隊的研究成果。

排在第一位的是Will Dabney,DeepMind的高級研究科學家。

本科畢業於美國奧克拉荷馬大學,在麻薩諸塞大學阿默斯特分校獲得了博士學位。

在加入DeepMind之前,曾在亞馬遜的Echo團隊工作過。

2016年加入DeepMind。

第二位共同一作是Zeb Kurth-Nelson,他是DeepMind的研究科學家。

博士畢業於明尼蘇達大學,2016年加入DeepMind。

第三位共同一作是Naoshige Uchida,來自於哈佛大學,是分子和細胞生物學教授。

此外,DeepMind創始人哈薩比斯也在作者之列。

他一直都希望,能夠通過人工智慧的突破也將幫助我們掌握基礎的科學問題。

而現在的研究發現,他們致力的研究方向,竟然能夠給人們研究大腦帶來啟發,無疑堅定了他們的研究信心。

One More Thing

就在這篇論文登上Nature的同時,DeepMind還有另外一篇研究出現了同一期刊上。

它就是DeepMind在2018年12月問世的AlphaFold,一個用人工智慧加速科學發現的系統。

僅僅基於蛋白質的基因序列,就能預測蛋白質的3D結構,而且結果比以前的任何模型都要精確。

DeepMind稱,這是自己在科學發現領域的第一個重要裡程碑,在生物學的核心挑戰之一上取得了重大進展。

截止到現在,DeepMind提出Alpha系列,從AlphaGo,到AlphaZero,再到AlphaStar,以及現在的AlphaFold,一門4子,全上了Nature。

唉…頂級研究機構的快樂,就是這麼樸實無華,且枯燥。

傳送門

https://www.nature.com/articles/s41586-019-1924-6

相關焦點

  • 腦科學日報:複雜的大腦;「社會撫摸」背後的神經生物學機制
    1,大腦,很複雜!來源:原理南佛羅裡達大學Salvatore Domenic Morgera教授團隊將生物工程研究集中在了大腦結構與功能之間的關係上。團隊的整體目標是科學地解釋所有在認知任務中激活不同大腦區域的連接,這些連接包括了解剖學上的物理連接,以及更為複雜的「無線」連接。
  • 腦科學日報:複雜的大腦;「社會撫摸」背後的神經生物學機制
    團隊的整體目標是科學地解釋所有在認知任務中激活不同大腦區域的連接,這些連接包括了解剖學上的物理連接,以及更為複雜的「無線」連接。團隊正在研究複雜的模型,來更好地幫助科學家理解大腦的功能。 Morgera教授的團隊還對這樣一個事實很感興趣,那就是結構完全正常的大腦仍然可能會產生嚴重的功能性問題。
  • 揭示大腦中的多巴胺釋放機制
    儘管科學家們已取得了長足的進展,但對健康的多巴胺細胞釋放這種神經遞質的機制知之甚少,這一差距限制了科學家們開發治療一系列多巴胺相關疾病的方法的能力。如今,在一項新的研究中,來自美國哈佛醫學院的研究人員首次鑑定出大腦中負責精確分泌多巴胺的分子機制。
  • 江蘇「大腦計劃」呼之欲出 搶佔人類腦科學研究制高點
    本報訊   「發達國家競相投巨資探究人類大腦,江蘇作為發達省份,應儘快啟動大腦計劃,搶佔人類腦科學研究制高點。」這是參加9日在南京郵電大學舉行的江蘇大腦計劃研討會的專家學者們達成的共識。  此次江蘇大腦計劃研討會,吸引南京大學、東南大學和南京市腦科醫院等高校和醫療單位參與。
  • 腦科學的未來:對7位神經科學家的訪談
    首先是腦成像研究的激增,其中最重要的技術突破之一就是我們如今能觀察到大腦的連接。大體上,我覺得人們漸漸意識到為了理解大腦的功能,就應該理解這些網絡以及它們是如何支持神經功能的。而問題在於,當我們開始研究大腦網絡時,並沒有已有的語言可以用來表達這種結構。因此我們引入了網絡科學的概念,其能將網絡描述得更直觀,讓我們能夠用一種全新的語言描述大腦。
  • 清華、北大教授同臺激辯:腦科學是否真的能啟發AI?
    但腦在幾千年內的進化中都相對靜止,因此腦科學是「自然科學最後的疆域」。腦科學是一個重要的研究方向,但不是做人工智慧的前提,它與人工智慧應該是一個相輔相成的過程。 目前,認知神經科學取得極大進步,已經有了整體發展路徑,對現在AI的端對端學習與強化學習有諸多啟發。那麼認知科學的進展對下一代AI是否有幫助?腦科學是否真的能啟發人工智慧?
  • Cell Rep:多巴胺對大腦前葉層的作用機制
    最近一項研究首次揭示了多巴胺如何改變前額皮質的功能。
  • 仁濟醫院團隊揭秘遊戲成癮機制:"多巴胺"得背鍋
    這個鍋得「多巴胺」背!  東方網12月6日消息:據《勞動報》報導,網路遊戲成癮引發的個體及社會問題,究竟有沒有病理學原因?昨天,上海交大醫學院附屬仁濟醫院放射科主任醫師周灩團隊在一項猜牌任務腦功能研究中發現,網路遊戲成癮青少年的大腦對獎勵的敏感性增高,而對懲罰的敏感性降低,導致他們為了獲得即時獎勵而忽視長期的嚴重負面結果。
  • 腦科學日報:藥物成癮記憶的機制;控制社交偏好的「大腦地圖」
    研究人員綜合運用當前最前沿的透明腦技術、化學遺傳學、光遺傳學、膜片鉗、神經環路示蹤、免疫三維成像等研究手段,發現兩條丘腦下遊環路與成癮記憶有密切關係:PVTCeA環路是藥物成癮記憶形成的關鍵神經通路,負責將阿片類藥物產生的獎賞與環境聯繫起來;PVTNAcLH環路是成癮記憶維持的重要神經通路,通過光遺傳等技術手段在記憶的提取階段操縱PVTNAc或NAcLH通路,能夠消除成癮的關聯記憶
  • 人類認知科學中的跨文化方法及其緊迫性|腦科學頂刊導讀 054期
    頂刊導讀目錄 1,人類認知科學中的跨文化方法及其緊迫性2,自發性大腦振蕩與知覺決策 3,近端威脅促進了反應性恐懼學習迴路的恐懼獲得和持續 新一輪跨文化認知科學的浪潮試圖通過不斷擴大研究的範圍、規模和可見度,從而彌補這一問題。本文回顧了這一新研究浪潮的現狀。出現人類認知畫像是這一主題的變化之一,人類認知畫像具有由文化和個人經驗形成的物種典型性能力。新浪潮擴大了我們對人類變異和文化累積變化的基礎過程的理解,包括社會學習和文化傳播的機制。
  • 腦科學日報|大腦怎樣感知物品的價值?經濟行為背後的生物學理論
    3,PNAS:揭示經濟行為背後的生物學理論——大腦怎樣感知物品價值和獎勵?來源:生物探索倫敦大學學院的研究者在《PNAS》發表了相關研究,揭示了大腦如何感知和選擇有價值的物品,還提出了大腦中參與該活動的區域——皮下跳視系統(The subcortical saccadic system)。
  • 腦科學打開生命禁區之窗 或是下代信息技術創新源頭
    北京、上海在建設具有全球影響力的科技創新中心中,對腦科學研究也進行了前瞻布局,在計算神經科學與類腦智能等研究中取得了一系列重要成果。比如,近日,復旦大學類腦智能科學與技術學院院長馮建峰教授的課題組對超過1萬例影像遺傳學數據進行計算分析,有望幫助人類揭示精神分裂症發病機制。本期特邀請馮建峰教授和北京腦科學與類腦研究中心主任饒毅教授等專家介紹我國腦科學研究的前沿和相關進展。
  • 意義非凡的腦科學
    機器人怎樣才能擁有人類的智慧和能力?人類社會未來如何與智慧機器人共存?這些問題可以說與腦科學密切相關。腦科學研究不僅可以使我們理解認知、思維、意識和語言等腦功能原理,對人類認識自身有重大科學意義,還能夠對各種腦功能神經基礎進行解析,對有效診斷和治療腦疾病有重要臨床意義,腦科學所啟發的類腦研究也可以推動新一代人工智慧和新型信息產業的發展。
  • Cell重磅-VR技術助力揭示'快樂源泉'多巴胺的神經機制
    導讀當我們提到多巴胺時,人們常常把大腦中多巴胺的釋放等同於快樂的'代言人',仿佛只要分泌了多巴胺,人就會感到快樂,似乎大眾對多巴胺的理解僅僅停留在讓人產生愉悅這個解釋上。,對揭示多巴胺的生理機制和意義有重要作用。
  • 新年紙刊特輯:腦科學的範式革命|神經現實 x 信睿周報
    隨著腦機接口、腦連接組等前沿腦科學概念及實踐進入大眾視野,人類對大腦的認識面臨又一輪更新。關於大腦,我們知道些什麼?沒錯,你們千呼萬喚、能夠收藏的紙質版「神經現實」終於來了! 在封面文章中,我們邀請了復旦大學生命科學學院顧凡及教授撰寫「腦科學的範式革命」一文,從科學史的角度梳理了人類在認識腦的過程中所發生的範式革命。顧教授通過腦科學史上一系列由問題驅動的重要節點回溯了腦科學的發展歷程,並指出了新一輪腦科學範式革命的若干可能方向。
  • 科學家解讀多巴胺的奧秘!
    揭示大腦中的多巴胺釋放機制doi:10.1016/j.cell.2018.01.008經過數十年來對神經遞質多巴胺在運動控制和尋賞行為中發揮的關鍵作用的研究,它已成為理解它的活性的無數努力的焦點,特別是當它在帕金森病和成癮等疾病中發生偏差時。
  • 多巴胺是如何讓我們對技術上癮的?
    神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。編者按:隨時隨地可以上網讓人類愈發沉迷於把時間消耗在手機上面。為什麼你會止不住想要刷手機?這背後的機制原理是什麼?
  • 腦科學日報:大腦謀劃作弊背後的神經機制;安慰劑效應有多強?
    2,何生團隊發現表徵視知覺特徵的反饋信號主導視覺敏感性適應來源:細胞圖註:Flash-Grab效應中朝向信息引起的腦電信號8月6日,《Nature Communications》雜誌在線發表了中國科學院生物物理研究所腦與認知科學國家重點實驗室何生團隊的最新研究成果
  • 蒲慕明:意義非凡的腦科學
    腦科學是一門極富魅力的生命科學,它充滿神秘,又和每個人的生活息息相關。意識是怎麼產生的?為什麼人各有志?為什麼有些人更聰明、記憶力好?為什麼有些兒童有自閉傾向?為什麼有些人患抑鬱症?機器人怎樣才能擁有人類的智慧和能力?人類社會未來如何與智慧機器人共存?這些問題可以說與腦科學密切相關。
  • 腦科學如何支持人工智慧的發展?院士和大牛們這麼說
    雷鋒網(公眾號:雷鋒網)消息,「腦科學與人工智慧」科學與技術前沿論壇於5月8日在北京中國科學院學術會堂召開中國科學院神經科學研究所所長和中科院腦科學與智能技術卓越創新中心主任。主要從事神經元發育與突觸可塑性的分子細胞機制研究。蒲院士認為,在過去半個世紀來,神經科學雖然在細胞水平上探索神經可塑性獲得了很大的進展,但對理解神經環路和大腦功能可塑性仍面臨巨大的挑戰;如何從對大腦相當粗淺的理解中,抽取對類腦智能技術有啟發性的內容,將是目前類腦智能研究的主要課題。