大腦也在用分布式強化學習?DeepMind新研究登上《Nature》

2020-12-11 機器之心Pro

機器之心報導

機器之心編輯部

分布式強化學習是智能體在圍棋、星際爭霸等遊戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋,即大腦也應用了這種算法。這一發現驗證了分布式強化學習的潛力,同時也使得 DeepMind 的研究人員越發堅信,「現在的 AI 研究正走在正確的道路上」。

多巴胺是人們所熟悉的大腦快樂信號。如果事情的進展好於預期,大腦釋放的多巴胺也會增多。在人腦中存在獎勵路徑,這些路徑控制我們對愉悅事件的反應,並通過釋放多巴胺的神經元進行介導。例如,在著名的巴布洛夫的狗實驗中,當狗聽到鈴聲便開始分泌口水時,這一反應並非已經獲得了獎勵,而是大腦中的多巴胺細胞對即將到來的獎勵產生的一種預測。之前的研究認為,這些多巴胺神經元對獎勵的預測應當是相同的。

但近日,DeepMind 的研究人員通過使用分布式強化學習算法發現,每個多巴胺神經元對獎勵的預測很不相同,它們會被調節到不同水平的「悲觀」和「樂觀」狀態。研究者希望通過這套算法研究並解釋多巴胺細胞對大腦的行為、情緒等方面的影響。這份研究成果昨日登上了《Nature》

Nature 論文連結:https://www.nature.com/articles/s41586-019-1924-6強化學習算法和多巴胺獎懲機制研究強化學習算是神經科學與 AI 相連接的最早也是最有影響力的研究之一。上世紀 80 年代末期,計算機科學研究者試圖開發一種算法,這種算法僅依靠獎懲反饋作為訓練信號,就可以單獨學會如何執行複雜的行為。這些獎勵會加強使其受益的任何行為。解決獎勵預測問題的重要突破是時序差分算法(TD),TD 不會去計算未來的總體回報,它嘗試預測當前獎勵和未來時刻預期獎勵之和。當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,並用此「時序差分」將舊版本的預測調整為新的預測。不斷訓練之後,「預期」和「現實」會逐漸變得更加匹配,整個預測鏈條也會變得越來越準確。與此同時,很多神經科學研究者們,專注於多巴胺神經元的行為研究。當面對即將到來的獎勵時,多巴胺神經元會將「預測」和「推斷」的值發送給許多大腦區域。這些神經元的「發送」行為與獎勵的大小有一定關係,但這些反應常常依靠的是外部感性信息輸入,並且在給定任務中的表現也會隨著生物體經驗的豐富而改變。例如,對於特定的刺激產生的獎勵預測變少了,因為大腦已經習慣了。一些研究者注意到,某些多巴胺神經元的反應揭示了獎勵預測的漏洞:相比於被訓練應該生成的那種「預期」,它們實際發送的預期總是或多或少,和訓練的預期不太一樣。於是這些研究者建議大腦使用 TD 算法去計算獎勵預測的誤差,通過多巴胺信號發送給大腦各個部位,以此來驅動學習行為。從那時起,多巴胺的獎勵預測理論逐漸在數以萬計的實驗中得到證實,並已經成為神經科學領域最成功的定量理論之一。自 TD 被應用於多巴胺獎懲機制研究以來,計算機科學家在不斷優化從獎懲機制中學習的算法。自從 2013 年以來,深度強化學習開始受到關注:在強化學習中使用深度神經網絡來學習更強的表示,使強化學習算法解決了精巧性和實用度等問題。分布式強化學習是一種能讓神經網絡更好地進行強化學習的算法之一。在許多的情況下,尤其是很多現實情況中,未來獎勵的結果實際上是依據某個特定的行為而不是一個完全已知的量進行的預測,它具有一定的隨機性。圖 1 是一個示例,一個由計算機控制的小人正在越過障礙物,無法得知它是會掉落還是跨越到另一端。所以在這裡,預測獎勵就有兩種,一種代表墜落的可能性,一種代表成功抵達另一邊的可能性。

圖 1:當未來不確定時,可以用概率分布的方式去描述未來獎勵。未來的某一部分可能會是「好的(綠色)」,其他則代表「不好(紅色)」。藉助各種 TD 算法,分布式強化學習可以學習關於這個獎勵預期的分布情況。在這種情況下,標準 TD 算法學習預測將來的平均獎勵,而不能獲得潛在回報的雙峰分布(two-peaked distribution)。但是分布式強化學習算法則能夠學習預測將來的全部獎勵。上圖 1 描述了由分布式智能體學習到的獎勵預測。因此,分布式強化學習算法在多巴胺研究中的應用就進入了研究者們的視野。分布式 TD:性能更好的強化學習算法新的研究採用了一種分布式強化學習算法,與標準 TD 非常類似,被稱為分布式 TD。標準 TD 學習單個預測(平均期望預測),而分布式 TD 學習一系列不同的預測。而分布式 TD 學習預測的方法與標準 TD 相同,即計算能夠描述連續預測之間差異的獎勵預測誤差,但是每個預測器對於每個獎勵預測誤差都採用不同的轉換。例如,當獎勵預測誤差為正時(如下圖 2A 所示),一些預測器會有選擇性地「擴增」或「增持」獎勵預測誤差。這使得預測器學習更樂觀的獎勵預測,從而對應獎勵分布中的更高部分。但同時,另一些預測器擴增它們的負獎勵預測誤差(如下圖 2A 所示),所以學習更悲觀的獎勵預測。因此具有不同悲觀和樂觀權重的一系列預測器構成了下圖 2B 和 2C 的完整獎勵分布圖。

圖 2:分布式 TD 學習對獎勵分布不同部分的價值估計。除了簡潔性之外,分布式強化學習還有另一項優勢,當它與深度神經網絡結合時會非常強大。過去五年,基於原始深度強化學習 DQN 智能體的算法有了很多進展,並且這些算法經常在 Atari 2600 遊戲中的 Atari-57 基準測試集上進行評估,證明了分布式強化學習算法的性能優勢。多巴胺研究中的分布式 TD由於分布式 TD 在人工神經網絡中具有很好的性能,因此本研究考慮採用分布式 TD,嘗試研究大腦的獎懲機制。在研究中,研究者聯合哈佛大學,對老鼠多巴胺細胞的記錄進行分析。在任務中,這些老鼠獲得數量未知的獎勵(如下圖 4 所示)。研究者的目的是評估多巴胺神經元的活動是否與標準 TD 或分布式 TD 更為一致。以往的研究表明,多巴胺細胞改變它們的發放率(firing rate)來表明存在的預測誤差,即一個動物是否接收了比預期更多或更少的獎勵。我們知道,當獎勵被接收時,預測誤差應為零,也就是獎勵大小應與多巴胺細胞預測的一樣,因此對應的發放率也不應當改變。對於每個多巴胺細胞,如果研究者確定了其基準發放率沒有改變,則其獎勵大小也可以被確定。這個關係被稱之為細胞的「逆轉點」。研究者想要弄清楚不同細胞之間的逆轉點是否也存在差異。如下圖 4C 所示,細胞之間存在著明顯差異,一些細胞會預測非常大的獎勵,而另一些只預測出非常小的獎勵。相較於從記錄中固有隨機變化率所能預期的差異,細胞之間的實際差異要大得多。

圖 4:在這項任務中,老鼠獲得的水獎勵(water reward)通過隨機方法確定,並可以調整,範圍是 0.1-20 UL。在分布式 TD 中,獎勵預測中的這些差異是由正或負獎勵預測誤差的選擇性擴增引起的。擴增正獎勵預測可以獲得更樂觀的獎勵預測,而擴增負獎勵可以獲得更悲觀的預測。所以,研究者接下來測量了不同多巴胺細胞對正或負期望的擴增程度,並發現了細胞之間存在著噪聲也不能解釋的可靠多樣性。並且關鍵的一點是,他們發現擴增正獎勵預測誤差的同一些細胞也表現出了更高的逆轉點(上圖 4C 右下圖),也就是說,這些細胞期望獲得更高的獎勵。最後,分布式 TD 理論預測,有著不同的逆轉點(reversal point)的細胞應該共同編碼學到的獎勵分配。因此研究人員希望能夠探究:是否可以從多巴胺細胞的發放率解碼出獎勵分配到不同細胞的分布。如圖 5 所示,研究人員發現,只使用多巴胺細胞的放電速率,確實有可能重建獎勵的分布(藍色線條),這與老鼠執行任務時獎勵的實際分布(灰色區域)非常接近。

圖 5:多巴胺細胞群編碼了學到的獎勵分布的形狀。總結研究人員發現,大腦中的多巴胺神經元被調節到不同水平的「悲觀」和「樂觀」。如果它們是一個合唱團,那麼所有的神經元不會唱同一個音域,而是彼此配合——每個神經元都有自己的音域,如男高音或女低音。在人工強化學習系統中,這種多樣化的調整創造了更加豐富的訓練信號,極大地加快了神經網絡的學習。研究人員推測,大腦可能出於同樣的原因使用這套機制。大腦中分布式強化學習的存在可以為 AI 和神經科學的發展提供非常有趣的啟示。首先,這一發現驗證了分布式強化學習的潛力——大腦已經用到了這套算法其次,它為神經科學提出了新的問題。如果大腦選擇性地「傾聽」樂觀/悲觀多巴胺神經元會怎麼樣呢?會導致衝動或抑鬱嗎?大腦有強大的表徵能力,這些表徵是如何由分布式學習訓練出的呢?例如,一旦某個動物學會了分配獎勵的機制,在它的下遊任務會如何使用這種表徵?多巴胺細胞之間的樂觀情緒可變性與大腦中其他已知的可變形式存在什麼關聯?這些問題都需要後續研究進一步解釋。最後,DeepMind 的研究人員希望通過這些問題的提出和解答來促進神經科學的發展,進而為人工智慧研究帶來益處,形成一個良性循環。參考連結:https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AIhttps://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/

相關焦點

  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • 無需人類知識,DeepMind新一代圍棋程序AlphaGo Zero再次登上Nature
    之前的 AlphaGo 版本首先基於數千場人類圍棋比賽來訓練如何學習圍棋。但 AlphaGo Zero 跳過了這一步,從自己完全隨機的下圍棋開始來學習圍棋。通過這種方式,它快速超越了人類棋手的水平,並且以 100:0 的比分打敗了之前戰勝世界冠軍的 AlphaGo。AlphaGo Zero 利用新型強化學習完成這樣的壯舉,在訓練過程中它是自己的老師。
  • Jax 生態再添新庫:DeepMind 開源 Haiku、RLax
    近日,DeepMind 開源了兩個基於 Jax 的新庫,給這個生態注入了新的活力。 Haiku:https://github.com/deepmind/haiku RLax:https://github.com/deepmind/rlax Haiku:在 Jax 上進行面向對象開發
  • DeepMind又出大招!新算法MuZero登頂Nature,AI離人類規劃又近了一步
    通過將模型與AlphaZero的樹搜索功能相結合,MuZero在Atari基準上取得了最新的技術優勢,同時在圍棋、西洋棋和日本將棋的經典規劃挑戰中與AlphaZero的性能不相上下,展示了強化學習算法的快速飛躍。先前,研究人員通過前向搜索與基於模型的規劃等兩種方法來提高AI的規劃能力。
  • 大腦海馬體藏有學習本質的秘密,這是DeepMind新發現 | 附論文
    理解我們這方面的行為是神經科學研究的一個重要課題,而在人工智慧研究中,開發能有效預測未來回報的系統也是個關注重點。 在《自然神經科學》(Nature Neuroscience)上新發布的論文中,DeepMind將神經科學知識應用於機器學習中的數學理論,從而帶來關於學習和記憶本質的新見解。
  • DeepMind重磅開源強化學習框架!覆蓋28款遊戲,24個算法
    在這個框架中,實現了28款可用於研究強化學習的棋牌類遊戲和24個強化學習中常用的算法,DeepMind的成名作AlphaGo的基礎算法也在其列。此外,還包括用於分析學習動態和其他常見評估指標的工具。更關鍵的是,OpenSpiel適用人群也非常廣泛。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。有別於功能應用越來越細分的AI,AGI可簡單理解為我們在各種大片中看到的機器人,具備與人類相近的大腦獨立思考能力的人工智慧。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。
  • 【Nature 重磅】谷歌 DeepMind 發布可微分神經計算機 DNC,深度學習推理能力或大幅提升
    由此,Alex Graves、Greg Wayne、Demis Hassabis 等人開發了一個叫做「可微分神經計算機」(DNC),將神經網絡與一個可讀寫的外部存儲器結合起來,這樣就克服了神經網絡無法長時間保存數據的缺點。從數學上講,DNC 類似一個可微分的函數,這也是研究人員稱它為可微分的原因。相比之下,數字計算機不可微,因此也無法做到像神經網絡一樣從數據中學習。
  • 人類對大腦多巴胺機制理解錯了!頂級版AlphaGo背後技術啟發腦科學
    人工智慧的進步,已經能夠為揭秘大腦如何學習提供啟發。這是來自DeepMind的最新研究,剛登上Nature,研究證明:分布式強化學習,也就是AlphaGo的頂級版Alpha Zero和AlphaStar背後的核心技術,為大腦中的獎賞通路如何工作提供了新解釋。
  • Nature子刊:大腦學習也靠反向傳播?Hinton等用新一代反向傳播算法...
    反向傳播的發明者Geoffery Hinton發Nature子刊告訴我們:人腦中存在類似於反向傳播的神經機制,我用一種新算法類比出來了!「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」  什麼是反向傳播?  反向傳播全稱叫「誤差反向傳播」,英文Backpropagation,縮寫為BP算法。
  • Google DeepMind 團隊發布新算法,下一個被 AI 虐哭的是誰?
    賽後,DeepMInd 團隊宣布 AlphaGo 退役,但相關研究不會停止。誰能想到,僅僅淡出了兩年,DeepMInd 團隊帶著 AlphaGo 的後輩——— MuZero 新重出江湖。MuZero 通過自我比賽以及和 AlphaZero 進行比賽,利用多項常規和殘局訓練,實現了算法的升級突破。相關研究成果論文今年 12 月在國際頂級期刊 Nature 上發出(2019年,該文章在預印本平臺發布)。
  • 谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用...
    谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用世界模型實現高效的行為學習 將門創投 發表於 2020-03-26 11:41:12 近年來隨著強化學習的發展
  • 用反向傳播算法解釋大腦學習過程?Hinton等人新研究登Nature子刊
    機器之心報導魔王、Jamin、杜偉反向傳播可以解釋大腦學習嗎?近日 Hinton 等人的研究認為,儘管大腦可能未實現字面形式的反向傳播,但是反向傳播的部分特徵與理解大腦中的學習具備很強的關聯性。該研究以過去和近期的研究發展為基礎,認為反向連接可能會引發神經活動,而其中的差異可用於局部逼近誤差信號,從而促進大腦深層網絡中的有效學習。大腦對反向傳播算法的近似。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    此消息一出,立刻登上了Nature雜誌封面,標題直接評論為:「它將改變一切!」。同一時間,谷歌CEO兼執行長桑達爾·皮查伊 (Sundar Pichai)、斯坦福教授李飛飛、馬斯克等眾多科技大佬也在第一時間轉推祝賀!
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • Alphastar再登Nature!星際爭霸任一種族,戰網狂虐99.8%人類玩家
    Deepmind也發布了相關博客,詳細敘述了這次的新研究,稱在幾個關鍵方面超越了先前的工作:1、AlphaStar現在通過與人類相同的攝像頭視野觀察地圖,以及對AI動作頻率進行了更嚴格限制(與星際爭霸專業Dario「 TLO」Wünsch合作)。
  • DeepMind,哈佛造出了 AI「小白鼠」:從覓食,擊球窺探神經網絡奧秘
    機器之心報導機器之心編輯部我們可以用研究小白鼠的方式來研究 AI 嗎?或許可以。在一篇 ICLR 2020 Spotlight 論文中,DeepMind 和哈佛大學的研究者構建了一個基於 AI 的虛擬小鼠,能夠執行跑、跳、覓食、擊球等多項複雜任務。他們還嘗試用神經科學技術來理解這個「人造大腦」如何控制其行為。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?
  • 不只是AlphaGo,谷歌DeepMind到底是何方神聖?
    圖源:deepmind他們的策略得到了科學研究的支持,研究表明,象棋這樣的遊戲可以提高戰略思維能力。通過機器學習如何玩這些複雜的遊戲,它們將獲得思考和戰略行動的能力。DeepMind的深度強化學習DeepMind通過實施完全不同的技術系統,將深度學習提升到了一個全新的水平。該系統被稱為深度強化學習,與常規人工智慧系統不同,它是完全獨立的。例如,沃森或深藍是出於特定目的而開發的,並僅以所需的容量運行。
  • 械臂最近有點忙:OpenAI教它玩魔方,DeepMind讓它搭積木!
    DeepMind利用智能體遷移學習,將虛擬環境中的知識轉移到現實中的機械臂,效果顯著,機械臂搭積木的成功率從基線方法的12%猛增至62%。來新智元 AI 朋友圈和大咖一起討論吧~教機械手搭積木的最簡單方法是什麼?DeepMind的研究人員最近就在研究這個問題。 只要想用AI解決問題,總是需要大量數據,而目前的機器人技術很難獲得這些數據。