大腦海馬體藏有學習本質的秘密,這是DeepMind新發現 | 附論文

2021-01-13 36kr

編者按:本文來自微信公眾號「量子位」(ID:QbitAI),由維金編譯整理,36氪經授權發布。

DeepMind在神經科學和人工智慧結合的探索上又有新進展。

海馬體「預測地圖」

有沒有想過這些問題:你是如何選擇的上班路線,你是如何決定搬家去哪裡,下棋的時候你是怎麼決定走出那一步?

所有這些場景中,其實都存在一個估計:你的決策在未來能獲得多大的回報。

這很微妙,你考慮的未來越遠,可能出現的情況總數就會更多。理解我們這方面的行為是神經科學研究的一個重要課題,而在人工智慧研究中,開發能有效預測未來回報的系統也是個關注重點。

在《自然神經科學》(Nature Neuroscience)上新發布的論文中,DeepMind將神經科學知識應用於機器學習中的數學理論,從而帶來關於學習和記憶本質的新見解。

具體來說,DeepMind認為,大腦中的一塊區域,即海馬體,對這個問題提供了獨特的解決方案。海馬體運用被DeepMind稱作「預測地圖」的機制來高度總結未來的事件。

傳統觀點認為,海馬體只反映動物當前的狀態,尤其是在迷宮穿梭等空間任務中。這種觀點獲得了很多支持,因為在齧齒動物的海馬體中發現了「位置細胞」:當動物處於特定位置時,這些細胞將會被激活。

(量子位註:2014年諾貝爾生理或醫學獎,被授予了美英雙國籍的神經生物學家John O』Keefe以及挪威的神經生物學家May-Britt Moser和Edvard Moser夫婦,以表彰他們在位置細胞和格點細胞上的神經生理學工作。他們的研究發現了位於大腦海馬及內嗅皮層中的一些對空間位置有特異性的特殊神經元,這些神經元構成了一個精巧的定位系統,使人們能夠認知自己在空間中所處的位置,並幫助人們進行導航。)

儘管這種理論可以解釋許多神經生理學發現,但無法完全解釋,為何海馬體也參與了其他功能,例如記憶、關係推理和決策。

DeepMind的新理論認為,在計算未來最大回報的過程中,思維導航是種更常見的問題。DeepMind的結論來自於人工智慧研究的子學科強化學習。這種學習方法關注不斷試錯的系統。

DeepMind的關鍵思路是,為了估計未來回報,人工智慧agent(智能體)必須首先估計,在每種狀態下預計能獲得多少立即回報,隨後根據每種狀態未來發生的可能性評估這些回報。通過總結所有可能狀態下的加權回報,agent可以得出對未來回報的估計。

類似的,DeepMind認為海馬體代表了全部狀態,即海馬體預測到的未來所有狀態。

例如,如果你即將下班(即當前狀態),那麼海馬體會做出這樣的預測:你很快就會動身,前往學校接孩子,最後回到距離更遠的家中。

通過判斷每個當前狀態與預期後續狀態的關係,海馬體可以對未來事件做出高度的總結,這種行為的學名是「後續表現」。DeepMind認為,這種特殊形式的預測地圖使大腦可以在回報不斷變化的環境中迅速適應環境,同時不必對未來展開計算開銷極高的模擬。

這種思路結合了兩種算法的優勢。這兩種算法已在強化學習的研究中很知名,同時也被認為存在於人類和齧齒動物的大腦中。「基於模型」的算法能學習環境模型,隨後通過模擬得出對未來回報的估計。「無模型」算法則直接從環境經驗中得出對未來回報的估計。基於模型的算法很靈活,但有著很大的計算開銷。無模型算法計算開銷較小,但不太靈活。

DeepMind理論中的算法結合了基於模型算法的靈活性,以及無模型算法的計算效率。由於計算過程是簡單的加權求和,因此計算過程非常高效,類似於無模型算法。與此同時,通過區分回報預期和狀態預期(即預測地圖),算法可以在維持狀態預期不變的情況下刷新回報預期,從而快速適應回報的改變。

DeepMind計劃在未來工作中進一步檢驗這種理論。由於預測地圖理論可以被轉換為多種神經網絡架構,因此DeepMind希望探索這種學習策略如何推動靈活快速的規劃。

在更普遍的意義上,未來的一項主要任務是研究大腦如何整合不同類型的學習方式。儘管DeepMind用這個模型去替代大腦中基於模型和無模型的學習方式,但更貼近現實的情況是,在學習和規划過程中,大腦同時展開了多種類型的學習。

理解這些學習算法如何配合運轉是理解人類和動物大腦的重要一步,也將指導DeepMind設計複雜、多面的人工智慧。

只有了解大腦,才能開發出更強的AI

因為創造出AlphaGo而名滿天下的DeepMind,一直在思考人工智慧如何達到下個高度。

在DeepMind創始人哈薩比斯看來,答案就在於人類中間,或者說人類的身體中。他一直認為,人工智慧需要與神經科學重新建立聯繫。只有更多地了解自然智能,我們才能真正理解(並開發出)人工智慧。

下面這段,摘自自哈薩比斯7月的一次訪談。

問:你以往曾討論過,DeepMind最大的目標之一是開發人工智慧,促進更多的科學發現,使其成為提高人類創造力的工具。神經科學如何幫助你達到這個目標?

哈薩比斯:實際上有兩種方式。其中之一是將神經科學作為算法和架構理念的靈感來源。關於開發通用智能的可行性,人類大腦是唯一現存的證明。因此我們認為,有必要付諸努力,嘗試並理解這些能力是如何形成的。隨後我們可以看看,是否有些辦法,將其轉移至機器學習和人工智慧。

這也是我在博士階段研究神經科學的原因:關注大腦的記憶和想像力,理解大腦中的哪些區域參與其中,存在什麼樣的機制,隨後使用這些知識幫助我們思考,如何在人工智慧系統中實現同樣的功能。

我們試圖理解的另一方面是,智能究竟是什麼,這也包括自然智能,人類的智力。因此我認為,可能會出現反向的幫助。利用可以完成有趣任務的人工智慧算法,我們可以了解,應該如何看待大腦本身。我們可以使用這些人工智慧系統作為模型,了解大腦中正在發生什麼。

問:你提到大腦的想像力、預測未來的能力,是改進AI的關鍵功能。能不能舉個例子,說明AI怎麼才能擁有這些能力?

哈薩比斯:這些高級的想法目前還在很基礎的階段。先有記憶,然後再有想像。大腦裡有不同的存儲系統。比方說短期工作記憶,可以用來記住電話號碼這種不長的信息。另外還有場景記憶,這是一種長期記憶,甚至你在睡覺的時候都能從中學習經驗。

這只是一個想法,不同的記憶存儲系統,對AI來說很有價值。傳統的神經網絡沒有太多的記憶,只專注於當時當刻。為了改變這個情況,人類發明了神經圖靈機,讓神經網絡可以連接並使用一個很大的擴展存儲器。這是一個神經科學啟發的想法。

然後我們來說想像,這是人類和一些動物,對世界的生成模型,這種模型被用來在現實世界行動之前,評估和規劃將會發生什麼,以及可能產生的後果。

想像力是一個非常強大的規劃工具。你需要建立一個世界的模型,然後使用這個模型去預測,還要及時向前推進。所以,當我們開始拆解想像力的構成時,就能獲得一些關於構建想像力所需功能的線索。

論文&下載


DeepMind最新發表在《自然神經科學》的這篇論文,去年12月提交,今年8月29日被接受,10月2日正式在線發布。

《自然神經科學》的訂閱用戶,可以前往下面這個網址查看論文:
http://www.nature.com/neuro/journal/vaop/ncurrent/full/nn.4650.html?foxtrotcallback=true


相關焦點

  • DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法
    上周,DeepMind在 Nature 發表論文,用 AI 復現大腦的導航功能。今天,DeepMind 在 Nature Neuroscience 發表新論文,該研究中他們根據神經科學中的多巴胺學習模型的局限,強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的整體作用,並據此提出了一種新型的元強化學習證明。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    可能在社會責任感的感召下,人工智慧公司想在人類急需前沿科技的領域創造一些有價值、有意義的事情,比如生命科學。眾所周知,全世界頂級的圍棋選手人工智慧阿法狗之父,Deepmind公司最近又因為在生命科學領域的成就,上了科技界的熱搜榜。這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。
  • DeepMind重大突破:DNN具有人類行為,認知心理學破解黑箱
    編者按:本文由微信公眾號編譯,來源:deepmind.com 等,作者:DeepMind、Brian Mingus,編譯:熊笑;36氪經授權發布。「新智元」(ID:AI_era)DeepMind 的最新論文稱過去「首次」將認知心理學方法引入了對深度神經網絡黑箱的理解研究中,並用認知心理學的方法發現了深度神經網絡存有和人類兒童在學習詞彙時也存在的「形狀偏好」的行為。此文一出,就有學者指出,DeepMind 是在將自己的研究包裝為全新的研究。
  • DeepMind用強化學習探索大腦多巴胺對學習的作用
    編輯:肖琴【新智元導讀】繼上周在 Nature 發表極受關注的「網格細胞」研究後,DeepMind今天又在《自然-神經科學》發表一篇重磅論文:利用強化學習探索多巴胺對學習的作用,發現AI的學習方式與神經科學實驗中動物的學習方式類似。
  • 人成年後 大腦海馬體新神經元就"停產了"
    這一研究中的癌症患者在活著的時候接受了bromodeoxyuridine注射。這種化學物質會標記新分裂的細胞。而研究證實,在這些已故患者的大腦組織中,bromodeoxyuridine出現在了少量的海馬體神經元中。之後,Karolinska 研究所Jonas Frisén實驗室在2013年發表了一項支持上述結論的新成果。
  • AI有了更強的想像力!DeepMind又立功了 | 附兩篇新論文
    圍棋有明確定義的規則,因此在幾乎任何情況下都可以非常準確地預測結果。 然而,現實世界情況更複雜,規則沒有明確定義,預期之外的結果常常會出現。即使是最聰明的人工智慧系統,在這種複雜環境中展開想像都會是漫長而成本高昂的過程。 在兩篇最新論文中,我們描述了一類新方法,讓人工智慧建立以想像力為基礎的計劃能力。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。遊戲意味著有規則可循,所以在有一定規律可循的事情上,Deepmind可以發現其中的規律,並比人類做得更出色。因而,通過Deepmind開發的Alophafold發現蛋白質摺疊規律並成功預測,顯然也在情理之中。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    這些技術揭示了一個微妙但非常重要的洞見,即學習的快與慢之間的基礎聯繫。深度強化學習的「慢」是指每一個任務都要極其龐大的試錯過程,它不能像人類那樣利用經驗或知識快速學習。但這種慢卻也非常有優勢,智能體能找到更好的解決方案、更具有創新性的觀點等等。反觀深度學習的「快」,我們希望藉助決策經驗,幫助智能體快速學習新任務與新知識。
  • DeepMind 論文三連發:如何在仿真環境中生成靈活行為
    在這三篇論文中(論文摘要見後文),我們尋找了產生靈活和自然行為的新方法,它們可被再利用,解決新任務。  富環境中移動行為的出現  對於一些人工智慧問題,比如玩Atari 或下圍棋,其目標易於定義,即獲勝。但是你如何描述定義一個後空翻動作,或者跳躍。當教授人工系統學習運動技能時,精確描述複雜行為的困難是普遍存在的。
  • DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?
    了解 AlphaGo 的勝率預測AlphaGo 的下法不一定總是具有最高的勝率,這是因為每一個下法的勝率都是得自於單獨的一個 1000 萬次模擬的搜索。AlphaGo 的搜索有隨機性,因此 AlphaGo 在不同的搜索可能會選擇勝率接近的另一種下法。
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    一、簡介有些人會有如下質疑「Alphago都用了蒙特卡洛搜索樹了,這變成了一部分搜索問題了並不是人工智慧算法了或者說不夠智能了」,但我的拙見是人在思考問題的時候除了直覺、經驗判斷、邏輯推理之外也會去枚舉、搜索,所以我覺得算法包含一部分搜索並不能直接說該算法這不夠智能或者這不是智能算法了
  • DeepMind新論文:人工智慧學會像哺乳動物那樣抄近路
    北京時間5月10日凌晨1時,該英國團隊在世界頂級學術雜誌《自然》上發表論文稱,其最新研發出的一個人工智慧程序具有類似哺乳動物一樣的尋路能力,非常類似大腦中網格細胞的工作原理。神秘的網格細胞:大腦內置GPS從家出發到新的地點,再原路返回,從中選擇儘可能的捷徑,這是絕大多數動物都能勝任的簡單任務。
  • 人腦的前額皮質裡藏了一個強化學習系統,DeepMind如是說
    在 AI 系統中重現這種元學習結構或者叫元強化學習對於實現快速、一次性學習卓有成效(詳見我們的在 OpenAI 的論文及工作)。但是元學習這一過程具體的實現機制在神經科學中依舊是未解之謎。在 Jane Wang 團隊新發表在《自然》神經科學子刊上的論文中,他們在 AI 研究中使用元強化學習架構來探究大腦中的多巴胺在人類學習過程中起到的作用。
  • Deepmind Nature論文揭示最強AlphaGo Zero
    今天,Deepmind在如約在Nature發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文中,Deepmind展示了他們更強大的新版本圍棋程序「AlphaGo Zero」,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。
  • 大腦海馬區域的LTD起著鞏固記憶的作用
    我國研究人員歷時兩年多,在國際上首次發現了增強記憶的細胞分子機制。 摘要:   學習、記憶有障礙的孩子,能否增強記憶、變得更聰明?我國研究人員歷時兩年多,在國際上首次發現了增強記憶的細胞分子機制。這一成果對攻克兒童生長發育過程中的學習記憶障礙,研究開發新的臨床藥物和治療新方法提供了可能。
  • 用神經網絡求解薛丁格方程,DeepMind開啟量子化學新道路
    這為深度學習在量子化學領域的發展奠定了基礎。論文地址:https://arxiv.org/abs/1909.02487神經網絡已知最好的應用是在人工智慧領域——視覺、語音和遊戲,但它們在科學和工程領域也有嚴肅的應用。谷歌的 DeepMind 已經訓練出了一個能求解薛丁格方程的神經網絡。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • AI巨頭實力排名新鮮出爐:DeepMind第一,IBM墊底
    他們發表的論文在研究界裡很受推崇,而且涉及的領域非常廣,例如深度增強學習,貝葉斯神經網絡,機器人學,遷移學習,等等。他們從牛津大學和劍橋大學招攬了大量人才,這兩所大學是歐洲最好的 ML 研究學府。谷歌大腦剛成立時,第一個研究項目確實偏向工程,但今天谷歌大腦團隊已經有很多員工,關注 AI 每個子領域的長期的 AI 研究,就類似於 FAIR 和 Deepmind。舉例說來,FAIR 在 ICLR 2017 會議上有16篇論文被收錄,其中3篇被錄為 Oral(即非常傑出的論文)。
  • DeepMind最新發現!神經網絡的性能竟然優於神經符號模型
    編輯:keyu【新智元導讀】DeepMind最新的研究結果再一次打破了傳統認知——根據研究人員的最新發現
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    在這款遊戲中,玩家可以在線幫助研究人員尋找具有對抗新型冠狀病毒潛力的蛋白結構,其本質是充分利用所有可利用的人力、算力。說到算力,不少人提到,希望科技巨頭 DeepMind 也參與到這場行動中。不負眾望,DeepMind 其實早已開始行動,並於昨日公布了他們的最新成果。