Deepmind "預測地圖"論文背後:神經科學或將助力深度學習迎來新突破

2021-01-22 雷鋒網

對人類神經網絡的理解越來越在左右人工智慧的未來研究,連Deepmind也不例外。

2017年10月2日,《NATURE NEUROSCIENCE》發表了Deepmind的一篇《The hippocampus as a predictive map》的論文。這篇論文中,Deepmind通過對主管人類長期記憶行為的「海馬體」(hippocampus)神經元活動的研究,進一步提出了可以轉化為神經網絡架構的「預測圖」理論。

在博客中,Deepmind這樣寫到:

「傳統觀點認為海馬體只表示動物的現狀,尤其在執行走迷宮之類的空間任務中。這種觀點在發現齧齒動物的海馬體中的「位置細胞」後被廣泛傳播,當動物處於特定位置時,它們會選擇性地放電。雖然這個理論解釋了許多神經生理學發現,但並不完全解釋為什麼海馬體也參與其他功能,包括記憶,關係推理和決策等。

我們認為,海馬體用它們預測到的未來狀態來展示代表每一種情況。例如,如果你要下班回家(你當前的狀態),你的海馬體可能會預測你很可能很快會通勤回家,到學校接孩子,或者更長遠一點——到家了。海馬體預測這些後期狀態來表現出當前的狀態,從而傳達了對未來事件的摘要表達,也就是我們正式說的「後續表徵」(Sucessor Representation)。我們認為,這種具體形式的預測圖可以讓大腦在獎勵不斷變化的環境中快速適應,而無需運行代價昂貴的未來模擬。

這一理論啟發我們在新算法中結合了基於模型的算法的靈活性和無模型算法中的高效性,由於計算只是簡單的加權相加,因此該算法的計算效率與無模型算法相當,同時,通過分離獎勵期望與期望狀態(預測地圖),該算法可以通過簡單的更新獎勵期望值並保持狀態期望值不變,從而快速適應獎勵變化。」

(老鼠在探索方形房間時記錄下來的海馬體每個位置細胞的活動及放電率的變化)

這並不是Deepmind的第一篇神經科學用於人工智慧的論文,在此之前Deepmind就表過至少兩篇創始人Hassabis為作者的神經科學論文(參見雷鋒網(公眾號:雷鋒網)之前文章:《DeepMind眼中的神經科學研究:人工智慧進步的另一個重要支點》),這篇文章作者中雖然不包括Hassabis,但相對於前兩篇論文更加具體,對未來的研究也更具有指導意義。

神經網絡發展史

人工智慧的發展與神經系統有著千絲萬縷的聯繫。在1943年,Warren McCulloch和Walter Pitts的《 神經活動內在想法的邏輯演算 》第一次提出了如何讓人造神經元網絡實現邏輯功能,這也奠定了神經網絡最早的數學基礎和開啟了人們模擬人腦神經系統開發人工智慧(雖然當時還沒有這個詞)的早期嘗試。

模仿人類神經系統的問題是:人類大腦神經系統實在太複雜了。在人類大腦神經系統中包含10^11(10的11次方)的神經元,即便現在也難以模擬。在1958年,Frank Rosenblatt通過解剖大鼠的大腦發布了一個模仿神經元的感知機,當時有研究者認為,只要神經元足夠多、網絡連接足夠複雜,感知機就至少可以模擬部分人類智力,但在1969年,Marvin Minsky和Seymour Papert證明了感知機只能解決線性問題,還揭露了關於多層感知器的缺陷,這使得人工神經網絡研究在人工智慧領域很快就陷入了低谷,被基於規則和邏輯推理的專家系統所取代。

1974年,一位叫Geffory Hinton的年輕研究者發現,把多個感知機連接成一個分層的網絡,即可以解決Minsky的問題。這帶動了80年代連接主義的興起,這個階段的連接理論最初被稱為分布式並行處理PDP (parallel distributed processing),他們以人工神經網絡為工具方法,引領著神經科學和人工智慧領域的發展,與行為學派和符號學派三足鼎立。

隨之而來的問題是,如果要模擬人類大腦數量如此龐大的神經元,可能需要對幾百甚至上千個參數進行調節,如何對這樣複雜的網絡進行訓練呢?Hinton等人的發現是,通過反向傳播算法可以解決多層網絡的訓練問題。這一算法是用來訓練人工神經網絡的常見方法,該方法計算對網絡中所有權重計算損失函數的梯度。這個梯度會反饋給最優化方法,用來更新權值以最小化損失函數。

神經網絡的現代分類器的各個方面也受到了我們所了解的大腦的視覺系統的啟發。這方面研究的先驅包括Geoffrey Hinton、Yann LeCun、Yoshua Bengio等人,1998年,Yann LeCun提出了卷積神經網絡(CNN),2006年,Hinton提出了深度學習的概念並在其經典論文《A fast learning alforithm for deep belief nets》中提出了深度信念網絡,帶來了深度學習直到今天的黃金時代;2009年,Yoshua Bengio提出了深度學習的常用模型堆疊自動編碼器(Stacked Auto-Encoder,SAE),基於神經網絡的研究得到進一步發揚光大。

然而人工智慧專家基於神經系統的研究和思考並沒有停止。如腦科學的研究結果表明,大腦中神經元的信號處理機制和連接學習方式是不同的,尤其是大腦的無意識感知和自我意識功能並不需要有監督的學習,在大腦神經系統中,非監督學習和自主學習同樣佔有重要的地位,相應地,對於無監督學習和遷移學習的研究也成為人工智慧的熱點之一。

而隨著深度學習和神經科學的發展,之前對深度學習的一些基礎理論也在面臨著更新。例如在深度學習領域,神經元是最底層的單元;而在神經科學領域,神經元並不是最底層的單位。目前的深度神經網絡主要是三種結構,即 DNN(全連接的)、CNN(卷積)和 RNN(循環),而目前的研究表明,人類神經網絡可能比較類似上述三種結構的組合,層內更像DNN, 層間和CNN 很類似,在時間上展開就是RNN。這種結構上的差異也導致了深度學習研究的複雜性。

來源: Neocortical layer 6, a review & 知乎

深度學習正在面臨一個拐點——一方面,基於我們最初基於人腦結構認識的理論研究已經到了一個平臺期,而另一方面,如Hinton等最尖端的深度學習專家也在藉助神經科學的最新發現,對之前對提出的理論進行反思,這也是近日Hinton就提出「深度學習需要推倒重來」,並表示可能要徹底放棄反向傳播的由來(參見雷鋒網文章:《Geffory Hinton:深度學習進入平臺期?不,深度學習需要的是「推倒重來」》)。

在與OReilly的一次訪談中,Hinton曾經承認我們對人類神經系統的了解並不足夠。「我們真不知道為什麼神經元要發脈衝。一個理論是它們想要噪聲,以便正則化,因為我們的參數超過數據量。」Hinton在訪談中說道。「這個理論已經出現有50多年了,但沒人知道它是否正確。」

神經科學和對人腦的模仿在人工智慧中曾經起著重要的作用,而對於模仿人類大腦,是否能製造出最強大的人工智慧,在不同人工智慧學家眼裡可能會有不同的答案。一個時常被提起的例子是,我們之所以能造出飛機,是因為空氣動力學的發展而並非模仿鳥類飛行的動作,但雷鋒網認為,這種從仿生到理論的循環可能是一種螺旋式的上升過程,新的神經系統發現和研究可能會推翻之前的人工智慧經典理論,並隨之模擬出新的人工智慧網絡和產生新的理論,從而推動人工智慧的研究突破瓶頸得到進一步發展。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • DeepMind 一次性開源 3 個新框架!深度強化學習應用落地即將迎來...
    雷鋒網 AI 開發者按:深度強化學習(Deep Reinforcement Learning,DRL)一直是近年來人工智慧的一些重大突破的核心。然而,儘管 DRL 有了很大的進步,但由於缺乏工具和庫,DRL 方法在主流解決方案中仍然難以應用。因此,DRL 仍然主要是以研究形式存在,並沒有在現實世界看到許多採用機器學習的應用方案;而解決這個問題就需要更好的工具和框架。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • DeepMind新GNN,將谷歌地圖預估到達準確率提升50%
    但這樣的數據太龐大了,於是,谷歌地圖將道路網劃分為幾個目前,谷歌Maps交通預測系統由以下部分組成:(1)路由分析器,以構建超路段(2)新GNN 模型,利用多個目標函數進行優化在訓練過程中動態調整圖神經網絡的學習速率,以使系統學習自己的最佳學習速率時間表。根據DeepMind的說法,通過在訓練過程中自動調整學習率,該模型不僅表現優異,還學會了自動降低學習率。
  • 為教會AI打星際2,暴雪和DeepMind推出了一個新工具包 | 附論文+代碼
    此外,玩家還需預測對手的策略。這項任務確實不容易,但不是無解。DeepMind和暴雪嘗試將遊戲分為多個「迷你遊戲」,將不同任務分解成「可管理的組塊」,比如建立特定單元、收集資源或在地圖上移動等。細分是為了方便研究人員進行不同任務的測試比較及細化,最終在智能體中組合,從而教會智能體通關整個遊戲。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    谷歌地圖也有一套預測算法。但畢竟世界是動態的,每天的狀況都有可能不同,特別是疫情期間。目前,谷歌Maps交通預測系統由以下部分組成:(1)路由分析器,以構建超路段(2)新GNN 模型,利用多個目標函數進行優化,能夠預測每個超級路段的行程時間。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • 深度學習之Google Deepmind的Alphago人工智慧算法技術演變歷程
    這兩篇文章都是蒙特卡洛搜索樹+DCNN,效果Google的Alphago優於facebook的方法,剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。deep mind在此期間做了很多紮實的研究工作,本文將進行簡單的描述。
  • DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法
    上周,DeepMind在 Nature 發表論文,用 AI 復現大腦的導航功能。今天,DeepMind 在 Nature Neuroscience 發表新論文,該研究中他們根據神經科學中的多巴胺學習模型的局限,強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的整體作用,並據此提出了一種新型的元強化學習證明。DeepMind 期望該研究能推動神經科學自 AI 研究的啟發。
  • Nature Neurosci: 神經科學的深度學習框架是什麼?
    那如果我們反過來思考,也許深度學習並沒有與神經科學背道而馳,而恰恰是觸及了當前神經科學還未開拓的領域呢?那麼我們是否可以,借鑑當前深度學習已有的規則和框架,來研究神經科學本身呢?今天分享一篇經典的文章。
  • DeepMind發布新算法,將谷歌地圖行程時間估算準確率提升50%
    大數據文摘出品來源:VB編譯:睡不著的iris據報導,在諸如柏林、雅加達、聖保羅、雪梨、東京和華盛頓(特區)的地區,谷歌地圖和谷歌地圖平臺API中的實時駕駛ETAs(預計到達時間)預測準確率提高了50%。
  • DeepMind重大突破:DNN具有人類行為,認知心理學破解黑箱
    編者按:本文由微信公眾號編譯,來源:deepmind.com 等,作者:DeepMind、Brian Mingus,編譯:熊笑;36氪經授權發布。「新智元」(ID:AI_era)DeepMind 的最新論文稱過去「首次」將認知心理學方法引入了對深度神經網絡黑箱的理解研究中,並用認知心理學的方法發現了深度神經網絡存有和人類兒童在學習詞彙時也存在的「形狀偏好」的行為。此文一出,就有學者指出,DeepMind 是在將自己的研究包裝為全新的研究。
  • DeepMind開源強化學習庫TRFL,關鍵算法可編寫RL智能體
    新智元報導 來源:DeepMind blog編輯:肖琴【新智元導讀】今天,DeepMind開源了一個內部強化學習庫TRFL,用於在TensorFlow中編寫強化學習智能體。這個庫包含DeepMind開發的大量成功的agent的關鍵算法組件,對於強化學習智能體的再現研究很有用。
  • 谷歌地圖如何使用DeepMind的AI來預測你的到達時間?
    谷歌地圖是該公司使用最廣泛的產品之一,其預測即將到來的交通堵塞的能力使其成為許多司機不可或缺的工具。在博文中,谷歌和DeepMind的研究人員解釋了他們如何從各種來源獲取數據,並將其輸入機器學習模型,以預測交通流量。這些數據包括從Android設備上匿名收集的實時交通信息、歷史交通數據、地方政府提供的限速和施工現場等信息,還包括任何特定道路的質量、大小和方向等因素。
  • 向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?
    眾所周知,全世界頂級的圍棋選手人工智慧阿法狗之父,Deepmind公司最近又因為在生命科學領域的成就,上了科技界的熱搜榜。這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。可惜,公司並沒有公布這個算法的論文。我們就這樣放棄嘛?
  • DeepMind最新研究動向,幫助實現單智能體多任務強化學習
    深度強化學習(DeepRL)在很多任務中取得了成功,從機器人的連續控制問題到圍棋、Atari 等遊戲。不過這些領域中的進步還限制在單個任務,即在單個任務中對智能體進行調整和訓練。DeepMind 最近提出的 IMPALA 開始嘗試利用單智能體同時處理多個任務,其架構性能超越此前方法數倍,具有強大的可擴展性,同時也展示了積極的遷移性質。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    賈揚清,擁有加州大學伯克利分校計算機科學博士學位、清華大學碩士學位和學士學位,曾於新加坡國立大學、微軟亞洲研究院、NEC美國實驗室、Google Brain工作,現任 Facebook 研究科學家,主要負責前沿AI 平臺的開發以及前沿的深度學習研究
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這種區別對我們來說很有意思,因為這兩類思維對應著兩種不同的機器學習方法:深度學習和符號程序合成(symbolic program synthesis)。深度學習專注於直觀的感性思維,而符號程序合成專注於概念性的、基於規則的思考。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    原來是結構生物學,迎來了一個「革命性」的突破。11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質摺疊的問題。這一次,AlphaFold的「準確性」均分,直接從原本的60+/100,提升至了92.4/100。而過去十幾年,其他方法只能在40分左右徘徊。
  • 既要深度學習又要符號化推理,DeepMind 新 JAIR 論文小試牛刀
    這兩種思維之間的區別讓 DeepMind 的研究人員們感到非常有趣,因為這兩種不同的思維剛好對應了兩種不同的機器學習方法,那就是深度學習和符號程序生成(symbolic program synthesis)。深度學習的核心是直覺式的認知思維,而符號程序生成關注的是概念式的、基於規則的思維。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。