Deepmind "預測地圖"論文背後:神經科學或將助力深度學習迎來新突破

2020-12-25 雷鋒網

對人類神經網絡的理解越來越在左右人工智慧的未來研究,連Deepmind也不例外。

2017年10月2日,《NATURE NEUROSCIENCE》發表了Deepmind的一篇《The hippocampus as a predictive map》的論文。這篇論文中,Deepmind通過對主管人類長期記憶行為的「海馬體」(hippocampus)神經元活動的研究,進一步提出了可以轉化為神經網絡架構的「預測圖」理論。

在博客中,Deepmind這樣寫到:

「傳統觀點認為海馬體只表示動物的現狀,尤其在執行走迷宮之類的空間任務中。這種觀點在發現齧齒動物的海馬體中的「位置細胞」後被廣泛傳播,當動物處於特定位置時,它們會選擇性地放電。雖然這個理論解釋了許多神經生理學發現,但並不完全解釋為什麼海馬體也參與其他功能,包括記憶,關係推理和決策等。

我們認為,海馬體用它們預測到的未來狀態來展示代表每一種情況。例如,如果你要下班回家(你當前的狀態),你的海馬體可能會預測你很可能很快會通勤回家,到學校接孩子,或者更長遠一點——到家了。海馬體預測這些後期狀態來表現出當前的狀態,從而傳達了對未來事件的摘要表達,也就是我們正式說的「後續表徵」(Sucessor Representation)。我們認為,這種具體形式的預測圖可以讓大腦在獎勵不斷變化的環境中快速適應,而無需運行代價昂貴的未來模擬。

這一理論啟發我們在新算法中結合了基於模型的算法的靈活性和無模型算法中的高效性,由於計算只是簡單的加權相加,因此該算法的計算效率與無模型算法相當,同時,通過分離獎勵期望與期望狀態(預測地圖),該算法可以通過簡單的更新獎勵期望值並保持狀態期望值不變,從而快速適應獎勵變化。」

(老鼠在探索方形房間時記錄下來的海馬體每個位置細胞的活動及放電率的變化)

這並不是Deepmind的第一篇神經科學用於人工智慧的論文,在此之前Deepmind就表過至少兩篇創始人Hassabis為作者的神經科學論文(參見雷鋒網之前文章:《DeepMind眼中的神經科學研究:人工智慧進步的另一個重要支點》),這篇文章作者中雖然不包括Hassabis,但相對於前兩篇論文更加具體,對未來的研究也更具有指導意義。

神經網絡發展史

人工智慧的發展與神經系統有著千絲萬縷的聯繫。在1943年,Warren McCulloch和Walter Pitts的《 神經活動內在想法的邏輯演算 》第一次提出了如何讓人造神經元網絡實現邏輯功能,這也奠定了神經網絡最早的數學基礎和開啟了人們模擬人腦神經系統開發人工智慧(雖然當時還沒有這個詞)的早期嘗試。

模仿人類神經系統的問題是:人類大腦神經系統實在太複雜了。在人類大腦神經系統中包含10^11(10的11次方)的神經元,即便現在也難以模擬。在1958年,Frank Rosenblatt通過解剖大鼠的大腦發布了一個模仿神經元的感知機,當時有研究者認為,只要神經元足夠多、網絡連接足夠複雜,感知機就至少可以模擬部分人類智力,但在1969年,Marvin Minsky和Seymour Papert證明了感知機只能解決線性問題,還揭露了關於多層感知器的缺陷,這使得人工神經網絡研究在人工智慧領域很快就陷入了低谷,被基於規則和邏輯推理的專家系統所取代。

1974年,一位叫Geffory Hinton的年輕研究者發現,把多個感知機連接成一個分層的網絡,即可以解決Minsky的問題。這帶動了80年代連接主義的興起,這個階段的連接理論最初被稱為分布式並行處理PDP (parallel distributed processing),他們以人工神經網絡為工具方法,引領著神經科學和人工智慧領域的發展,與行為學派和符號學派三足鼎立。

隨之而來的問題是,如果要模擬人類大腦數量如此龐大的神經元,可能需要對幾百甚至上千個參數進行調節,如何對這樣複雜的網絡進行訓練呢?Hinton等人的發現是,通過反向傳播算法可以解決多層網絡的訓練問題。這一算法是用來訓練人工神經網絡的常見方法,該方法計算對網絡中所有權重計算損失函數的梯度。這個梯度會反饋給最優化方法,用來更新權值以最小化損失函數。

神經網絡的現代分類器的各個方面也受到了我們所了解的大腦的視覺系統的啟發。這方面研究的先驅包括Geoffrey Hinton、Yann LeCun、Yoshua Bengio等人,1998年,Yann LeCun提出了卷積神經網絡(CNN),2006年,Hinton提出了深度學習的概念並在其經典論文《A fast learning alforithm for deep belief nets》中提出了深度信念網絡,帶來了深度學習直到今天的黃金時代;2009年,Yoshua Bengio提出了深度學習的常用模型堆疊自動編碼器(Stacked Auto-Encoder,SAE),基於神經網絡的研究得到進一步發揚光大。

然而人工智慧專家基於神經系統的研究和思考並沒有停止。如腦科學的研究結果表明,大腦中神經元的信號處理機制和連接學習方式是不同的,尤其是大腦的無意識感知和自我意識功能並不需要有監督的學習,在大腦神經系統中,非監督學習和自主學習同樣佔有重要的地位,相應地,對於無監督學習和遷移學習的研究也成為人工智慧的熱點之一。

而隨著深度學習和神經科學的發展,之前對深度學習的一些基礎理論也在面臨著更新。例如在深度學習領域,神經元是最底層的單元;而在神經科學領域,神經元並不是最底層的單位。目前的深度神經網絡主要是三種結構,即 DNN(全連接的)、CNN(卷積)和 RNN(循環),而目前的研究表明,人類神經網絡可能比較類似上述三種結構的組合,層內更像DNN, 層間和CNN 很類似,在時間上展開就是RNN。這種結構上的差異也導致了深度學習研究的複雜性。

來源: Neocortical layer 6, a review & 知乎

深度學習正在面臨一個拐點——一方面,基於我們最初基於人腦結構認識的理論研究已經到了一個平臺期,而另一方面,如Hinton等最尖端的深度學習專家也在藉助神經科學的最新發現,對之前對提出的理論進行反思,這也是近日Hinton就提出「深度學習需要推倒重來」,並表示可能要徹底放棄反向傳播的由來(參見雷鋒網(公眾號:雷鋒網)文章:《Geffory Hinton:深度學習進入平臺期?不,深度學習需要的是「推倒重來」》)。

在與OReilly的一次訪談中,Hinton曾經承認我們對人類神經系統的了解並不足夠。「我們真不知道為什麼神經元要發脈衝。一個理論是它們想要噪聲,以便正則化,因為我們的參數超過數據量。」Hinton在訪談中說道。「這個理論已經出現有50多年了,但沒人知道它是否正確。」

神經科學和對人腦的模仿在人工智慧中曾經起著重要的作用,而對於模仿人類大腦,是否能製造出最強大的人工智慧,在不同人工智慧學家眼裡可能會有不同的答案。一個時常被提起的例子是,我們之所以能造出飛機,是因為空氣動力學的發展而並非模仿鳥類飛行的動作,但雷鋒網認為,這種從仿生到理論的循環可能是一種螺旋式的上升過程,新的神經系統發現和研究可能會推翻之前的人工智慧經典理論,並隨之模擬出新的人工智慧網絡和產生新的理論,從而推動人工智慧的研究突破瓶頸得到進一步發展。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 大腦也在用分布式強化學習?DeepMind新研究登上《Nature》
    強化學習算是神經科學與 AI 相連接的最早也是最有影響力的研究之一。解決獎勵預測問題的重要突破是時序差分算法(TD),TD 不會去計算未來的總體回報,它嘗試預測當前獎勵和未來時刻預期獎勵之和。當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,並用此「時序差分」將舊版本的預測調整為新的預測。
  • DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!
    神經網絡和「深度學習」的復興推動了圖像識別、自然語言處理等許多領域的突破。這些發展引起了越來越多心理學家、心理語言學家和神經學家的興趣,他們對 AI 發展是否意味著關於人類認知和腦功能的新假設展現出了充分的好奇心。從這個角度來講,AI 中最具吸引力的領域就是深度強化學習。因為它將神經網絡建模與強化學習充分的結合起來,形成了一套從獎懲中學習而非從準確教學中學習的方法。
  • DeepMind哈佛驚人發現!大腦中竟存在分布強化學習,靠多巴胺驅動
    接下來,新智元為大家剖析這項研究的來龍去脈。時間差學習算法:完善強化學習預測鏈強化學習是將神經科學和AI相聯繫的最古老,最有力的想法之一。早在1980年代後期,計算機科學研究人員試圖開發一種算法,該算法僅使用「獎懲」作為信號,學習如何獨自執行複雜的行為。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    作者 | Jesus Rodriguez譯者 | 夕顏【導讀】近幾年,深度強化學習(DRL)一直是人工智慧取得最大突破的核心。儘管取得了很多進展,但由於缺乏工具和庫,DRL 方法仍難以應用於主流的解決方案。因此,DRL 主要以研究形式存在,並未在現實世界的機器學習解決方案中得到大量應用。解決這個問題需要更好的工具和框架。
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    這些技術允許深度強化學習更靈活地進行操作,能夠比之前的方法更快速地解決問題。深度強化學習的快與慢近期的 AI 研究引出了強大的技術,如深度強化學習。深度強化學習將表示學習和獎勵驅動的行為結合起來,似乎與心理學和神經科學具備內在的相關性。然而深度強化學習需要大量訓練數據,這表明深度強化學習算法與人類學習的底層機制存在根本區別。
  • 哺乳動物大腦神經元也能做深度學習,未來10年神經科學與人工智慧將...
    Richards和同事在期刊eLife發表了論文《嘗試用分離的樹突進行深度學習》(Towards deep learning with segregated dendrites)[1]。他們在論文中提出了一種算法,對大腦中可以如何進行深度學習進行了模擬。他們構建的網絡表明,某些哺乳動物神經元具有適合進行深度學習的形狀和電學特性。
  • ICLR 2018 DeepMind論文精華一覽
    我們將介紹幾種現有方法,它們直接與我們的推導相關。我們開發了兩種離策略(off-policy)算法,並證明它們可與深度強化學習中的最新技術展開競爭。我們的方法在樣本效率、早熟收斂以及對超參數設置的魯棒性方面優於現有方法。
  • DeepMind發表Nature子刊新論文:連接多巴胺與元強化學習的新方法
    上周,DeepMind在 Nature 發表論文,用 AI 復現大腦的導航功能。今天,DeepMind 在 Nature Neuroscience 發表新論文,該研究中他們根據神經科學中的多巴胺學習模型的局限,強調了多巴胺在大腦最重要的智能區域即前額葉皮質發揮的整體作用,並據此提出了一種新型的元強化學習證明。
  • 【DeepMind重大突破】DNN具有人類行為,認知心理學破解黑箱
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    原來是結構生物學,迎來了一個「革命性」的突破。11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質摺疊的問題。這一次,AlphaFold的「準確性」均分,直接從原本的60+/100,提升至了92.4/100。而過去十幾年,其他方法只能在40分左右徘徊。
  • DeepMind AI 關係推理超越人類:深度神經網絡模塊即插即用
    新智元編譯來源:deepmind.com;arXiv.org譯者:文強   【新智元導讀】DeepMind 今天發表官博介紹了他們的兩篇最新論文,稱其都在理解「關係推理」這一挑戰方面展示出了令人可喜的結果。
  • 深度學習(deep learning)發展史
    《深度學習DEEP LEARNING[2]》英文版由美國麻省理工學院 MIT 出版社於 2016 年 12 月推出,一經出版就風靡全球。《深度學習DEEP LEARNING[3]》的一大特點是介紹深度學習算法的本質,脫離具體代碼實現給出算法背後的邏輯,不寫代碼的人也完全可以看。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    賈揚清,擁有加州大學伯克利分校計算機科學博士學位、清華大學碩士學位和學士學位,曾於新加坡國立大學、微軟亞洲研究院、NEC美國實驗室、Google Brain工作,現任 Facebook 研究科學家,主要負責前沿AI 平臺的開發以及前沿的深度學習研究
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這種區別對我們來說很有意思,因為這兩類思維對應著兩種不同的機器學習方法:深度學習和符號程序合成(symbolic program synthesis)。   深度學習專注於直觀的感性思維,而符號程序合成專注於概念性的、基於規則的思考。
  • 【ICML Oral】DeepMind提出深度學習新方向:神經過程模型
    論文:https://arxiv.org/pdf/1807.01622.pdfNP具有GP的一些基本屬性,即它們學習在函數之上建模分布,能夠根據上下文的觀察估計其預測的不確定性,並將一些工作從訓練轉移到測試時間,以實現模型的靈活性。更重要的是,NP以一種計算效率非常高的方式生成預測。給定n個上下文點和m個目標點,一個經過訓練的NP的推理對應於一個深度神經網絡的前向傳遞,它以
  • Spark與深度學習框架——H2O、deeplearning4j、SparkNet
    Spark已經提供了很多功能,也有一個好用的界面,而且背後有強大的社區,開發者十分活躍,這也是人們對Spark寄予厚望的原因。深度學習是當前正在進行中的Spark項目之一。本文我們將介紹一些Spark能用的深度學習框架。
  • 深度學習+符號表徵=強大的多任務通用表徵,DeepMind新論文可能開啟...
    雷鋒網 AI 科技評論按:在深度神經網絡大行其道的現在,雖然大家總說要改善深度學習的可解釋性、任務專一性等問題,但是大多數研究論文在這些方面的努力仍然只像是隔靴搔癢。而且,越是新的、具有良好表現的模型,我們在為模型表現感到開心的同時,對模型數學原理、對學習到的表徵的理解也越來越進入到了放棄治療的心態;畢竟,深度學習具有超出經典 AI 的學習能力,正是因為能夠學習到新的、人類目前還無法理解的表徵。
  • 講座預約丨權威專家談AlphaFold:DeepMind到底突破了什麼?
    因其在蛋白質結構預測領域的突破性成果,使得媒體一度用「顛覆「、「革命性突破」、「諾獎級成果」等詞彙來形容此事件。簡單來說,AlphaFold能做的事情,是計算胺基酸之間的距離,從而預測蛋白質的3D結構。這是一個號稱困擾生物學家50年的問題。
  • DeepMind無監督表示學習重大突破:語音、圖像、文本、強化學習全能...
    新智元編譯來源:DeepMind編譯:肖琴   【新智元導讀】DeepMind的最新研究提出一種新的表示學習方法——對比預測編碼。研究人員在多個領域進行實驗:音頻、圖像、自然語言和強化學習,證明了相同的機制能夠在所有這些領域中學習到有意義的高級信息,並且優於其他方法。