...神經網絡重現生物視覺系統,發《自然:神經科學》後再中NeurIPS...

2020-12-05 雷鋒網

雷鋒網 AI 科技評論按:機器學習頂會 NeurIPS 2019 快要在 12 月開幕了。在 NeurIPS 2019 收到的 6743 篇投稿中,有 1428 篇被接收為會議論文,其中有 36 篇為 Oral (口頭報告)論文,比例僅為 2.5%,足見 Oral 論文的含金量。

在這 36 篇 Oral 論文中,來自 MIT McGovern大腦研究院、大腦與認知科學研究部 James DiCarlo 教授團隊的論文《Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs》(用高表現的淺層循環結構人工神經網絡實現類似大腦的物體識別)吸引了我們的注意。他們以人類大腦的工作方式為樣本,重新設計人工神經網絡的結構,以淺層神經網絡+循環結構在物體識別任務中取得了優秀的、類似生物視覺系統的表現。

這項成果的意義遠不在於物體識別和深度學習本身。實際上,James DiCarlo 教授團隊本來做的就是大腦與認知科學研究,探索、設計工作方式相仿的人工神經網絡可以幫助他們更好地理解生物大腦的原理。今年 4 月,James DiCarlo 教授團隊就曾在頂級期刊《Nature Neuroscience》(自然:神經科學)上發表論文《Evidence that recurrent circuits are critical to the ventral stream's execution of core object recognition behavior》(證據表明循環結構對核心物體識別行為中處理腹側神經流的過程有關鍵影響),展現了人工神經網絡對神經科學研究的幫助效果。

本文對這兩篇論文的內容一併進行介紹。

論文摘要

Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs- NeurIPS 2019

用高表現的淺層循環結構人工神經網絡實現類似大腦的物體識別論文地址:https://papers.nips.cc/paper/9441-brain-like-object-recognition-with-high-performing-shallow-recurrent-anns.pdf論文摘要:深度卷積人工神經網絡是模仿靈長目生物大腦腹側神經流的視覺信號處理機制的一類首選模型。雖然這些網絡模型最早是由大腦的解剖學結構啟發得到的,但在過去的幾年中,這些網絡早已從簡單的 8 層 AlexNet 發展成為非常深非常寬的網絡,在圖像識別任務中的表現也越來越好;不過,它們和生物大腦還有多類似就成了新的問題。具體來說,機器學習界提出的典型的深度模型通常都很難和人腦的解剖結構之間找到對應關係,因為它們有很多層,而且缺少循環信號通路之類的在生物結構中非常重要的連接。在這篇論文中,作者們通過實驗展示了完全可以設計一個和生物結構更為相符的模型,而且讓它在機器學習用的評價指標和神經科學用的指標方面都取得好成績。作者們設計了一個淺層人工神經網絡 CORnet-S,它的結構可以直接對應到生物大腦視覺系統的四個腦區,並且帶有循環信號連接。作者們也設計了一個新的評價指標 Brain-Score,用來評價人工模型還原生物視覺系統的功能保真度,其中有大量的神經和行為測試。雖然 CORnet-S 比當代的絕大多數神經網絡都要淺得多,但是 CORnet-S 的 Brain-Score 分數是所有模型中最高的,而且它在 ImageNet 中的表現也要比類似規模的模型更好。除此之外,作者們對 CORnet-S 的循環連接做了大量實驗分析,發現循環連接對於生物視覺系統功能保真度和ImageNet表現都有重要作用。最後作者們還表示,CORnet-S 模型中「IT」模塊的神經響應的時間變化和真正的猴子的 IT 腦區的神經響應變化非常類似。所有這些結果都表明,CORnet-S,這個緊湊的、帶有循環結構的人工神經網絡,是目前模仿靈長目生物大腦腹側神經流的視覺信號處理機制的最佳模型。

Evidence that recurrent circuits are critical to the ventral stream's execution of core object recognition behavior- Nature Neuroscience

證據表明循環結構對核心物體識別行為中處理腹側神經流的過程有關鍵影響論文地址:https://www.nature.com/articles/s41593-019-0392-5(閉源)論文摘要:對動物的研究表明,靈長類動物的視覺系統中有密集的循環式腹側神經流,並最終在顳下皮層(IT Cortex)匯集,這構成了它們的核心物體識別行為。目前對這種行為建模效果最好的模型是深度卷積神經網絡(CNN),但 CNN 卻是不帶有循環結構的。這就給研究人員們帶來了一個疑問:如果動物神經系統追蹤的循環結構對它們的行為如此重要,那麼靈長類的識別系統就應當在同時需要前饋顳下皮層響應以及額外的循環信號處理的圖像識別任務中得到高於只有前饋的深度 CNN 網絡的表現。在這項研究中,作者們首先使用行為學方法找到了數百張這樣的「有挑戰」的圖像(能體現出循環結構的優勢)。其次,藉助大規模電生理學方法,作者們把其它動物中的有足夠識別能力的物體識別方案和靈長類進行了行為學角度對比,發現識別有挑戰性的圖像時,前者的信號在顳下皮層匯集的時間要比靈長類遲大約 30ms。然而深度 CNN 的行為卻很難預測這種行為學角度有顯著區別的滯後顳下皮層響應。值得一提的是,非常深的 CNN 和淺一些的循環結構 CNN 對這些滯後響應的預測就要好一些,這表明額外的非線性變換與循環結構之間存在一定的功能等效性。作者們由此提出,循環結構的信號通路對於快速物體識別起到了關鍵作用,這也得到了實驗證實;除此之外,實驗結果還為未來的循環結構模型開發提供了強有力的限定條件。

這裡我們暫時不對論文做大篇幅的解讀,因為 James DiCarlo 教授曾在 CVPR 2017 的特邀全體演講中完整介紹過自己團隊的研究,整個故事非常生動有趣,不僅是上述的 NeurIPS 2019 論文以及 《Nature Neuroscience》論文內容的完整、詳盡的背景鋪墊,更涵蓋了研究的主要過程。

下面我們一起重溫 AI 科技評論全文整理的演講內容。

全體大演講:靈長類視覺理解的反向工程

CVPR 2017 現場, 7 月 25日,James DiCarlo 教授進行了題為「The Science of Natural intelligence (NI): Reverse Engineering Primate Visual Perception」(自然智慧的科學:靈長類視覺理解的反向工程)的全體演講。

James DiCarlo 是 MIT 的神經科學教授,MIT 大腦和認知科學學院院長。他是 Alfred Sloan Fellow,是生物醫學科學的皮尤學者(Pew Scholar),以及神經科學界的麥克白學者。他的研究目標是用計算性的方法理解靈長類視覺智能在大腦內的形成機制。

演講正文

DiCarlo 教授首先感謝主辦方邀請他來演講。他來自神經科學界,這次來到CV界的會議,也是想藉此機會做兩個研究領域之間溝通的橋梁。

總體研究內容與方法

教授的研究內容是人類的大腦,研究它是如何工作的、如何用計算的方式模擬它;而CV界的研究目標則是嘗試構建出達到人類大腦表現的系統。所以在教授看來,希望CV界的人也能夠從神經科學的研究中受益。

最理想的狀態是上面的 PPT 中黃色的這種,CV界的人把自己的研究看作是嘗試構建系統的前向工程,不過要符合一些大腦本身和認知科學的限制。神經科學界的人就是反過來,把大腦看作已經構建好的系統,研究大腦的限制和原理、嘗試模仿大腦結構的反向工程,在過程中逐步對所用的機理和例子做驗證。這樣,神經科學和神經網絡的研究可以看作是互為表裡,這樣的研究成果也會給腦機互動帶來更多的可能性。

人類大腦根據視覺輸入可以理解物體的類別、位置、姿態等等信息。人類的物體認知能力很強,毫不費力,很久以前就有不少關於人類的認知能力的研究成果,比如人類對物體的感知聚集在視野中心視角10度左右的範圍內,然後人眼通過移動捕捉多幅畫面的方式來觀察完整的畫面,再連結到記憶。他們把人類視覺系統這種特點稱作「中心物體感知」(Core object perception)。教授研究的落腳點就是視覺對象認知任務(Object perception),重點在於類別識別。

教授把對中心物體感知的反向工程分為三步:

首先要對研究對象在領域內的表現做定義和可操作化處理,尤其要關注的是現在製造出的系統相比生物大腦有哪些不足;然後測量系統中會對表現產生重大影響的組件,比如他就需要測量一些生物特性,測量時候要謹慎地選擇測量哪幾個具體指標;最後在以上的限制之下進行前向工程,構建模型,用模型把數據組織起來。對於模型而言,它不僅需要能夠解釋、獲取數據,它還要能夠預測新的數據。這樣一來,建模也就是最關鍵的一步。通過這三個步驟之間的互動構建好模型以後,就可以嘗試拓展模型的應用領域了。

教授今天要講的就是依託這三個步驟,總結他在建立端到端的靈長類中心物體感知系統模型中的進展。

視覺行為測試與數據特徵

教授在研究中進行測試時使用的是生成的圖像,在不相關的背景下放置不同觀察角度的物體。之所以這樣選擇的原因是,當他開始研究時,同時代的CV系統很容易被不相關的背景擾亂識別結果,但是人類就不會受到什麼影響;另一方面,CV系統對於更多姿態和變化時的識別有更大困難,但是人類表現得也很好,體現出了視角無關性,所以他認為這樣的圖像可以更好地展現出人類視覺系統的特點。

教授的測試中用到了人和猴子

訓練猴子做識別測試很容易。教授根據人類和猴子的測試畫過出了這樣的識別模式矩陣,其中根據不同的複雜程度排列了各種物體。每個格子的含義是把這個類別的物體和另一個類別的物體正確區分的比例,顏色越偏紅,識別準確率就越低;越偏藍,識別準確率就越高。

根據誤識別模式矩陣,人類表現和非人的靈長類動物表現基本相同,不僅體現在總體準確率上,也體現在會把哪些東西之間認混上。這樣就可以在動物身上做神經級別的測試和操控,獲得數據的類別和數量都可以大幅度提高。在此基礎之上就可以對信息處理的機制進行系統性的研究。

人類/靈長類的大腦視覺皮層已經有了很多研究成果,人們已經知道可以分成 V1、V2、V4、IT四個區域。整個視覺系統的工作流程圖畫出來的話就是圖中這樣,把視網膜上的細胞看作像素的話,外界的視覺刺激首先組成視網膜色譜圖,然後經過視網膜級別的 LGN 以後依次來到大腦皮層的 V1、V2、V4、IT 區域,每個區域都有百萬級別的細胞;然後每個區域與視網膜形成不同的區域對應特性,對輸入信號的表徵空間也逐步發生變化,人們也就是由此進行的劃分,從而把視覺系統看作是一個深度分層網絡。由於 IT 區域在最後,有最高的抽象級別,所以 IT 區域與視網膜的區域對應性也是最弱的,而在物體識別任務中對不同類別物體的響應模式也是最明確的。

另一方面,現有研究已經表明從 V1 開始的區域都是同時具有前饋和反饋的,教授稍後還會談到這些。

今天要談的主要就是 IT 區域的信號特徵。經過研究人們發現 IT 區域其實有三層特徵網絡,不過今天教授先按照一層的情況進行演講。

根據教授的測試,從把圖像呈現給眼睛,到 IT 產生響應,其中的延遲大約100毫秒。他們測量響應的方法是在猴子大腦的不同區域植入多通道電極,測量到了神經脈衝的電極就顯示為了圖中測試結果中的一個亮點,很多個亮點就組成了雪花一樣的測量結果。通過四張圖像、IT 中三個不同區域的測量結果,可以明顯看出 IT的這個約100毫秒的響應延遲。它同時也體現出,IT 中的不同區域的對同一個類別圖像的響應是不一樣的。

經過大量圖像的測試,教授發現 IT 對不同類別圖像的總體響應強度高低有所不同(其它神經科學家有也有研究具體某個位置的神經響應是如何變化的)。對於響應模式來說,每個IT細胞都有所不同,每次的響應也不完全相同;上一張PPT裡把神經響應畫成了雪花的話,那麼從來就不會出現一模一樣的雪花。

在過程中也有人嘗試研究不同區域的神經是否對不同類別的物體響應強度有所區別,那麼也確實發現了「面部感知神經細胞」,總體來說對人臉的響應更高,但是它們對不同的臉部圖像的響應不同、對其它的類別也不是沒有響應。所以這些細胞並不是嚴格地按照識別物體類別進行區分的細胞,它們的複雜特性也在研究中得到了一些揭示。

IT 特徵的研究

在有這些研究結果以後,教授的研究小組就開始被這一系列問題困擾:如何根據神經細胞的響應特點解釋測試中出現的誤識別行為?生物表現出的外在行為肯定是受到 IT 的神經響應模式影響的,那麼如何找到這種關係?IT 區域的輸出神經有一千萬個,又如何從這一千萬個神經細胞中讀取信號?

下面用到的方法對 CV 界的人來說就要熟悉一些了。首先把 IT 中細胞的響應向量化,測量 n 個細胞的響應信號,對每個輸入的照片可以測量到 n 個細胞的響應模式,得到 n 維特徵空間中的向量表示;這個 n 維空間的基的數目就是找到的特徵數目。接下來,對不同的含有臉部圖片的圖像/沒有臉部的圖像測量響應模式,就可以嘗試能否為特徵空間中的點找到一個線性分類器。

在這裡,教授再一次提到了在動物大腦內手術植入電極。通過不同區域多個電極、每個電極可以採集96個通道(96針)的信號、做大量實驗的方法,對IT等部位構建了維數非常高的數據空間。獲得的數據量相比以前單電極的時代也有著爆炸性的提高。

藉助這樣的方法, 關於 IT 中區域對圖像的響應就可以構建非常高維的響應向量,如圖中所示,大概在100到1000個神經細胞特徵上測量得到的8個向量已經繪製成了圖像的樣子(長條),綠色表示響應高,黑色表示響應低。他們測量了2000個種類圖像的向量,沒有測試更多種類的原因是用類似的特徵做了50次左右的反覆測量以獲得非常高的信噪比。

這樣下來,獲得的高質量的神經細胞響應模式就可以成為IT能夠影響動物形成行為決定的有力證據。用線性解碼器的方法,根據 IT 神經細胞的響應向量對誤識別行為做預測,跟直接測量行為得到的結果相符程度非常高。同樣的方法對視網膜級別的響應是無法達到這樣的預測結果的(這也說明了 IT 細胞響應的類別相關性)。

教授有一個有意思的發現:不需要測量太多的 IT 神經細胞特徵就可以達到人類的表現,大約500個左右就夠。同時代的計算機視覺模型中每個特徵對模型表現的貢獻就要小很多,很多的特徵才能達到近似人類的表現。這說明了動物的視覺理解能力可能就是由一個維數不算高的特徵集支撐的,計算模型就可以用這樣的思路進行模仿。IT 大概含有一千萬個輸出神經細胞,但是傳遞的特徵維數也就不到1000個。

另一方面,既然 IT 神經細胞的響應是在一個 n 維空間中的,能否算出來這個 n 維空間的基的數目是多少,也就是 IT 中表徵類別所用的特徵集的大小是多少呢?他們就利用線性回歸的方法研究神經響應模式,得到特徵集,用特徵集表示神經響應向量,最後用這樣的表示模式嘗試對識別行為做預測,結果是特徵集的大小達到500的時候就能夠準確預測了。這個發現很驚人,通過不同的方法得到了同樣的數字。這也同樣支持了IT是支持各種物體識別任務的基礎。圖中幾個人就是教授的研究小組中跟他一起研究了幾年的幾位學生。

那麼總結來說,IT 的特徵空間就是生物識別能力的潛在基礎,藉助簡單的線性分類應對多數甚至全部物體識別中的挑戰。IT神經群就是一個相對固定的基礎特徵集,幾乎不需要反向訓練就可以用於完成許多物體相關的任務。

在了解了 IT 細胞的特性以後,更實際和更深入的問也就來了:只有500個就夠的 IT 神經細胞特徵是如何形成的?它們是如何從視網膜信號的基礎上逐步抽象的?在人類成長的過程中這些計算方法又來自哪裡?如果能夠研究清楚這些問題,也就對教授團隊的目標有很大幫助。他們的目標就是想辦法構建一個編碼器模型,可以對任何一張圖片、任何一個中間皮脂層都準確預測對應神經群的響應模式,剛剛的問題就是系統構成的關鍵問題。

如何構建能夠解釋 IT 特徵的計算性網絡

在當時的所有研究成果中,V1 階層左右的神經細胞功能已經有了很好的解釋和模型,雖然都是只考慮了前饋的模型,但用來解釋 V1的響應的時候已經可以有超過50%的符合程度;但是各種計算模型對 IT 中響應的近似都不好,最多只有20%。所以那時候的模型表現都很差。

教授接下來介紹了一些研究過程中出現過的模仿靈長類視覺系統的模型,通過種種方法從輸入圖片形成一個特徵向量,然後在最後都有一個線性分類器(可以得到物體類別)。根據腦科學研究已有的成果,大家對大腦的工程和限制已經有一些了解了,所以這些模型像大腦一樣有空間局部濾波器、卷積、臨界非線性、非線性池化、正則化等等,就通過這些方法來處理模型的輸出。最早的神經網絡是Fukushima在1980年提出的,然後經過Tomaso Poggio、David Cox、Nicolas Pinto等人的繼續研究完善,來到了教授和他的學生們一起完成的HMO模型。

它是一個深度神經網絡模型,模仿了人類視覺系統的4個級別,其中有許多計算機視覺的人非常熟悉的卷積、特徵過濾器等等。別的神經科學家經常做完全的神經細胞還原仿真,而他們做的只是在已知的限制之下找到架構更高效的人造模型。HMO在這樣模仿人類的IT基礎上,得到了跟人類類似的正確率表現。

然後他們把模型裡對應 IT 的部分的特徵表示和真實神經的IT響應拿來做對比。首先在識別正確率上已經和人類表現相近。

然後,對於某個區域的 IT 神經細胞的具體脈衝的擬合,相比以往模型只能解釋20%的變化,HMO的擬合程度得到了很大提高,大概有50%。這就說明模型中的隱含層的解釋程度同樣很高。

作為神經科學家設計的模型,它不再是黑箱子,它的內部機能是和人類大腦的機能對應的。不僅是IT,V4視覺皮層的預測也達到了新高。圖中的數據也不是來自網絡已經見過的類別,而展示的是模型泛化後的結果,「預測」。

教授展示了這樣一張圖,在卷積神經網絡研究的過程中,網絡本身的物體識別能力是重要的性能指標,而實際上識別能力越強的模型也對 IT 響應的解釋能力越好;HMO這樣的模型在性能表現進化的同時,對IT表現的解釋能力也達到了新高峰(2012年時)。

這時候的發展就比較有意思,雖然大腦和認知科學與計算機視覺的研究目標不同,但是他們做的事情開始有所匯合,都是想辦法建立具有儘量高的性能的模型。

到了2013年的時候,當時風靡的深度神經網絡AlexNet的識別表現和對 IT 神經細胞響應的解釋能力都已經超過了他們的 HMO。教授這時也發自內心進行了感謝,深度神經網絡方面的技術發展、建立的優秀的模型幫助神經科學家更好地了解人類大腦中的原理。

來自神經網絡的新分歧

不過神經科學家能否坐等性能越來越好的神經網絡模型,期待著靠它們就能對人類的識別模式有越來越好的理解呢?其實不行,教授自己的實驗室的模型是橘色點,隨著模型的進步,識別性能和解釋性能都得到提高;但是機器學習方面的近期模型僅僅關注圖像分類表現的提升,所以隨著分類表現的提高,對 IT 細胞響應的解釋能力下降了。

不過總的來說,兩個領域共同達成了對神經處理的每一階段都效果不錯的預測模型。重新再來看行為模式圖的話,深度CNN其實跟人類的也很像,但是總體和角落處的準確率更高;除了圖中的這個Inception v3的結果外,其他CNN的表現也很像。

為了繼續深入研究、解析其中的原理,他們用AMT眾包和猴子收集了更多數據, 這樣就可以觀察非常細粒度的數據,針對每一副正確識別或者沒能正確識別的圖像,從行為的角度進行分析。

在非常細的粒度下,猴子和人類的表現仍然非常接近。但是圖像間表現的穩定性/特徵集方面,CNN就與人類和猴子的差別很大了。

教授相信是模型中缺失了某些結構。可能是因為模型中只建模了前饋而沒有建模反饋,導致了靈長類會出現一些CNN模型中觀察不到的行為。

在最新的研究中,測試中也用到了 計算機視覺界圖像數據集 MS Coco 的幫忙,他們把圖像根據測試結果分為了兩類,一類是計算機視覺系統達到了靈長類水平的(CV-solved),另一類是表現沒有達到的,然後測量大腦中IT的響應向量嘗試尋找其中的原因。

然後他們發現,對於那些計算機視覺表現未達到人類水平的圖像(紅點),IT中的響應時間多了一個明顯的、平均大約30ms的延遲(相比達到人類水平的圖像,藍點)。他們認為這30ms內就是那些人腦有、但是CNN網絡沒有的結構在工作,比如多次反饋。

這裡還有一個有趣的發現是,前饋CNN網絡對IT神經細胞群的解釋能力,在 IT 產生響應花費時間越短的圖像中就越強,在 IT 產生響應花費時間越長的圖像中就越弱;如圖中的曲線。這就從模型結構需要具有反饋、循環結構的角度對兩個研究領域都提出了新的挑戰。

不過教授說這個的目的並不是要求CV界的人一定要把反饋也加上這麼簡單,而是這樣的發現為未來的研究揭示了多個亟待研究的問題。

教授對演講內容做了大致總結:CV界和神經科學界都在理解中心物體感知的機制方面做出了很大的貢獻。對於未來的研究走向何方,教授也提出了新的結構、新的研究工具、研究視覺系統的構建歷程等等問題。

在演講結尾,教授感謝以往的研究者們、他的學生和同事們、贊助商,以及實驗中貢獻了他們的腦子的猴子們。尤其感謝在場的各位,不僅是因為邀請他過來,也因為CV界的成果也對他們的研究有很大的啟發。

提問環節

提問:機器學習領域有遷移學習的方法,可以對一個已經訓練過的網絡,再訓練網絡的最後幾層識別以前從未見過的物體。人類視覺系統學習識別從未見到的物體是如何訓練的?會在 IT 中增加新的特徵嗎?

答:現在還不能確定IT的特徵集有多少部分是天生的、多少是訓練出的。但是對於成年動物的測試,學習新的類別需要一天左右。經過學習20到30個新的類別以後再測試,IT的特徵空間是一樣的,我們認為是在更早的傳遞過程中有所變化,把新的類別放置在原有特徵空間中的新位置上。

提問:您對現在有的超過100層的神經網絡怎麼看,它們和人類神經網絡之間有可比性嗎?

答:就像我剛才提到的,更深的網絡在測試任務中的表現越來越好,但是對IT細胞的響應的解釋符合度越來越低。如果不對模型結構作限制,只是對任務不斷優化的話,確實會形成這種分化的趨勢。不過其實靈長類視覺四個區域也可能每個都是由很多層組成的,我們也在嘗試把其中的每一層和CNN中的每一層做對應。我在這方面跟你有共同的猜測,但是現在我們也正在研究中,還不是完全的明了。

提問:CV難以識別的圖像中會不會有什麼特殊的特徵才導致了它們難以識別?

答:我們也對那些圖片中的變量作了回歸檢查, 目前還沒能發現什麼特定的原因,沒有發現這些圖像的特別之處。

提問:對不同的層的採樣時間有多久?靈長類視覺層與層之間傳遞信號的延時有多久?

答:一開始演示的IT特徵空間的時候是100ms,後面演示IT的信號延遲的時候是10ms,為了展示出曲線的變化。然後,層與層之間是沒有固定的延遲的,神經科學家其實完全可以認為任意一個神經細胞的任意一個脈衝都是有意義的,在我們這個研究中測量的只是IT的行為,從給出圖像到IT產生行為的延時也是從幾十到200ms都有。至於V1到V2到V4間的時間可能在完全不同的數量級上,不過因為我們沒有專門研究這個,所以就只能說這麼多了。

提問:您猜想IT反饋的信息都會有哪些?純粹猜想

答:對我來說這個問題就像問我前饋流裡有哪些信息一樣,用人類的語言很難描述。我覺得它們的作用有可能是通過循環的方式把更深層的網絡封裝在更小的空間內,根據我所見的,我是這樣猜測的。不過我不確定所有的循環和反饋都是用來計算、用來推理的,它們也可能是用來學習、用來維持學習的迴路的,這個就可能需要比30ms更長的時間。如果要明確地知道的話,我們就需要更新的工具把細胞間做類型區分,才能精確測量出它們間信號的區別。這也是我們正在研究的前沿部分。所以我猜測其中有學習的循環和在小空間內封裝更深的網絡的作用。完全是猜測的,感謝你給我這個猜測的機會

提問:細粒度分類任務是否有所研究?比如不是分類狗和貓,而是分類更細的某種狗、某種貓,這些方面人類的表現也不錯

答:在我們測量的IT的短時間反饋內看不到細粒度分類間的區別。應該是細粒度任務中人類還需要繼續收集更細節的信息才能夠區分,後續的信息目前從神經細胞的層面還分辨不了。

提問:神經細胞是如何完成「卷積」的工作的?

答:其實我經常說,「卷積神經網絡」是寫不出來的,因為大腦不是這樣工作的。但是你翻開教科書就能看到這種視覺區域內不同部分都有類似的Gabor函數的假設。有人會說這不就是一種卷積操作嗎,但其實應該問的是,為什麼Gabor函數會起到卷積的作用。我們建立的卷積神經網絡網絡有單獨的卷積層和卷積算子,跟大腦不同,大腦可以說是同步嘗試學習如何卷積。所以我覺得是大腦需要學習這樣的功能,學習後的統計特徵也和卷積網絡的特徵是類似的,所以才能用兩種不同的方式學習,最終得到類似的濾波器。所以在我看來不是大腦有專門的卷積層,而是最終達到了卷積的效果。希望你能理解我的意思。

(完)

近期還有許多頂級學術會議,還會有許多精彩的學術研究演講。請感興趣的讀者繼續關注雷鋒網 AI 科技評論。

雷鋒網年度評選——尋找19大行業的最佳AI落地實踐

創立於2017年的「AI最佳掘金案例年度榜單」,是業內首個人工智慧商業案例評選活動。雷鋒網從商用維度出發,尋找人工智慧在各個行業的最佳落地實踐。

相關焦點

  • MIT用神經網絡重現生物視覺系統,發《自然:神經科學》後再中Neur...
    他們以人類大腦的工作方式為樣本,重新設計人工神經網絡的結構,以淺層神經網絡+循環結構在物體識別任務中取得了優秀的、類似生物視覺系統的表現。這項成果的意義遠不在於物體識別和深度學習本身。實際上,James DiCarlo 教授團隊本來做的就是大腦與認知科學研究,探索、設計工作方式相仿的人工神經網絡可以幫助他們更好地理解生物大腦的原理。
  • 深度| 卷積神經網絡十五問:CNN與生物視覺系統的研究探索
    CNN 的發展早期從大腦神經網絡取得了很多靈感,現在相關研究中的一些思路和方法也在反過來幫助神經科學方面的研究,如DeepMind近期用AI探索大腦導航和多巴胺功能的工作。近日,哥倫比亞大學神經生物學與行為學博士 Grace Lindsay 在其博客上發文,通過問答的形式討論了 CNN 和生物視覺系統之間的區別和聯繫。機器之心進行了編譯介紹。
  • 以邊緣為中心的網絡神經科學揭示重疊系統級架構
    以邊緣為中心的網絡神經科學揭示重疊系統級架構 作者:小柯機器人 發布時間:2020/10/22 13:41:02 美國印第安納大學Richard F.
  • 模仿人腦視覺處理,助力神經網絡應對對抗性樣本
    在計算機視覺中,保護深度學習系統免受對抗性攻擊的一個有趣的方法是應用神經科學的發現來縮小神經網絡和哺乳動物視覺系統之間的差距。麻省理工學院(MIT)和 MIT-ibm 沃森人工智慧實驗室(Watson AI Lab)的研究人員利用這種方法發現,將哺乳動物視覺皮層的特徵直接映射到深層神經網絡,可以創建出行為更可預測、更能抵禦對抗性樣本的 AI 系統。
  • 對人工神經網絡「開刀」,利用神經科學消融法檢測人工神經網絡
    在他們發表在 arXiv 上的論文中,研究者在人工神經網絡中使用了名為「消融」(ablation)的技術,原本是應用於神經科學的一種技術,即在神經網絡中切除大腦的某些神經元來確定它們的功能。「我們的想法源自於神經科學領域的研究,該領域的主要目標是理解我們的大腦是如何工作的。」
  • 怎樣辨別生物和人工神經網絡中的遞歸?
    遞歸是神經網絡中的一個重要術語,在機器學習和神經科學領域有著不同的含義。然而,隨著用於實際應用的人工神經網絡(ANNs)越來越複雜,且在某些方面更像生物神經網絡(BNNs),這種差異正在逐漸縮小(但總體上仍存在巨大差異)。
  • ...Nature發布計算和理論神經科學特刊:剖析機器學習推動下的神經...
    神經科學研究的進展無法脫離數據收集,同時也需複雜的方法將這些數據組裝和合成到更廣泛的框架中。理論神經科學,加上必要的計算技術,能確保我們的努力不僅僅是大規模的收集工作。本期,Nature Neuroscience 呈現了一批論文綜述與觀點討論,包含了一系列當下該領域突出的思考,從神經迴路和網絡到認知評估和精神疾病。神經機制的深刻見解都是來源於基於理論的研究。
  • Nature通訊:判別神經網絡間的個體差異——計算神經科學新工具
    這對計算神經科學尤其是視覺模型研究具有啟發意義。如何衡量神經網絡間的異同 卷積神經網絡作為目前最成功AI模型,其靈感來自於模仿大腦的視覺皮層腹側視覺流(ventral visual stream)。由於視覺處理是分層次的,早期階段處理諸如邊緣、顏色等低級特徵。而整個物體和面孔這樣的抽象程度更高的特徵,只會在下額葉皮層這樣的後期處理階段才會湧現。
  • 網絡神經科學 Network neuroscience
    網絡神經科學通過將神經解剖學和複雜網絡相結合,從大腦拓撲結構角度整合大腦的結構和功能,進而描述、記錄、分析和建模神經生物學系統中的基本元素及其相互作用。網絡神經科學特種了新的工具去創建全面的圖譜來記錄分子、神經元、大腦區域和社會系統之間的動態模式。同時網絡神經科學使用現代網絡科學的原理框架和計算工具對問題進行處理。
  • 人工智慧神經網絡和生物大腦有什麼區別 神經網絡將如何發展
    關鍵是有機大腦的結構和先天能力,這種觀點在當今的AI社區中大多被駁回,而人工神經網絡主導了這一論點。神經科學冷泉港實驗室教授Anthony Zador在同行評審期刊《自然》上發表的一篇論文中指出,這是一個高度結構化的大腦,可以使動物成為非常高效的學習者。
  • 大腦與AI,神經科學與人工神經網絡
    神經科學可以幫助我們理解為什麼AI和神經網絡在預測人類感知方面是有效的嗎?來自德克薩斯大學奧斯汀分校(UT Austin)的Alexander Huth和Shailee Jain的研究表明兩者都有可能。
  • 計算神經科學新工具
    11月17日,國際知名學術期刊《自然—神經科學》在線發表了這一成果。 研究人員通過使用GiD(一種新開發的反應性星形膠質細胞的動物模型)在星形膠質細胞的發病機理中揭示出星形細胞反應性的重要性,其中星形膠質細胞的反應性可以控制為輕度(GiDm)或嚴重(GiDs)。
  • 類腦計算背後的計算神經科學框架
    類腦計算, 是一個新興的名詞, 其實換一個名字, 就是我之前研究的計算神經科學。大家了解人工智慧, 而不了解計算神經科學, 事實上兩者的關係就是一顆硬幣的兩面。這枚硬幣就是智能算法本身。宇宙中產生智能的過程, 孕育了生物智能, 我們取其道行之, 得到人工智慧。
  • 我國科學家揭示「視覺感知」新機制
    神經所揭示靈長類大腦精細視覺編碼的新機制  3月30日,《Neuron》期刊在線發表了題為《局部和整體物體感知中高級腦區精細視覺的腦機制》的研究論文,該研究由中科院神經科學研究所、腦科學與智能技術卓越創新中心、靈長類神經生物學重點實驗室和神經科學國家重點實驗室的王偉研究組完成。
  • 深度神經網絡DNN是否模擬了人類大腦皮層結構
    我是生物本科,認知神經科學研究生在讀,課餘時間比較喜歡編程和機器學習,正在自學,了解的稍微多一些。我試著從我的角度來說下我看到的深度學習和神經科學的聯繫。深度學習和神經科學這兩個學科現在都很大,我的經歷尚淺,如果大家發現哪裡說得不太對,歡迎提出指正,謝謝!那我們就自底往上說。
  • 神經網絡的叛離:32年前從心理學與生理學分離的瞬間
    但實際上,我還是神經科學領域菜鳥研究員的時候也有這種心理,在讀各種關於人認知機能的計算理論模型論文時,會邊讀邊腦補上 「嗯嗯,這篇論文有生理學的依據,所以很可靠。」就連視覺神經科學研究的大佬 Zeki 也在其寫的經典大作《A Vsion of the Brain》中嚴厲批評,「David Marr 的視覺信息處理模型沒有什麼生理學依據,所以沒啥用。」 由此也可見當時對生理學根據有無的重視。
  • 科技:人工神經網絡的進步
    這些重大新故事中的一些與人工神經網絡有關,人工智慧研究中的一個相對較新的現象正在推動從娛樂到醫學等許多領域的各種進步。人工神經網絡依賴於這樣的思想:技術可以使用對應於個體人類神經元和神經元組的小單元來模擬人類大腦的生物學工作,以基於輸入產生輸出。
  • 前沿| Nature發布計算和理論神經科學特刊:剖析機器學習推動下的...
    神經科學研究的進展無法脫離數據收集,同時也需複雜的方法將這些數據組裝和合成到更廣泛的框架中。理論神經科學,加上必要的計算技術,能確保我們的努力不僅僅是大規模的收集工作。本期,Nature Neuroscience 呈現了一批論文綜述與觀點討論,包含了一系列當下該領域突出的思考,從神經迴路和網絡到認知評估和精神疾病。神經機制的深刻見解都是來源於基於理論的研究。
  • Nature Neurosci: 神經科學的深度學習框架是什麼?
    深度學習初期可能借鑑了神經科學的經驗,比如大腦視覺皮層結構的模擬,層級編碼等,但真正促使深度學習大放異彩的,卻是源於對神經科學的背離,比如目前沒有生物數據支撐的反向傳播算法,Relu函數等。雖然這些規則的加入使得深度神經網絡在各類任務上的表現得到了極大的提升,接近甚至是優於人腦的表現,但為什麼會有這樣的效果仍是一個黑箱。
  • 腦區到腦網絡:認知神經科學的系統論轉向
    20世紀90年代,複雜性網絡這一數學模型被引進認知神經科學,腦網絡研究在認知神經科學中興起,腦網絡的研究發現,人腦網絡是一種高效的「小世界」網絡,人類心理不但與腦區的活動有關,還與腦區之間的網絡連接有關。不同於腦區的還原論研究,腦網絡研究具有系統論的特點,這是認知神經科學內部的系統論革命,對認知神經科學的可持續發展具有重大意義。