Nature:「揭秘」物體識別關鍵腦區組織的一般原理

2020-11-30 騰訊網

來源:神經計算與控制實驗室

靈長類下顳葉皮層的物體空間圖

6月14日NCC lab討論了鮑平磊博士發表在nature的論文《A map of object space in primate inferotemporal cortex》。該文利用功能磁共振成像技術、微刺激、電生理學和深層神經網絡,研究獼猴大腦下顳葉皮層(IT)的組織結構,他們發現了新的『無主之地』NML,這個區域對高縱橫比的偏好響應最強,同時在解剖學層面,細胞根據首選軸(preferred axes)的前兩個主成分聚類成四個網絡形成一個物體空間(object space)圖,該物體空間圖在IT內部的三個層級(後、中、前)上重複,其視圖不變性(view-invariant)逐級遞增。

進一步地,利用GAN模型證明,fc6投影到50維物體空間的信息或者482個IT細胞的神經信號已經有足夠的信息,可以解碼生成猴子看到的物體圖像。

研究摘要

眾所周知下顳葉皮層(inferotemporal cortex, IT cortex)負責物體識別,但視覺物體的表徵是如何在大腦的下顳葉皮層進行組織尚不清楚。現有的研究已經在IT cortex發現面孔、身體和場景等類別的選擇性區域。但是,大部分下顳葉皮層仍然缺乏任何已知的特化(specialization),這就提出了一個問題:主導下顳葉皮層組織的一般原理是什麼。

因此,我們使用功能磁共振成像、微刺激、電生理學和深層網絡來研究獼猴大腦下顳葉皮層的組織結構。建立了一個低維的物體空間(object space)來描述一般的目標。研究下顳葉細胞對大量目標的響應,發現單個下顳葉細胞將傳入對象投影到該空間的特定軸上。

在解剖學層面,細胞根據其首選軸(preferred axes)的前兩個主成分聚類成四個網絡,形成一個物體空間圖。該物體空間圖在三個層級階段上重複,該三個層級上視圖不變性(view-invariant)逐級遞增。並且,組成這些空間圖的細胞具有充分的編碼能力,可以近似重構出物體對象。本研究結果提供了一個統一的下顳葉組織圖,其中類別選擇區域是物體空間粗映射的一部分,物體空間的維度可以從深度網絡中提取。

文中圖例講解

圖1:微刺激揭示了下顳葉皮層的一個新的解剖網絡

圖1a是下顳葉皮層中5種已知網絡(臉、身體、景、顏色 、3D)的刺激圖片(紅色框)與對照組圖片(藍色框)。

圖1b是猴子M1的大腦右半球示意圖。該示意圖顯示出在這個猴子M1的5種已知的下顳葉網絡。利用微刺激,對圖中x所在腦區進行電刺激,發現了三個 「no man’s land無主之地」NML 1,2,3(如圖b黃色區域)。實驗發現,受刺激區域(NML2)與下顳葉的另外兩個離散區域(NML1,NML3)相連,在「無主之地」形成一個先前未知的網絡。注意,圖中黃色和洋紅色的虛線框分別表示TE和TEO腦區。

圖2:下顳葉皮層中四個不同網絡對不同對象的偏好

圖2a表示兩隻猴子(M1和M2)在『無主之地』記錄的對動物,汽車,臉部,蔬菜,房子,物體等6類圖片的神經響應。在NML1,2,3三個區塊的神經響應非常一致,響應最大(Most)的5個圖片分別用紅色數字在圖中標出並展示出來,響應最小(Least)的5個圖片也都呈現出來。

圖2b表示兩隻猴子的三個身體網絡對動物身體圖片的偏好響應最大。

圖2c表示臉部網絡對臉部的偏好響應最大。

圖2d表示三個粗壯網絡(stubby)對粗壯物體的響應最大。

圖2e表示由猴子M1電生理確定的5個最大喜好物體與5個最小喜好物體,分別在四隻猴子含有NML1、NML2和NML3區塊的冠狀面上顯示激活響應的差異。其中,藍色區域表示猴子M1在NML2區塊的微刺激。

圖2f記錄NML網絡的NML2和NML3區塊在縱橫比、曲率和方向上變化的線段的細胞響應。縱橫比的響應方差佔平均跨細胞的22.8%,曲率佔方差的5.6%,方向佔方差的3.5%。結果表明:NML網絡對高縱橫比的偏好響應最強

圖3:不同層級的網絡的神經元響應的視圖不變性逐級遞增

圖3a每一行分別展示NML網絡的三個區塊(頂部),身體網絡的三個區塊(中間)和粗壯網絡的兩個區塊(底部)在猴子M1和M2之間的群體相似矩陣。根據每個區塊細胞對88種刺激(8個視角×前11個喜歡的物體對象)的響應,計算出88×88的相關係數矩陣。不同視角下的物體的群體相似矩陣(11x11小矩陣)也顯示了視圖不變性的增加,在NML3相似矩陣中出現了平行的對角線,說明NML3的試圖不變性非常大。

圖3b分別記錄在NML(頂圖)、身體網絡(中間圖)和粗壯網絡(底圖)對51個物體對象在24個視角中的響應。每個響應矩陣下面顯示了最偏好物體對象的四個不同視圖。比如NML網絡偏好不同角度的飛機,身體網絡偏好鵝的身體,粗壯網絡偏好方塊籃子。

圖3c分別從NML網絡(頂圖)、身體網絡(中間圖)和粗壯網絡(底圖)的多個神經元上記錄的響應,作為沿偏好坐標的距離的函數。橫坐標被重新縮放,使得範圍[-1,1]覆蓋95%的刺激。其中,一半的刺激試驗被用來計算每個細胞的偏好坐標,而保留的另一半數據則被用來繪製圖3c所示的響應。該圖說明與線性模型的高解釋方差一致,不同網絡的細胞沿著首選軸的調諧呈斜坡狀(ramp-shaped tuning)

圖4:功能核磁共振影像揭示物體空間圖

圖4a為物體空間的前兩個主成分(PCs)上的物體對象示意圖。橫坐標為粗壯到尖銳,縱坐標為有生命到無生命的,矩形框中的刺激被用於映射Fig4c,d中所示的四個網絡。

圖4b展示電生理實驗中使用的所有刺激投射到物體空間的前兩個維度(灰色圓圈)。對於每個網絡,標記出四種網絡的神經元響應所對應的前100個最大偏好的圖像在PC空間的位置(身體網絡:綠色;臉部網絡:藍色;stubby網絡:洋紅色;NML網絡:橙色)。括號中的數字表示每個網絡中記錄的神經元的數量。

圖4c分別從猴子M3和M4的後(posterior)、中(middle)、前(anterior)下顳葉的冠狀面顯示四個網絡的空間排列。可以發現:不同猴子這些空間排列非常相似。

圖4d將圖4c顯示的猴子M3和M4四個神經網絡覆蓋在左半球的平面圖上。進一步看出它們具有非常近似的空間排列。

圖4e、f、g分別對空間分布進行量化,顯示出後(posterior)、中(middle)、前(anterior)下顳葉皮層的歸一化皮層距離對應的歸一化響應,以及根據物體空間的象限序列所繪製的峰值響應對應的解剖歸一化皮層距離。得到發現:無論是後,中,前下顳葉皮層,它們都遵從身體-面部-粗壯-NML的空間距離序列。

討論圖5前我們需要先介紹拓展圖11,以及它裡面用到的算法。

拓展圖11 (ExFig11)大型輔助物體資料庫中物體解碼與圖像恢復

ExFig11a為解碼模型的示意圖。為了構建和測試該模型,這裡使用了m個記錄細胞對n個圖像的響應。這裡使用了leave-one-out交叉驗證方法學習從響應到特徵值的線性變換。

ExFig11b繪製物體空間第一個主成分的實際特徵值對應的模型預測值。

ExFig11c根據四個神經群體的反應,使用線性回歸法解釋所有50個維度的差異百分比。其中,每個維度的方差解釋表明,在前兩個維度之外的每個網絡中都有許多維度被編碼。

ExFig11d是關於圖ExFig11c中四個相同神經群體的刺激集隨機抽取的物體圖像數量關於解碼精度的函數。虛線表示偶然性表現(chance performance)。

ExFig11e是關於圖ExFig11c中四個相同神經群體隨機抽取的細胞數對40幅圖像的解碼精度。

ExFig11f顯示了用於物體圖像參數化的主成分數量與40幅圖像解碼精度的函數關係。

ExFig11g顯 示三種歸一化距離情況下的成對對象。在每對圖像中,左側為原始圖像,右側為使用神經數據的重建圖像。

ExFig11h表示預測特徵向量與重建特徵向量之間的距離歸一化分布。

ExFig11i表示特定指數(Specialization Indices)SIij在NML(左)、body(中)和stubby(右)網絡物體間的分布。

圖5:利用GAN重構物體對象

重構物體對象主要是為了研究構成物體空間圖的四個網絡中由細胞表示的特徵空間的豐富性。為了更直觀地顯示這四個網絡中神經元所攜帶的對象特徵信息,作者嘗試利用神經元活動來重建物體對象,他們通過一個生成對抗網絡(GAN)傳遞解碼後的對象特徵向量(PCs),用於反轉AlexNet的fc6層。

圖5a的每行四幅圖像從左到右依次表示:原始圖像;使用fc6對原始圖像的響應模板(pattern)重構的圖像;使用投射到50維物體空間的fc6響應模板重構的圖像;基於神經元數據的重構圖像。

圖5b顯示了實際重構和最佳重構之間的歸一化距離分布。紅色表示重構較好的圖像,黑色表示重構距離適中的圖像,藍色表示重構距離較大的圖像。

原文討論

這篇文章證明了下顳葉包含一個被重複三次的物體空間的粗糙圖(coarse map),並且視圖不變性(view-invariant)逐次遞增。該物體空間圖至少包含四個網絡區域(身體網絡,臉部網絡,粗壯網絡和NML),並且這四個網絡的單個細胞都使用同一個編碼原理投影到對應的偏好坐標軸,其中NML網絡表現出對高縱橫比的偏好響應最強。

研究表明四個網絡的pooling responses以及AlexNet fc6特徵響應能夠合理地重構一般物體,因此假定這四個網絡構造了提供跨越一般物體空間的基礎。目前針對下顳葉皮層的物體識別區域研究,包括先前的研究網絡(場景、顏色和視差網絡)及該研究構成的下顳葉object-topic map四個網絡,加上,約佔下顳葉皮層的53%。剩下的區域仍有待進一步的研究。

Reference:

Bao, P., She, L., McGill, M., & Tsao, D. Y. (2020). A map of object space in primate inferotemporal cortex. Nature, 1-6.

寫作:NCC lab 梁智超

校對:劉泉影

相關焦點

  • 以物質彈性識別物體
    以物質彈性識別物體:我們知道,物質有彈性,物質成千上萬,成千上萬的物質它們之間的彈性各不相同,那麼我們就可以利用物質各不相同的彈性來對物體進行識別。比如,乘車過安檢,安檢儀器會把你行旅箱的物品顯示出圖像來,其原理是,儀器把一束光或一束能量打到你箱子上,箱子裡物品遇到此能量的反作用力各不相同,各不相同的反作用力儀器設備感應到,即可顯示出箱子裡物品的圖像。感受物體反作用力就是感受物體彈性。
  • 丘腦是編碼記憶的關鍵腦區
    來自德國的科學家團隊確定了丘腦是編碼過去經驗的關鍵腦區。Letzkus研究團隊以聽覺皮層為研究對象,發現較高階的內側膝狀體(High-order medial geniculate, HO-MG)在自上而下的聯合學習中起關鍵作用。該研究成果與2020年11月13日在線發表在頂級期刊《Science》雜誌上。
  • Nature 中文摘要 11 AUG 2016
    我們描繪了97個新的腦區,以及先前由解剖顯微分析或由其他專業的特異性研究方法所揭示的83個腦區的特性。為了能夠在新的HCP被試和未來的研究中自動化描繪和識別這些腦區,我們訓練了機器學習分類器來識別每個腦區基於多模態信息的「指紋」。這個分類器在新的被試腦中分辨出了96.6%皮層區域,重複出了群體水平的分區情況,而且能夠在具有非典型皮層分區的個體上正確地定位出腦區。
  • Nature:科學家鑑別出機體識別X染色體的關鍵分子機制
    在很多物種的機體中,性染色體都會出現不平等的分布,當然在人類和果蠅中亦是如此,雄性果蠅僅僅擁有1個X染色體,雌性果蠅則有兩個X染色體,然而雄性果蠅X染色體的活性卻是雌性果蠅的兩倍,這種關鍵過程則是通過名為劑量補償作用複合體(DCC, dosage compensation complex)的酶類來控制的,目前研究者並不清楚這種調節子如何從其它的染色體中區分出X染色體。
  • 科普 條形碼的識別原理
    那麼問題來了,如此廣泛的條形碼的識別原理是什麼呢?相信很多小夥伴們都沒有想過。沒關係,今天就由萌小妹來告訴大家。由於不同顏色的物體,其反射的可見光的波長不同,白色物體能反射各種波長的可見光,黑色物體則吸收各種波長的可見光,所以當條碼掃描器光源發出的光經光闌及凸透鏡1後,照射到黑白相間的一維條碼上時,反射光經凸透鏡2聚焦後,照射到光電轉換器上,於是光電轉換器接收到與白條和黑條相應的強弱不同的反射光信號,並轉換成相應的電信號輸出到放大整形電路。
  • 輕鬆識別小目標的物體檢測算法揭秘
    在眾多模型使用場景中,小目標物體的檢測比較常見,一般的目標檢測算法往往效果不理想;因此,EasyDL團隊針對小目標物體的檢測進行了專項優化,並取得了令人矚目的效果提升。自AlexNet在2012年ImageNet比賽上展露頭角以來,計算機視覺各個方向和神經網絡的聯繫變得越發緊密,物體檢測也不例外。
  • 腦區功能與學習能力
    一個人能否成才,關鍵在於能否發現大腦優勢。所以說,發現腦優勢,就等於發現人才。大腦是心理的物質基礎,當孩子在某些方面有一定的腦優勢時,就會產生內驅力,影響其對待事物的態度,從而產生學習動力,發展技能。腦科學研究表明,人的腦區功能優勢在3歲前已經顯現,每個正常人都有自己獨特的腦優勢。
  • 微軟識花:精細物體識別是怎麼做到的
    另外,如果你玩膩了識花,微軟識花還有另一個有趣的功能等待你開掘:那就是對其他常見的日常物體進行識別。拿件衣服、擺個文具來測測這款應用的「智商」,聽起來也是挺有趣的事呢!對於常用物體的識別採用了微軟亞洲研究院最先進的圖像識別技術。在內部測試中,識別精度可以達到90%。
  • Nature:量子波動對宏觀物體影響確實可測
    即使這個位移大小和原子相比,就像拿原子的大小和人相比(只位移了10^(-20)m),但卻無疑是物理研究中關鍵的一大步這是由量子力學的基本原理決定的。測不準原理量子理論的創始人之一海森堡曾提出了著名的「測不準原理」:
  • 大腦存在一個動態評估外界信息重要性的關鍵腦區——丘腦室旁核
    大腦存在一個動態評估外界信息重要性的關鍵腦區——丘腦室旁核 2018-10-31 15:28:09 來源:中國科學報 周末該在家看書還是出去K歌?寒冬將至,該堅持健身還是涮個火鍋?每天,人們都會面臨上百種選擇。
  • 課程教學的腦區定位
    課程教學的腦區定位是個複雜問題,它即與腦的結構和功能密切相關,又與學科內容和教學方式緊密相連,並涉及心學理學和腦科學的不同學派。
  • Nature 中文摘要 16 July 2015
    通過採用21世紀的學習原理,教育工作者應能夠培養出更適合加入現代的、多學科的勞動力隊伍的科學家和整體科學素養更高的普通民眾。該受體能識別相容的「胞外多糖」,從而控制共生性感染。「阿比特龍」的作用原理是,通過對名為CYP17A1的酶的抑制來阻斷雄性激素的形成,這種酶是睪丸酮和其他雄性激素生物合成中的關鍵一步。現在,Nima Sharifi 及同事又有了一個新發現:「阿比特龍」本身在前列腺腫瘤中會被代謝,產生D4A,後者會抑制雄性激素合成通道中的幾種酶(也包括CYP17A1在內),還會拮抗雄性激素受體。
  • 可識別物體的觸控螢幕:TP行業下個變革點
    前幾天有個項目「可識別物體的觸控螢幕技術」來參加微路演。這項技術類似於微軟的PixelSense,但相比微軟技術具有重量更小、更優的結構設計、更低的零件成本和易於組裝維修等優勢。這個技術具體是什麼?簡單來講,就是使觸控螢幕能夠識別出放在屏幕上的手指、手及物品,同時支持50多點的觸摸。還是不懂?
  • Nature:促進中心粒複製的關鍵蛋白
    中心粒是由含有九個微管的圓柱形陣列組成的細胞器,是纖毛、鞭毛和在動物細胞內組織微管結構的中心體的形成所必需的。中心粒複製的異常調控可導致癌症和若干種纖毛疾病。中心粒蛋白Plk4 (Polo-like kinase 4)已知是中心粒組合體的一個關鍵調控因子,現在David Glover及其同事識別出,中心粒的一個成分Asterless是Plk4和中心粒形成所必需的另一種蛋白進行結合的一個骨架,在促進中心粒複製中起關鍵作用。
  • 能夠識別圖片中的物體的智能工具
    近期,計算機科學家史蒂芬·沃爾夫勒姆(Stephen Wolfram)發布了一種新工具,名叫「沃爾夫勒姆圖片識別項目」( Wolfram Image Identification Project)。用戶藉助這項工具首先需要上傳或者連結到一張圖片,然後就可以看到計算機如何來識別圖片中物體。
  • 詳解RFID射頻識別系統的工作原理(附圖)
    從電子標籤到讀寫器之間的通信及能量感應方式來看,RFID系統一般可以分成兩類,即電感耦合系統和電磁反向散射耦合系統。電感耦合通過空間高頻交變磁場實現耦合,依據的是電磁感應定律,電感耦合方式一般適合於中、低頻工作的近距離RFID系統。電磁反向散射耦合,即雷達原理模型,發射出去的電磁波碰到目標後反射,同時攜帶回目標信息,依據的是電磁波的空間傳播規律。
  • Facebook開源物體識別工具Detectron,加速計算機視覺研究
    Detectron系統實現了最先進的物體檢測算法,包括Mask R-CNN。 它是用Python編寫的,支持Caffe2深度學習框架。就在2天前,紐約大學教授Yann LeCun剛剛宣布卸任Facebook人工智慧實驗室(FAIR)主任,並擔任AI首席科學家。
  • AI深度(下) | 非人臉識別和ToF技術
    在AI智道AI深度(上)中,紐豪斯為大家帶來了雙目攝像技術和3D結構光技術,在下篇中,紐豪斯繼續為大家深度解讀非人聯識別和ToF技術、雷射雷達技術。ToF技術ToF技術的原理是:測量發射紅外(IR)信號與相位延遲計算每個Sensor像素到目標物體的距離。TOF是Time of flight的簡寫,直譯為飛行時間的意思。
  • Nature:識別茉莉素植物激素的受體
    現在,植物細胞識別「茉莉素植物激素」(生長調控、發育和防衛響應中的關鍵成分)也已被發現。茉莉素受體是一個三分子複合物,由F-box 蛋白 COI1、一個JAZ (JASMONATE ZIM-domain)轉錄抑制因子和「肌醇戊基磷酸鹽」(inositol pentakisphosphate)組成。所有三個成分都是高親和性激素結合所必需的。