作者:Anne Trafton
deephub翻譯組 :李愛(Li Ai)
當我們睜開眼睛時,我們能立即觀察到周圍的一切事物。然而,對於我們的大腦是如何能夠快速將這些生動的圖像形成並展現出來的,這仍然是視覺研究中的一個未解之謎。
腦科學家們試圖用計算機視覺模型來重現這一現象,但迄今為止,頂尖的模型也只能完成一些簡單的任務,比如在相對混亂的背景下挑選出某一個物體或某一張臉。當前,由麻省理工大學(Massachu-setts Institute of Technology,MIT)一些認知科學家領導的團隊已經研究出了一種模型,該模型能夠具有類似人類視覺系統從圖像中快速生成詳細場景的能力,並且它還對大腦是如何做到這一點的也提供了一些見解。
來自MIT認知科學領域的教授Josh Tenenbaum說道:「在這項工作中,我們試圖去解釋為什麼感知這種方式比在圖像上去貼標籤要複雜的得多。此外,還對我們究竟是如何看待這樣的一個物理世界進行了探索」。對於Josh教授,他同時還是MIT計算機科學與人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory ,CSAIL)的會員以及腦科學、哲學和機器學習中心(the Center for Brains, Minds, and Machines,CBMM)的會員。
這種全新的模型假設當大腦接收到視覺輸入時,他能夠快速地執行一系列的運算。與此不同的是,圖形生成程序是使用這些運算步驟去生成人臉或其他物體的二維圖像。據研究人員聲稱,這種被稱為高效逆轉圖形(efficient inverse graphics,EIG)的模型與所記錄的靈長類動物大腦面部選擇區域的電子脈衝有些相關,這或許表明靈長類動物的視覺系統與計算機模型的運行方式大致相同。
曾是MIT的博士後,現耶魯大學的心理學助理教授Ilker Yildirim是這篇論文的第一作者,如今他已將論文發表在Science Advances雜誌上了。此外,洛克菲勒大學神經行為學的教授Tenenbaum和Winrich Freiwald以及耶魯大學的研究生 Mario Belledonne也是這篇論文的共同作者。
逆轉圖形(Inverse graphics)
通過幾十年來對大腦視覺系統的研究,已經能夠較為全面地了解到光線通過視網膜後是如何轉變成連續場景的了。這種發現它能夠幫助人工智慧研究員開發出可以再現該視覺系統各個方面的計算機模型,比如人臉識別或對其他物體的識別。
Tenenbaum說道:「我們對人類以及動物的大腦中最為了解的部分應該就是視覺系統了,正因如此,計算機視覺才成為了在人工智慧的應用中最成功的領域之一。目前,我們也可以想當然地認為,人工智慧現在可以很好地對圖片、人臉以及一些物體進行識別和檢測。」
然而,Yildirim卻認為即使是最為複雜的人工智慧系統目前也還無法實現人類視覺系統的功能。
他說道:「我們大腦中的視覺系統不僅僅只是為了檢測到這裡有一個物體,或者是對這個物體進行識別並貼上標籤。而是為了看到一個多姿多彩的世界,看到它的所有的形狀、大小、外表和紋理等。」
在一個世紀以前,物理學家、科學家以及哲學家Hermann von Helmholtz提出了一個理論,他認為大腦通過逆轉圖像形成的過程來創造出這些多彩的圖像。他假設視覺系統中有一個圖像生成器,我們在夢中看到的景象就是由它所產生。研究人員也認為,反向運行這個圖形生成器可以讓大腦執行逆轉圖像的工作,從而推斷出這個圖像將會生成的面孔或是其他物體。
然而,新的問題卻又出現了,我們的大腦是如何能夠如此快速地執行這個被稱為逆轉圖形的過程的?一些計算機領域的科學家試圖去研究出能夠完成這一壯舉的算法,但通過測試,最好的算法也需要進行非常多次的迭代運算,這相對於僅需要100到200毫秒的時間來對看到的東西進行十分詳細再現的大腦來說,所發費的時間實在是多太多了。從而有些研究神經領域的科學家認為大腦之所以能夠對外界進行快速的感知,是因為它只通過幾個層次有序的前饋神經網絡就實現了圖像的再現。
MIT領導的研究小組創建了一種特殊的深度神經網絡模型,目的是為了展示前饋神經網絡是如何對場景中的內部特徵進行快速顯示的,案例分析是在一張特定的人臉上進行的。不同於傳統深度神經網絡在計算機視覺方面的應用,即通過標記訓練圖片的方式,本次實驗的神經網絡是通過模型訓練的方式進行的,從而能反映出大腦是如何對人臉內部特徵進行顯示的。
因此,他們的模型學會了逆轉圖形的步驟 ,通過計算機圖形程序便能模擬出圖像生成的過程。該圖形程序從人臉的三維圖展示開始,然後把它轉換成一個二維圖,就像三維圖的平面圖一樣,並且這些圖像可以以任何圖像作為背景。因此,研究人員推斷當你做夢或在腦海中想像某個人的臉時,大腦的視覺系統可能就做了類似的工作。
研究人員訓練他們深度神經網絡來反向執行這些步驟——也就是說,它從2D圖像開始,然後添加諸如紋理、曲率和光線等特徵,以創建研究人員們所說的「2.5D」的圖像。這些2.5D的圖像從一個特定的角度去看具有詳細的了面部形狀和顏色。然後它們便能被轉換成不依賴於某一個具體焦點的3D圖像。
據Yildirim介紹:「該模型從系統層面描述了大腦對人臉處理的過程,使他們能夠看到圖像是先通過2.5D這個重要的中間處理過程後,才最終生成了包含形狀和紋理描述的3D圖像的。」
模型的性能
研究人員發現,他們的模型與之前研究獼猴大腦的某些區域獲得的數據是一致的。在2010年發表的一項報告中,來自加州理工學院的Freiwald和Doris Tsao對這些區域神經元的活動進行了記錄,並分析了它們對來自7個不同視角的25張不同面孔的反應。這項研究從更深的層次揭示了人臉識別所經過的三個階段,目前MIT的研究小組假設這三個階段與他們的逆轉圖形模型基本上是對應的:一個大約的2.5D視角生成階段;一個連接2.5D到3D的中間階段;以及最後一個常規的3D圖像生成階段。
對此,Tenenbaum說道:「我們定量和定性地展示了大腦的反應特徵,這似乎與我們所建立的網絡的前三層是吻合的。」
此外,研究人員還在一項從不同角度識別人臉的任務中,對該模型的表現與人類的表現進行了對比。當研究人員通過僅保留臉型而去除臉型上的紋理時,或者在保留紋理的同時扭曲臉型時,這項任務變得更加困難。與最先進的面部識別軟體中使用的計算機模型相比,新模型的表現跟人類的表現更為相似,這進一步證明了該模型所執行的步驟可能更接近於人類視覺系統中所做的工作。
哥倫比亞大學心理學和神經科學的教授Nikolaus Kriegeskorte雖然沒有參與這項研究,但他表示:「這項研究是令人興奮,因為它將這個2.5D解析階段引入到了人臉識別的前饋神經網絡模型的中間層中。他們的方法既結合了傳統逆轉圖形模型的觀點,又使用了現代的深度前饋神經網絡。而且更加令人感到高興的是,這個模型能夠更好地解釋大腦神經系統對圖像的描述和一些行為反應」
現在,研究人員正在進行一項新的研究,他們將一些人臉之外的圖片繼續在這個模型上進行測試,看該模型是否也可以解釋大腦對其他場景是如何進行感知的。此外,他們還認為將這種方法應用於計算機視覺,可能會使得人工智慧系統的識別效果更好。
Tenenbaum說:「如果我們能夠證明這些模型與大腦的工作方式相同的話,那麼這項工作將會得到更多的計算機視覺研究人員的認真地對待,並在逆轉圖形感知方法上投入更多的資源。」此外,他還認為大腦對於人工智慧機器人來說,仍然是快速且又詳細地認識世界的一種標準。
該項目是由MIT計算機科學與人工智慧實驗室、國家科學基金會、國家視覺研究所、海軍研究辦公室、紐約幹細胞基金會、豐田研究所和三菱電機聯合資助的。