基於人臉識別的計算機模型揭示了大腦是如何迅速產生豐富視覺圖像

2021-02-08 deephub

作者:Anne Trafton

deephub翻譯組 :李愛(Li Ai)

當我們睜開眼睛時,我們能立即觀察到周圍的一切事物。然而,對於我們的大腦是如何能夠快速將這些生動的圖像形成並展現出來的,這仍然是視覺研究中的一個未解之謎。

腦科學家們試圖用計算機視覺模型來重現這一現象,但迄今為止,頂尖的模型也只能完成一些簡單的任務,比如在相對混亂的背景下挑選出某一個物體或某一張臉。當前,由麻省理工大學(Massachu-setts Institute of Technology,MIT)一些認知科學家領導的團隊已經研究出了一種模型,該模型能夠具有類似人類視覺系統從圖像中快速生成詳細場景的能力,並且它還對大腦是如何做到這一點的也提供了一些見解。

來自MIT認知科學領域的教授Josh Tenenbaum說道:「在這項工作中,我們試圖去解釋為什麼感知這種方式比在圖像上去貼標籤要複雜的得多。此外,還對我們究竟是如何看待這樣的一個物理世界進行了探索」。對於Josh教授,他同時還是MIT計算機科學與人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory ,CSAIL)的會員以及腦科學、哲學和機器學習中心(the Center for Brains, Minds, and Machines,CBMM)的會員。

這種全新的模型假設當大腦接收到視覺輸入時,他能夠快速地執行一系列的運算。與此不同的是,圖形生成程序是使用這些運算步驟去生成人臉或其他物體的二維圖像。據研究人員聲稱,這種被稱為高效逆轉圖形(efficient inverse graphics,EIG)的模型與所記錄的靈長類動物大腦面部選擇區域的電子脈衝有些相關,這或許表明靈長類動物的視覺系統與計算機模型的運行方式大致相同。

曾是MIT的博士後,現耶魯大學的心理學助理教授Ilker Yildirim是這篇論文的第一作者,如今他已將論文發表在Science Advances雜誌上了。此外,洛克菲勒大學神經行為學的教授Tenenbaum和Winrich Freiwald以及耶魯大學的研究生 Mario Belledonne也是這篇論文的共同作者。

逆轉圖形(Inverse graphics)

通過幾十年來對大腦視覺系統的研究,已經能夠較為全面地了解到光線通過視網膜後是如何轉變成連續場景的了。這種發現它能夠幫助人工智慧研究員開發出可以再現該視覺系統各個方面的計算機模型,比如人臉識別或對其他物體的識別。

Tenenbaum說道:「我們對人類以及動物的大腦中最為了解的部分應該就是視覺系統了,正因如此,計算機視覺才成為了在人工智慧的應用中最成功的領域之一。目前,我們也可以想當然地認為,人工智慧現在可以很好地對圖片、人臉以及一些物體進行識別和檢測。」

然而,Yildirim卻認為即使是最為複雜的人工智慧系統目前也還無法實現人類視覺系統的功能。

他說道:「我們大腦中的視覺系統不僅僅只是為了檢測到這裡有一個物體,或者是對這個物體進行識別並貼上標籤。而是為了看到一個多姿多彩的世界,看到它的所有的形狀、大小、外表和紋理等。」

在一個世紀以前,物理學家、科學家以及哲學家Hermann von Helmholtz提出了一個理論,他認為大腦通過逆轉圖像形成的過程來創造出這些多彩的圖像。他假設視覺系統中有一個圖像生成器,我們在夢中看到的景象就是由它所產生。研究人員也認為,反向運行這個圖形生成器可以讓大腦執行逆轉圖像的工作,從而推斷出這個圖像將會生成的面孔或是其他物體。

然而,新的問題卻又出現了,我們的大腦是如何能夠如此快速地執行這個被稱為逆轉圖形的過程的?一些計算機領域的科學家試圖去研究出能夠完成這一壯舉的算法,但通過測試,最好的算法也需要進行非常多次的迭代運算,這相對於僅需要100到200毫秒的時間來對看到的東西進行十分詳細再現的大腦來說,所發費的時間實在是多太多了。從而有些研究神經領域的科學家認為大腦之所以能夠對外界進行快速的感知,是因為它只通過幾個層次有序的前饋神經網絡就實現了圖像的再現。

MIT領導的研究小組創建了一種特殊的深度神經網絡模型,目的是為了展示前饋神經網絡是如何對場景中的內部特徵進行快速顯示的,案例分析是在一張特定的人臉上進行的。不同於傳統深度神經網絡在計算機視覺方面的應用,即通過標記訓練圖片的方式,本次實驗的神經網絡是通過模型訓練的方式進行的,從而能反映出大腦是如何對人臉內部特徵進行顯示的。

因此,他們的模型學會了逆轉圖形的步驟 ,通過計算機圖形程序便能模擬出圖像生成的過程。該圖形程序從人臉的三維圖展示開始,然後把它轉換成一個二維圖,就像三維圖的平面圖一樣,並且這些圖像可以以任何圖像作為背景。因此,研究人員推斷當你做夢或在腦海中想像某個人的臉時,大腦的視覺系統可能就做了類似的工作。

研究人員訓練他們深度神經網絡來反向執行這些步驟——也就是說,它從2D圖像開始,然後添加諸如紋理、曲率和光線等特徵,以創建研究人員們所說的「2.5D」的圖像。這些2.5D的圖像從一個特定的角度去看具有詳細的了面部形狀和顏色。然後它們便能被轉換成不依賴於某一個具體焦點的3D圖像。

據Yildirim介紹:「該模型從系統層面描述了大腦對人臉處理的過程,使他們能夠看到圖像是先通過2.5D這個重要的中間處理過程後,才最終生成了包含形狀和紋理描述的3D圖像的。」

模型的性能

研究人員發現,他們的模型與之前研究獼猴大腦的某些區域獲得的數據是一致的。在2010年發表的一項報告中,來自加州理工學院的Freiwald和Doris Tsao對這些區域神經元的活動進行了記錄,並分析了它們對來自7個不同視角的25張不同面孔的反應。這項研究從更深的層次揭示了人臉識別所經過的三個階段,目前MIT的研究小組假設這三個階段與他們的逆轉圖形模型基本上是對應的:一個大約的2.5D視角生成階段;一個連接2.5D到3D的中間階段;以及最後一個常規的3D圖像生成階段。

對此,Tenenbaum說道:「我們定量和定性地展示了大腦的反應特徵,這似乎與我們所建立的網絡的前三層是吻合的。」

此外,研究人員還在一項從不同角度識別人臉的任務中,對該模型的表現與人類的表現進行了對比。當研究人員通過僅保留臉型而去除臉型上的紋理時,或者在保留紋理的同時扭曲臉型時,這項任務變得更加困難。與最先進的面部識別軟體中使用的計算機模型相比,新模型的表現跟人類的表現更為相似,這進一步證明了該模型所執行的步驟可能更接近於人類視覺系統中所做的工作。

哥倫比亞大學心理學和神經科學的教授Nikolaus Kriegeskorte雖然沒有參與這項研究,但他表示:「這項研究是令人興奮,因為它將這個2.5D解析階段引入到了人臉識別的前饋神經網絡模型的中間層中。他們的方法既結合了傳統逆轉圖形模型的觀點,又使用了現代的深度前饋神經網絡。而且更加令人感到高興的是,這個模型能夠更好地解釋大腦神經系統對圖像的描述和一些行為反應」

現在,研究人員正在進行一項新的研究,他們將一些人臉之外的圖片繼續在這個模型上進行測試,看該模型是否也可以解釋大腦對其他場景是如何進行感知的。此外,他們還認為將這種方法應用於計算機視覺,可能會使得人工智慧系統的識別效果更好。

Tenenbaum說:「如果我們能夠證明這些模型與大腦的工作方式相同的話,那麼這項工作將會得到更多的計算機視覺研究人員的認真地對待,並在逆轉圖形感知方法上投入更多的資源。」此外,他還認為大腦對於人工智慧機器人來說,仍然是快速且又詳細地認識世界的一種標準。

該項目是由MIT計算機科學與人工智慧實驗室、國家科學基金會、國家視覺研究所、海軍研究辦公室、紐約幹細胞基金會、豐田研究所和三菱電機聯合資助的。

相關焦點

  • 快速掌握計算機視覺大部分領域,學習人臉圖像是唯一選擇
    文末有驚喜筆者是從傳統圖像算法開始進入計算機視覺行業的,那一批人基本上都是從人臉圖像和文本圖像開始學,而如今很多計算機視覺從業者卻從來沒有接觸過人臉圖像相關的算法,或許真的是時代變了吧。第三個是形狀特徵,基於人臉特徵關鍵點就可以計算出一系列的形狀特徵,因為人臉關鍵點是眉毛、眼睛、鼻子、嘴巴、臉部等有語義的特徵點,每個人臉都通用卻有獨特性,對於光照姿態等有很強的不變性。目標檢測可以說是計算機視覺方向中從業者最多的了,不然也不會出現千篇一律的簡歷中寫著跑過Yolo算法,人臉檢測就是目標檢測的一個子領域。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    本文以計算機視覺的重要概念為線索,介紹深度學習在計算機視覺任務中的應用,包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成和風格遷移、人臉識別、圖像檢索、目標跟蹤等。網絡壓縮(network compression)儘管深度神經網絡取得了優異的性能,但巨大的計算和存儲開銷成為其部署在實際應用中的挑戰。
  • 破譯大腦識別人臉原理:人臉識別判斷人貧富程度,準確率53%
    這一研究表明,表情依賴與人腦對人臉識別過程中的後期的分支模型相一致(在這種模型中,臉部要素的改變和識別都在相同的框架下進行編碼),這對於揭示人腦識別人臉的原理是一個較大推動。細微的臉部線索也能讓其他人根據第一印象來判斷你是富有還是貧窮。一項新的研究發現,平靜的人臉部表情是一個可以用來判斷人的經濟狀況的因素,並且可以影響人際關係和職場的成功。
  • 3D視覺:一張圖像如何看出3D效果?
    3D 人臉檢測基本流程人臉識別技術在國家安全、軍事安全、金融安全、共同安全等領域具有廣泛的應用前景。人的大腦具備天生的人臉識別能力,可以輕易地分辨出不同的人。但是計算機自動識別人臉技術卻面臨著巨大的挑戰。由於二維人臉識別不可避免地受到光照、姿態和表情的影響,這些因素已成為二維人臉識別技術向前發展的最大障礙。
  • 從計算機視覺到人臉識別:一文看懂顏色模型、信號與噪聲
    計算機視覺介紹計算機視覺的主要目標是教會計算機如何去獲取圖片信息中的知識,例如人臉識別就是讓計算機去自動獲取與識別人臉圖像中的知識,這個「知識」的範疇可以是「兩張圖片中的人臉是否來自於同一個人」,也可以是「圖片中的人臉是男人還是女人」。
  • 疫情加速百度人臉識別變革:戴口罩也能準確識別,迅速上線
    如此模型,百度視覺算法團隊是如何完成的呢?接下來我們一一解密。戴口罩人臉識別之難:如何快準狠「三座大山」怎麼翻?首先是第一個難題,丟失了大量臉部特徵,如何進行檢測。一個傳統的辦法,就是在現有的人臉圖像上「貼」上口罩。但這樣處理後的實驗效果並不明顯,原因是在真實場景中,人臉姿態會有變化,並且不同場景採集的圖像存在一定的差異性。針對這個問題,百度視覺採用了基於人臉關鍵點的3D圖像融合技術。
  • 基於深度學習的人臉識別技術全解
    其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。 人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的圖像或視頻流,並自動在圖像中檢測和跟蹤人臉。
  • 深度學習與圖像識別
    在2012年的比賽中,排名2到4位的小組都採用的是傳統的計算機視覺方法,手工設計的特徵,他們準確率的差別不超過1%。Hinton的研究小組是首次參加比賽,深度學習比第二名超出了10%以上。這個結果在計算機視覺領域產生了極大的震動,掀起了深度學習的熱潮。計算機視覺領域另一個重要的挑戰是人臉識別。
  • 計算機視覺八大任務全概述:PaddlePaddle工程師詳解熱門視覺模型
    上篇計算機視覺(Computer Vision)是研究如何使機器「看」的科學,更進一步的說,是使用攝像機機和電腦代替人眼對目標進行識別、跟蹤和測量等的機器視覺,並通過電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。形象地說,就是給計算機安裝上眼睛(攝像機)和大腦(算法),讓計算機像人一樣去看、去感知環境。
  • 淺談計算機視覺中的圖像標註_易車網
    更進一步的說,計算機視覺是一門研究如何使機器「看」的科學,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。計算機視覺的應用非常廣泛,從自動駕駛汽車和無人機到醫療診斷技術和面部識別軟體,計算機視覺的應用是巨大的和革命性的。
  • 人臉識別碰壁,百度如何「破圈」?
    因此,百度視覺團隊採用了基於人臉關鍵點的三維圖像融合技術,不僅解決了人臉姿態變化帶來的口罩形變和遮擋問題,同時生成的照片更加自然、真實,最終,通過收集市面上各種顏色、大小和樣式的口罩圖片,與之前積累的未佩戴口罩人臉圖片進行融合,快速合成了各種場景、海量真實的戴口罩訓練照片。
  • 計算機視覺:你必須了解的圖像數據底層技術
    重磅乾貨,第一時間送達 轉自|新機器視覺 引言 計算機視覺(Computer Vision)自興起以來就非常迅速且廣泛應用於各個領域,比如我們熟悉的且每天都會使用的基於手機攝像頭的人臉識別
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。現有的深度學習模型屬於神經網絡。神經網絡的起源可追溯到20世紀40年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理解決各種機器學習問題。
  • 獲IEEE FG2020冠亞季三項大獎,深蘭計算機視覺領跑人臉識別科技領域
    獲IEEE FG2020冠亞季三項大獎,深蘭計算機視覺領跑人臉識別科技領域 日前,第 15 屆IEEE自動面部和手勢識別國際會議(IEEE FG2020)在阿根廷布宜諾斯艾利斯舉行
  • 計算機視覺:從入門到精通,極限剖析圖像識別學習算法
    如何做好計算機視覺的研究工作,迎接更廣闊的未來職業發展,能夠上手應用,編寫屬於自己的神經網絡和計算機視覺應用?
  • 人臉識別最全知識圖譜
    其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的圖像或視頻流,並自動在圖像中檢測和跟蹤人臉。
  • 計算機視覺「奧斯卡」CVPR 2020公布收錄論文
    本次會議中,百度入選論文22篇,全面涵蓋視覺領域下的人臉檢測&識別、視頻理解&分析、圖像超分辨、及自動駕駛中的車輛檢測、場景實例級分割等眾多熱門子領域,也向國際領域展示了中國視覺技術水平的深厚積累。
  • 圖像識別之原理、過程、應用前景,精華篇
    雖然人類的識別能力很強大,但是對於高速發展的社會,人類自身識別能力已經滿足不了我們的需求,於是就產生了基於計算機的圖像識別技術。這就像人類研究生物細胞,完全靠肉眼觀察細胞是不現實的,這樣自然就產生了顯微鏡等用於精確觀測的儀器。通常一個領域有固有技術無法解決的需求時,就會產生相應的新技術。
  • 一文帶你讀懂計算機視覺
    自動駕駛的圖像分割近年來,計算機視覺取得了很大進展。,基於通用的mobile net架構。有關resnet的預訓練模型,請訪問: https://github.com/tensorflow/tensor2tensor#image-classification人臉識別就是要弄清楚誰是一張臉。
  • 人臉識別最全知識圖譜—清華大學出品
    計算機圖形圖像、資訊理論和語義學相互結合的綜合性技術,並具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的圖像或視頻流,並自動在圖像中檢測和跟蹤人臉。