(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)
特別感謝 MIT 博士生吳佳俊對本文的貢獻
麻省理工學院(MIT)腦和認知科學系教授約書亞·特南鮑姆 (Josh Tenenbaum) 是學校腦、思維、機器研究中心 (Center for Brains, Minds, and Machines) 智能發展研究方向的主任。這一跨學院、交叉學科的科研平臺致力於探索、解釋和複製人類的智能。
在今年的神經信息處理系統大會 (NIPS) 上,特南鮑姆與他的博士生吳佳俊發表了四篇論文,探討了智能體需要哪些基本認知能力才能夠探索世界,其中就包括辨別不同的物體,並且推斷該物體將會對施加於其的物理量做出怎樣的反應。
研究人員相信,通過一步步構建擁有上述能力的計算機系統,他們最終能夠幫助搞清楚關於人類在智力發展各個階段是如何使用哪些信息來處理問題的。在這個過程中,研究人員甚至可能得到一些用於研究機器人視覺系統的新思路。
「所有這些研究項目的共同主題,是讓計算機真正地試著感知物理」,特南鮑姆認為,「要做到這一點,計算機首先要恢復物體的完整三維形狀,並且分析這些物體身處的場景以及它們的關係,還有其物理特性比如質量和摩擦力,之後才能推斷這些物體將如何隨時間推移而變化。佳俊的四篇論文討論了整個問題。其中,三篇論文討論了如何能從視覺和聽覺數據中推斷出物體的物理結構,另一篇則討論了如何在上述數據的基礎上預測物體的表現。結合在一起,我們可以開始構建一些計算模型來更好地描述人類對於物理世界的認知。」
雙向而行
把所有四篇論文聯繫在一起的另一個因素是,他們運用了與眾不同的機器學習方法。機器學習是一種通過讓計算機分析大量訓練數據來讓執行計算任務的技術。在一個傳統的機器學習系統中,用於訓練的數據被事先標記好,系統會嘗試學習分析這些數據的特徵與哪些標籤相關聯。而評價機器學習的一個標準是,計算機正確標記出了多少事先未被標記的數據。
在他們的論文中,系統被訓練用於推斷世界的物理模型——例如推斷某個大部分都隱藏在視野之外的物體的三維形狀。之後模型被反向運用,使用系統輸出的模型再合成輸入數據,並且通過重建的數據與原始數據相匹配的程度來評價系統的推斷水平。
比如說,構建的三維模型需要分析並剝離出所有擋住對象的遮蔽物,還要濾除掉該對象的視覺紋理,反射和陰影,並且要能夠推斷出視野之外的對象形狀。當吳佳俊和特南鮑姆的系統建立模型後,系統還需要把三維模型在空間中旋轉到圖片上的位置,並給模型添加上視覺紋理,直到最終可以近似輸入圖像數據。
事實上,研究人員的四篇論文中有兩篇論述了從圖像數據推斷三維模型的複雜性。共同參與撰寫這些論文的還有另外四位麻省理工學院的研究人員,包括電氣工程與計算機科學教授威廉·弗裡曼 (William Freeman),以及來自 DeepMind、上海科技大學和上海交通大學的研究人員。
分而治之
此次建立起來的系統基於麻省理工學院神經科學家大衛·馬爾 (David Marr) 一項非常有影響力的理論。馬爾在 1980 年英年早逝,年僅 35 歲。根據馬爾的假設,人腦在解釋一個視覺場景時,會首先創建一個 2.5 維「草圖」用於表示可見物體的表面。然後,在這個 2.5 維「草圖」的基礎上 (而非這個場景的原始視覺信息的基礎上),大腦繼續推斷出所看到物體的完整三維形狀。
「這兩個問題都很難,但是至少我們有一個很好的方法來分解它們」,吳佳俊說,「這樣你可以一次處理一個問題,而不是同時解決它們,那樣難度會更大。」
圖丨吳佳俊 ,2010 年畢業於華東師範大學第二附屬中學,獲全國青少年信息學奧林匹克競賽一等獎保送至清華大學,就讀於交叉信息院計算機科學實驗班 ( 著名的姚期智班 )。他現為麻省理工學院四年級博士生,已在 CVPR,NIPS,ECCV,PAMI 等會議和期刊上發表 20 餘篇論文,曾榮獲清華大學特等獎學金、百度獎學金、Facebook 獎學金等
吳佳俊和他的合作者使用包括視覺圖像與圖像上物體的三維模型數據對系統進行訓練。構建真實照片中物體的精確三維模型將耗時過長,因此在最初階段,研究人員使用生成的數據來訓練這個系統。其中,圖像數據從三維模型渲染而成。整個創建數據的過程大概和創建電腦動畫電影一樣。
當訓練系統學習合成的數據之後,就可以把精度調得更高然後使用實際數據對系統進行訓練學習。評價系統學習效果的最終指標是系統再生成的重建模型與輸入數據對比的準確度。
在評估系統時,研究人員使用了一種常用的名為交並比的評估方法。在這一度量下,他們的系統勝過了上一代。另一方面,由於交並比不能很好的刻畫模型的局部細節,吳佳俊和他的同事們也運用眾包方法,讓用戶評價模型對源圖像中物體重建的精確度。74% 的參與者認為新系統的重建結果優於前一代。
時間永是流駛
在吳佳俊和特南鮑姆、弗裡曼的另一篇論文中,他們訓練了一個系統來分析物體落下的聲音,以推斷物體的形狀,材質以及它落下的高度。參與這項研究的還有麻省理工學院,劍橋大學和上海科技大學的研究人員。同樣的,系統被訓練去生成某一物體的抽象模型,然後再反過來,利用這個模型來模擬它從特定高度落下時將會產生的聲音。根據合成聲音和源聲音之間的相似性,最終可以判斷這個系統的性能。
最後,在他們的第四篇論文中,吳佳俊、特南鮑姆、弗裡曼、DeepMind 和牛津大學的合作者構建了一個系統,這個系統開始模擬人類直覺如何理解作用於物體的物理量。這篇論文的假設起點是之前的三篇論文所描述的最終結果:即假設系統已經成功推導出物體的三維形狀。
論文中使用了簡單形狀的物體進行研究:球和立方體。研究人員訓練他們的系統執行兩項任務,首先是讓系統估測在撞球桌上行進的撞球的速度,並據此預測撞球在碰撞之後的表現。另外一項任務則是分析堆疊的立方體的靜態圖像,並預測這些立方體會不會掉落,如果會掉落的話,立方體將落在哪裡。
吳佳俊提出了一種被他稱之為場景 XML 的表徵語言,可以定量描述視覺場景中的物體的相對位置。在研究中,系統首先要學習用這種語言來描述所輸入的數據,然後系統將描述出的結果提供給一個「物理引擎」,這個物理引擎可以對作用於所研究物體上的物理力進行建模。物理引擎既是計算機動畫也是科學計算中的重要組成部分,在計算機動畫中物理引擎被用來生成衣服的移動,物體的落下等,在科學計算中,物理引擎則被用於大規模的物理模擬。
當物理引擎完成球和立方體運動預測的之後,這些信息會被送到給圖像渲染引擎中。渲染引擎生成的輸出會再次與源圖像進行比較。與在視覺重建研究中使用的方法一樣,研究人員先用合成數據訓練系統,然後再細化精度,使用真實數據訓練他們的系統。
在測試中,新的系統同樣比現有的系統有更好的表現。在預測撞球運動的實驗中,新系統時常比人類表現得更好。
「這些工作中的最關鍵的洞察力在於利用物理工具——渲染器,模擬引擎,訓練好的模型——來訓練生成模型」,南加州大學計算機科學助理教授約瑟夫·林 (Joseph Lim) 評論,「當把這個簡單而優雅的想法與最新最先進的深度學習技術相結合時,我們看到了機器在多項解釋物理世界的任務中取得的巨大成果。」