白交 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
現在,細微到物體表面的紋理,AI都可以識別。
這就是李飛飛團隊新研究。
我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。
而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。
還引入了物理場景圖(Physical Scene Graphs,PSG)和對應的PSGNet網絡架構。
PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路,力求能夠在幾何上處理複雜的物體形狀和紋理。
這樣,在真實世界的視覺數據中學習,可以做到自監督,因而不需要大量和繁瑣的場景組件標記。
具體研究是如何呢?我們一起來看看吧!
PSGNet的建構
簡單來說,用一張圖就可以表示。
棕色方框表示PSGNet的三個階段。
首先,特徵提取。採用ConvRNN從輸入中提取特徵。
然後,構建圖形,負責優化現有PSG級別。
最後,用於端到端訓練的圖形渲染。
其中,在構建圖形這一階段,由一對可學習的模塊組成,即池化和向量化。
前者在現有圖節點上動態的構建一個池化核的分區,作為學習的、成對的節點 affinities函數。
後者在與每個池化核相關聯的圖像區域及其邊界上,聚合節點統計,來產生新節點的屬性向量。這樣便可以直觀的表示出真實場景中的物體屬性。
在「圖形渲染階段」,PSG相當於通過一個解碼器。
在每個時間點將圖節點屬性,以及圖節點頂層空間配準(SR),渲染成RGB、深度、段和RGB變化圖z。
舉個例子,除開棕色方框部分,就是一個PSG的三個層次以及與其紋理(QTR)和形狀(QSR)渲染圖。
實驗結果
隨後,將模型在 TDW-Primitives、TDW-Playroom 和 Gibson 測試集上訓練,並與最近基於CNN場景分割方法進行性能比較。
首先說一說這三個數據集,為什麼要選擇這三個數據集呢?
Primitives和Playroom中的圖像由ThreeDWorld (TDW)生成。其中,Primitives是在一個簡單的3D房間中渲染的原始形狀(如球體、圓錐體和立方體)的合成數據集。
Playroom是具有複雜形狀和逼真紋理的物體的合成數據集,如動物、家具和工具,渲染為具有物體運動和碰撞的圖形。
Gibson則是由史丹福大學校園內部建築物的RBG-D掃描組成。
這三個數據集都提供了用於模型監督的RGB、深度和表面法線圖。
性能的比較結果如下:
注意的是,OP3和PSGNetM沒有在Gibson或Primitives上進行訓練,因為它們有靜態測試集。
可以看到與其他模型相比,PSGNet表現出了更優的性能。
△PSGNets的場景分解
此外,文中還通過「手動編輯」PSG頂層的節點,觀察其渲染效果,來說明PSG能夠正確的將場景表示為離散的對象及其屬性。
就像這樣。
從圖中刪除一個節點(DeleteA或者B),將它們移動到新的3D位置(MoveB和Occlude),改變形狀屬性(Scale/Rot),或者交換兩個節點的顏色(Swap RGB)。
結果,發現都會改變相對於原始(Full)預測的圖形渲染。
研究團隊
這篇論文的研究團隊是由史丹福大學和麻省理工大學多個團隊共同合作完成的,其中就包括李飛飛團隊和來自MIT CSAIL的團隊。
第一作者名叫Daniel Bear,心理學系博士後研究員,來自史丹福大學吳蔡神經科學研究所。
你可能想問,為何研究腦科學的會跟李飛飛團隊一起合作呢?
看了這位作者的研究方向你就知道了。
他一直都在致力於研究動物是如何感知世界。
從一開始哈佛大學本科期間,就主要研究動物電信號,比如來自感官刺激的信號,如何誘導神經元基因表達。
接著在哈佛大學繼續攻讀博士時,就研究化學信號,比如動物遇到的氣味分子,如何轉化為嗅覺感知。
而現在博士後研究期間,他就把目光轉向了採用計算模型來表示動物大腦中的表徵。如果可以,給他進一步的研究提供了思路。
於是,他們就這樣交織在了一起。
吳蔡神經科學研究所
也許有朋友會對這個研究所的名字有點陌生。
但這是史丹福大學裡以中國人命名的研究所,2018年10月,出於紀念蔡崇信、吳明華夫婦對該所慷慨捐贈,正式命名為吳蔡神經科學研究所。
蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼識珠加入馬雲的阿里事業的那個人。
也是鮮有機會,其夫人也被關注到。
現在,他們捐贈的研究所,產出了新成果。
所以新論文到手,歡迎細緻研讀後分享你的「讀後感」哦。