李飛飛團隊最新研究,真實場景中識別物體具體屬性,連表面紋理都...

2020-12-15 騰訊網

白交 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

現在,細微到物體表面的紋理,AI都可以識別。

這就是李飛飛團隊新研究。

我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。

而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。

還引入了物理場景圖(Physical Scene Graphs,PSG)和對應的PSGNet網絡架構。

PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路,力求能夠在幾何上處理複雜的物體形狀和紋理。

這樣,在真實世界的視覺數據中學習,可以做到自監督,因而不需要大量和繁瑣的場景組件標記。

具體研究是如何呢?我們一起來看看吧!

PSGNet的建構

簡單來說,用一張圖就可以表示。

棕色方框表示PSGNet的三個階段。

首先,特徵提取。採用ConvRNN從輸入中提取特徵。

然後,構建圖形,負責優化現有PSG級別。

最後,用於端到端訓練的圖形渲染。

其中,在構建圖形這一階段,由一對可學習的模塊組成,即池化和向量化。

前者在現有圖節點上動態的構建一個池化核的分區,作為學習的、成對的節點 affinities函數。

後者在與每個池化核相關聯的圖像區域及其邊界上,聚合節點統計,來產生新節點的屬性向量。這樣便可以直觀的表示出真實場景中的物體屬性。

在「圖形渲染階段」,PSG相當於通過一個解碼器。

在每個時間點將圖節點屬性,以及圖節點頂層空間配準(SR),渲染成RGB、深度、段和RGB變化圖z。

舉個例子,除開棕色方框部分,就是一個PSG的三個層次以及與其紋理(QTR)和形狀(QSR)渲染圖。

實驗結果

隨後,將模型在 TDW-Primitives、TDW-Playroom 和 Gibson 測試集上訓練,並與最近基於CNN場景分割方法進行性能比較。

首先說一說這三個數據集,為什麼要選擇這三個數據集呢?

Primitives和Playroom中的圖像由ThreeDWorld (TDW)生成。其中,Primitives是在一個簡單的3D房間中渲染的原始形狀(如球體、圓錐體和立方體)的合成數據集。

Playroom是具有複雜形狀和逼真紋理的物體的合成數據集,如動物、家具和工具,渲染為具有物體運動和碰撞的圖形。

Gibson則是由史丹福大學校園內部建築物的RBG-D掃描組成。

這三個數據集都提供了用於模型監督的RGB、深度和表面法線圖。

性能的比較結果如下:

注意的是,OP3和PSGNetM沒有在Gibson或Primitives上進行訓練,因為它們有靜態測試集。

可以看到與其他模型相比,PSGNet表現出了更優的性能。

△PSGNets的場景分解

此外,文中還通過「手動編輯」PSG頂層的節點,觀察其渲染效果,來說明PSG能夠正確的將場景表示為離散的對象及其屬性。

就像這樣。

從圖中刪除一個節點(DeleteA或者B),將它們移動到新的3D位置(MoveB和Occlude),改變形狀屬性(Scale/Rot),或者交換兩個節點的顏色(Swap RGB)。

結果,發現都會改變相對於原始(Full)預測的圖形渲染。

研究團隊

這篇論文的研究團隊是由史丹福大學和麻省理工大學多個團隊共同合作完成的,其中就包括李飛飛團隊和來自MIT CSAIL的團隊。

第一作者名叫Daniel Bear,心理學系博士後研究員,來自史丹福大學吳蔡神經科學研究所。

你可能想問,為何研究腦科學的會跟李飛飛團隊一起合作呢?

看了這位作者的研究方向你就知道了。

他一直都在致力於研究動物是如何感知世界。

從一開始哈佛大學本科期間,就主要研究動物電信號,比如來自感官刺激的信號,如何誘導神經元基因表達。

接著在哈佛大學繼續攻讀博士時,就研究化學信號,比如動物遇到的氣味分子,如何轉化為嗅覺感知。

而現在博士後研究期間,他就把目光轉向了採用計算模型來表示動物大腦中的表徵。如果可以,給他進一步的研究提供了思路。

於是,他們就這樣交織在了一起。

吳蔡神經科學研究所

也許有朋友會對這個研究所的名字有點陌生。

但這是史丹福大學裡以中國人命名的研究所,2018年10月,出於紀念蔡崇信、吳明華夫婦對該所慷慨捐贈,正式命名為吳蔡神經科學研究所。

蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼識珠加入馬雲的阿里事業的那個人。

也是鮮有機會,其夫人也被關注到。

現在,他們捐贈的研究所,產出了新成果。

所以新論文到手,歡迎細緻研讀後分享你的「讀後感」哦。

相關焦點

  • 最新研究:真實場景中識別物體具體屬性 連表面紋理都識別出來了
    (原標題:李飛飛團隊最新研究,真實場景中識別物體具體屬性,連表面紋理都識別出來了)白交 發自 凹非寺現在,細微到物體表面的紋理,AI都可以識別。這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。
  • 李飛飛團隊新研究,場景中識別物體屬性,連表面紋理都識別出來了
    白交 發自 凹非寺量子位 報導 | 公眾號 QbitAI現在,細微到物體表面的紋理,AI都可以識別。這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。
  • 學界 | 精細識別現實世界圖像:李飛飛團隊提出半監督適應性模型
    然而,大多數圖像識別算法都非常依賴於有標籤的數據集,同時對於圖片中物體的精細分類能力也非常有限。近日,史丹福大學李飛飛團隊提交的論文在減少數據依賴和提高識別細粒度程度等問題上向前邁進了一步。該論文已被 ICCV 2017 大會接收。圖像識別的終極目標是識別真實世界中的所有物體。更加艱巨的任務則是精細識別——細分同一類別的物體(如不同種類的鳥、不同品牌的汽車)。
  • 李飛飛卸任是怎麼回事?李飛飛是誰為何二次出走?
    具體而言,這一項目由李飛飛和斯坦福前教務長John Etchemendy共同主導,主要工作方向有三個:1、推進和發展下一代AI科學(著重於腦科學和認知學交叉);2、研究和預測AI對人類社會和生活的影響;3、設計和實現以人為本的AI技術和應用。
  • 如何加入李飛飛帶領的Google AI中國團隊?-虎嗅網
    至於標準,Google團隊給出了幾個必要不充分條件,比如:要對AI研究有較為深刻的背景認知;對特定領域有較好的經驗;以及對AI研究有很大的熱情;最好在理科、數學方面有不錯的積累。其實更明確的要求,都列在Google的招聘信息中。
  • 李飛飛新研究:基於深度學習和視覺化語言來了解不同物體間的關係
    2017未來科學大獎頒獎典禮暨未來論壇年會28、29日在京舉辦,史丹福大學終身教授、谷歌雲首席科學家李飛飛在人工智慧研討會上表示,最近她所在的實驗室正在做一項新研究,基於深度學習和視覺化語言模式了解不同物體之間的關係。李飛飛表示,無論是動物智能還是機器智能,視覺都是非常重要的技術。視覺是人腦中最為複雜的系統,佔有大腦中50%的認識單位。
  • 15個可交互的真實房屋場景,李飛飛組開源大型室內場景模擬環境
    在這項研究中,斯坦福視覺與學習實驗室(SVL)Silvio / 李飛飛組的研究者推出了一個全新的模擬環境 iGibson,從而可以為大型真實場景中的交互任務開發機器人解決方案。
  • 15個可交互的真實房屋場景,李飛飛組開源大型室內場景的模擬環境
    機器之心轉載作者:沈博魁、夏斐、李承澍、Roberto Martín-Martín在這項研究中,斯坦福視覺與學習實驗室(SVL)Silvio / 李飛飛組的研究者推出了一個全新的模擬環境 iGibson,從而可以為大型真實場景中的交互任務開發機器人解決方案。
  • 西交出身,辛書冕獲CVPR 2019最佳論文,李飛飛團隊獲經典論文獎
    結果顯示,華人幾乎包攬了最佳論文、最佳學生論文和最具影響力論文獎,分別由來自CMU的辛書冕等人、加州大學聖巴巴拉分校的王鑫等人和李飛飛團隊等人摘得! 華人包攬三大獎項第一作者 此次 CVPR 獲獎論文中有三大獎項的第一作者均有華人在列,包括最佳論文、最佳學生論文和最具影響力論文獎,辛書冕、王鑫、李飛飛等眾多華人的名字出現在獲獎者名單中讓人欣喜又印象深刻。
  • 美國播客節目《指數視角》專訪李飛飛:疫情、AI 倫理、人才培養
    李飛飛 4 月在斯坦福的一次在線會議中 介紹了最新研究,如何利用 AI 幫助弱勢群體 在你們研究傳感器過程中,都需要哪些參數呢? 李飛飛:我們所研究的任何傳感器,都會處理隱私問題和尊重人類,我們正與倫理學家和法律學者合作研究隱私問題。 而顧及到隱私問題,深度傳感器就會丟失數據和高保真度、高解析度的像素著色數據。那麼,我們如何彌補這個問題呢?
  • 李飛飛團隊從動物身上get AI新思路,提出RL計算框架,讓機器在複雜環境學習和進化
    這是李飛飛團隊的最新研究。在過去6億年中,動物在複雜的環境中學習與進化成各異的形態,又利用進化的形態來學習複雜的任務。如此周而復始的學習與進化,造就了動物的認知智慧。但其中環境複雜性、進化形態和智能控制的可學習性之間的關係原理仍然難以捉摸。
  • 視+AR公布EasyAR兩大新能力,實現遮擋與碰撞、無紋理物體跟蹤功能
    在當下的AR體驗中我們會發現虛擬物體永遠在真實物體的前方,不能和真實環境融為一體,產生正確的遮擋關係,使得AR的真實感不足。宋健演示了利用EasyAR實現的遮擋與碰撞功能,讓虛擬物體能「隱藏」在真實物體的背後,與真實物體產生聯繫。無紋理物體跟蹤——進一步突破EasyAR物體感知的使用範疇
  • 谷歌雲首席科學家李飛飛最新演講全文:機器已能「看懂」圖像和視頻,但我們仍站在人工智慧研究的起點
    為了模擬人類,在計算機的圖像識別任務中,輸入的是圖像,計算機所輸出的信息包括圖像中的物體、它們所處的位置以及物體之間的關係。目前我們有一些前期工作,但是絕大多數由計算機所判斷的物體之間的關係都是十分有限的。
  • 李飛飛再次告別!卸任斯坦福AI Lab負責人後,她只做一件事!
    而李飛飛將繼續擔任由她主導的以人為中心的AI計劃「HAI」聯合創始人。而這已經是半年內李飛飛做的第二次「告別」,也讓這位華裔女科學家此後的研究方向備受全行業關注。具體而言,這一項目由李飛飛和斯坦福前教務長John Etchemendy共同主導,主要工作方向有三個:1、推進和發展下一代AI科學(著重於腦科學和認知學交叉);2、研究和預測AI對人類社會和生活的影響;3、設計和實現以人為本的AI技術和應用。
  • 李飛飛團隊最新論文:提出新網絡,學習新策略,讓AI通過視覺觀察實現因果歸納
    現在,李飛飛團隊帶來了他們在因果推理方面的最新研究:讓人工智慧在視覺觀察中逐步生成因果圖,並有選擇性地根據誘導圖來決定行動。研究團隊假設,最能概括因果關係的歸納網絡將是一個能分解單個動作及其對應效果的網絡,並且只更新因果圖的相關成分。在迭代模型中,首先假設因果結構的邊緣權重為0(即沒有因果關係),並將觀測數據的每個幀映射到一個編碼。然後,計算跨時間步長的狀態嵌入之間的差異(即,狀態殘差),並將其與相應的動作關聯起來。
  • 李飛飛正式宣布離職谷歌:重返斯坦福任教
    這是這位全球人工智慧研究領域執牛耳者第一次進入工業界。彼時,她充滿了興奮,她希望能從工業界得到啟發,了解實際應用中希望利用人工智慧解決什麼問題,希望接觸到問題和思路,以此進一步推動人工智慧的深入研究。她在接受網易採訪時坦言,之所以選擇谷歌雲,是因為雲能夠匯集各行各業的數據,讓人工智慧真正有用武之地。
  • 智慧型手機的創新用法:識別物體表面材料!
    導讀最近,英國聖安德魯斯大學的研究人員發明了一項基於智慧型手機攝像頭的創新技術,它再一次革新了智慧型手機的用途,讓手機可以識別其所在物體表面是由何種材料製成的。,它再一次革新了智慧型手機的用途,讓手機可以識別其所在物體表面是由何種材料製成的。
  • 一種通過分析圖像來估計物體表面觸覺特性的模型
    近年來,許多機器人研究人員一直在努力開發技術,使機器人能夠評估物體或表面的觸覺屬性,這最終可能為它們提供類似於人類觸覺的技能。羅格斯大學(Rutgers University)專攻計算機視覺和人工智慧的博士生馬修·普裡(Matthew Purri)在之前研究的基礎上,最近開發了一種基於卷積神經網絡(convolutional neural network, CNN)的模型,可以通過分析物體表面的圖像來估計物體表面的觸覺屬性。
  • 港中文李弘揚:物體檢測最新進展
    港中文李弘揚博士為大家帶來報告《物體檢測最新進展》。李弘揚,香港中文大學多媒體實驗室(MMLab)博士生,微軟亞洲研究院實習生。博士期間導師為王曉剛教授。報告內容:物體檢測(object detection)作為計算機視覺中最基礎、最核心的任務,多年來備受學術界、工業界關注。一方面檢測任務涉及機器學習中最根本的分類、回歸問題,另一方面,隨著深度學習、大規模數據集的興起,很多視覺任務(語義分割、圖像描述、圖像問答等等)的基石都是由物體檢測框架構建起來的。
  • 李飛飛卸任斯坦福AI實驗室負責人,NLP領軍人物Manning接任
    根據斯坦福人工智慧實驗室官方Twitter消息,深度學習自然語言處理領軍人、斯坦福教授Chris Manning將接替李飛飛,成為該實驗室最新一任負責人。李飛飛教授將繼續擔任斯坦福視覺與學習實驗室(SVL)負責人,並在她的新崗位——斯坦福以人為本人工智慧研究院共同院長上發揮重要功能。