最新研究:真實場景中識別物體具體屬性 連表面紋理都識別出來了

2020-12-22 手機鳳凰網

(原標題:李飛飛團隊最新研究,真實場景中識別物體具體屬性,連表面紋理都識別出來了)

白交 發自 凹非寺

現在,細微到物體表面的紋理,AI都可以識別。

這就是李飛飛團隊新研究。

我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。

而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。

還引入了物理場景圖(Physical Scene Graphs,PSG)和對應的PSGNet網絡架構。

PSG的概念概括了MONet/IODINE3D-RelNet的工作思路,力求能夠在幾何上處理複雜的物體形狀和紋理。

這樣,在真實世界的視覺數據中學習,可以做到自監督,因而不需要大量和繁瑣的場景組件標記。

具體研究是如何呢?我們一起來看看吧!

PSGNet的建構

簡單來說,用一張圖就可以表示。

棕色方框表示PSGNet的三個階段。

首先,特徵提取。採用ConvRNN從輸入中提取特徵。

然後,構建圖形,負責優化現有PSG級別。

最後,用於端到端訓練的圖形渲染

其中,在構建圖形這一階段,由一對可學習的模塊組成,即池化和向量化。

前者在現有圖節點上動態的構建一個池化核的分區,作為學習的、成對的節點 affinities函數。

後者在與每個池化核相關聯的圖像區域及其邊界上,聚合節點統計,來產生新節點的屬性向量。這樣便可以直觀的表示出真實場景中的物體屬性。

在「圖形渲染階段」,PSG相當於通過一個解碼器。

在每個時間點將圖節點屬性,以及圖節點頂層空間配準(SR),渲染成RGB、深度、段和RGB變化圖z。

舉個例子,除開棕色方框部分,就是一個PSG的三個層次以及與其紋理(QTR)和形狀(QSR)渲染圖。

實驗結果

隨後,將模型在 TDW-Primitives、TDW-Playroom 和 Gibson 測試集上訓練,並與最近基於CNN場景分割方法進行性能比較。

首先說一說這三個數據集,為什麼要選擇這三個數據集呢?

Primitives和Playroom中的圖像由ThreeDWorld (TDW)生成。其中,Primitives是在一個簡單的3D房間中渲染的原始形狀(如球體、圓錐體和立方體)的合成數據集。

Playroom是具有複雜形狀和逼真紋理的物體的合成數據集,如動物、家具和工具,渲染為具有物體運動和碰撞的圖形。

Gibson則是由史丹福大學校園內部建築物的RBG-D掃描組成。

這三個數據集都提供了用於模型監督的RGB、深度和表面法線圖。

性能的比較結果如下:

注意的是,OP3和PSGNetM沒有在Gibson或Primitives上進行訓練,因為它們有靜態測試集。

可以看到與其他模型相比,PSGNet表現出了更優的性能。

PSGNets的場景分解

此外,文中還通過「手動編輯」PSG頂層的節點,觀察其渲染效果,來說明PSG能夠正確的將場景表示為離散的對象及其屬性。

就像這樣。

從圖中刪除一個節點(DeleteA或者B),將它們移動到新的3D位置(MoveB和Occlude),改變形狀屬性(Scale/Rot),或者交換兩個節點的顏色(Swap RGB)。

結果,發現都會改變相對於原始(Full)預測的圖形渲染。

研究團隊

這篇論文的研究團隊是由史丹福大學麻省理工大學多個團隊共同合作完成的,其中就包括李飛飛團隊和來自MIT CSAIL的團隊。

第一作者名叫Daniel Bear,心理學系博士後研究員,來自史丹福大學吳蔡神經科學研究所

你可能想問,為何研究腦科學的會跟李飛飛團隊一起合作呢?

看了這位作者的研究方向你就知道了。

他一直都在致力於研究動物是如何感知世界。

從一開始哈佛大學本科期間,就主要研究動物電信號,比如來自感官刺激的信號,如何誘導神經元基因表達。

接著在哈佛大學繼續攻讀博士時,就研究化學信號,比如動物遇到的氣味分子,如何轉化為嗅覺感知。

而現在博士後研究期間,他就把目光轉向了採用計算模型來表示動物大腦中的表徵。如果可以,給他進一步的研究提供了思路。

於是,他們就這樣交織在了一起。

吳蔡神經科學研究所

也許有朋友會對這個研究所的名字有點陌生。

但這是史丹福大學裡以中國人命名的研究所,2018年10月,出於紀念蔡崇信吳明華夫婦對該所慷慨捐贈,正式命名為吳蔡神經科學研究所。

蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼識珠加入馬雲的阿里事業的那個人。

也是鮮有機會,其夫人也被關注到。

現在,他們捐贈的研究所,產出了新成果。

相關焦點

  • 李飛飛團隊最新研究,真實場景中識別物體具體屬性,連表面紋理都...
    白交 發自 凹非寺 量子位 報導 | 公眾號 QbitAI 現在,細微到物體表面的紋理,AI都可以識別。 這就是李飛飛團隊新研究。
  • 李飛飛團隊新研究,場景中識別物體屬性,連表面紋理都識別出來了
    白交 發自 凹非寺量子位 報導 | 公眾號 QbitAI現在,細微到物體表面的紋理,AI都可以識別。這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。
  • 智慧型手機的創新用法:識別物體表面材料!
    導讀最近,英國聖安德魯斯大學的研究人員發明了一項基於智慧型手機攝像頭的創新技術,它再一次革新了智慧型手機的用途,讓手機可以識別其所在物體表面是由何種材料製成的。,它再一次革新了智慧型手機的用途,讓手機可以識別其所在物體表面是由何種材料製成的。
  • 【研究】圖像識別及應用
    2 圖像識別的應用場景有哪些?什麼是圖像識別圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。根據觀測到的圖像,對其中的物體分辨其類別,做出有意義的判斷。利用現代信息處理與計算技術來模擬和完成人類的認識、理解過程。
  • 投石科技智能交互物體識別觸摸桌
    VR和AR是兩種不同的軟體平臺,底層和代碼都是不一樣的,從技術角度上去說,VR是全沉浸的三維場景,AR是與現實做交互,在實際物體上疊加信息。 物體識別互動臺是可以作為人工智慧的終端,目前是一個設備的形態做地產、家裝、教育培訓等方面的展示終端,展示三維虛擬產品,未來經過融合是可以打造成一款人工智慧的設備。通過物體識別互動臺,連接到雲端大數據,就拿家居舉例,我想要裝扮房間,我需要牆飾和沙發,以及定製什麼風格,這些都可以通過智能桌面演示,讓整個房間在智能交互桌面上展示三維虛擬場景,我可以隨意裝扮,包括顏色、裝飾等,非常科技化的場景展現。
  • 「HERB」機器人識別所處環境中物體
    據國外媒體報導,未來服務型自主機器人需要很快地識別環境中的物體,並最大限度地充分發揮它們的潛能。但是依賴於計算機視覺的機器人經常很難定義區別所處環境中的物體。目前,美國卡耐基梅隆大學的一支研究小組研製的「終身機械目標系統(LROD)」,能夠使「HERB」機器人識別所處環境中的物體。
  • 模式識別學科發展報告丨三、模式識別應用技術重要研究進展
    3)基於紋理分析的掌紋識別方法,直接將低解析度的掌紋圖像看成是紋理,豐富的紋理分析算法資源就可以充分利用。例如傅立葉變換、紋理能量、Gabor相位、能量和相位的融合算法、皺紋線的方向特徵等。這類方法大部分都是提取掌紋圖像局部區域的光照不變特徵,對噪聲幹擾的魯棒性強,分類能力和計算效率都很理想,是比較適合於掌紋識別的圖像表達方法。
  • 五項全能 虹膜如何識別獨一無二的你
    虹膜識別技術  所有對這一主題感興趣的人,可能都會在很多好萊塢大片中看到有關於虹膜識別的場景展現,比如說湯姆克魯斯的《少數派報告》,比如說施瓦辛格的《真實的謊言》以及《查理的天使》等等。  這些好萊塢大片其實展示了很多關於虹膜識別的場景,這些場景非常的酷炫,看起來非常具有未來感。
  • Facebook新研究:結合手勢識別技術,將任何物體變成AR/VR手柄
    近期,Facebook Reality Labs的科研人員公開了一項與AR/VR交互相關的新研究,研究中指出了一種可將周邊日常物品作為手柄的全新體感交互系統:Gripmarks。科研人員稱,該方案可用於AR或者VR,可增強使用者的沉浸感。
  • 一種通過分析圖像來估計物體表面觸覺特性的模型
    近年來,許多機器人研究人員一直在努力開發技術,使機器人能夠評估物體或表面的觸覺屬性,這最終可能為它們提供類似於人類觸覺的技能。羅格斯大學(Rutgers University)專攻計算機視覺和人工智慧的博士生馬修·普裡(Matthew Purri)在之前研究的基礎上,最近開發了一種基於卷積神經網絡(convolutional neural network, CNN)的模型,可以通過分析物體表面的圖像來估計物體表面的觸覺屬性。
  • 視+AR公布EasyAR兩大新能力,實現遮擋與碰撞、無紋理物體跟蹤功能
    AR能力:遮擋與碰撞、無紋理物體跟蹤,並對SLAM(即時定位與地圖構建)的穩定性和持續性進行了優化,此外宋健還演示了使用EasyAR的多用戶AR交互體驗。在當下的AR體驗中我們會發現虛擬物體永遠在真實物體的前方,不能和真實環境融為一體,產生正確的遮擋關係,使得AR的真實感不足。宋健演示了利用EasyAR實現的遮擋與碰撞功能,讓虛擬物體能「隱藏」在真實物體的背後,與真實物體產生聯繫。無紋理物體跟蹤——進一步突破EasyAR物體感知的使用範疇
  • 深度學習與圖像識別
    它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體識別、物體檢測、視頻分析的最新研究進展,並探討其發展趨勢。 1.     深度學習發展歷史的回顧現有的深度學習模型屬於神經網絡。神經網絡的歷史可追述到上世界四十年代,曾經在八九十年代流行。
  • 多模態人物識別技術及其在愛奇藝視頻場景中的應用|公開課筆記
    >在本期 CSDN 技術公開課Plus:《多模態人物識別技術及其在視頻場景中的應用》中,愛奇藝科學家路香菊博士將為大家介紹了多模態人物識別技術及在視頻場景中的應用。因為在視頻中,特別是在一些綜藝節目、或者動作片中,完全通過個人的人臉是無法滿足所有情況的,知道一個人的身份還需要其他屬性,像下圖中右邊這個圖人物,大家一看就知道他是郭德綱,但是如我我們用人臉識別絕對是沒有辦法識別出來的,因為他的人臉沒有露出來,只有一個後腦勺,所以,我們現在基於人物識別的技術還涉及人體的識別,也就是我們監控上的 RE-ID。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    例如DeepID2+的成功還在於其所具有的很多重要有趣的特徵[8]:它最上層的神經元響應是中度稀疏的,對人臉身份和各種人臉屬性具有很強的選擇性,對局部遮擋有很強的魯棒性。在以往的研究中,為了得到這些屬性,我們往往需要對模型加入各種顯示的約束。而DeepID2+通過大規模學習自動擁有了這些屬性,其背後的理論分析值得未來進一步研究。
  • 【ACM MM2020-計算所】基於多源語義嵌入的場景識別的廣義零樣本學習
    從語義描述中識別視覺類別是一種很有前途的方法,它可以擴展視覺分類器的能力,使其超越訓練數據中所表示的概念(即看到的類別)。
  • Google最新的AR化妝功能曝光,微美全息AR+AI人臉識別精確
    如果覺得這樣還是不夠準確,想要更進一步去體驗,也可以通過手機攝像頭來幫助體驗這種產品,具體就是用戶可以點擊相關產品的谷歌搜索信息面板中的「試一試」按鈕來打開這個工具,然後通過攝像頭來「雲試妝」。面部識別技術,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。利用攝像設備採集人面部圖像或者是視頻,通過提取其中的關於面部圖像特徵,與資料庫中存儲的特徵模板進行搜索匹配,當相似度超過設定閾值就會輸出匹配成功,反之輸出匹配失敗結果。人臉識別是基於數字圖像處理,數字圖像處理一直都是比較前沿的研究方向。數字圖像處理技術的後期就會發展為人工智慧 (AI)。
  • 意見挖掘中的隱式極性和屬性識別
    我們的目標是識別不包含觀點和屬性詞彙的觀點陳述句中的屬性和觀點。作為案例研究,首先從中國酒店評論中提取觀點詞彙和屬性詞彙,然後將其分為正(負)類和屬性類。 我們觀察到一個隱式意見和與其相鄰的顯性意見往往有相同的屬性和極性。我們構造了一個隱式意見語料庫,並自動標註了屬性類標籤和極性。通過使用該語料庫訓練的屬性與極性分類器被用來識別隱式意見的屬性和極性。
  • Facebook推出新AI工具,可直接識別圖片中的物體
    Facebook推出新AI工具,可直接識別圖片中的物體 近日,來自Facebook人工智慧研究實驗室(FAIR)的六名成員利用Transformer神經網絡架構創建了端到端的AI工具「DETR」,用於簡化計算機識別圖像的過程。
  • Google最新的AR化妝功能曝光,微美全息AR+AI人臉識別精確解鎖
    比如Google最新的AR功能,可以方便地讓用戶在線選擇不同品牌的化妝品進行「雲試用」,從而幫助漂亮的小姐姐們選擇購 買更適合自己的化妝品。 這項新功能已經面向美國用戶的Google應用程式中實現,它包含了許多品牌的產品可以在線體驗,比如大家熟悉的MAC化妝品和歐萊雅。
  • 3D海龜點中谷歌視覺識別AI的「完全死穴」
    但是一項麻省理工學院labsix團隊最新的研究實驗卻表明,谷歌人工智慧視覺識別AI系統(應用於AI視頻分類器)對於一隻3D列印的海龜毫無辨識能力,不管從任何角度谷歌AI都無法準確識別出這是只海龜,研究人員將之稱為「3D視覺幹擾對象」似乎點到了谷歌視覺識別AI的「完全死穴」。