大規模3D數據集ScanNet:讓機器人理解真實世界

2021-01-12 雷鋒網

雷鋒網(公眾號:雷鋒網)按:國際計算機視覺與模式識別頂級會議CVPR 2017於 7 月 21 日—7 月 26 日在美國夏威夷召開。雷鋒網記者團也特赴夏威夷為大家帶來一手報導。在會上,許多傑出的青年學者都將介紹自己的研究和論文,雷鋒網也會對部分內容作介紹。

Angela  Dai 是史丹福大學的一名博士生,在 CVPR 上有一個 Spotlight talk,主要介紹 ScanNet,一個擁有標註過 3D 室內場景重構信息的大規模 RGB-D 數據集。

她最初的想法是,推動數據匱乏的機器學習算法的發展,特別是在 3D 數據上。3D 數據包含更多信息,比如比如大小和物體之間的距離。但 3D 數據更難獲取,為其添加標註也更難,現在 3D 數據並不多。

Angela希望用 ScanNet 建立一個可擴展數據採集框架。他們首先需要收集 3D 重建數據,然後用有效的方式對數據進行標註,以便收集更多數據。目前團隊已經收集約 1500 個 RGB-D 的視頻序列,通過 iPad 應用加深度傳感器而收集的。然後視頻會被上傳到伺服器,並被自動重建。然後,視頻會被給到亞馬遜 Mechanical Turk,將標註工作眾包出去。

數據標註是在一個給定的 3D 場景中,繪製出物體,例如,繪製一個椅子、桌子或者計算機,從而了解什麼是什麼,以及所在位置。每個圖像通常需要 5 個人來標註。所得數據可以在做物體分類這樣的訓練任務時,作為標準參考。

ScanNet 數據集可以幫助直接在 3D 數據上訓練算法。例如,如果有一個機器人在房間移動,它需要識別房間裡有什麼對象,而且不僅需要識別遠處有一個物體,還要確定這個物體是什麼。

Angela 和團隊還在現實數據上做了幾個場景理解的基準測試。因為現在已有的大型 3D 數據集都是合成的,這與現實世界收集的 3D 數據有很大不同。

通常情況下,如果你通過合成資料庫來訓練算法,當算法用於真實數據時效果不會太好,因為計算機並沒有學習到現實世界的數據特徵。現實中有很多噪音,很難觀察到一個對象的全部特徵。基準測試表明,計算機在真實數據中的訓練效果,比在合成數據中的訓練效果要好得多。真實數據以後會有更大的需求。

Angela 以前一直在研究 3D 重建,開發實時的 3D 重建系統,但她後來發現很難運用於實踐中,因為缺少對於場景的語義理解。在一個場景中,人們會希望知道物體在哪個位置,到底是什麼物體,這樣還可以有虛擬助手或聊天機器人一樣的東西,幫助做場景的交互。這也是她開發新的數據集的原因。

另外,除了眾包標註任務,他們也希望能眾包場景重建任務。除此之外,在語義理解方面還要做很多工作。但他們現在的任務是,解決物體識別。3D 場景數據未來還會有更多有趣的應用。

Angela 還很感興趣於將真實世界的數據與合成的 CAD 模型相結合,相關聯起來。這麼做的一個好處是,合成數據比較容易獲得而且易於操作,如果合成數據與真實數據建立了聯繫,那就可以讓在模型上訓練的系統,更容易遷移到真實數據上。

當然,更重要的任務是給 3D 數據賦予語義解釋,這有利於使機器人更好地理解世界。

關於ScanNet的論文,在這裡下載。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Facebook公布最新AI成果:如何理解真實世界3D對象
    為了解釋周圍的世界,AI系統必須理解三維視覺場景。這種需求不僅只局限於機器人技術,同時包括導航,甚至是增強現實應用。即便是2D照片與視頻,所描繪的場景和對象本身都屬於三維。真正智能的內容理解系統必須能夠視頻中識別出杯子旋轉時的把手幾何形狀,或者識別出對象是位於照片的前景還是背景。
  • 2017百度世界:開放BROAD數據集 促進AI創新
    11月16日,在2017百度世界大會AI技術與平臺論壇上,百度3D視覺首席科學家楊睿剛宣布,推出百度AI公開數據集計劃——BROAD Baidu Research Open-Access Dataset,並宣布首批室外場景理解、視頻精彩片段、閱讀理解3個數據集即日起對公眾開放。
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • 酷家樂室內結構化數據集Structured3D入選ECCV 2020
    近日,歐洲計算機視覺會議ECCV 2020公布了論文錄取結果,由酷家樂KooLab團隊投稿的室內結構化數據集Structured3D成功入選。ECCV與ICCV、CVPR共稱為計算機視覺領域三大國際頂級學術會議,今年ECCV共收到5025篇有效投稿,是ECCV 2018的兩倍多,而接受率僅為27%。
  • 2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想
    賽後,獲獎選手紛紛表示,百度向大眾開放大規模中文閱讀理解數據集意義深遠。  來自北京大學Dlib實驗室的尹伊淳正是在閱讀了百度DuReader數據集的論文後,才選擇參與到本次百度機器閱讀理解技術競賽中的。這批公開的、大規模、高質量的真實數據集大大激發了他對於這項工作的興趣,使得他在最終角逐中獲得了總排名第二的好成績。  本次機器閱讀理解競賽中百度提供給參賽者的,正是面向真實應用場景的大規模閱讀理解數據集。
  • IROS 2019 機器人挑戰賽冠軍方案:商業機器人如何應對真實環境中的...
    為了儘可能評估機器人在現實世界(Real-World)中同時定位和建圖(SLAM)的能力。這五個場景都包含了不同時間段的多段數據。這些數據幾乎涵蓋了機器人在現實中運行的所面臨的所有挑戰:1.視角變化(Viewpoint Changes)
  • 論文回顧|[ICDAR 2019] DeepSignDB:大規模聯機籤名數據集
    The DeepSignDB On-Line Handwritten Signature Biometric Database」所貢獻的一個大規模聯機籤名數據集。長期以來,在聯機籤名認證任務中,存在籤名數據難以獲取的難題,這對深度學習方法的應用帶來了很大的挑戰。這篇文章最大的貢獻在於,作者整合了以往多個非公開可獲取的聯機籤名數據集(圖1),作為單一數據集DeepSignDB向學界免費公開。
  • 沃特世與Nonlinear Dynamics聯合開發新一代處理大規模複雜數據集...
    沃特世公司(WAT:NYSE)和Nonlinear Dynamics有限公司已籤署協議,雙方將聯合開發解決方案,處理蛋白組學、代謝組學實驗得到的大規模複雜數據集。     ·包含沃特世ACQUITY® UPLC I-Class和SYNAPT G2-S HDMS的代謝組學解決方案,用於大規模樣本的常規篩選。    沃特世在2007年推出SYNAPT® HDMS™高清質譜,首次將離子淌度分離技術引入質譜分析。
  • 谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人
    雷鋒網 AI 科技評論按:相比於傳統方式中需要工程人員手動設計機器人每一個動作的精確參數,AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學習方式:深度強化學習可以讓機器人從經驗、從與世界的互動中直接學習行為,因為它可以藉助通用化的神經網絡表示,處理複雜的傳感器輸入。然而,許多現有的強化學習算法都需要幾天、幾周甚至更久時長的真實世界數據才能收斂到比較理想的動作。
  • 繼 Google、IBM 之後,Facebook公布行為識別數據集!人工智慧的下一個關鍵將是理解視頻,並讀懂你的行為
    像素的世界已經超過了圖片 「像素(pixel)的世界已經超過了圖片(picture),然而多年來視頻仍是機器學習研究人員面臨的挑戰」,「視頻就像是計算機視覺裡的暗數據,我們正在開始關注數字世界的暗數據問題,」Google 人工智慧與機器學習首席科學家李飛飛在 2017 年 Google
  • ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集
    論文:VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research論文連結:https://arxiv.org/pdf/1904.03493.pdf這篇論文介紹了一個新型大規模多語視頻描述數據集
  • 突破AI和機器理解的界限,牛津博士論文學習重建和分割3D物體
    牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。
  • 中文語言理解基準測評(chineseGLUE)來了,公開徵集數據集進行中
    Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard中文語言理解測評基準,包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜。
  • 百度發起機器閱讀理解競賽,提供中文數據集,獲勝團隊獎10萬
    允中 發自 SSJQ 量子位 報導 | 公眾號 QbitAI機器閱讀理解(中文版)技術競賽,現在可以報名了。3月1日,由百度、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。
  • 看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感
    不過,雖然觸覺讓我們可以直接感受物理世界,但眼睛卻可以幫助我們立即理解這些觸覺信號的全貌,讓我們快速獲得關於物體的認知。但對我們來說很簡單的一件事,對機器人來說卻並不容易。帶有攝像頭的機器人可以直接看世界,帶有觸覺系統的機器人可以直接感知。但具有觸覺或視覺的機器人無法互換這些信號。
  • DeepMind推出更難的機器閱讀理解數據集,要讓AI讀懂整本書
    夏乙 發自 凹非寺 量子位 出品 | 公眾號 QbitAI在機器閱讀理解界的ImageNet——SQuAD挑戰賽中,排在前幾名的算法,都能拿到八十多分的成績。可是,為什麼我們依然覺得機器不太聽/看得懂人話?科學研究界有句老話說得好,世界上最遠的距離,就是從實驗環境到工程實際。
  • 離開實驗室,機器人進入真實世界後表現如何?
    TNO是荷蘭國家研究協會,Joris和他的團隊希望將機器人和人工智慧結合起來。約兩年前他們開始與Grakn合作,當時的機器人資料庫還無法準確反映真實世界。對於需要在真實世界環境中執行任務和做出決策的自主系統來說,機器人資料庫非常關鍵。機器人項目通常在精心策劃的環境中運行,因此TNO研究人員想要儘可能設置接近真實世界的場景。
  • 數據理解:我的數據集裡面有什麼
    定量數據本質上是數值,應該是衡量某樣東西的數量;定性數據本質上是類別,應該是描述某樣東西的性質數據集的初探df = pd.read_csv在計數時,數據的類型為str,在比較和排序時,數據類型應為np.int32,對於中位數和百分位數,可以繪製莖葉圖和箱線圖df[].plot(kind='box')3.3 定距等級(interval level):定類和定序數據即使內容是數值,也不代表真實的數量。
  • 大規模多相機通用物品場景數據集MessyTable
    作者 | 商湯、南洋理工大學編輯 | 陳大鑫眾所周知巧婦難為無米之炊,在如今深度學習大行其道的時代,一個數量大、質量好的數據集猶如一塊璞玉,就等著算法去雕刻。今天介紹的就是來自商湯與新加坡南洋理工大學聯合製作的大規模多相機通用物品場景數據集MessyTable,MessyTable包括5500+ 手工設計的場景,共計5萬多張圖片和120萬個密集標註的檢測框,其對應論文已被ECCV 2020接收。
  • 深思考楊志明:多模態語義理解能推動人工智慧大規模落地|2019 WISE...
    我覺得非結構化信息的理解,我們叫暗數據理解,也是人工智慧的技術的剛需和至高點。我們深思考人工智慧是通過多模態數據的機器閱讀理解。原來像一段視頻,一段文本,都是人去理解的。我介紹一下什麼是機器閱讀理解?比如我們看一本書,原來我們人去看一本書的時候,看完這個書後,我再去詢問書中的知識,他能夠根據理解反饋回來準確的答案。