15個可交互的真實房屋場景,李飛飛組開源大型室內場景模擬環境

2020-12-13 TechWeb

在這項研究中,斯坦福視覺與學習實驗室(SVL)Silvio / 李飛飛組的研究者推出了一個全新的模擬環境 iGibson,從而可以為大型真實場景中的交互任務開發機器人解決方案。iGibson 包含 15 個充分可交互、視覺上逼真、依據真實房屋構建的場景,並且可以支持 CubiCasa5K 和 3D-Front 的 8000 餘個場景。真正實現了「可交互性」。

近來,面向 AI 和機器人的模擬環境得到了大力發展。僅僅幾年前,機器人模擬環境還算是相對稀有的產物,但如今,各大學術會議(NeurIPS、CoRL、甚至 ICRA 和 IROS)幾乎所有與 AI 機器人相關的論文都會用到模擬環境。那麼,模擬環境是如何幫助到 AI 發展的呢?可以歸結為以下幾點原因:

首先,在機器人領域,機器學習正逐漸發揮越來越大的作用,從而導致了數據需求的迅猛增長 [2] [3] [4] [5]。現實世界中,機器人只能「real-time」 即時地產生數據,但海量的數據需求導致了從現實世界收集數據變得不現實。此外,機器學習需要收集的數據具備多樣性,涉及到機器人的隨機探索(random exploration)。如果在現實世界中讓機器人隨機活動,對機器人本身和周遭事物都是有挺大風險的。

其次,在模擬環境變得越來越 robust、逼真(視覺效果和物理引擎)、便捷的同時,算力的增長也導致了大部分機器都可以運行這些模擬環境。因此即便沒有足夠的資金來購置機器人,也可以通過模擬環境來從事機器人研究。模擬環境降低了機器人研究的準入門檻,讓更多的人能推進該領域的發展。

最後,隨著關於各種機器人任務(例如導航、抓握、操作等)的論文數量不斷增長,一個問題也日漸凸顯:機器人領域需要可復現的基準(repeatable benchmark)。一個成熟的學科需要能簡潔、可靠地復現實驗結果,這樣才能讓不同的方法理論得到有效地對比。與現實世界相比,在模擬環境中實現可復現的基準要容易許多。

然而,當前結合物理模擬與機器人任務的模擬環境往往局限於一小類任務,並且僅包含 clean 和小型場景。包含家庭和辦公室等大型場景的少數模擬環境要麼無能力改變場景,僅側重於導航性能,如 Habitat;要麼使用遊戲引擎或者簡化的交互模式,如 AI2Thor、VirtualHome。所以,在處理那些需要與場景進行豐富交互的任務而言,這些模擬器不支持端到端感覺運動控制迴路的開發,也就難以完成此類任務。此外,簡化的交互模式也導致很難將可學得的交互策略轉換為可執行的真實機器人指令。

基於如上這些想法,來自斯坦福視覺與學習實驗室(SVL)的研究者開發了 iGibson 以用來訓練和測試 interactive(可交互的)AI 智能體 iGibson。

那麼,iGibson 的特殊點在哪裡呢?首先我們先來區分一下這兩個概念:

Physics simulator (物理引擎): 物理引擎可以計算不同行為對現環境產生的物理影響。比如對一個物體施加一個力的後果,或者對於水流的模擬。隨著計算機圖形學的發展,現在有許多成熟的物理引擎。其中在機器人領域最為突出的是 Bullet, PyBullet, MuJoCo, Nvidia PhysX and Flex, UnrealEngine, DART, Unity, and ODE 等。

Simulation environment (模擬環境): 模擬環境是一個整體框架,包含多個元件:物理引擎、渲染引擎、模型(包括場景、物體、機器人)等。我們可以用模擬環境模擬一個給定的任務,並用它來研究其解決方案。

那麼,對一個研究人員而言,想解決什麼任務或想研究什麼課題就決定了用什麼模擬環境,所謂工欲善其事,必先利其器。對 iGibson 而言,我們想研究的是:基於視覺信號,機器人如何在大型真實場景(如一整間公寓)中解決需要與環境互動的任務。

論文連結:https://arxiv.org/pdf/2012.02924.pdf

項目地址:https://github.com/StanfordVL/iGibson/releases/tag/1.0.0

網站地址:http://svl.stanford.edu/igibson/

pip 地址:https://pypi.org/project/gibson2/

doc 地址:http://svl.stanford.edu/igibson/docs/

英文版 blog 地址:https://ai.stanford.edu/blog/igibson/

與現有模擬引擎的對比

已有的模擬引擎無法支持我們想研究的任務,即可以真實地在大型場景中進行物理互動。基於固定機械臂的模擬環境(如 meta-world, RLBench, RoboSuite, DoorGym)並不包含真實的場景,從而不支持需要在室內導航的任務。為室內導航開發的模擬環境(包括我們之前開發的 Gibson v1 和 Habitat)雖然可以解決視覺導航(visual navigation)和視覺語言導航(visual language navigation),但所包含的場景為三維重建的靜止 mesh 模型。這意味著整個場景被封存在了重建時的位置,物品無法移動,機器人也不能與場景進行交互。

除此之外,例如 Sapien, AI2Thor, ThreeDWorld (TDW)的一些模擬環境開始逐漸支持場景級的交互任務。Sapien 側重的問題是與鉸接(articulated)物體的互動(如門、櫃等)。TDW 提供高質量的聲音、形變、液體模擬(基於英偉達的 Flex 物理引擎)。但 Sapien 和 TDW 均不提供大型場景模型,從而不支持有關大型場景的任務研究。AI2Thor 雖包含了可互動的場景,但互動為腳本化的符號交互,把現實中連續的互動和變化離散化了—當物體滿足一個先覺條件,agent 可以發出一個指令,從而這個物體進入其下個狀態。例如,一個冰箱的敞開程度本應是連續值,但現在只有 「開」 和「關」兩個狀態。AI2Thor 之後出現了 RoboThor,但其只提供簡單的傳感器與一種機器人 LoCoBot 的模擬。受限於 LoCoBot 的技術限制與環境的離散化,機器人無法在模擬環境內學習並解決複雜的交互任務。

我們想要研究的任務是複雜的、long-horizon(長線)、 mobile manipulation(移動操作)任務,例如:收拾房間、找尋物品等。為了研究可以落地到現實世界的解決方案,模擬可真實交互的大型場景變得尤為重要。

iGibson 的一些功能

iGibson 最重要的功能是 interactivity(可交互性),即構建可以真實交互的大型場景。為此,我們實現了如下關鍵功能:

15 個充分可交互、視覺上逼真、依據真實房屋構建的場景。其中所有物體可真實交互,包含了材料與動力學信息;

可支持 CubiCasa5K[6]的 8000 餘個場景。

真實的傳感器信號模擬,包括:RGB (基於物理渲染引擎(Physics-based renderer)),深度圖,1 束或 16 束的雷射雷達,語義 / 實例 / 材料分割圖,光流,場景流等;

內置運動規划算法,用於規劃機器人底座的移動(在環境中導航)與機械臂的移動(抓取操縱物體)。

內置域隨機化功能,可隨機替換 visual textures (視覺圖像)、材料與動力學信息、物體實例。由此,我們可以產生出無窮無盡的隨機環境用於訓練與測試。

人機互動系統,可為機器人提供人工示範。

iGibson 功能的一些應用

我們在論文中展示了這些功能的用處,例如:iGibson 的光學雷達模擬可以幫助 agent 遷移到真實場景

iGibson 場景的充分可交互性可以幫助預訓練機器人視覺,從而加速機器人學習並完成複雜的交互任務。

用 iGibson 解決更複雜的機器人任務

上述的 iGibson 功能能幫助人們更好的開發大型場景交互任務的解決方案。我們認為,其中一個很重要的問題是 Interactive Navigation (交互導航)。在這個任務中,agents 不僅需要導航,也需要改變其環境(如開門、移開障礙物)。這種需要改變環境的導航是在現實場景中最常見的。

為了在 iGibson 模擬環境中解決這個任務,我們開發了一套分層強化學習(hierarchical reinforcement learning)算法來決定 agent 的具體動作(當需要交互時用機械臂,當需要移動時用底座,也可同時利用機械臂和底座 [8]。

此外我們也提出了一個結合了運動規划算法的解決方案:算法來指定下個交互應該在何處發生,運動規劃會基於此計算一條符合運動學且避障的軌跡 [9] 。

但我們認為這只是 iGibson 潛力的冰山一角。目前我們實驗室 SVL(Stanford Vision and Learning Lab)有許多的項目在使用 iGibson,來提出、攻克各種各樣的交互任務。

總結

我們認為模擬環境有極大的潛力來幫助研究人員解決機器人與 AI 的各種問題。iGibson 是一個完全開源的、面向大型場景交互任務的模擬環境。我們真心希望 iGibson 能為機器人與 AI 的研究做出貢獻。

註:關於 Gibson: iGibson 的名字來源於心理學、認知科學泰鬥 James J. Gibson [1904-1979]。Gibson 生前提出了許多開創性的想法,包括關於知覺的新概念:

知覺是一個生態(ecological)的過程,即本體不應從其所處的生態環境中剝離出去;

知覺是一個動態(active)的過程,即知覺需要交互和主觀能動性。

在當時,主流學說認為知覺是一個被動接受並處理的過程。Gibson 的觀點則相反,認為 agents 是在與環境的交互中主動尋求、而不是被動接受信息。Gibson 也提出了 「affordance」(承擔特質)的概念:環境給予 agent 的行動可能,例如門提供「打開」 的功能,椅子提供 「支撐」 的功能。我們同事是這樣概括 Gibson 先生的 research 的:「ask not what’s inside your head, but what your head is inside of」 (不要光注重於你腦中的世界,請著眼於你所處的世界)。

 

相關焦點

  • 15個可交互的真實房屋場景,李飛飛組開源大型室內場景的模擬環境
    機器之心轉載作者:沈博魁、夏斐、李承澍、Roberto Martín-Martín在這項研究中,斯坦福視覺與學習實驗室(SVL)Silvio / 李飛飛組的研究者推出了一個全新的模擬環境 iGibson,從而可以為大型真實場景中的交互任務開發機器人解決方案。
  • 15個可交互的真實房屋場景,Silvio/李飛飛組開源大型室內場景的...
    機器之心轉載作者:沈博魁、夏斐、李承澍、Roberto Martín-Martín在這項研究中,斯坦福視覺與學習實驗室(SVL)Silvio / 李飛飛組的研究者推出了一個全新的模擬環境 iGibson,從而可以為大型真實場景中的交互任務開發機器人解決方案
  • 阿比特室內滑雪場,室內3D滑雪模擬場景,讓遊客體驗更真實
    本以為室內滑雪場館在夏天才會「得寵」,沒想到冬天也會受到大批滑雪愛好者的追捧。這不,周末的阿比特室內滑雪場內,滑雪訓練場面熱火朝天。1500平方米的場館裡,3臺並排擺放的大型滑雪模擬機正在工作,在專業教練的指導下,全副武裝的滑雪者在白色的仿真雪毯上專心練習,初學者在平緩的坡道小心翼翼挪動滑雪板,發燒友則加大馬力在陡坡上搖擺「馳騁」,滑雪機旁的電子顯示屏
  • 李飛飛團隊最新研究,真實場景中識別物體具體屬性,連表面紋理都...
    這就是李飛飛團隊新研究。 我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。 而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。
  • 浙大畢業,李飛飛高徒朱玉可加盟UTAustin,曾獲ICRA2019最佳論文
    根據朱玉可的個人主頁,他的科研興趣是為能夠理解並與現實世界交互的通用機器人構建智能。研究將融合機器人、計算機視覺和機器學習等諸多領域,並致力於開發用於通用機器人自治的感知和控制方法和機制。在史丹福大學,他與李飛飛和 Silvio Savarese 教授(李飛飛的丈夫)一起在斯坦福視覺與學習實驗室工作。
  • 淺析「真實場景」在真人秀節目中的運用
    而對於推理真人秀節目而言,場景是指案件劇情發生的場地,也是現場MC進行搜證和推理的地點。本文中所要討論的「真實場景」,以推理真人秀節目《明星大偵探》和《我是大偵探》為例,是相對於《明星大偵探》第一、第二季節目中節目組在演播廳內模擬的探案場景而言的。
  • 李飛飛團隊新研究,場景中識別物體屬性,連表面紋理都識別出來了
    這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。而最近,李飛飛團隊的最新研究——Learning Physical Graph Representations from Visual Scenes,就一舉解決了這個問題。
  • 最新研究:真實場景中識別物體具體屬性 連表面紋理都識別出來了
    (原標題:李飛飛團隊最新研究,真實場景中識別物體具體屬性,連表面紋理都識別出來了)白交 發自 凹非寺現在,細微到物體表面的紋理,AI都可以識別。這就是李飛飛團隊新研究。我們知道,卷積神經網絡在識別視覺對象方面很出色,但還不能很好的識別出物體的具體屬性,比如表面形狀、紋理等。
  • 華為開源自研AI框架MindSpore!一次訓練,可多場景部署
    所以徐直軍去年宣布MindSpore將要開源時說,MindSpore面向的不僅僅是深度學習開發者,也面向領域專家、數學家、算法專家等等在AI中角色越來越重要的人群。同時,易用性不僅僅體現在模型開發上,在模型部署過程中也很方便——一次訓練後,可多處部署,這也是為什麼說MindSpore是一個全場景框架。
  • 國內首個抗震防災專業科教館落戶泰州 可體驗真實地震場景
    該館圍繞抗震模擬體驗、地震避險訓練、逃生演練、房屋抗震設防和減隔震新技術等內容,綜合利用實物模型、平面、立體展示、媒體播放及360°三維全息投影技術、4D立體電影、動感地面、仿真布景、虛幻捕捉、模擬遊戲等高新技術手段,讓觀眾體驗真實地震情況,了解抗震設防技術,掌握救助逃生方式。
  • 谷歌大牛聯合強推ML可交互期刊平臺Distill
    Distill的發布還獲得了包括李飛飛、Francois Chollet等許多業內知名學者的支持: 史丹福大學人工智慧實驗室主任、谷歌雲首席科學家李飛飛認為這是促進AI民主化的重要方式。她提到的AI民主化包含了四步,分別是計算民主化、數據民主化、算法民主化、人才和專業知識的民主化。
  • 地震與建築科學教育館開館 模擬場景體驗地震避險
    地震與建築科學教育館開館 模擬場景體驗地震避險   昨天,北京市地震與建築科學教育館內,市民可在地震體驗小屋裡體驗各個級別的地震,學習逃生技巧。
  • 動漫場景設計:「真實」的動漫場景,你真的了解嗎?
    動漫場景設計:「真實」的動漫場景,你真的了解嗎?大家好,小編今天來和大家聊聊動漫場景設計中的真實動漫場景,與此相反,也有虛擬場景,不過這不是今天的主題。今天我們談論真實的動漫場景,希望小編的分享能夠給大家帶來幫助。
  • 北京「地震教育館」開館 模擬場景體驗避險
    12日,北京市地震與建築科學教育館內,市民可在地震體驗小屋裡體驗各個級別的地震,學習逃生技巧。12日,位於奧林匹克公園下沉花園的地震與建築科學教育館正式向市民開放,本市職能部門負責人率先體驗模擬地震,學習避險技能。能模擬地震發生場景的「地震屋」是教育館的第一項體驗。「地震屋」中,「6級地震」剛剛過去,又一波地震襲來,屋子晃動得更加劇烈。市規委主任黃豔等人趕緊鑽進桌子下。晃動加劇,幾個人不得不坐在地上,緊緊抱住桌子腿。
  • SUSE+Rancher:真正「開放」的開源,融入業務場景的雲原生
    在接受遠程採訪中,梁勝表示,這是一個全新的起點,Rancher將從行業、技術和業務三個方向重新啟程。而在Rancher和SUSE的合併優勢當中,最為關鍵的詞必定是開源、雲原生。一拍即合,堅定開源2020年2月,Rancher完成D輪逾4000萬美元融資,融資總金額累計逾9500萬美元。隨後,SUSE與Rancher進行了收購方面的接觸。
  • 高平一煤礦模擬基地,讓人感受真實的煤礦場景,各種石頭奇形怪狀
    丹朱嶺煤礦模擬基地然後在裡面經過工作人員的帶領,左拐右拐之後,我們來到了瓦斯爆炸模擬區,進去之後,裡面的瓦斯檢測儀開始報警,隨後嘭的一聲,裡面煙霧繚繞,工作人員說這是模擬真實情況中瓦斯爆炸的場景丹朱嶺煤礦模擬基地過了進水模擬區,我們一行人來到了煤礦巷道模擬區,這裡集聚展現真實煤礦下的場景,有巷道支護方式的展現,也有煤礦工人作業的場景,還有不同時期煤礦巷道的支護方式以及工作環境的復原
  • 聚焦健康場景,AQUA越南線上交互用戶,點擊量超35W
    為此,當地時間4月10日,AQUA越南通過Facebook舉辦線上健康場景交互活動,為用戶提供在線購買、線下送裝的全流程一站式服務。截止15日,該活動視頻點擊量超過35W。特殊時期,空氣健康受到用戶關注。針對當地用戶對空氣除菌的需求,活動開始前,AQUA越南提前鎖定爆品,確定將FRESH系列空調搬入線上場景體驗中。
  • ASAM正在成為自動駕駛場景模擬仿真測試標準引領者
    而從目前的發展態勢看,中國汽車技術研究中心有限公司(以下簡稱「中汽中心」)深入研究的由ASAM(德國自動化及測量系統標準協會)制訂並推廣的OpenX標準正在引領自動駕駛場景模擬仿真測試標準的發展。為何ASAM及OpenX標準在場景仿真領域擁有如此強的吸引力?這要先從ASAM的發展說起。
  • Arm金勇斌:15年之後的場景是什麼樣子?
    在智慧型手機已經普及到今天這樣的情況下,隨著手機和我們人的生活越來越切合,所以它產生了大量數據,圍繞移動網際網路的場景產生這些數據,這些數據本身又加速了人工智慧的成型和落地。智慧型手機從出現到今天大規模普及滲透的15年裡面,由於智慧型手機的出現、應用的普及,催生了整個基礎設施的快速迭代。
  • 李飛飛等提出端到端系統Next預測未來路徑與活動
    為此,李飛飛等研究者提出了一種端到端的多任務學習系統,聯合預測行人的未來路徑及活動。實驗表明,該方法在兩個公開基準上達到了未來軌跡預測的當前最佳性能,還可以產生有意義的未來活動預測。實驗表明這些輔助任務可改善未來路徑預測的準確率。該研究是首個在流視頻中進行聯合路徑和活動預測的研究,且首次展示了此類聯合建模可以顯著改進未來路徑預測。研究者在兩個基準(ETH & UCY [22, 15] 和 ActEV/VIRAT [21, 3])上對該模型進行了驗證。