與上一節中的 2D 情況一樣,將給定的塊體結構限制為單層。在最後的測試中,作者報告了 6 個場景的結果,如表 5 所示。
將放在給定結構頂部的塊限制為兩個規範配置{vertical,horizongtal},如圖 13b 所示,並假設在放置之前是被機器人握在手中的。
將塊約束為放置在給定結構的最頂層水平面(堆疊面)上。
校準結構深度(與機器人的垂直距離),這樣只需要確定相對於堆疊的塔表面的水平和垂直位移。
為了應對真實世界物體圖片與合成數據的不同,作者在合成數據的二值前景模板上訓練視覺穩定性模型,並在測試時對模板進行處理。這樣,就大大降低了真實世界中彩色圖片的影響。在測試時,首先為空場景捕獲背景圖像。然後,對於表 5 中所示的每個測試場景捕獲圖像並通過背景減法將其轉換為前景遮罩。檢測最上面的水平邊界作為堆疊表面用於生成候選放置:將該表面均勻劃分為 9 個水平候選和 5 個垂直候選,因此總共有 84 個候選。整個過程如圖 14 所示。然後,將這些候選對象放入視覺穩定性模型中進行穩定性預測。每個生成的候選對象的實際穩定性都手動測試並記錄為 ground-truth。最終的識別結果如表 5 所示。由該表中實驗結果可知,使用合成數據訓練的模型能夠在現實世界中以 78.6% 的總體準確率預測不同的候選對象。表 5. 真實世界測試的結果。「Pred.」是預測精度。「Mani.」是操縱成功率,包括每個場景的成功放置 / 所有可能的穩定放置計數。「H/V」指水平 / 垂直放置1.3 Learning to Poke by Poking: Experiential Learning of Intuitive Physics [4]https://arxiv.org/abs/1606.07419人類具備對工具進行泛化的能力:我們可以毫不費力地使用從未見過的物體。例如,如果沒有錘子,人們可能會用一塊石頭或螺絲刀的背面來敲打釘子。是什麼使人類能夠輕鬆地完成這些任務呢?一種可能性是,人類擁有一個內在的物理模型(直觀物理),使他們能夠對物體的物理特性進行推理,並預測其在外力作用下的動態。這樣的模型可以用來把一個給定的任務轉換成一個搜索問題,其方式類似於在西洋棋或 tic-tac-toe 遊戲中通過搜索遊戲樹來規劃移動路徑。由於搜索算法與任務語義無關,因此可以使用相同的機制來確定不同任務(可能是新任務)的解決方案。小嬰兒在成長的過程中總是會以一種看似隨機的方式玩東西,他們並沒有明確的「目標」。關於嬰兒這種行為的一種假設是嬰兒將這種經驗提煉成了直觀物理模型,預測他們的行為如何影響物體的運動。一旦學會了,他們就可以利用這些模型規划行動,以應對新的出現在生活中的物體。受這一假設的啟發,本文研究了機器人是否也可以利用自己的經驗來學習一個直觀的有效物理模型。在圖 15 所示的任務場景中,Baxter 機器人通過隨機戳(Poke)放在它前面桌上的物體來與它們互動。機器人在 Poke 之前和之後記錄視覺狀態,以便學習其動作與由物體運動引起的視覺狀態變化之間的映射。到目前為止,本文的機器人已經與物體進行了 400 多個小時的互動,並在這個過程中收集了超過 10 萬個不同物體上的 Poke。機器人配備了 Kinect 攝像頭和一個夾子,用來戳放在它前面桌子上的物體。在給定的時間內,機器人從桌上 16 個不同的目標對象中選擇 1-3 個對象。機器人的坐標係為:X 軸和 Y 軸分別代表水平軸和垂直軸,Z 軸則指向遠離機器人的方向。機器人通過用手指沿著 XZ 平面從桌子上移動一個固定的高度來戳物體。為了收集交互數據的樣本,機器人首先在其視野中選擇一個隨機的目標點來戳。隨機戳的一個問題是,大多數戳是在自由空間中執行的,這嚴重減慢了有效交互數據的收集過程。為了快速收集數據,作者使用 Kinect 深度相機的點雲只選擇位於除桌子以外的任何對象上的點。點雲信息僅在數據採集階段使用,在測試時,本文的系統只需要使用 RGB 圖像數據。在對象中隨機確定一個點 poke(p),機器人隨機採樣 poke 的方向 (θ) 和長度(l)。這個機器人可以無需任何人工幹預的全天候自主運行。有時當物體被戳到時,它們會按預期移動,但有時由於機器人手指和物體之間的非線性交互作用,它們會以意外的方式移動,如圖 16 所示。所以模型必須能夠處理這種非線性交互。項目早期的少量數據是在一張背景為綠色的桌子上收集的,但實際上絕大部分數據是在一個有牆的木製區域中收集的,主要目的是防止物體墜落。本文的所有結果都來自於從木製區域收集的數據。圖 15. 機器人通過隨機戳來與物體互動。機器人戳物體並記錄戳前(左圖)和戳後(右圖)的視覺狀態。利用前圖像、後圖像和應用 poke 的三元組訓練神經網絡(中間圖),學習動作與視覺狀態變化之間的映射關係圖 16. 這些圖像描繪了機器人將瓶子從指示虛線移開的過程。在戳的中間,物體會翻轉,最後朝著錯誤的方向移動。這種情況很常見,因為現實世界中的對象具有複雜的幾何和材質特性機器人應該從經驗中學習什麼樣的模型?一種可能性是建立一個模型,根據當前的視覺狀態和施加的力來預測下一個視覺狀態(即正向動力學模型)。本文提出了一個聯合訓練正向和反向動力學模型。正向模型根據當前狀態和動作預測下一個狀態,反向模型根據初始狀態和目標狀態預測動作。在聯合訓練中,反向模型目標提供監督,將圖像像素轉化為抽象的特徵空間,然後由正向模型預測。反向模型減輕了正向模型在像素空間中進行預測的需要,而正向模型反過來又使反向模型的特徵空間正則化。使用公式(1)和公式(2)分別定義正向、反向模型:其中,x_t, u_t 分別表示應用於時間步長 t 的世界狀態和動作,^x_t+1, ^u_t+1 是預測的狀態和動作,W_fwd 和 W_inv 是用於構建正向和反向模型的函數 F 和 G 的參數。給定初始狀態和目標狀態,反向模型給出了映射到直接能夠實現目標狀態所需的操作(如果可行的話)。然而,多種可能的行為可能將當前的世界狀態從一種視覺狀態轉換為另一種視覺狀態。例如,如果 agent 移動或 agent 使用其手臂移動對象,則對象可能出現在機器人視野的某個部分。行動空間中的這種多模態使得學習變得非常困難。另一方面,給定 x_t 和 u_t,存在下一狀態 x_t+1,該狀態對於動力學噪聲是唯一的。這表明正向模型可能更容易學習。然而,在圖像空間學習正向模型是很困難的,因為預測未來幀中每個像素的值是非常困難的。在大多數場景中,我們對預測具體的像素不感興趣,而是希望能夠預測更抽象事件的發生,例如對象運動、對象姿勢的變化等。使用正向模型的第二個問題是,推斷最優行為不可避免地會導致找到受局部最優約束的非凸問題的解。而反向模型就沒有這個缺點,因為它直接輸出所需的動作。這些分析表明,反向模型和正向模型具有互補的優勢,因此有必要研究反向模型和正向動力學的聯合模型。本文使用的學習正向和反向動力學的聯合深度神經網絡如圖 17 所示。訓練樣本包括一組前圖像 (I_t)、後圖像(I_t+1) 和機器人動作 (u_t)。在隨後的時間步長(I_t,I_t+1) 內將樣本輸入五個卷積層以得到潛在特徵表示 (x_t, x_t+1),這五個卷積層與 AlexNet 的前五層結構相同。為了建立反向模型,串聯 x_t,x_t+1 並通過全連接層來有條件地分別預測戳的位置(p_t)、角度(θ_t) 和長度 (l_t)。為了模擬多模態戳分布,將戳的位置、角度和長度分別離散化為 20x 20 的網格、36 個 bins 和 11 個 bins。戳長度的第 11 個 bin 用於表示沒有戳(no poke)。為了建立正向模型,將正向圖像的特徵表示(x_t) 和動作(u_t,未離散化的實值向量)傳遞到一個全連接層序列中,該序列預測下一幅圖像 (x_t+1) 的特徵表示。優化下式中的損失以完成訓練:其中,L_inv 為真實和預測的戳位置、角度和長度的交叉熵損失和。L_fwd 為預測和 ground-truth 之間的 L1 損失。W 為神經網絡的權重。測試該模型的一種方法是向機器人提供初始圖像和目標圖像,並要求它進行戳的動作將物體移動到目標圖像顯示的位置中。當初始圖像和目標圖像對的視覺統計與訓練集中的前後圖像相似時,機器人就成功地完成了動作。如果機器人能夠將物體移動到目標位置,而目標位置與物體在一次戳之前和之後的位置相比相距更遠,作者認為這表明該模型可能了解了物體在被戳時如何移動的基本物理原理。如果機器人能夠在多個幹擾物存在的情況下推動具有幾何形狀和紋理複雜的物體,則說明模型的能力更強。如果初始圖像和目標圖像中的對象之間的距離超過了單個戳的動作可以推的最大距離,則需要模型輸出一系列戳。作者使用貪婪計劃方法(見圖 18(a))來輸出戳序列。首先,描述初始狀態和目標狀態的圖像通過該模型來預測戳,由機器人執行。然後,將描述當前世界狀態的圖像(即當前圖像)和目標圖像再次輸入到模型中以輸出戳。重複此過程,當機器人預測無戳或達到 10 個戳時結束。在所有的實驗中,初始圖像和目標圖像只有一個物體的位置是不同的。將機器人停止後最終圖像中物體的位置和姿態與目標圖像比較後進行定量評價。通過計算兩張圖像中物體位置之間的歐氏距離來得到位置誤差。在初始狀態和目標狀態下,為了考慮不同的目標距離,作者使用相對位置誤差代替絕對位置誤差。姿態誤差則定義為最終圖像和目標圖像中物體長軸之間的角度(以度為單位)(見圖 18(c))。圖 18. (a) 貪婪規划算子用於輸出一系列戳,以將對象從初始配置置換到目標圖像。(b) blob 模型首先檢測對象在當前圖像和目標圖像中的位置。根據物體的位置,計算出戳的位置和角度,然後由機器人執行。利用得到的下一幀圖像和目標圖像來計算再下一幀圖像,并迭代地重複這個過程。(c) 模型將物體戳到正確姿勢的誤差度量為最終圖像和目標圖像中物體長軸之間的夾角本文作者選擇 blob 模型作為基線對比模型(圖 18(b))。該模型首先利用基於模板的目標檢測器估計目標在當前圖像和目標圖像中的位置。然後,它使用這兩者之間的向量差來計算機器人執行的戳的位置、角度和長度。以類似於對學習模型進行貪婪規劃的方式,迭代地重複此過程,直到對象通過預定義的閾值更接近目標圖像中的所需位置或達到最大戳數。本文實驗中機器人的任務是將初始圖像中的物體移動到目標圖像描述的形狀中(見圖 19)。圖 19 中的三行顯示了當要求機器人移動訓練集中的對象(Nutella 瓶)、幾何結構與訓練集中的對象不同的對象(紅杯子)以及當任務是繞障礙物移動對象時的性能。這些例子能夠表徵機器人的性能,可以看出,機器人能夠成功地將訓練集中存在的對象以及複雜的新的幾何結構和紋理的對象戳入目標位置,這些目標位置明顯比訓練集中使用的一對前、後圖像更遠。更多的例子可以在項目網站上找到(http://ashvin.me/pokebot-website/)。圖 19 中的第 2 行還顯示,在當前圖像和目標圖像中佔據相同位置的幹預物體的存在並不會影響機器人的性能。這些結果表明,本文模型允許機器人執行超出訓練集的泛化任務(即小距離戳物體)。圖 19 中的第 3 行給出了一個機器人無法將物體推過障礙物(黃色物體)的例子。機器人貪婪地行動,最後的結果是一起推障礙物和物體。貪婪規劃的另一個副作用是使得物體在初始位置和目標位置之間的運動軌跡呈現鋸齒形而不是直線軌跡。圖 19. 機器人能夠成功地將訓練集中的物體(第 1 行;Nutella 瓶)和未知幾何體物體(第 2 行;紅杯)移動到目標位置,這些目標位置比訓練集中使用的一對前、後圖像要遠得多。機器人無法推動物體繞過障礙物(第 3 行;貪婪規劃限制)機器人究竟是怎麼做到的呢?作者分析,一種可能是機器人忽略了物體的幾何結構,只推斷出物體在初始圖像和目標圖像中的位置,並使用物體位置之間的差向量來推斷要執行的動作。當然,這並不能證明模型已經學會目標檢測了。不過作者認為其所學習的特徵空間的最近鄰可視化結果能夠表明它對於目標位置是敏感的。不同的物體有不同的幾何形狀,所以為了能夠以相同的方式移動它們,就需要在不同的地方戳它們。例如,對於 Nutella 瓶子來說,不需要旋轉瓶子,只需要沿著朝向其質心的方向在側面戳瓶子。對於錘子來說,移動它的方法則是在錘頭與手柄接觸的地方戳。與將對象推到所需位置相比,將對象推到所需姿勢更困難,需要更詳細地了解對象幾何特徵。為了測試學習到的模型是否能夠表徵與對象幾何特徵有關的信息,作者將其性能與忽略對象幾何特徵的基線 Blob 模型(見圖 18(b))進行了比較。在這個對比實驗中,機器人的任務是只戳一次就把物體推到附近的目標。圖 20(a)中的結果表明,反向模型和聯合模型都優於 blob 模型。這表明除了能夠表徵對象位置的信息外,本文的模型還能夠表徵對象幾何特徵相關的信息。在二維仿真環境中,作者還檢驗了正向模型是否正則化了反向模型學習到的特徵空間。在二維仿真環境中,機器人使用較小的力量戳一個紅色矩形物體來與之交互。允許矩形自由平移和旋轉(圖 20(c))。圖 20(c)顯示,當可用的訓練數據較少(10K、20K 實例)時,聯合模型的性能優於反向模型,並且能夠以較少的步驟(即較少的動作)接近目標狀態。這表明,正向模型確實對反向模型的特徵空間進行了正則化處理,從而使其具有更好地推廣和泛化性能。然而,當訓練實例的數量增加到 100K 時,兩個模型性能相同。作者認為這是由於使用更多數據的訓練通常直接就能夠導致較好的泛化性能,此時反向模型不再依賴於正向模型的正則化處理。圖 20. (a) 反向模型和聯合模型在將物體推向所需姿勢時比 blob 模型更精確;(b) 當機器人在訓練集使用的前後圖像中按明顯大於物體距離的距離推動物體時,聯合模型的性能優於純反向模型;(c)當訓練樣本數較少(10K、20K)時,聯合模型的性能優於反向模型,且與較大的數據量(100K)相當1.4 Learning Intuitive Physics with Multimodal Generative Models [5]https://arxiv.org/abs/2101.04454人類如何通過對物體初始狀態的視覺和觸覺測量來預測其未來的運動?如果一個以前從來沒見過的物體落入手中,我們可以推斷出這個物體的類別,猜測它的一些物理性質,之後判斷它是否會安全地停在我們的手掌中,或者我們是否需要調整對這個物體的抓握來保持與其接觸。視覺(Vision)允許人類快速索引來捕捉物體的整體特性,而接觸點的觸覺信號可以使人對平衡、接觸力和滑動進行直接的物理推理。這些信號的組合使得人類能夠預測對象的運動,即通過觸覺和視覺感知物體的初始狀態,預測物體被動物理動力學(Passive Physical Dynamics)的最終穩定結果。前期研究結果表明,由於相互作用表面的未知摩擦、未知幾何特徵以及不確定的壓力分布等因素,預測運動物體的運動軌跡非常困難。本文重點研究學習一個預測器,訓練它捕捉運動軌跡中最有用和最穩定的元素。如圖 21 所示,當預測對瓶子施加推力的結果時,預測器應該能夠考慮這個動作最主要的後果:瓶子會翻倒還是會向前移動?為了研究這個問題,作者提出了一種新的人工感知方法,它由硬體和軟體兩部分組成,可以測量和預測物體落在物體表面的最終靜止形態。作者設計了一種能夠同時捕捉視覺圖像和提供觸覺測量的新型傳感器 ---- 穿透皮膚(See-Through-your-Skin,STS)傳感器,同時使用一個多模態感知系統的啟發多模態變分自動編碼器(Multimodal variational autoencoder,MVAE)解釋 STS 的數據。圖 21. 預測物理相互作用的結果。給定瓶子上的外部擾動,我們如何預測瓶子是否會傾倒或平移?首先介紹 STS 傳感器,它能夠渲染接觸幾何體和外部世界的雙流高解析度圖像。如圖 22 所示,STS 的關鍵特徵為:多模態感知(Multimodal Perception)。通過調節 STS 傳感器的內部照明條件,可以控制傳感器反射塗料塗層的透明度,從而允許傳感器提供有關接觸物體的視覺和觸覺反饋。
高解析度傳感(High-Resolution Sensing)。視覺和觸覺信號都以 1640 x 1232 的高解析度圖像給出。使用 Odeseven 的 Raspberry Pi 可變焦距相機模塊,提供 160 度的視野。這會產生兩個具有相同視角、參考系和解析度的感知信號。
圖 22. STS 傳感器的可視化多模態輸出。使用受控的內部照明,傳感器的表面可以變得透明,如左上角所示,允許相機觀察外部世界。在左下圖中,傳感器通過保持傳感器內部相對於外部明亮來提供觸覺特徵STS 視覺觸覺傳感器由柔順薄膜、內部照明源、反射漆層和攝像頭組成。當物體被壓在傳感器上時,傳感器內的攝像機通過 「皮膚」 捕捉視圖以及柔順薄膜的變形,並產生編碼觸覺信息的圖像,例如接觸幾何結構、作用力和粘滑行為。作者使用了一種透明可控的薄膜,允許傳感器提供物理交互的觸覺信息和傳感器外部世界的視覺信息。作者在 PyBullet 環境中為 STS 傳感器開發了一個可視模擬器,該模擬器根據接觸力和幾何形狀重建高解析度觸覺特徵。利用模擬器快速生成動態場景中對象交互的大型可視化數據集,以驗證感知模型的性能。模擬器通過陰影方程映射碰撞物體的幾何信息:其中,I(x,y)表示圖像強度,z=f(x,y)為傳感器表面的高度圖,R 是模擬環境光照和表面反射率的反射函數。使用 Phong 反射模型實現反射函數 R,該模型將每個通道的照明分為環境光、漫反射光和鏡面反射光三個主要組件:其中,^L_m 是從曲面點到光源 m 的方向向量,^N 是曲面法線,^R_m 為反射向量,本文提出了一個生成性的多模態感知系統,它將視覺、觸覺和 3D 姿勢(如果可用)反饋集成在一個統一的框架內。作者利用多模態變分自動編碼器(Multimodal Variational Autoencoders,MVAE)來學習一個能夠編碼所有模態的共享潛在表示。作者進一步證明,這個嵌入空間可以編碼有關物體的關鍵信息,如形狀、顏色和相互作用力,這是對直觀物理進行推斷所必需的。動態交互的預測結果可以表示為一個自監督問題(Self-supervision problem),在給定框架下生成目標視覺和觸覺圖像。本文目標是學習一個生成器,它將當前觀測值映射到靜止狀態的預測配置。作者認為,MVAE 結構可以用來預測多模態運動軌跡中最穩定和最有用的元素。【變分自動編碼器(Variational Autoencoders)】生成潛在變量模型學習數據的聯合分布和不可觀測的表示:其中,p_θ(z)和 p_θ(x|z)分別表示先驗分布和條件分布。目標是使邊際可能性最大化:優化的成本目標為證據下限(Evidence lower bound,ELBO):其中,第一項表示重建損失,重建損失測量給定潛在變量的重建數據可能性的期望。第二項為近似後驗值和真實後驗值之間的 Kullback-Leibler 散度,在式中作用為正則化項。【多模變分自動編碼器(Multimodal Variational Autoencoders)】VAE 使用推理網絡將觀測值映射到潛在空間,然後使用解碼器將潛在變量映射回觀測空間。雖然這種方法在恆定的觀測空間中是可行的,但在多模態情況下卻比較困難,這是由於觀測空間的尺寸隨著模態的可用性而變化。例如,觸覺信息只有在與傳感器接觸時才可用。對於這種數據可用性上具有可變性的多模態問題,需要為每個模態子集訓練一個推理網絡 q(z|X),共產生 2^N 個組合。為了應對這個組合爆炸的問題,本文引入專家乘積模型(Product of Experts,PoE)通過計算每個模態的個體後驗概率的乘積來學習不同模態的近似聯合後驗概率。其中,x_i 表示與模態 i 相關的觀測值,N 為模態總數,z 為共享的潛在空間。假設模態之間存在條件獨立性,將聯合後驗分布改寫為:使用模態 i 的推理網絡替換上式中的 p(z|x_i),可得:即 PoE。MVAE 的一個重要優點是,與其他多模態生成模型不同,它可以有效地擴展到多種模態,因為它只需要訓練 N 個推理模型,而不是 2^N 個多模態推理網絡。作者在網絡結構中引入了一個時滯元素(Time-lag element)以訓練變分自動編碼器,其中,將解碼器的輸出設置為預測未來的幀。引入 ELBO 損失:圖 23 給出了動力學模型學習框架,其中視覺、觸覺和 3D 姿勢融合在一起,通過 PoE(product of expert)連接的三個單峰編碼器 - 解碼器學習共享的嵌入空間。為了訓練模型損耗,作者通過列舉模態 M={visual, tactile, pose}的子集來計算 ELBO 損耗:其中,P(M)為模態集 M 的功率集。在動力學模型有輸入的情況下(例如,第三個模擬場景中的力擾動),將輸入條件 c 對 ELBO 損失的條件依賴性概括為:圖 23. 多模態動力學建模。在一個統一的多模態變分自動編碼器框架內集成視覺、觸覺和 3D 姿態反饋的生成感知系統。網絡獲取當前對象配置並預測其靜止配置作者使用前面描述的 PyBullet 模擬器收集模擬數據集,真實數據集則是使用 STS 傳感器的原型收集的。本文考慮三個模擬的物理場景,如圖 24 所示,涉及從 3D ShapeNet 數據集提取的八個對象類別(bottle, camera, webcam, computer mouse, scissors, fork, spoon, watch)。具體的任務如下:平面上自由下落的物體。這個實驗在 STS 傳感器上釋放具有隨機初始姿態的物體,在到達靜止狀態之前,它們與傳感器發生多次碰撞。作者收集了總共 1700 個軌跡,包括 100k 圖像。
從斜面上滑下來的物體。這個實驗將具有隨機初始姿勢的物體放置在一個傾斜的表面上,在那裡它們要麼由於摩擦而粘住不動,要麼向下滑動。向下滑動時,對象可能會滾動,此時最終狀態的配置與初始狀態差別非常大。作者共收集 2400 個軌跡,包括 145k 圖像。
穩定的靜止姿勢中受到幹擾的物體。在這種情況下,考慮一個物體最初穩定地停留在傳感器上,它被傳感器隨機採樣的快速橫向加速度從平衡點擾動。這個實驗只考慮瓶子,因為它們具有拉長的形狀和不穩定的形狀,在不同方向或受力大小的情況下會出現不同的實驗結果。由於結果的多樣性,這項任務比其他兩項任務要複雜得多。作者總共收集了 2500 條軌跡,包括 150k 圖像。
圖 24. 三個動態模擬場景的模擬示例片段。最上面的行顯示 3D 對象視圖,而中間和底部行分別顯示 STS 傳感器捕獲的視覺和觸覺測量結果真實數據集是使用 STS 傳感器手動收集的一個小的數據集。作者使用一個小型電子設備(GoPro)從 500 個軌跡中收集了 2000 張圖像。之所以選擇這個物體,是因為它的體積小(小到可以裝在 15cm x 15cm 的傳感器原型上)和質量大(重到可以在傳感器上留下有意義的觸覺特徵)。每個軌跡都包括通過快速打開 / 關閉傳感器內部燈光獲得的初始和最終視覺、觸覺圖像。如圖 25 所示,在與傳感器接觸的同時,將對象從不穩定的初始位置釋放,一旦對象靜止則確定事件結束。圖 25. 真實世界的數據收集方法,從不穩定的初始狀態釋放 GoPro 相機圖 26 和 27 給出了模擬數據集的多模態預測。作者示出了 MVAE 預測物體靜止形態的原始視覺和觸覺測量值的能力,其預測值與 ground-truth 標籤非常吻合。圖 26(a)顯示 MVAE 模型處理缺失模態的能力,例如觸覺信息在輸入中缺失不可用。該模型學習準確預測物體從傳感器表面墜落的情況,產生了空輸出圖像。圖 27 中的結果表明,該模型通過正確預測物體運動的結果(即傾倒或墜落),成功地整合了有關作用力的信息。圖 26. 模擬數據集的三個場景中多模態預測。除了 STS 傳感器的視覺和觸覺測量之外,該模型還預測了最終的靜止狀態。最下面一行比較預測的姿態(實線坐標)和 ground-truth(虛線坐標)圖 27. MVAE 與單模 VAE 視覺和觸覺預測的定性比較圖 28 展示了該模型通過視覺和觸覺圖像預測靜止物體形態的能力。MVAE 與單模 VAE 的視覺預測定性結果表明,MVAE 模型利用觸覺模式能夠對靜止形態進行更準確的推理。圖 28. 真實數據集中 MVAE 與單模 VAE 視覺預測的定性比較這篇文章關注了深度學習如何學習直觀物理學的問題。我們希望機器人也能夠像人類一樣根據所處的物理環境進行規劃並行動。深度學習在整個過程中賦予了機器人 「學習」 的能力,因此,與經典的啟發式方法、概率模擬模型相比,深度學習方法的 「學習」 能力使其能夠學習並學會推斷出物理屬性。本文介紹了四個適用於不同場景的深度學習模型,包括 N^3 牛頓推理模型、VGG、聯合訓練正向和反向動力學模型、多模態變分自編碼神經網絡。這些模型在論文給出的實驗中都表現不錯,不過真實世界中的物理環境、物體運動方式、接觸方式等都是非常複雜的,能夠讓深度學習方法真正獲得類似於人類的應對物理環境的能力,還有待漫長的持續的深入研究。[1] Kubricht J R , Holyoak K J , Lu H . Intuitive Physics: Current Research and Controversies[J]. Trends in Cognitive Sciences, 2017, 21(10). http://philpapers.org/rec/KUBIPC[2] Mottaghi R , Bagherinezhad H , Rastegari M , et al. Newtonian Image Understanding: Unfolding the Dynamics of Objects in Static Images[J]. 2015.,http://de.arxiv.org/pdf/1511.04048[3] Li W , Leonardis, Aleš, Fritz M . Visual Stability Prediction and Its Application to Manipulation[J]. 2016.http://arxiv.org/abs/1609.04861[4] P Agrawal,A Nair,P Abbeel,J Malik,S Levine, Learning to Poke by Poking: Experiential Learning of Intuitive Physics,http://arxiv.org/abs/1606.07419[5] Sahand Rezaei-Shoshtari,Francois Robert Hogan,Michael Jenkin,David Meger,Gregory Dudek, Learning Intuitive Physics with Multimodal Generative Models, https://www.researchgate.net/publication/348426682_Learning_Intuitive_Physics_with_Multimodal_Generative_Models[6] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012[7] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015本文作者為仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。關於機器之心全球分析師網絡 Synced Global Analyst Network
機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。
感興趣加入機器之心全球分析師網絡?點擊閱讀原文,提交申請。