6月18日消息,日前,麻省理工學院計算機科學與人工智慧實驗室(CSAIL)的研究人員提出了一種預測性人工智慧,它可以通過視覺和觸覺來感知物體。
該團隊的系統可以從視覺輸入創建逼真的觸覺信號,並從這些觸覺輸入中預測哪些物體和哪些部分被觸摸。他們使用KUKA機器人手臂,並在手臂上添加了一個名為GelSight的特殊觸覺傳感器,該傳感器由麻省理工學院的另一個小組設計。
該團隊使用一個簡單的網絡攝像頭記錄了近200件物品,如工具、家用產品、物等,被觸摸次數超過1.2萬次。將這1.2萬個視頻片段分解為靜態圖像,該團隊編制了「VisGel」,這是一個包含300多萬個視覺/觸覺配對圖像的數據集。
麻省理工學院博士後Jun-Yan Zhu在關於該系統的新論文中說:「通過觀察現場,我們的模型可以想像觸摸平坦表面或鋒利邊緣的感覺。通過盲目地觸摸,我們的模型可以從觸覺中預測與環境的相互作用。將這兩種感官結合在一起可以增強機器人的能力,並減少我們在涉及操縱和抓取物體的任務時可能需要的數據。」
為了給機器人配備更多類似人類的物理感官,麻省理工學院曾利用深度學習技術,從無聲視頻片斷中預測聲音,還創建過一個模型,預測物體對物理力的反應。不過,這兩項工作都使用了無法理解視覺和觸覺之間交互作用的大型數據集。該團隊通過使用VisGel數據集以及生成對抗網絡(GANs)解決了這一問題。
雖然我們的觸覺給了我們一個感受世界的通道,但我們的眼睛可以幫助我們立即理解這些觸覺信號的全貌。在此之前,經過編程能夠看到或感覺到的機器人無法完全交替使用這些信號,而麻省理工學院的這項研究可以更好地彌補這一感官差距。