識音辨物-通過聲音來預測物體的外觀及運動

2020-12-11 ALGOROBOT機器人資訊

卡內基梅隆大學的研究人員在一項新的研究中聲稱,聲音可以用來預測物體的外觀及其運動。研究人員創建了一個「聲音動作視覺」數據集和一系列AI算法,以研究音頻,視覺和運動之間的相互作用。結果表明,從聲音中可以用來預測物體在受到力作用時移動的位置。

儘管視覺是感知的基礎,但聲音卻同樣重要。它可以捕獲通常通過視覺無法察覺的豐富信息,例如幹樹葉的質地或香檳酒瓶內的壓力。但是很少有系統和算法利用聲音作為建立物理理解的工具。這激勵了卡內基梅隆大學的研究,該研究試圖探索聲音與動作之間的協同作用,並發現其中可做出什麼樣的推斷。

研究人員首先通過建立一個機器人 Til-Bot來創建聲音動作視覺數據集,該機器人將包括螺絲起子,剪刀,網球,立方體和夾子在內的物體沿任意方向傾斜放在託盤上。物體撞擊石膏託盤的薄壁並產生聲音,這些聲音將被逐一添加到語料庫中。

安裝在30×30釐米託盤上的四個麥克風(每側各一個)記錄音頻,而高架攝像機則捕獲RGB和深度信息。Tilt-Bot將每個物體移動了一個小時,並且每次對象與託盤接觸時,機器人都會創建一個包含聲音、RGB和深度的數據集,並記錄物體與牆壁碰撞時的位置。

利用碰撞中的錄音,該團隊使用了一種方法,使他們能夠將錄音視為圖像。這允許模型捕獲來自單個音頻通道的時間相關性(即,一個麥克風的錄音)以及多個音頻通道之間的相關性(來自多個麥克風的錄音)。

然後,研究人員利用語料庫(其中包含來自60多個物體和託盤之間15,000次碰撞的聲音)來訓練模型以從音頻中識別物體。在第二個更具挑戰性的練習中,他們訓練了一個模型來預測對看不見的物體執行了哪些操作。第三,他們訓練了一種前向預測模型,以在物體被機械臂推動後推斷物體的位置。

上圖:正向模型預測在此處顯示為圖像對。左邊的圖像是交互之前的觀察結果,而右邊的圖像是交互之後的觀察結果。基於交互之前的對象地面真相位置(顯示為綠色點),對象的音頻嵌入和機器人採取的動作(顯示為紅色箭頭),經過訓練的正向模型可以預測將來的對象位置(顯示為紅色)點)。

研究人員稱,物體識別模型學會了從聲音中預測正確的物體的時間為79.2%,只有在生成的聲音太柔和時才會失敗。同時,動作預測模型在一組30個以前看不見的物體上實現了0.027的均方誤差,比僅使用來自攝像機的圖像訓練的模型要好42%。而且,前向預測模型在預測物體可能移動的位置時更為準確。

研究人員寫道:「在某些領域,例如正向模型學習,我們證明了聲音實際上提供的信息多於僅從視覺信息獲得的信息。」 「我們將公開發布Tilt-Bot的數據集,以此來激發聲效領域的未來工作,希望將在機器人技術中找到廣泛應用。」

識音辯物-通過聲音來預測物體的外觀及運動

相關焦點

  • 聽聲辨物!不再只靠視覺和觸覺,機器人用「耳朵」聽來區分不同物體
    現在,卡耐基梅隆大學的研究人員發現,機器人的感知能力可以通過增加另一種感官來顯著提高:聽覺。卡內基梅隆大學(CMU)的一個研究小組最近進行了一項研究,探索利用聲音開發具有更先進傳感能力的機器人的可能性。
  • 比較物體運動的快慢及速度的相關知識點
    今天我們就來學習比較運動快慢的方法。比較運動快慢的兩種方法①相同路程比較時間前文提到的百米賽跑就是應用的這個方法,運動員都跑了一百米,比較需要的時間,誰用的時間短誰就跑得快。在這種背景下,我們引入了新的物理量:速度速度(V)1、定義:物體在一段時間內通過的距離與所用時間的比值。
  • 識音準確多種語言轉寫?十分實用,科大訊飛AI錄音筆SR301 測評
    如果職場中的你,一直被這些問題所困擾,那麼不妨試試藉助一些智能的設備,來解決自己的疑難。而我使用的這款科大訊飛AI智能錄音筆SR301就非常不錯,不僅識音清晰,還可以進行多語言轉寫,下面就為大家深度測評一下,看看它和普通的錄音筆還有哪些與眾不同的地方。
  • 氣味音樂會讓視障人士「聞香識音」
    氣味音樂會讓視障人士「聞香識音」 2012年12月24日08:39 來源:中國新聞網
  • 同人於野 類族辨物
    國學經典教育、文化養生、家長成長,來育心經典這所沒有圍牆的大學是您更有效的選擇。《易經》有云:同聲相應,同氣相求。做事業,最重要的就是同人於野,團結最廣大的人民群眾,以百姓心為心,為人民謀幸福。《易經》有云:本乎天者親上,本乎地者親下,各從其類也。在事業中,我們要懂得分辨,擇其善者而從之。
  • 8篇論文深入學習深度估計:深度預測;自我運動學習;觀看《冰雪奇緣...
    它包括對場景和單個被攝物體、攝像頭的自我運動和從單目視頻輸入中獲悉的被攝物體的移動數據進行建模。在文中作者還介紹了一種在線優化的方法。作者介紹了一種與自我運動網絡具有相同體系結構的被攝物體運動模型。不過,它的作用則是專門用來預測3D中單個被攝物體運動的。這個模型以RGB圖像序列作為輸入,由預先計算的實例分割掩模作為補充。
  • MIT新研究:機器人可以通過視覺和觸覺感知物體
    6月18日消息,日前,麻省理工學院計算機科學與人工智慧實驗室(CSAIL)的研究人員提出了一種預測性人工智慧,它可以通過視覺和觸覺來感知物體。該團隊的系統可以從視覺輸入創建逼真的觸覺信號,並從這些觸覺輸入中預測哪些物體和哪些部分被觸摸。
  • 如何利用無人機來拍攝正在運動中的物體
    打開APP 如何利用無人機來拍攝正在運動中的物體 無人機知識分享 發表於 2020-06-22 14:39:08 無人機如何拍攝運動的物體
  • 力與運動的關係,力並不是維持物體運動的原因
    接著上一篇,咱們現在來介紹力與運動的關係。歡迎關注我!早在古希臘時代,先賢亞里斯多德就思考過這個問題。通過觀察,他認為力是維持物體運動的原因。比如推著一個箱子走,當我們停止推動時,箱子也就停下了。從經驗上來看,力似乎確實是維持物體運動的原因。經歷了漫長的中世紀,歐洲進入了文藝復興時代,近代科學也開始萌芽。伽利略通過實驗證明兩個鐵球同時落地,發現了自由落體定律,科學實驗正式進入科學研究的殿堂。關於力與運動的關係,伽利略通過斜面實驗進行了探討。
  • 性能SOTA、適用多種類型物體,國防科技大學單張RGB-D圖像預測物體...
    但是,這類算法的使用範圍通常僅限於幾何完整的合成三維模型或者高質量的重建三維模型,無法處理物體觀測缺失的情況,例如無法通過單張 RGB-D 圖像判斷物體的對稱性。,進而通過 RGB-D 圖像直接預測物體的對稱性。
  • 力和物體的運動
    天體運行(一)力和物體運動的關係力是使物體運動狀態發生改變的原因,變化的情況又與力的大小和方向有關所以物體按照怎樣的規律運動取決於它的初始狀態(初速度)和所受外力的情況(合外力)。(二)直(曲)線運動的產生條件下表中列出一些典型運動產生的條件(具體的運動規律參考各物理必修或選修教材):
  • 你們還在做2D的物體檢測嗎?谷歌已經開始玩轉 3D 了
    一方面是由於現有的3D 數據非常匱乏,另一方面則是因為單個類別下的物體外觀和形狀本身就非常多樣化。在當前條件下,如何基於現有的 2D 圖像數據來做3D 檢測呢?日前,谷歌發布了一個針對日常物體的移動實時 3D 物體檢測管道——MediaPipe Objectron。
  • 做曲線運動的物體加速度一定變化 做曲線運動的物體加速度方向一定...
    曲線運動中加速度的大小方向不一定變化。例如平拋運動是曲線運動,加速度是g大小、方向都不變。加速度的大小和方向是否變化要看合外力是否變化,與直線運動還是曲線運動無關。  什麼叫曲線運動  物體運動軌跡是曲線的運動,稱為「曲線運動」。當物體所受的合外力和它速度方向不在同一直線上,物體就是在做曲線運動。
  • 性能SOTA,國防科技大學單張RGB-D圖像預測物體對稱性
    但是,這類算法的使用範圍通常僅限於幾何完整的合成三維模型或者高質量的重建三維模型,無法處理物體觀測缺失的情況,例如無法通過單張 RGB-D 圖像判斷物體的對稱性。,進而通過 RGB-D 圖像直接預測物體的對稱性。
  • [名師在線]振動的物體都會發出聲音嗎?
    在聲學的選擇題中,常常有這樣一個選項:振動的物體都會發出聲音人教版初中物理第一冊28 頁敘述:聲音是由物體的振動產生的。振動可以發聲。人教版初中物理第一冊28 頁敘述在「聲音是由物體的振動產生的」和「振動可以發聲」中其實有兩個概念——「聲」和「聲音」。
  • 用層進表面預測來重建三維物體 | 2分鐘讀論文
    雷鋒網(公眾號:雷鋒網)AI研習社【本期論文】Hierarchical Surface Prediction for 3D Object Reconstruction用層進表面預測來重建三維物體本期論文提供了一個打破這種限制的方法,這種新的方法依然採用學習算法來預測幾何體,但是它是分步驟建立3D模型:這意味著剛開始,它只是估計粗略的幾何形體,然後重複上述過程,增加越來越多的細節,幾步過後,幾何體變得越來越精細。
  • 斯坦福開發全息聲音合成系統,自動為計算機動畫渲染逼真聲音
    文章相關引用及參考:sciencedaily斯坦福研究人員開發的全息聲音合成系統可以自動為計算機動畫渲染逼真的聲音(映維網 2018年08月13日)通過計算快速移動和振動表面(例如鈸)所產生的壓力波,斯坦福研究人員開發的全息聲音合成系統可以自動為計算機動畫渲染逼真的聲音
  • 物理基礎要點:直線運動、力和物體的平衡、牛頓運動定律
    一、直線運動1.機械運動:一個物體相對於另一個物體的位置的改變叫做機械運動,簡稱運動,它包括平動,轉動和振動等運動形式.為了研究物體的運動需要選定參照物(即假定為不動的物體),對同一個物體的運動,所選擇的參照物不同,對它的運動的描述就會不同,通常以地球為參照物來研究物體的運動
  • 克拉尼板如何讓你「看見」聲音?
    — 尼古拉·特斯拉我們能「看見」聲音嗎?就算不能直接看到,但我們離這個目標已經不遠了。通過改變看問題的角度,我們可以了解聲學現象的本質。觀察聲學現象的一種方法是研究稱為克拉尼板 的固體介質中的駐波。這是一種特殊技術,可以在板上產生圖形,從而揭示聲音的物理性質。
  • 芥末翻|通過大腦預測誤差來進行社會學習
    隨後將這種模擬他人的概念與個體皮層運動神經元的鏡像神經元活動聯繫起來,進而也解釋了獼猴通過觀察某一動作後做出相同動作。值得注意的是,這些理論針對其他參照信息在大腦的表徵過程做出了不同預測。6 根據一位仿真學家的敘述,「他人」這一概念來源於個人自我意識,也就是以自我為中心。關於他人的概念發端並依賴於自參照的自我中心機制。