Facebook SimPoE用單目攝像頭實現全新人體姿態估計精度

2022-01-16 映維網Nweon

查看引用/信息源請點擊:映維網

在保證物理合理性的同時實現了全新的姿態精度。

映維網 2021年04月21日)從單目視頻精確估計三維人體運動需要建模Kinematics運動學(無物理力的運動)和Dynamics動力學(有物理力的運動)。

為了提高視頻中估計人體運動的物理合理性,最近的研究開始在公式中採用動力學。這種方法首先對運動進行估計,然後利用基於物理的軌跡優化方法對誘導運動的力進行優化。基於軌跡優化的方法存在一定的不足。首先,軌跡優化需要在測試時求解一個高度複雜的優化問題。這可能屬於計算密集型,並且需要對時間窗口甚至整個運動序列進行批處理,從而導致姿態預測的高延遲,並且不適合交互式實時應用程式。

其次,軌跡優化需要簡單可微的物理模型,這可能導致近似誤差較大。最後,將物理應用於基於軌跡優化的方法是作為一個後處理步驟,其將給定的運動投影到物理合理的運動。由於它是基於優化,所以沒有一個學習機制嘗試將優化的運動與ground truth相匹配。所以,軌跡優化所產生的運動在物理上可能合理,但離ground truth相距甚遠,特別是當輸入運動不準確時。

針對上述局限性,Facebook和卡內基梅隆大學的研究人員提出了一種新的方法:SimPoE(Simulated Character Control for Human Pose Estimation;人體姿態估計的模擬特徵控制)。

SimPoE將基於圖像的運動學推理和基於物理的動力學建模緊密地集成到一個聯合學習框架中。與軌跡優化不同,SimPoE是一個因果時間模型,帶有一個集成的物理模擬器。

具體來說,SimPoE學習以當前姿態和下一幀圖像作為輸入的策略,並為模擬器內的代理角色生成控制項。其中,控制項輸出下一幀的姿態估計。為了執行運動學推斷,所述策略包含一個可學習的運動學姿態精化單元,後者使用圖像證據(2D關鍵點)迭代精化運動學姿態估計。精化單元以關鍵點重投影損失梯度作為輸入,對姿態和關鍵點的幾何信息進行編碼,然後輸出運動姿態更新。

基於這種改進的運動學姿態,策略然後計算角色控制動作,如角色的比例驅動(PD)控制器的目標關節角度,從而推進角色狀態並獲得下一幀姿態估計。所述策略設計將運動學姿態精化單元與基於動力學的控制生成單元相結合,並配合強化學習(RL),以保證姿態估計的準確性和物理合理性。在每個時間步驟,根據估計的運動和ground truth之間的相似性來分配獎勵。

為了進一步提高姿態估計精度,SimPoE同時引入了一種新的控制機制meta-PD-control。PD控制器廣泛應用於先前的研究,其主要是將策略產生的動作轉化為控制角色的關節力矩。然而,PD控制器參數通常具有需要手動調整的固定值,這可能產生次優結果。相反,在meta-PD-control中,SimPoE的策略訓練成基於角色的狀態在模擬步驟中動態調整PD控制器參數,以實現對角色運動的更精細控制。

研究人員在兩個大型數據集和一個包含手指運動細節的內部人體運動數據集驗證了SimPoE。團隊比較了SimPoE和最先進的單目3D人體姿態估計方法,包括運動學和基於物理的方法。在這兩個數據集上,SimPoE在基於姿勢和基於物理的度量方面都優於先前的研究。另外,與先前基於物理的方法相比,SimPoe的姿勢精度有顯著提高。

相關論文

SimPoE: Simulated Character Control for 3D Human Pose Estimation

https://paper.nweon.com/9688

團隊將會在6月舉行的計算機視覺與模式識別大會介紹名為《SimPoE: Simulated Character Control for 3D Human Pose Estimation》的論文。

---
原文連結:https://news.nweon.com/84980

相關焦點

  • 六種人體姿態估計的深度學習模型和代碼總結
    姿態估計的目標是在RGB圖像或視頻中描繪出人體的形狀,這是一種多方面任務,其中包含了目標檢測、姿態估計、分割等等。有些需要在非水平表面進行定位的應用可能也會用到姿態估計,例如圖形、增強現實或者人機互動。姿態估計同樣包含許多基於3D物體的辨認。在這篇文章中,Model Zoo的作者匯總了幾種開源的深度學習模型以及針對姿態估計的代碼,論智對其進行了編譯,如有遺漏請在評論中補充。
  • 人體姿態估計的過去,現在,未來
    問題人體姿態估計是計算機視覺中一個很基礎的問題。從名字的角度來看,可以理解為對「人體」的姿態(關鍵點,比如頭,左手,右腳等)的位置估計。所以在pipeline上面加上了一個post-processing的步驟,主要是希望能抑制部分FP,具體實現方式是類似一個空間位置的模型。所以從這個工作來看,有一定的傳統姿態估計方法的慣性,改進的地方是把原來的傳統的feature representation改成了深度學習的網絡,同時把空間位置關係當成是後處理來做處理。總體性能在當時已經差不多跑過了傳統的姿態估計方法。
  • 計算機視覺方向簡介 | 人體姿態估計
    ,少不了應用人體姿態估計。這篇博客簡介了使用深度學習技術的多人姿態估計方法,及其應用。人體姿態骨架圖 (skeleton) 用圖形格式表示人的動作。本質上,它是一組坐標,連接起來可以描述人的姿勢。骨架中的每個坐標都被稱為這個圖的部件(或關節、關鍵點)。我們稱兩個部件之間的有效連接為對(pair,或肢)。但是要注意的是,並非所有部件組合 都能產生有效的對。下圖是一個人體姿態骨架圖的示例。
  • 基於單目的3D人體姿態估計
    針對單目的姿態估計(單人或多人),目前的主要方法有直接回歸3D坐標,先回歸2D坐標在lift到3DDirected Regression下載地址:http://www.maths.lth.se/sminchisescu/media/papers/human36-pami.pdf這篇文章就是Human3.6M的數據集那篇,主要提出了一個大型的室內人體數據集
  • WACV 2021 論文大盤點-姿態估計篇
    本篇繼續總結姿態估計相關論文, 3D 的佔大多數,有 3D 姿勢、形狀估計,還有 3D 手部姿勢估計。還有人臉姿態估計、跨物種姿態估計等。
  • 谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部
    原標題:谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部(映維網 2020年12月11日)支持行動裝置實時、同步地感知人體姿態和面部特徵並進行手部追蹤,這可以實現多種有影響力的應用,如健身和運動分析、手勢控制和手語識別、以及增強現實效果等等。
  • Tensorflow Lite人體姿勢跟蹤功能上線:基於PosNet的實時人體姿態估計
    這個夏天,Tensorflow Lite 再度進化,加入了 PosNet 人體姿態估計模塊,性能再度加強!懷著激動的心情,我們發布了一個「TensorFlow Lite」示例應用程式(https://www.tensorflow.org/lite),通過它在安卓設備上通過使用「PoseNet」模型來實現人體姿勢估計。
  • 一文概覽2D人體姿態估計
    前言本文主要討論2D的人體姿態估計,內容主要包括:基本任務介紹、存在的主要困難、方法以及個人對這個問題的思考等等。希望大家帶著批判的目光閱讀這篇文章,和諧討論。   1. 介紹2D人體姿態估計的目標是定位並識別出人體關鍵點,這些關鍵點按照關節順序相連,就可以得到人體的軀幹,也就得到了人體的姿態。
  • 谷歌發布全新AR技術 單攝像頭即可實現AR景深感應
    來源:快科技2018早在去年12月,Google就展示了如何使用單個攝像頭為AR增強現實創建深感圖,而在今天,ARcore深度API終於在Android上線,並且已有多個第三方應用程式已經開始使用。雖然其他廠商也在試圖為自己的產品添加AR功能,但大多都是通過額外的硬體設備,諸如增加ToF模組,使用雙攝等方法實現深感圖的感知和創建,而單攝象頭因為信息不足,所以很難判斷畫面中的物體距離攝像頭的距離到底如何。而谷歌利用動態深度算法,僅靠單攝就實現了深感圖的創建,並且擁有不錯的精度。保證虛擬物體被正確的遮擋,不在空間中漂浮或者放置在物理層面上不可能放置的位置。
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    主講人:王志成 | 曠視研究院研究員 屈鑫 整理編輯 量子位 出品 | 公眾號 QbitAI12月13日晚,量子位·吃瓜社聯合Face++論文解讀系列第二期開講,本期中曠視(Megvii)研究院解讀了近期發表的人體姿態估計論文: Cascaded Pyramid Network for Multi-Person Pose Estimation 。
  • 人體姿態估計(Human Pose Estimation)常用方法總結
    俞剛:人體姿態估計的過去,現在,未來https://zhuanlan.zhihu.com/p/85506259哇噻:重新思考人體姿態估計 Rethinking Human Pose Estimationhttps://zhuanlan.zhihu.com
  • KeyPose:從立體圖像估計透明物體3D姿態
    在於斯坦福AI實驗室聯合發表在CVPR2020上的文章, " 在與KeyPose:從立體圖者估計透明物體的三維姿態" 中, 我們介紹了一個ML系統,直接預測三維關鍵點來評估透明物體的深度。它在這些物體的姿態估計方面比最先進的方法有了實質性的改進,即使競爭性的方法提供了真實深度。我們正在發布keypoint標記的透明對象的數據集,供研究團體使用。
  • Facebook分享:如何利用AI技術將2D圖片轉換成3D圖片
    (映維網 2020年03月05日)Facebook於2018年推出了3D Photos功能,並將其作為一種與朋友和家人分享圖片的全新沉浸式格式。但這項功能依賴於高端智慧型手機的雙頭攝像頭「人像模式」。所以,只有一個後置攝像頭的典型行動裝置無法予以使用。
  • Facebook等提出實時3D人臉姿態估計新方法,代碼已開源!
    最後,在下圖 1 所示的密集人臉圖像場景中,準確定位標準的 68 個人臉關鍵點會變得非常困難,進而加大了估計其姿態和人臉對齊的難度。6DoF 指的是在人體在 3D 空間裡的活動情況,在 3 自由度(上下俯仰、左右搖擺和滾動)的基礎上增加了前 / 後、上 / 下、左 / 右三種移動方式。這一觀察結果啟發了很多研究者,促使他們提出「跳過關鍵點檢測,直接進行姿態估計」的想法,但這些方法還是要為檢測到的人臉估計姿態。相比之下,Facebook AI 和聖母大學的研究者的目標是在不假設人臉已經被檢測到的情況下估計姿態。
  • 單精度、雙精度和半精度浮點格式之間的區別
    下面就來講講關於浮點數中,單精度、雙精度、多精度和混合精度計算的區別。 1 關於圓周率 π我們提到圓周率 π 的時候,它有很多種表達方式,既可以用數學常數3.14159表示,也可以用一長串1和0的二進位長串表示。 圓周率 π 是個無理數,既小數位無限且不循環。
  • Facebook 又出黑科技,手機照片一鍵切成 3D 大片
    這是一種全新的沉浸式格式,你可以用它與朋友、家人分享照片。但是,這項功能依賴於高端智慧型手機才具備的雙鏡頭「肖像模式」功能,無法在尋常的行動裝置上使用。為了讓更多人體驗到這種新的視覺格式,Facebook 利用機器學習開發了一個系統。這個系統可以推斷出任何圖像的 3D 結構,任何設備、任何時間拍攝的圖像都可以被轉換成 3D 形式。這就可以讓人們輕鬆使用 3D 照片技術。
  • 跳過人臉檢測和關鍵點定位,Facebook等提出實時3D人臉姿態估計新方法
    最後,在下圖 1 所示的密集人臉圖像場景中,準確定位標準的 68 個人臉關鍵點會變得非常困難,進而加大了估計其姿態和人臉對齊的難度。為了解決這些問題,來自 Facebook AI 和聖母大學的研究者提出了以下重要觀察結果:首先,估計人臉的 6 自由度(6DoF)剛性變換比人臉關鍵點檢測要簡單。
  • 3D人體全身運動捕捉系統,港中文聯合Facebook出品
    作者 | VVingerfly編輯 | 陳大鑫3D人體姿態和形狀估計在最近幾年是一個重要的研究熱點,但大部分工作僅僅關注人體部分,忽略了手部動作,港中文聯合Facebook AI研究院提出了一種從單張圖片同時估計人體姿態和手部動作的新方法,展示效果好似科學怪物。如下圖左下和右下所示,易看出本文提出的方法姿態估計效果更好。
  • 太平洋未來科技AR+Ai 3D人體姿態捕捉
    4年一次的世界盃,既承載著一代人炙熱的青春,也是不容錯過的激情四射賽事,完美收官之際,這家致力於AR底層技術的科技公司——太平洋未來科技,這群技術狂熱者也是亢奮的球迷愛好者團隊,通過自身研發的AR+Ai3D人體姿態捕捉技術,展示了基於Wi-Fi穿透系統下的純3D環境AI人體姿態算法,實時追蹤記錄球場上球員從開始瞄準到射球等一連串的動作,精確的解析球場上每個球員的動作形態
  • 鷹眼科技:機器視覺專家,實現亞微米精度3D檢測
    在3D檢測領域,白光幹涉儀是精度最高的測量儀器之一。在同等系統放大倍率下,其檢測精度和重複精度都高於傳統的檢測方法。甚至在一些納米級和亞納米級的超精密加工領域,只有白光幹涉儀能夠達到檢測的精度要求。鷹眼科技利用白光幹涉原理開發的新一代測量技術,可在天然或加工件上實現微米和亞微米尺度特徵的3D測量。目前已推出在線式和離線式兩種版本的白光幹涉儀,應用於半導體、攝像頭、線路板、顯示面板等行業。