六種人體姿態估計的深度學習模型和代碼總結

2022-01-12 CVer

點擊上方「CVer」,選擇加"星標"或「置頂」

重磅乾貨,第一時間送達

本文授權轉載於論智(jqr_AI)

未經允許,不得二次轉載

編譯:Bing

姿態估計的目標是在RGB圖像或視頻中描繪出人體的形狀,這是一種多方面任務,其中包含了目標檢測、姿態估計、分割等等。

有些需要在非水平表面進行定位的應用可能也會用到姿態估計,例如圖形、增強現實或者人機互動。姿態估計同樣包含許多基於3D物體的辨認。

在這篇文章中,Model Zoo的作者匯總了幾種開源的深度學習模型以及針對姿態估計的代碼,論智對其進行了編譯,如有遺漏請在評論中補充。

創作這篇文章的初衷就來源於Facebook研究所的DensePose,上周,Facebook公布了這一框架的代碼、模型和數據集,同時發布了DensePose-COCO,這是一個為了估計人類姿態的大型真實數據集,其中包括了對5萬張COCO圖像手動標註的由圖像到表面的對應。這對深度學習研究者來說是非常詳細的資源,它對姿態估計、身體部位分割等任務提供了良好的數據源。

DensePose的論文中提出了DensePose-RCNN,這是Mask-RCNN的一種變體,可以以每秒多幀的速度在每個人體區域內密集地回歸特定部位的UV坐標。它基於一種能將圖像像素通過卷積網絡映射到密集網格的系統——DenseReg。模型的目標是決定每個像素在表面的位置以及它所在部分相對應的2D參數。

DensePose借用了Mask-RCNN的架構,同時帶有Feature Pyramid Network(FPN)的特徵,以及ROI-Align池化。除此之外,他們在ROI池化的頂層搭建了一個全卷積網絡。想了解DensePose更多的技術細節,請閱讀原論文。

論文地址:https://arxiv.org/abs/1802.00434

GitHub地址:https://github.com/facebookresearch/Densepose

數據集地址:https://github.com/facebookresearch/DensePose/blob/master/INSTALL.md#fetch-densepose-data

OpenPose是由卡內基梅隆大學認知計算研究室提出的一種對多人身體、面部和手部形態進行實時估計的框架。

OpenPose同時提供2D和3D的多人關鍵點檢測,同時還有針對估計具體區域參數的校準工具箱。OpenPose可接受的輸入有很多種,可以是圖片、視頻、網絡攝像頭等。同樣,它的輸出也是多種多樣,可以是PNG、JPG、AVI,也可以是JSON、XML和YML。輸入和輸出的參數同樣可以針對不同需要進行調整。

OpenPose提供C++API,以及可以在CPU和GPU上工作(包括可與AMD顯卡兼容的版本)。

GitHub地址:

https://github.com/CMU-Perceptual-Computing-Lab/openpose

數據集地址:

http://domedb.perception.cs.cmu.edu/

Realtime Multi-Person Pose Estimation

這一模型和上面的OpenPose高度相關,同時特徵模型能與多種框架相關聯。論文的作者提供了一種自下而上的方法,對多人的姿態進行實時估計,不需要用任何人物探測器。

這種方法運用了一種非參數表示,我們稱為Part Affinity Fields(PAFs),用它可以學習將圖中人物和其身體部位聯繫到一起。有關該技術的具體細節和理論,可以閱讀原文。

另外,這一方法最棒的特徵之一就是它可以在多種不同的框架中實現,針對不同框架,已經公開了相關代碼和模型:

OpenPose C++:

https://github.com/CMU-Perceptual-Computing-Lab/openpose

TensorFlow:

https://github.com/ZheC/RealtimeMulti-PersonPose_Estimation

Keras(1):

https://modelzoo.co/model/keras-realtime-multi-person-pose-estimation

Keras(2):

https://github.com/michalfaber/kerasRealtimeMulti-PersonPoseEstimation

PyTorch(1):

https://github.com/tensorboy/pytorchRealtimeMulti-PersonPoseEstimation

PyTorch(2):

https://github.com/DavexPro/pytorch-pose-estimation

PyTorch(3):

https://github.com/MVIG-SJTU/AlphaPose/tree/pytorch

MXNet:

https://github.com/dragonfly90/mxnetRealtimeMulti-PersonPoseEstimation

論文地址:https://arxiv.org/abs/1611.08050

GitHub地址:

https://github.com/ZheC/RealtimeMulti-PersonPose_Estimation

AlphaPose是一款精準的多人姿態評估工具,並聲稱是第一款開源系統。AlphaPose既可以在圖片、視頻或多圖中進行姿態估計,也能在畫面中對動作進行追蹤。它的輸出形式非常廣泛,包括PNG、JPG和AVI等具有關鍵點的圖片形式,也有JSON格式的輸出,這一特點也使其成為眾多應用受歡迎的工具。

目前,這一工具支持TensorFlow和PyTorch兩種實現。AlphaPose利用一種區域性的多人動作估計框架將不精準的人類邊界框該進程精確的動作估計。這裡有三種元素:對稱空間轉換網絡(SSTN)、參數化姿態非極大抑制(NMS)以及姿態導向的生成器(PGPG)。更多技術細節請查看原論文。

論文地址:https://arxiv.org/abs/1612.00137

GitHub地址:

https://github.com/MVIG-SJTU/AlphaPose

Human Body Pose Estimation

該模型利用MPII人類姿勢數據集進行訓練,這是一個內容十分豐富的數據集,專門針對人類姿態估計。目前只有TensorFlow的實現。

這項研究將人類姿態估計的任務應用到真實的圖片中,他們的方法既解決了動作識別,也能進行估計,與之前先檢測人類動作在對此進行推測的技術有所區分。在實施過程中用到了基於CNN的探測器和整數線性規劃法。

ArtTracker論文:

https://arxiv.org/abs/1612.01465

DeeperCut論文:

https://arxiv.org/abs/1605.03170

網站地址:http://pose.mpi-inf.mpg.de/

GitHub地址:https://github.com/eldar/pose-tensorflow

相比於前面幾種方法來說,DeepPose算是比較「古老」的了,論文發布與2014年,提出了一種基於深度神經網絡的姿態估計方法,是基於DNN向身體關節回歸的問題。它以一種整體的方式估計姿態,並且表述起來非常簡潔強大。

目前網上還沒有官方實現過程。但是有人做出了復現結果:

Chainer:https://github.com/mitmul/deeppose

TensorFlow:https://github.com/asanakoy/deeppose_tf

DeepPose是第一個將深度學習應用到人類姿態估計上的應用,並且取得了當時頂尖的結果,成為了其他方法的baseline。

論文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/42237.pdf

姿態估計是計算機視覺領域一個非常熱門的話題,Facebook最近發布的DensePose讓人越來越多地關注這個問題。進行姿態估計有很多方法,現有的資源一定可以對你有所啟發。如果你有其他的好方法,請在下面留言分享!

原文地址:http://modelzoo.co/blog/deep-learning-models-and-code-for-pose-estimation

這麼硬的乾貨文章,麻煩給我一個好看

▲長按關注我們

麻煩給我一個好看

相關焦點

  • 計算機視覺方向簡介 | 人體姿態估計
    這篇博客簡介了使用深度學習技術的多人姿態估計方法,及其應用。人體姿態骨架圖 (skeleton) 用圖形格式表示人的動作。本質上,它是一組坐標,連接起來可以描述人的姿勢。骨架中的每個坐標都被稱為這個圖的部件(或關節、關鍵點)。我們稱兩個部件之間的有效連接為對(pair,或肢)。但是要注意的是,並非所有部件組合 都能產生有效的對。下圖是一個人體姿態骨架圖的示例。
  • 人體姿態估計的過去,現在,未來
    所以做了一個總結和梳理,希望能拋磚引玉。問題人體姿態估計是計算機視覺中一個很基礎的問題。從名字的角度來看,可以理解為對「人體」的姿態(關鍵點,比如頭,左手,右腳等)的位置估計。過去這部分主要用於描述在深度學習之前,我們是如何處理人體姿態估計這個問題。從算法角度來講,這部分的工作主要是希望解決單人的人體姿態估計問題,也有部分工作已經開始嘗試做3D的人體姿態估計。可以粗略的方法分成兩類。
  • 40個姿態估計優秀開源項目匯總
    https://github.com/MVIG-SJTU/AlphaPosehttps://github.com/dmlc/gluon-cv使用Tensorflow和自定義架構實現深度姿勢估計,以進行快速推理。已經使用Tensorflow實現了「 Openpose」人體姿勢估計算法。它還提供了幾種變體,這些變體對網絡結構進行了一些更改,以便在CPU或低功耗嵌入式設備上進行實時處理。
  • Facebook等提出實時3D人臉姿態估計新方法,代碼已開源!
    6 自由度的實時 3D 人臉姿態估計技術,可以不依賴人臉檢測和人臉關鍵點定位獨立運行。6DoF 指的是在人體在 3D 空間裡的活動情況,在 3 自由度(上下俯仰、左右搖擺和滾動)的基礎上增加了前 / 後、上 / 下、左 / 右三種移動方式。這一觀察結果啟發了很多研究者,促使他們提出「跳過關鍵點檢測,直接進行姿態估計」的想法,但這些方法還是要為檢測到的人臉估計姿態。相比之下,Facebook AI 和聖母大學的研究者的目標是在不假設人臉已經被檢測到的情況下估計姿態。
  • WACV 2021 論文大盤點-姿態估計篇
    本篇繼續總結姿態估計相關論文, 3D 的佔大多數,有 3D 姿勢、形狀估計,還有 3D 手部姿勢估計。還有人臉姿態估計、跨物種姿態估計等。
  • 人體姿態估計(Human Pose Estimation)常用方法總結
    Review of 2D Human Pose Estimation with Deep Learning人體姿態估計(Human Pose Estimation)是計算機視覺中的一個重要任務,也是計算機理解人類動作、行為必不可少的一步。近年來,使用深度學習進行人體姿態估計的方法陸續被提出,且達到了遠超傳統方法的表現。
  • 如何使用深度學習模型構建推薦系統?(具體案例分析)
    來源:Pexels本文將解釋如何整合深度學習模型,構建服裝推薦系統。我們想要建立一個服裝推薦系統,可以使用四種深度學習模型來獲取用戶服裝使用的重要特徵。推薦系統可分為4類:基於產品特性的推薦基於其他用戶對產品的行為的推薦基於用戶一般特徵的推薦基於上述多項標準的推薦
  • 一文概覽2D人體姿態估計
    前言本文主要討論2D的人體姿態估計,內容主要包括:基本任務介紹、存在的主要困難、方法以及個人對這個問題的思考等等。希望大家帶著批判的目光閱讀這篇文章,和諧討論。   1. 介紹2D人體姿態估計的目標是定位並識別出人體關鍵點,這些關鍵點按照關節順序相連,就可以得到人體的軀幹,也就得到了人體的姿態。
  • 基於單目的3D人體姿態估計
    針對單目的姿態估計(單人或多人),目前的主要方法有直接回歸3D坐標,先回歸2D坐標在lift到3DDirected Regression下載地址:http://www.maths.lth.se/sminchisescu/media/papers/human36-pami.pdf這篇文章就是Human3.6M的數據集那篇,主要提出了一個大型的室內人體數據集
  • 深度學習資訊,MediaPipe Iris實時虹膜跟蹤和深度估計!
    通過使用虹膜界標,該模型還能夠在不使用深度傳感器的情況下確定相對誤差小於10%的對象和相機之間的度量距離。請注意,虹膜跟蹤不會推斷人們正在看的位置,也不能提供任何形式的身份識別。由於該系統是在MediaPipe中實現的事實這是一個開放原始碼的跨平臺框架,供研究人員和開發人員構建世界一流的ML解決方案和應用程式,它可以在大多數現代手機,臺式機,筆記本電腦甚至網絡上運行。
  • 用於類別級物體6D姿態和尺寸估計的標準化物體坐標空間
    因此,這兩種方法都無法滿足需要6D姿態和3個非均勻縮放參數(編碼尺寸)的未見過對象的應用程式的要求。在本文中,我們旨在通過介紹據我們所知第一種用於多個對象的類別級6D姿態和尺寸估計的方法,以彌合這兩種方法之間的差距,這對於新穎的對象實例而言是一個難題。由於我們無法將CAD模型用於未見過的物體,因此第一個挑戰是找到一種表示形式,該表示形式可以定義特定類別中不同對象的6D姿態和尺寸。
  • Facebook SimPoE用單目攝像頭實現全新人體姿態估計精度
    (映維網 2021年04月21日)從單目視頻精確估計三維人體運動需要建模Kinematics運動學(無物理力的運動)和Dynamics動力學(有物理力的運動)。為了提高視頻中估計人體運動的物理合理性,最近的研究開始在公式中採用動力學。這種方法首先對運動進行估計,然後利用基於物理的軌跡優化方法對誘導運動的力進行優化。
  • 無需人臉檢測,即可實時,6自由度3維人臉姿態估計方法 | 代碼剛開源
    摘要我們提出了實時、六自由度(6DoF)、三維人臉姿態估計,無需人臉檢測或關鍵點定位。我們發現估計人臉的6自由度剛性變換比人臉關鍵點檢測更簡單,人臉關鍵點檢測通常用於三維人臉對齊。此外,6DoF提供了比人臉框標籤更多的信息。
  • KeyPose:從立體圖像估計透明物體3D姿態
    給定透明物體的RGB-D圖像, ClearGrasp使用深度神經網絡推測物體表面法線、透明表面的掩模和遮擋邊界,用於優化場景中所有透明曲面的初始深度估計(上圖中最右側).這種方法非常有前景的, 並且允許利用依賴於深度的姿勢估計的方法處理透明物體的場景.但是修復可能很難辦, 特別是完全使用合成的圖像進行訓練時,可能會導致深度的錯誤。
  • MediaPipe 集成人臉識別,人體姿態評估,人手檢測模型
    MediaPipeHands中  的姿勢,面部和手界標模型來生成總共543個界標(每手33個姿勢界標,468個臉部界標和21個手界標)。在谷歌,一系列重要產品,如、GoogleLens、ARCore、GoogleHome以及,都已深度整合了MediaPipe。
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    主講人:王志成 | 曠視研究院研究員 屈鑫 整理編輯 量子位 出品 | 公眾號 QbitAI12月13日晚,量子位·吃瓜社聯合Face++論文解讀系列第二期開講,本期中曠視(Megvii)研究院解讀了近期發表的人體姿態估計論文: Cascaded Pyramid Network for Multi-Person Pose Estimation 。
  • Tensorflow Lite人體姿勢跟蹤功能上線:基於PosNet的實時人體姿態估計
    這個夏天,Tensorflow Lite 再度進化,加入了 PosNet 人體姿態估計模塊,性能再度加強!懷著激動的心情,我們發布了一個「TensorFlow Lite」示例應用程式(https://www.tensorflow.org/lite),通過它在安卓設備上通過使用「PoseNet」模型來實現人體姿勢估計。
  • 今日Paper|人體圖像生成和衣服虛擬試穿;魯棒深度學習;圖像風格...
    ClothFlow通過估計源和目標服裝區域之間的密集流動,有效地模擬了幾何變化,自然地轉移了外觀,合成了新的圖像,如圖1所示。我們通過一個three-stage框架實現了這一點:1)以目標姿態為條件,我們首先估計一個人的語義布局,為生成過程提供更豐富的指導。2)級聯流量估計網絡建立在兩個特徵金字塔網絡的基礎上,準確地估計出對應服裝區域之間的外觀匹配。由此產生的稠密流扭曲源圖像,靈活地解釋變形。
  • YouTube深度學習推薦模型最全總結
    分析 YouTube 的深度學習推薦系統論文 Deep Neural Networks for YouTube Recommenders,包括 《重讀 Youtube 深度學習推薦系統論文,字字珠璣,驚為神文》、《YouTube 深度學習推薦系統的十大工程問題》、《揭開 YouTube 深度推薦系統模型 Serving 之謎》 等,給大家進行一個完整版的解讀。
  • 任你旋轉跳躍不停歇,也能完美呈現3D姿態估計|代碼開源
    想要做到這一點,人體運動數據不可或缺,但實際上,真實的3D運動數據恰恰是稀缺資源。現在,來自馬克斯·普朗克智能系統研究所的一項研究,利用對抗學習框架,在缺少真實3D標籤的情況下,也能對實時視頻裡的人體運動,做出運動學上的合理預測。