實時人體姿態估計:Dense Pose及其應用展望

2020-12-17 騰訊網

機器之心原創

作者:Olli Huang

編輯:Haojin Yang

Facebook 和 Inria France 的研究人員分別在 CVPR 2018 和 ECCV 2018 相繼發表了兩篇有關「人體姿態估計」(human pose estimation) 的文章 [1] [2],用於介紹他們提出的 Dense Pose 系統以及一個應用場景「密集姿態轉移」(dense pose transfer)。

本文將簡要介紹(1)利用 Dense Pose 實現單張 2D 人體圖像到 3D 表面模型的原理 ;(2)如何將 Dense Pose 系統應用在「姿態轉移」(pose transfer)這一問題上;(3)粗略展望 Dense Pose 的一些潛在應用。

Dense Pose 的更多信息以及視頻 demos:

1. 什麼是密集姿態估計(dense pose estimation)?

密集姿態估計 (dense pose estimation) 將單張 2D 圖片中所有描述人體的像素(human pixels),映射到一個 3D 的人體表面模型。如圖 1 所示,Facebook 發布了一個名為 DensePose COCO 的大型數據集,包含了預先手工標註的 5 萬張各種人類動作的圖片。

圖 1:密集姿態估計的目標是將 2D 圖片中描述人體的像素,映射到一個 3D 表面模型。左:輸入的原始圖像,以及利用 [1] 中提出的 Dense Pose-RCNN,獲得人體各區域的 UV 坐標。UV 坐標又稱紋理坐標 (texture coordinates), 用於控制 3D 表面的紋理映射; 中:DensePose COCO 數據集中的原始標註;右:人體表面的分割以及 UV 參數化示意圖。

2. 如何進行密集姿態估計?

密集姿態估計的核心任務是,訓練一個深度網絡,用於預測 2D 圖片像素 (image pixels)與 3D 表面模型點 (surface points) 之間的密集聯繫 (dense correspondences)。這個任務最近已經通過基於全連接卷積網絡 [4] 的 Dense Regression (DenseReg) 系統 [3] 得到了解決。而 Dense Pose-RCNN 系統 [1],正是結合了 DenseReg 系統以及 Mask-RCNN 架構 [5]。

圖 2 展示了 Dense Pose-RCNN 的級連 (cascade) 架構:這是一個全卷積網絡 (fully-convolutional network),並連接著 ROIAlign 池化層 (ROIAlign pooling),用於處理兩個核心任務,分別是:(1)分類。判斷圖片的某一像素來自於「背景」,還是「人體部位」;(2)回歸。預測該像素在「人體部位」的具體坐標。

圖 2:Dense Pose-RCNN 的架構。

圖 2 中的 ResNet50 FPN (feature pyramid networks) 將輸出 feature map,然後通過 ROIAlign 模塊對每一個 ROI 生成固定尺寸的 feature map。圖 3 展示了 ROIAlign 模塊的「跨級連」(cross-cascading) 結構,這種結構利用兩個輔助任務 (keypoint estimation & mask) 提供的信息,幫助提高 Dense Pose 系統的姿態估計效果。作為 Dense Pose-RCNN 基礎之一的 Mask-RCNN [5] 結構,正是藉助兩個相關任務(即 keypoint estimation 和 instance segmentation)提供的信息,用於提高分割效果。

圖 3:Dense Pose-RCNN[1] 中的 ROIAlign 模塊採用了「跨級連」(cross-cascading) 架構。

3. 主幹 (backbone) 網絡對於 Dense Pose 系統的影響?

研究人員在 [1] 中對於兩種主幹網絡,ResNet-50 和 ResNet-101,對於 Dense Pose 任務的表現進行了比較。如表 1 所示,在 AP 和 AR 這兩個評估指標上,ResNet-101 的表現稍優於 ResNet-50,但由於大型網絡較為「笨重」,並不適用於移動應用。因此,[1] 中的其餘實驗均使用了 ResNet-50 作為主幹網絡。

表 1: 當 Dense Pose-RCNN 使用兩個不同的主幹網絡時,在 COCO Minval 數據集上取得的實驗結果。[1]

4. 從 Dense Pose 到 Dense Pose Transfer

除了介紹 Dense Pose 系統的架構和工作流程,研究人員還在 [1] 中展示了一個 Dense Pose 的應用,「紋理轉移」(texture transfer)。如圖 4 所示,紋理轉移這一任務的目標是,將圖像中所有人的身體表面紋理,轉換為預先提供的目標紋理。

圖 4:Dense Pose 紋理轉換 (texture transfer) 的實驗結果。該任務的目標是,將輸入的視頻圖像中所有人的身體表面紋理,轉換成目標紋理。圖中第 1 行為目標紋理 1 和紋理 2。第 2、3 行從左至右依次為,輸入圖像,轉換為紋理 1 的圖像,以及轉換為紋理 2 的圖像。

在 ECCV 2018 上,論文 [1] 的三名作者發表了 Dense Pose 的一個後續應用,即「密集姿態轉移」(dense pose transfer,以下簡稱為 DPT) [2]。與紋理轉換不同的是,DPT 這一任務的目標是,根據輸入的 2D 人體圖像和目標姿態 (target dense pose),將輸入圖像中的人體姿態轉換成目標姿態,並且不改變人體表面紋理。

如圖 5 所示,DPT 系統以 Dense Pose[1] 為基礎,並且由兩個互補的模塊組成,分別是(1)推測模塊 (predictive module),用於根據輸入圖像,預測出具有目標姿態的人體圖像;(2)變形模塊 (warping module),負責從輸入圖像中提取紋理,並「補全」(inpainting) 具有目標姿態的人體表面紋理。此外,系統中還有一個合成模塊 (blending module),通過端對端、可訓練的單一框架,將推測和變形模塊的輸出進行合成,並產生最終的圖像。

圖 5:密集姿態轉移(DPT) 系統的流程圖。該系統包括推測模塊、變形模塊,以及合成模塊。

圖 6 展示了在 DeepFashion 數據集 [6] 上取得的 12 組姿態估計結果。每組姿態結果從左至右依次為:輸入圖像、正確的目標圖像、Deformable GANs (DSC) [7] 獲得的轉移結果,以及 DPT 系統 [2] 獲得的轉移結果。由於 DSC 是目前解決「多視角圖像合成」(multi-view synthesis) 這一問題中效果最佳的方法,所以 [2] 的作者將這一方法與 DPT 系統進行比較。

從圖 6 可以粗略觀察到 DPT 系統在紋理轉移上還不是特別完善。例如,一些女士上衣的花紋沒有被保留,並成功轉移到輸出圖像中;此外,人物的面部特徵也在轉移中出現一些偏差:身著黃色上衣的男士圖像(見圖 6 右側第 3 行),經過姿態轉後,人物面部更為「女性化」。論文 [2] 的作者指出,要取得更好的姿態轉換結果,可能還需要預先獲得一些額外的信息,比如面部特徵、性別以及膚色。

圖 6:密集姿態轉換(dense pose transfer)的實驗結果。左右兩組結果分別包含了輸入圖像、正確的目標圖像、Deformable GANs (DSC) [7] 得到的轉移結果,以及 DPT 系統 [2] 得到的轉移結果。

5. Dense Pose 的應用展望

Dense Pose 為人體姿態估計提供了一種新的解決方法,研究人員也在 demos 中展示了 Dense Pose 能夠實時完成紋理轉移等任務。儘管 Dense Pose 還有許多需要完善的地方,它的應用前景還是相當樂觀的。筆者認為 Dense Pose 未來可以在以下兩個方面進行應用:

一個應用方向是,利用單一圖片進行服裝的虛擬試穿。顧客可以上傳一張自己的全身正面照,並從系統中選擇一套需要試穿的服裝,以及一個目標姿態。Dense Pose 系統則可以根據顧客提供的這些信息,產生出一張合成的圖片,顯示顧客「試穿」服裝後的姿態。

另一個應用方向則是,遠程視頻診斷背部痛疾。就診者按照醫生的要求,穿戴一套專用的傳感器,並依次完成一系列動作(如上身向前傾若干度、蹲下、站直向左扭頭等等)。就診者的這一系列動作將由攝像頭拍攝,並生成視頻實時傳輸給醫生。一個設想是,醫生可以藉助 Dense Pose 系統,根據就診者的動作視頻圖像,生成就診者的 3D 人體模型,並與背部無疾患的人體模型進行對比,從而初步判斷患者是否患有背部疾病。

參考文獻:

[1] Alp Güler, R?za, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[2] Neverova, Natalia, Riza Alp Guler, and Iasonas Kokkinos. "Dense pose transfer." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[3] Alp Guler, Riza, et al. "Densereg: Fully convolutional dense shape regression in-the-wild." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[4] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[5] He, Kaiming, et al. "Mask r-cnn." Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017.

[6] Liu, Ziwei, et al. "Deepfashion: Powering robust clothes recognition and retrieval with rich annotations." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[7] Siarohin, Aliaksandr, et al. "Deformable gans for pose-based human image generation." CVPR 2018-Computer Vision and Pattern Recognition. 2018.

技術分析師的個人簡介

Olli Huang 是澳門科技大學的一名博士研究生,她的研究方向是大規模圖像檢索 (large-scale image retrieval) 和圖像的地理位置估計 (visual-based image geolocalization)。Olli 於 2017 年加入了機器之心的全球團隊,並以自由撰稿人的身份,發表了多篇計算機視覺應用的英文技術評論。

Olli 的機器之心主頁:https://www.jiqizhixin.com/users/84204384-374e-4de0-bfc5-79eee677a8ec。

Olli 的 LinkedIn 主頁:https://www.linkedin.com/in/ollihuang。

本文為機器之心原創,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

相關焦點

  • 人體姿態估計的過去、現在和未來
    當然,top-down往往會被認為速度比bottom-up會更慢,所以在很多要求實時速度,特別是手機端上的很多算法都是基於openpose來做修改的。不過這個也要例外,我們自己也有做手機端上的多人姿態估計,但是我們是基於top-down來做的,主要原因是我們的人體檢測器可以做的非常快。
  • 人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)
    、2D姿態估計方法分類、經典方法和CNN方法概述。)A人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)一、研究背景二、2D姿態估計方法分類概覽三、ClassicalApproach四、CNN-basedMethod五、實驗效果素材(630字)A人體姿態估計
  • 重新思考人體姿態估計 Rethinking Human Pose Estimation
    17年: CVPR:Google的G-RMI開啟基於目標檢測的人體姿態估計方法。CMU的OpenPose系統出現,致力於打造實時姿態估計系統。Deepcut的改進版DeeperCut出現。18年的另外一個趨勢就是,新問題新任務的出現,比如CVPR18的DensePose標誌著密集關鍵點人體姿態估計任務的出現, 2D pose track 任務(CVPR18 PoseTrack數據集)的提出, 以及3D 姿態估計問題的興起.
  • 人體姿態估計(Human Pose Estimation)常用方法總結
    俞剛:人體姿態估計的過去,現在,未來https://zhuanlan.zhihu.com/p/85506259哇噻:重新思考人體姿態估計 Rethinking Human Pose Estimationhttps://zhuanlan.zhihu.com
  • 人體姿態估計(Human Pose Estimation)經典方法整理
    俞剛:人體姿態估計的過去,現在,未來重新思考人體姿態估計 Rethinking Human Pose Estimationhttps://zhuanlan.zhihu.com/p/72561165A 2019 guide to Human Pose Estimation with Deep Learninghttps://nanonets.com
  • 2D人體姿態估計超全綜述及所面臨的困境
    本文選自知乎,作者從2D人體姿態估計的基本任務、研究問題、意義、應用、研究趨勢、未來方向以及個人思考等方面展開分析。文章概括全面,希望可以幫助大家在2D人體姿態估計方面有更深入的思考。從單張RGB圖像中,精確地識別出多個人體的位置以及骨架上的稀疏的關鍵點位置。
  • 人體姿態估計、識別與生成最新技術一覽
    對於 Human Pose Estimation 這個任務來說,最終面向的使用場景是對視頻流進行實時的姿態估計,而且至少要像人類一樣能夠適應各種複雜場景,並且最好是三維人體。Top-down 將整個過程分為人體檢測、單人姿態估計兩個階段。
  • 教程| TF官方博客:基於TensorFlow.js框架的瀏覽器實時姿態估計
    這是一款機器學習模型,可以在瀏覽器中實時估計人體姿態。  模型 Demo:https://storage.googleapis.com/tfjs-models/demos/posenet/camera.html
  • 基於深度學習和傳統算法的人體姿態估計
    優化之後將各個簡化二分圖中共同的骨點進行整合得到最終多人人體姿態估計。這樣做的優點是將NP-hard問題轉化為多個較容易求解的二分圖最優化,可以有效逼近全局最優解,同時降低算法複雜度,提高算法的運行效率,達到實時多人姿態估計的目的。
  • 深度學習人體姿勢估計PoseEstimation指南2019年中英對照版(35k字)
    )A人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)B 深度學習人體姿勢估計PoseEstimation指南2019年中英對照版(29k字)什麼是人體姿勢估計?人體姿勢估計具有一些非常酷的應用,並且大量用於動作識別、動畫、遊戲等。例如,一個非常流行的深度學習應用程式HomeCourt(https://www.homecourt.ai/)使用姿勢估計來分析籃球球員動作。
  • 利用機器學習,進行人體33個2D姿態檢測與評估
    前幾期的文章,我們分享了人臉468點檢測與人手28點檢測的代碼實現過程,本期我們進行人體姿態的檢測與評估通過視頻進行人體姿勢估計在各種應用中起著至關重要的作用,例如量化體育鍛鍊,手語識別和全身手勢控制,還可以在增強現實中將數字內容和信息覆蓋在物理世界之上。
  • 【綜述專欄】2020 Pose Estimation人體骨骼關鍵點檢測綜述筆記
    dense heatmap和offset; 最後通過heatmap和offset的融合得到關鍵點的精確定位。2.Learning to Refifine Human Pose Estimation(2018)本文提出了訓練一個新的模型, 來對某個pose estimation model產生的pose進行修正。文章引入了一種有效的後處理技術用於人體姿勢估計中的身體關節細化任務。由於其前饋架構,簡單且端到端的可訓練,高效的。
  • ECCV 2018論文解讀 | 基於三維重建的全新相機姿態估計方法
    本文是克萊蒙奧弗涅大學發表於 ECCV 2018 的工作,作者提出了一個全新捲簾快門(Rolling Shutter)相機的姿態估計方法。目前國內對於捲簾快門(Rolling Shutter,RS)這一人手必備的相機關注度並不是很高,因此寫了這篇 RS 相機論文的中文版解讀。
  • 谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部
    原標題:谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部(映維網 2020年12月11日)支持行動裝置實時、同步地感知人體姿態和面部特徵並進行手部追蹤,這可以實現多種有影響力的應用,如健身和運動分析、手勢控制和手語識別、以及增強現實效果等等。
  • 遷移性好、多用途,港中文提出特徵分離的無監督人類三維姿態表徵
    對稱性損失要求恢復後的人體姿態,其左右肢體的骨骼長度是一致的。2)對視角不變的姿態特徵的約束由於姿態特徵(pose-dependent feature)只跟具體人體姿態相關,是不隨觀測視角變化而變化的。因而在兩個去噪自編碼器中,這一部分的特徵應該相同。3)對視角變化特徵的約束人腦在認知人體姿態時,能夠將姿態形狀和視角分離。
  • 今日Paper | MaskGAN;深度人臉識別;人體姿態估計;妝容遷移等
    CurricularFace: 深度人臉識別的適應性課程學習損失MaskGAN:多樣和交互的面部圖像操作結合檢測和跟蹤的視頻人體姿態估計論文名稱:Combining detection and tracking for human pose estimation in videos作者:Wang Manchen /Tighe Joseph /Modolo Davide發表時間:2020/3/30論文連結:https://paper.yanxishe.com/review/15949
  • MediaPipe 集成人臉識別,人體姿態評估,人手檢測模型|image|數據流...
    MediaPipe  MediaPipe是一款由GoogleResearch開發並開源的多媒體機器學習模型應用框架。在谷歌,一系列重要產品,如、GoogleLens、ARCore、GoogleHome以及,都已深度整合了MediaPipe。
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    主講人:王志成 | 曠視研究院研究員 屈鑫 整理編輯 量子位 出品 | 公眾號 QbitAI12月13日晚,量子位·吃瓜社聯合Face++論文解讀系列第二期開講,本期中曠視(Megvii)研究院解讀了近期發表的人體姿態估計論文: Cascaded Pyramid Network for Multi-Person
  • CVPR2020 人體相關文章 - 2
    Body RelatedCVPR 2020 PapersCVPR 2020 人體相關的文章第二彈,第一彈見這裡,主要包含人體重建,2D/3D姿態估計,還有幾篇其他方面的人體文章,最後還包含幾篇人手重建相關的文章。  每一篇都超越了 state-of-the-art,每一篇都有可能是現在的 state-of-the-art!