入門必讀!2D人體姿態估計超全綜述及所面臨的困境

2021-02-26 智東西公開課

來源 | https://zhuanlan.zhihu.com/p/72561165

作者 | 哇塞

提醒 | 本文已獲得作者授權發布,如需轉載請與作者聯繫。

本文選自知乎,作者從2D人體姿態估計的基本任務、研究問題、意義、應用、研究趨勢、未來方向以及個人思考等方面展開分析。文章概括全面,希望可以幫助大家在2D人體姿態估計方面有更深入的思考。

從單張RGB圖像中,精確地識別出多個人體的位置以及骨架上的稀疏的關鍵點位置。


給定一張RGB圖像,定位圖像中人體的關鍵點位置,並確定其隸屬的人體。

按照人的直觀視覺理解的話,主要會涉及到以下問題:


關鍵點之間、人體肢體的空間約束關係是什麼樣的,以及層級的人體部件關係是什麼樣的?不同人體之間的交互關係是什麼樣的,人體與外界環境之間的交互關係是什麼?基於Deep CNN的方法的試圖通過神經網絡的擬合能力,建立一種隱式的預測模型來避開上述的顯式問題:基於去顯式分析人體姿態問題的方法是有的,傳統的Pictorial Structure是其中一個較為經典的算法思路,目前也有少數方法用part-based的層級樹結構建立人體姿態模型並利用CNN,來進行學習與預測。 
當下多數深度CNN回歸的方式, 試圖用模型強大的擬合能力去迴避以上的顯式問題,而從大量的圖像數據和標籤監督信息中用神經網絡去學習圖像數據與構建的標籤信息之間的映射。神經網絡結構的設計是個永遠(當下)都會伴隨的問題(假如深度學習的熱潮沒有退去的話)Top-down:先檢測人體,再做單人姿態估計的兩階段方法。(G-RMI, RMPE, CPN, SimpleBaseline,HRNet,...)
基於bounding box的單人姿態估計問題,在面對遮擋問題容易受到挫折。量化精度問題: G-RMI預測short offset彌補; 最大峰值與次峰的1/4偏移處的經驗估計法; 19-arxiv-Distribution-Aware Coordinate Representation for human pose假設高斯分布用泰勒展開來估計真實位置. 量化精度問題實際上是一種工程問題, 它的本質來源在於, 計算機圖像像素位置處於離散空間, 但是真實關鍵點位置位於連續空間,很多數據變換公式只能近似到離散的像素位置, 所以很多估計都是有偏的, 也有論文19-arXiv-The Devil is in the Details: Delving into Unbiased Data Processing for human pose estimation 在討論姿態估計中數據變換出現的偏差問題。Bottom-up:針對整副圖像的多人關鍵點檢測,檢測所有關鍵點候選位置的同時,一般會用一定的算法關聯或匹配到相關人體(openpose的動態規劃, associative embedding的tag匹配, personlab的貪婪算法等等)。(Deepcut,OpenPose,Aassociative Embedding, PersonLab)。個人認為Bottom-Up方法才是更值得研究的思路,是走向實時姿態估計的主要途徑。今年ICCV-19, 也提出了single-stage multi-person pose machine, 其實也是可以看成一種bottom-up的方法, 它類似於19-arxiv-objects as points 的思路, 因為有中心點的參考, 就弱化了對設計多人人體匹配算法的需求,類似的還有19-arxiv-DirectPose: Direct End-to-End Multi-Person Pose Estimation 工作。
精度不如Top-down的更加精準,但實時性能較好圖像上的人體的尺度大小,未經歸一化,分布很不均勻,關鍵點特徵的提取難大於Top-down的方法 (19-arxiv-Bottom-up Higher Resolution Network 在嘗試不使用多尺度test來克服這個問題)小尺寸圖像的量化精度問題 (PersonLab, Pifpaf的offset預測)標準1 PipeLine:Top-Down和Bottom-up的方法。標準2 全局關係-部分關係:全局的長距離關係的隱式學習問題(大多數)和基於part的中短距離關係學習問題(ECCV-18 PersonLab,ECCV-18 Deeply learned compositional models)的學習問題。標準3 輸出表示:heatmap回歸(大多數),直接坐標回歸方法(CVPR-14-DeepPose,ECCV-18的Integral Pose),向量場嵌入(CVPR-17 G-RMI、OpenPose,ECCV-18 PersonLab,CVPR-19 PIFPAF)的方法等等。
發跡於2014年, CVPR: Google的DeepPose,同年出現了MPII數據集(Max-Planck )以及MS-COCO數據集。NeurIPS還出現了紐約大學LeCun等人將CNN和Graphical Model聯合訓練,並使用了heatmap的表示方法。16年: CVPR:CMU的Convolutional Pose Machine (CPM)和德國的馬克斯普朗克研究所Deepcut以及Stacked Hourglass 網絡結構設計的出現。17年: CVPR:Google的G-RMI開啟基於目標檢測的人體姿態估計方法。CMU的OpenPose系統出現,致力於打造實時姿態估計系統。Deepcut的改進版DeeperCut出現。同年ICCV上,Mask RCNN、上海交通大學的RMPE以及隨後的AlphaPose嶄露頭角, NeurIPS17也出現了Associative Embedding 以新的端到端的方式來避免人體姿態估計多階段不連續學習的問題。18年:CVPR上出現了曠世的CPN拿下了17年COCO挑戰賽的冠軍, ECCV上微軟亞洲研究院的SimpleBaseline用自上而下的方法為姿態估計打造最簡單的baseline,並刷新了COCO數據集的新高。ECCV上還出現了來自中東技術大學的Muhammed Kocabas提出了MultiPoseNet,以及Google的自下而上多任務的新作PersonLab, 值得一提的是還有一些開闢新的研究角度的方法如ECCV上美國西北大學part-based的姿態估計方法Deeply learned compositional models 。18年的另外一個趨勢就是,新問題新任務的出現,比如CVPR18的DensePose標誌著密集關鍵點人體姿態估計任務的出現, 2D pose track 任務(CVPR18 PoseTrack數據集)的提出, 以及3D 姿態估計問題的興起.19年CVPR, 姿態估計再次呈現一個小爆發. HRNet的出現, 成為了姿態估計任務中更強的baseline模型, 其結構本身也具備較強的泛化性, 可以作為backbone的候選. 19 CVPR上還有PIFPAF,針對小尺度的姿態, Enhanced Channel-Wise and Spatial Information Pose加入了attention的模塊到神經網絡結構中 ,Related Parts Help 探討了將人體部件劃分為多個group進行學習的好處,Crowded Pose 針對擁擠場景, Fast Human Pose 使用大模型的知識蒸餾,Pose2Seg 引入像素分割等等, ICCV19 上也有了 single-stage multi person pose machines, 大量的研究在探討姿態估計的問題, 並且3D 姿態估計即將成為主流。當然, 2D姿態估計任務仍然是值得去深入探討的問題, 因為一些本質上的難題目前還沒有完全的洞察和有效的解決方案, 比如嚴重遮擋,多人重疊問題等等。另外, 數據集MPII, COCO數據集上的"刷性能" 也依然是大家孜孜不倦的追求,性能再次來到了新高。
1. 引領姿態估計潮流的有幾夥子人。
2.美國 德國 的研究機構是 姿態估計的 「始作俑者」,亞洲人後來者居上。
3. 歐美國家喜歡方法創新,以及新問題的提出,中國研究機構更擅長佔據性能的榜首。
動作識別的信息來源(從關鍵點的時序空間特徵映射到動作語義問題)
自動駕駛行業:自動駕駛道路街景中行人的檢測以及姿態估計、動作預測等問題娛樂產業:動作特效的增加。快手、抖音、微視等視頻軟體,但娛樂是一種錦上添花的需求,而非必要,人工智慧不應該滿足於」娛樂至上「的精神。安全領域:行人再識別問題,以及特殊場景的特定動作監控,嬰兒、老人的照顧。影視產業:拍電影特效(復仇者聯盟拍攝主要靠動作捕捉衣,是不是可以應用視覺技術?)3D (甚至 4D,5D, 6D,...)人體姿態估計的流行, 大量的論文出現...稀疏關鍵點到密集關鍵點(CVPR-18 FaceBook DensePose)靜態圖像到視頻追蹤 (CVPR-18 PoseTrack)從關鍵點定位到肢體的像素分割預測 (pose parsing,CVPR-19 pose2Seg)從監督學習到弱監督 、自監督,甚至無監督有可能(如, ICLR-2019 unsupervised discovery, parts, structure and dynamics,NeurIPS-2019 Learning Temporal PoseEstimation from Sparsely-Labeled Videos)當然:神經網絡結構的設計也是一個必不可少的環節:從CVPR-16-CPM, ECCV-16-Stacked Hourglass, ECCV-18 SimpleBaseline,CVPR-18 CPN, CVPR-19 HRNet,CVPR-19 Enhanced Channel-wise and Spatial Information,ICCV FPN-POSE, arXiv-19-MSPN-Rethinking Multi-stage Networks for Human Pose Estimation,多尺度融合、多階段級聯、堆疊等等等等,用於姿態估計神經網絡的結構層出不窮 , 甚至NAS for human pose estimation也是有可能,比如19-arXiv-Pose Neural Fabrics Search 引入先驗知識引導神經網絡搜索。如深度學習的熱潮沒有退去的話,神經網絡結構的設計會是一個永遠都會伴隨的問題,只是其重要程度和切入的視角在不斷地發生變化個人思考


當前所有的姿態估計方法幾乎都使用了深度卷積神經網絡的強大功能,但個人認為神經網絡設計絕不是解決該問題的核心,用力搔靴和脫掉鞋子,哪個才是更好的止癢手段呢?人體姿態估計是一個綜合的問題,有很多的切入點和難題值得去研究,並且它是一個尚未實際落地的計算機視覺技術。在這個層面上,AI的產品經理們和投機者們應該想想這項技術怎麼能更好地服務大眾,並帶來市場和利潤。作為科學研究者,賺錢的考慮或應該暫時放到明天。我想討論的是: 當我們面對一項任務和難題, 我們是應該忽略固有的困難和問題,提出新的問題,給出問題方案,去探索新的研究趨勢呢?還是強行深入當前的固有問題,解決當下的難題呢?是不是有一些的問題是超前式的,也許放到以後才會有更加合適的方案和角度來解決?或者說,我們還可以用另一種粗暴的方案:把這一問題黑箱化或者半黑箱化,然後從神經網絡結構設計、數據處理、增強以及其他機器學習數學方法去暴力式的解決。這樣的解決方式實際上是,摒棄了人類本身做姿態估計的直觀思路(上面所述),而是從更加「機器學習」的角度去處理這個問題。假如,我們尋找到一個「完美」結構的神經網絡,讓它去達到100%或者近似100%的準確率!這樣以來,似乎預測問題被完完全全地解決了,但是問題是,我們不知道能不能找到這樣的結構或者技術,或者說一旦找到了以後能不能解釋性地理解這一技術? 這就又引出了大家探討爭論許久的可解釋性問題、顯式推理問題。也許PersonLab和PifPaf的工作值得去思考,繼續引入複合場(Composite Field)的概念,預測人為設計好的高維度向量來處理人體姿態預測問題,讓模型預測更加巧妙的監督信息, 並且能降低量化誤差,設計保持期望的一致性的關聯肢體得分公式,再加之快速貪心算法,利用人體的連通特性就能得到多人姿態。這樣的設計與算法,儘管性能比那些注重網絡結構設計的差一些,但卻遵循合理的直覺,有可解釋性, 這是不是需要我們更多的關注?另外,今年ICLR2019上,有學者甚至提出了無監督的方式處理人體部件。我認為這是一種可以去探討的問題, 因為人體姿態本身其實可以看成圖像中的特徵簇, 其視覺上的連通特性本身就具備了高維空間上的獨特性. 那麼生成模型, 無監督學習在直覺上是可行的嗎? 如果再加上視頻,光流等輔助信息, 是不是就可以從大量無標籤的圖像數據中, 準確構建人體部件的特徵、部件到整體的結構特徵以及人體姿態的運動時序特徵? 這可能又會是一個新的思路和解決人體姿態估計任務的新手段嗎?參考文獻1.Felzenszwalb et al. A discriminatively trained, multiscale, deformable part model. In CVPR, volume 2, page 7, 2008.2.Felzenszwalb et al. Pictorial structures for object recognition. International Journal of Computer Vision (IJCV), 61(1):55–79, 2005.3.Andriluka et al. Pictorial structures revisited: People detection and articulated pose estimation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1014–1021. IEEE, 20094.Andriluka et al. 2d human pose estimation: New benchmark and state of the art analysis. In Proceedings of the IEEE Conference on computer Vision and Pattern Recognition (CVPR), pages 3686–3693, 2014.5.Toshev, Alexander, and Christian Szegedy. "Deeppose: Human pose estimation via deep neural networks." In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1653-1660. 2014.6.Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.7.Jonathan J Tompson, Arjun Jain, Yann LeCun, and Christoph Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In Advances in Neural Information Processing Systems (NeurIPS), pages 1799–1807, 2014.8.Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh. Convolutional pose machines. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4724–4732, 2016.9.Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter V. Gehler, and Bernt Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4929–4937, 2016.7.Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 483–499. Springer, 2016.8.Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7291–7299, 2017.9.Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, and Jian Sun. Cascaded pyramid network for multi-person pose estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7103–7112, 201810.Hao-Shu Fang, ShuqinXie,Yu-WingTai,andCewuLu. Rmpe:Regional multi-person pose estimation. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2334–2343, 2017.11.Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2961–2969, 2017.12.George Papandreou, Tyler Zhu, Nori Kanazawa, Alexander Toshev, Jonathan Tompson, Chris Bregler, and Kevin Murphy. Towards accurate multi-person pose estimation in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4903–4911, 2017.13.Alejandro Newell, Zhiao Huang, and Jia Deng. Associative embedding: End-to-end learning for joint detection and grouping. In Advances in Neural Information Processing Systems (NeurIPS), pages 2277–2287, 2017.14.Bin Xiao, Haiping Wu, and Yichen Wei. Simple baselines for human pose estimation and tracking. In Proceedings of the European Conference on Computer Vision (ECCV), pages 466–481, 2018.15.Muhammed Kocabas, Salih Karagoz, and Emre Akbas. Multiposenet:Fast multi-person pose estimation using pose residual network. InProceedings of the European Conference on Computer Vision (ECCV),pages 417–433, 201816.George Papandreou, Tyler Zhu, Liang-Chieh Chen, Spyros Gidaris, Jonathan Tompson, and Kevin Murphy. Personlab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model. In Proceedings of the European Conference on Computer Vision (ECCV), 2018.17.Wei Tang, Pei Yu, and Ying Wu. Deeply learned compositional models for human pose estimation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 190–206, 2018.18.Andriluka, Mykhaylo, et al. "Posetrack: A benchmark for human pose estimation and tracking." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.19.Alp Güler, Rıza, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7297-7306. 2018.20.Zhang, Song-Hai, Ruilong Li, Xin Dong, Paul Rosin, Zixi Cai, Xi Han, Dingcheng Yang, Haozhi Huang, and Shi-Min Hu. "Pose2Seg: Detection Free Human Instance Segmentation." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 889-898. 2019.21.Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose esti-mation. In CVPR, 2019.22.Su, Kai, Dongdong Yu, Zhenqi Xu, Xin Geng, and Changhu Wang. "Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5674-5682. 2019.23.Wei Tang and Ying Wu. Does learning specific features for related parts help human pose estimation? In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.24.Kreiss, Sven, Lorenzo Bertoni, and Alexandre Alahi. "Pifpaf: Composite fields for human pose estimation." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 11977-11986. 2019.25.Li, Jiefeng, Can Wang, Hao Zhu, Yihuan Mao, Hao-Shu Fang, and Cewu Lu. "Crowdpose: Efficient crowded scenes pose estimation and a new benchmark." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 10863-10872. 2019.26.Li, Wenbo, Zhicheng Wang, Binyi Yin, Qixiang Peng, Yuming Du, Tianzi Xiao, Gang Yu, Hongtao Lu, Yichen Wei, and Jian Sun. "Rethinking on Multi-Stage Networks for Human Pose Estimation." arXiv preprint arXiv:1901.00148 (2019).27.Xu, Zhenjia, Zhijian Liu, Chen Sun, Kevin Murphy, William T. Freeman, Joshua B. Tenenbaum, and Jiajun Wu. "Unsupervised Discovery of Parts, Structure, and Dynamics." arXiv preprint arXiv:1903.05136 (2019).28.Zhou, Xingyi, Dequan Wang, and Philipp Krähenbühl. "Objects as Points." arXiv preprint arXiv:1904.07850 (2019).29.Bertasius, Gedas, Christoph Feichtenhofer, Du Tran, Jianbo Shi, and Lorenzo Torresani. "Learning Temporal Pose Estimation from Sparsely-Labeled Videos." arXiv preprint arXiv:1906.04016 (2019).30.Nie, Xuecheng, Jianfeng Zhang, Shuicheng Yan, and Jiashi Feng. "Single-Stage Multi-Person Pose Machines." arXiv preprint arXiv:1908.09220 (2019).31.Cheng, Bowen, Bin Xiao, Jingdong Wang, Honghui Shi, Thomas S. Huang, and Lei Zhang. "Bottom-up Higher-Resolution Networks for Multi-Person Pose Estimation." arXiv preprint arXiv:1908.10357 (2019).32.Yang, Sen, Wankou Yang, and Zhen Cui. "Pose Neural Fabrics Search." arXiv preprint arXiv:1909.07068 (2019).33.Zhang, Feng, Xiatian Zhu, Hanbin Dai, Mao Ye, and Ce Zhu. "Distribution-Aware Coordinate Representation for Human Pose Estimation." arXiv preprint arXiv:1910.06278 (2019).34.Junjie Huang, Zheng Zhu, Feng Guo, Guan Huang, "The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation." arXiv preprint arXiv:1911.07524 (2019).35.Zhi Tian, Hao Chen, Chunhua Shen. "DirectPose: Direct End-to-End Multi-Person Pose Estimation." arXiv preprint arXiv:1911.07451(2019).

3月3日晚7點,智東西公開課聯合Poly博詣推出智能音頻公開課遠程會議專場,主題為《遠程會議中,智能音頻的創新與挑戰》,由Poly博詣大中華區解決方案專家李志強主講。

掃描下方海報中的二維碼快速報名👇👇👇

相關焦點

  • 人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)
    、2D姿態估計方法分類、經典方法和CNN方法概述。)A人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)一、研究背景二、2D姿態估計方法分類概覽三、ClassicalApproach四、CNN-basedMethod五、實驗效果素材(630字)A人體姿態估計
  • 人體姿態估計、識別與生成最新技術一覽
    對於 Human Pose Estimation 這個任務來說,最終面向的使用場景是對視頻流進行實時的姿態估計,而且至少要像人類一樣能夠適應各種複雜場景,並且最好是三維人體。例如 kinect攝像頭可以採集深度信息,進而可以用模式識別來估計人體姿態。而在深度學習時代,這以方向在理論上也值得進一步挖掘,所以對應到RGBD image。單視圖做的差不多了,那自然就開始考慮多視圖。這裡的多視圖更多指的是同一時刻的不同角度的圖像。這部分對應 Cross-view images。
  • 人體姿態估計的過去、現在和未來
    問題人體姿態估計是計算機視覺中一個很基礎的問題。從名字的角度來看,可以理解為對「人體」的姿態(關鍵點,比如頭,左手,右腳等)的位置估計。3D人體姿態估計的結果圖(來自算法a simple baseline)如下:Densepose算法的結果輸出:過去這部分主要用於描述在深度學習之前,我們是如何處理人體姿態估計這個問題。從算法角度來講,這部分的工作主要是希望解決單人的人體姿態估計問題,也有部分工作已經開始嘗試做3D的人體姿態估計。
  • 【綜述專欄】2020 Pose Estimation人體骨骼關鍵點檢測綜述筆記
    為此,我們精選國內外優秀的綜述文章,開闢「綜述專欄」,敬請關注。地址:https://www.zhihu.com/people/qi-qi-17-13-4701人體骨骼關鍵點檢測是諸多計算機視覺任務的基礎,例如動作分類,行為識別,以及無人駕駛等等。
  • 重新思考人體姿態估計 Rethinking Human Pose Estimation
    17年: CVPR:Google的G-RMI開啟基於目標檢測的人體姿態估計方法。CMU的OpenPose系統出現,致力於打造實時姿態估計系統。Deepcut的改進版DeeperCut出現。18年的另外一個趨勢就是,新問題新任務的出現,比如CVPR18的DensePose標誌著密集關鍵點人體姿態估計任務的出現, 2D pose track 任務(CVPR18 PoseTrack數據集)的提出, 以及3D 姿態估計問題的興起.
  • 人體姿態估計(Human Pose Estimation)常用方法總結
    俞剛:人體姿態估計的過去,現在,未來https://zhuanlan.zhihu.com/p/85506259哇噻:重新思考人體姿態估計 Rethinking Human Pose Estimationhttps://zhuanlan.zhihu.com
  • 人體姿態估計(Human Pose Estimation)經典方法整理
    俞剛:人體姿態估計的過去,現在,未來重新思考人體姿態估計 Rethinking Human Pose Estimationhttps://zhuanlan.zhihu.com/p/72561165A 2019 guide to Human Pose Estimation with Deep Learninghttps://nanonets.com
  • 實時人體姿態估計:Dense Pose及其應用展望
    什麼是密集姿態估計(dense pose estimation)? 密集姿態估計 (dense pose estimation) 將單張 2D 圖片中所有描述人體的像素(human pixels),映射到一個 3D 的人體表面模型。
  • 基於深度學習和傳統算法的人體姿態估計
    優化之後將各個簡化二分圖中共同的骨點進行整合得到最終多人人體姿態估計。這樣做的優點是將NP-hard問題轉化為多個較容易求解的二分圖最優化,可以有效逼近全局最優解,同時降低算法複雜度,提高算法的運行效率,達到實時多人姿態估計的目的。
  • 利用機器學習,進行人體33個2D姿態檢測與評估
    前幾期的文章,我們分享了人臉468點檢測與人手28點檢測的代碼實現過程,本期我們進行人體姿態的檢測與評估通過視頻進行人體姿勢估計在各種應用中起著至關重要的作用,例如量化體育鍛鍊,手語識別和全身手勢控制,還可以在增強現實中將數字內容和信息覆蓋在物理世界之上。
  • 深度學習人體姿勢估計PoseEstimation指南2019年中英對照版(35k字)
    )A人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)B 深度學習人體姿勢估計PoseEstimation指南2019年中英對照版(29k字)什麼是人體姿勢估計?://blog.nanonets.com/human-pose-estimation-2d-guide/)人體姿勢估計是過去幾十年來一直受到計算機視覺社區關注的重要問題。
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    主講人:王志成 | 曠視研究院研究員 屈鑫 整理編輯 量子位 出品 | 公眾號 QbitAI12月13日晚,量子位·吃瓜社聯合Face++論文解讀系列第二期開講,本期中曠視(Megvii)研究院解讀了近期發表的人體姿態估計論文: Cascaded Pyramid Network for Multi-Person
  • 今日Paper | MaskGAN;深度人臉識別;人體姿態估計;妝容遷移等
    CurricularFace: 深度人臉識別的適應性課程學習損失MaskGAN:多樣和交互的面部圖像操作結合檢測和跟蹤的視頻人體姿態估計from=leiphonecolumn_paperreview0414推薦原因這篇論文被CVPR 2020接收,要解決的是人體姿態估計的問題。與現有方法相比,這篇論文提出的新方法通過在時間上向前和向後傳播已知人員的位置並在這些區域中搜索姿勢,來預測未定位的人員實例。
  • 新手入門SLAM必備資料
    搜集了各大網絡,請教了SLAM大神,終於把SLAM的入門資料搜集全了!在分享資料前,我們先來看看,SLAM技術入門前需要具備哪些知識?首先學習SLAM需要會C和C++,網上很多代碼還用了11標準的C++。第二要學會用Linux。第三要會cmake,vim/emacs及一些編程工具。
  • 300多張超全CAD練習圖紙,從基礎到高端,CAD入門必備
    今天整理的這300多張超全CAD練習圖紙就是專門為大家準備的。這套CAD練習圖紙分為17個章節,有300多張,圖紙素材數量多,類型齊全,是製圖新手練習非常好的資源。300多張超全CAD練習圖紙:CAD就是利用計算機可以進行與圖形的編輯、放大、縮小、平移、複製和旋轉等有關的圖形數據加工工作。設計人員通常用草圖開始設計,將草圖變為工作圖的繁重工作可以交給計算機完成。
  • 單目Pose Estimation綜述(2020)
    論文題目:Monocular Human Pose Estimation: A Survey of DeepLearning-based Methods論文連結:https://doi.org/10.1016/j.cviu.2019.102897關鍵詞:人體姿態估計
  • 谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部
    原標題:谷歌發布MediaPipe Holistic,優化人體姿態、面部和手部(映維網 2020年12月11日)支持行動裝置實時、同步地感知人體姿態和面部特徵並進行手部追蹤,這可以實現多種有影響力的應用,如健身和運動分析、手勢控制和手語識別、以及增強現實效果等等。
  • 教程| TF官方博客:基於TensorFlow.js框架的瀏覽器實時姿態估計
    這是一款機器學習模型,可以在瀏覽器中實時估計人體姿態。  模型 Demo:https://storage.googleapis.com/tfjs-models/demos/posenet/camera.html
  • ECCV 2018論文解讀 | 基於三維重建的全新相機姿態估計方法
    本文是克萊蒙奧弗涅大學發表於 ECCV 2018 的工作,作者提出了一個全新捲簾快門(Rolling Shutter)相機的姿態估計方法。目前國內對於捲簾快門(Rolling Shutter,RS)這一人手必備的相機關注度並不是很高,因此寫了這篇 RS 相機論文的中文版解讀。