超全綜述!基於深度學習和傳統算法的人體姿態估計

2021-03-02 智東西公開課

優化該二分圖即在所有邊中選擇一組邊使得最終二分圖的總權重最大,所以目標函數可寫為:

約束條件:

其中Ec為二分圖優化之後肢體c的權重,我們要取其中總權重之和最大的;

Fig.11: 算法效果

問題分解與簡化

為擴展到多人所有骨點的最優化問題,即定義Z為K 維匹配問題,這是一個NP-hard問題,為了提高最優化效率,如圖所示,本文採用兩種方法降低二分圖優化算法的複雜度。

首先,如圖所示,剔除跨骨點之間的連接構成稀疏二分圖,代替全連接二分圖;然後根據肢體將稀疏後的二分圖拆解得到圖所示的多個簡化二分圖。

因此,整體優化問題轉化為對各個簡化後的二分圖進行最優化。而最優化的目標函數為所有簡化二分圖的權重之和達到最大:

優化之後將各個簡化二分圖中共同的骨點進行整合得到最終多人人體姿態估計。這樣做的優點是將NP-hard問題轉化為多個較容易求解的二分圖最優化,可以有效逼近全局最優解,同時降低算法複雜度,提高算法的運行效率,達到實時多人姿態估計的目的。


Fig.13: 站長的算法筆記(可添加站長微信領取) 

實驗所使用的顯卡為NVIDIA TITAN XP,CPU為Intel i7-6900K。圖像大小為1920× 1080,通過下採樣方法額外獲得1280 × 720 和720 × 480 兩個低解析度的視頻。


首先分析運行效率與人數的關係,在相同視頻流和相同分辨情況下,計算自頂向下與自底向上運行時間與人數關係,計算結果如圖14所示。由圖可知,自頂向下隨著人數的增加耗時幾乎呈線性增加,而自底向上的運行耗時幾乎不隨人數增加而遞增。卷積神經網絡預測關節點的耗時也幾乎不隨人數增加而增加。因此我所使用的自底向上算法的運行效率不受行人數量的影響,對人數不確定的情況依然可以實時進行多人姿態估計。

Fig.14: 實驗的運行耗時

最後,對三種解析度視頻採用兩種不同方法進行耗時分析,結果如表所示,隨著解析度的降低,處理速度越來越快。若對視頻所有幀都進行關節點檢測,在最高解析度情況下每秒可處理23幀,人眼感覺不到卡頓,基本達到實時。如果採用間隔檢測結合跟蹤,幀率可提高十幾幀,完全達到實時要求。


以下是我採用深度學習算法(Openpose)最終的實驗結果:


Fig.15: 一次旅遊haha

總體而言,效果還算很nice的,關節點都檢測出來了,Great!(羞澀的我)
能閱讀到這裡,說明你也是個踏踏實實的做研究的人了。此時,我們娛樂時間到了,讓我們來段測試視頻放鬆放鬆下:

六階段雙分支網絡結構在關節點預測精度上略高於現有傳統的的人體姿態估計算法。本次站長採用的算法利用自底向上的思想,首先預測出所有骨點位置,並將骨點連接形成圖結構,通過圖優化實現多人體姿態估計。算法運行效率方面,由於網絡同時預測出關節點位置和關節點之間的空間關係,為多人姿態估計算法提供更加稀疏的二分圖,降低二分圖優化複雜度而達到了實時的效果。

參考文獻

相關焦點

  • 人體姿態估計的過去、現在和未來
    3D人體姿態估計的結果圖(來自算法a simple baseline)如下:Densepose算法的結果輸出:過去這部分主要用於描述在深度學習之前,我們是如何處理人體姿態估計這個問題。從算法角度來講,這部分的工作主要是希望解決單人的人體姿態估計問題,也有部分工作已經開始嘗試做3D的人體姿態估計。
  • 重新思考人體姿態估計 Rethinking Human Pose Estimation
    按照人的直觀視覺理解的話,主要會涉及到以下問題:基於Deep CNN的方法的試圖通過神經網絡的擬合能力,建立一種隱式的預測模型來避開上述的顯式問題:基於去顯式分析人體姿態問題的方法是有的,傳統的Pictorial Structure是其中一個較為經典的算法思路,目前也有少數方法用part-based的層級樹結構建立人體姿態模型並利用CNN,來進行學習與預測。
  • 人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)
    再在B部分後一篇介紹深度學習人體姿勢估計PoseEstimation指南2019年中英對照版,約300段(3千個英文單詞和2萬字中文譯文),27幅圖片(含7表+3公式+13神經網絡圖+2個動圖),介紹了15篇arXiv論文(很多是頂級會議優秀論文+5篇附錄論文)、涉及12個ZIP壓縮包(包括9個github項目代碼)和多個標準測試集,均在本文相應連結後註明下載網址和文件名並編號整理為文件夾(550MB
  • 2D人體姿態估計超全綜述及所面臨的困境
    基於Deep CNN的方法的試圖通過神經網絡的擬合能力,建立一種隱式的預測模型來避開上述的顯式問題:基於去顯式分析人體姿態問題的方法是有的,傳統的Pictorial Structure是其中一個較為經典的算法思路,目前也有少數方法用part-based的層級樹結構建立人體姿態模型並利用CNN,來進行學習與預測。
  • 超全綜述!基於深度學習的圖像超解析度技術
    其他的IQA分數深度學習可以用給定的低解析度圖像來估計高解析度圖像。通過使用高解析度圖像作為目標(或 ground-truth)和LR圖像作為輸入,我們可以將其視為監督學習問題。監督式SR方法是同時使用LR和相應的HR圖像進行訓練。通過上採樣模塊在模型中的位置,可以將這些模型分為四個框架。該方法首先對低解析度圖像進行插值,得到「粗」的高解析度圖像。
  • 人體姿態估計、識別與生成最新技術一覽
    傳統的計算機視覺方法,會考慮深度信息的使用。例如 kinect攝像頭可以採集深度信息,進而可以用模式識別來估計人體姿態。而在深度學習時代,這以方向在理論上也值得進一步挖掘,所以對應到RGBD image。單視圖做的差不多了,那自然就開始考慮多視圖。
  • 8篇論文深入學習深度估計:深度預測;自我運動學習;觀看《冰雪奇緣...
    這種方法採用單視圖深度和多視圖姿態網絡。損失函數是基於使用計算出的深度和姿態將附近的視圖變形到目標上的結果。  作者提出了一種用於聯合訓練未標記視頻序列中的單視圖深度CNN和攝像頭姿態估計CNN的框架。監督通道基於視圖合成。深度網絡將目標視圖作為輸入,並輸出每個像素的深度圖。
  • 今日Paper | MaskGAN;深度人臉識別;人體姿態估計;妝容遷移等
    : 深度人臉識別的適應性課程學習損失MaskGAN:多樣和交互的面部圖像操作結合檢測和跟蹤的視頻人體姿態估計通過解糾纏表示的局部面部妝容遷移基於自動生成的訓練數據進行大規模事件抽取學習  CurricularFace: 深度人臉識別的適應性課程學習損失
  • 人體姿態估計(Human Pose Estimation)經典方法整理
    Review of 2D Human Pose Estimation with Deep Learning人體姿態估計(Human Pose Estimation)是計算機視覺中的一個重要任務,也是計算機理解人類動作、行為必不可少的一步。近年來,使用深度學習進行人體姿態估計的方法陸續被提出,且達到了遠超傳統方法的表現。
  • 人體姿態估計(Human Pose Estimation)常用方法總結
    俞剛:人體姿態估計的過去,現在,未來https://zhuanlan.zhihu.com/p/85506259哇噻:重新思考人體姿態估計 Rethinking Human Pose Estimationhttps://zhuanlan.zhihu.com
  • 深度學習最常用的學習算法:Adam優化算法
    聽說你了解深度學習最常用的學習算法:Adam優化算法?-深度學習世界。深度學習常常需要大量的時間和機算資源進行訓練,這也是困擾深度學習算法開發的重大原因。雖然我們可以採用分布式並行訓練加速模型的學習,但所需的計算資源並沒有絲毫減少。而唯有需要資源更少、令模型收斂更快的最優化算法,才能從根本上加速機器的學習速度和效果,Adam 算法正為此而生!
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    基於這篇論文所提出的算法,Megvii(Face++)隊在COCO2017人體姿態估計競賽上獲得了歷史最好成績,相對 2016年人體姿態估計的最好成績提高了19%。本期主講人為曠視研究院研究員王志成,同時也是COCO 2017 Detection競賽隊owner、論文共同一作,在比賽中主要負責整體方案的確定,模型設計、訓練調優的工作。
  • 實時人體姿態估計:Dense Pose及其應用展望
    和 ECCV 2018 相繼發表了兩篇有關「人體姿態估計」(human pose estimation) 的文章 [1] [2],用於介紹他們提出的 Dense Pose 系統以及一個應用場景「密集姿態轉移」(dense pose transfer)。
  • 教程| TF官方博客:基於TensorFlow.js框架的瀏覽器實時姿態估計
    該模型原始碼已開放,Javascript 開發者只需幾行代碼就可以修補和使用該技術。  通過與谷歌創意實驗室合作,TensorFlow 近日發布了 TensorFlow.js 版的 PoseNet。這是一款機器學習模型,可以在瀏覽器中實時估計人體姿態。
  • 聽說你了解深度學習最常用的學習算法:Adam優化算法?
    By蔣思源2017年7月12日  深度學習常常需要大量的時間和機算資源進行訓練,這也是困擾深度學習算法開發的重大原因。雖然我們可以採用分布式並行訓練加速模型的學習,但所需的計算資源並沒有絲毫減少。而唯有需要資源更少、令模型收斂更快的最優化算法,才能從根本上加速機器的學習速度和效果,Adam算法正為此而生!
  • 卡內基梅隆大學機器人學院博士後胡耀鈺:基於深度學習的雙目深度...
    傳統多視圖幾何的三維重建,按照深度圖的獲取方式可以分為主動式三維重建和被動式三維重建。被動式三維重建是依靠多視圖幾何原理基於視差進行計算,按照採集設備的不同可以分為單目視覺、雙目視覺和多目視覺。單目視覺使用單一攝像頭作為採集設備,依靠一段時間內獲得的連續圖像的視差來重建三維環境,然而單張圖像可能對應無數真實物理世界場景,因此從圖像中估計深度進而實現三維重建的難度較大。雙目視覺則主要利用左右相機得到的兩幅校正圖像找到左右圖片的匹配點,然後根據幾何原理恢復出環境的三維信息,其可以較為精確的恢復深度信息。
  • 深度學習人體姿勢估計PoseEstimation指南2019年中英對照版(35k字)
    深度學習人體姿勢估計PoseEstimation指南2019年中英對照版全部內容如下,易於實驗,值得學習。)A人體姿態估計(Human PoseEstimation)文獻綜述(3.6k字)B 深度學習人體姿勢估計PoseEstimation指南2019年中英對照版(29k字)什麼是人體姿勢估計?
  • 深度學習在計算機視覺領域(包括圖像,視頻,3-D點雲,深度圖)的應用一覽
    可以說深度學習是相當「暴力」的,以前分析的什麼約束呀,先驗知識呀在這裡統統扔一邊,只要有圖像數據就可以和傳統機器學習方法拼一把。1 運動/光流估計傳統的方法包括局部法和全局法,這裡CNN取代的就是全局法。這裡是一個光流估計的模型:
  • 今日Paper|神經網絡結構搜索;視覺目標;人物識別;視頻3D人體姿態...
    目錄基於進化算法和權值共享的神經網絡結構搜索檢測視頻中關注的視覺目標包含狀態信息的弱監督學習方法進行人物識別基於解剖學感知的視頻3D人體姿態估計RandLA-Net本文的主要工作是為了優化進化算法在神經網絡結構搜索時候選網絡訓練過長的問題,作者參考了ENAS和NSGA-III。在此基礎上,作者提出了一種新的方法——連續進化結構搜索(continuous evolution architecture search),簡記為CARS。該方法儘可能的利用學習到的一切知識,包括上一輪訓練的結構和參數。
  • 一文全覽深度學習在計算機視覺領域的應用
    可以說深度學習是相當「暴力」的,以前分析的什麼約束呀,先驗知識呀在這裡統統扔一邊,只要有圖像數據就可以和傳統機器學習方法拼一把。1 運動/光流估計;傳統的方法包括局部法和全局法,這裡CNN取代的就是全局法。