「深度學習實戰項目分享」視頻三維人體姿態的動態學習

2021-01-09 明柳夢少

本文為譯文,外文素材來源於GitHub,經本人翻譯後首發於此,其中略有增刪修改,僅供大家學習交流參考。如有學習需要,請大家到GitHub原始庫連結進行clone學習。GitHub項目庫名:akanazawa/human_dynamics

論文

《Learning 3D Human Dynamics from Video》[UC Berkeley] (2019)

作者:Angjoo Kanazawa *,Jason Zhang *,Panna Felsen *,Jitendra Malik(*平等貢獻)

摘要

overview

我們可以利用行動中的人的圖片,很容易地猜測這個人在過去和未來的3D運動。這是因為我們有一個有效的3D人體動力學的理論模型,這個模型是通過觀察運動中人類的視覺序列所獲得的。在這項工作中,我們提出了一個框架,通過簡單但有效的圖像特徵時間編碼,可以類似地從視頻中學習人類3D動態的表示。在測試時,通過視頻,學習的時間表示可以恢復平滑的3D網格預測。我們的模型可以從單個圖像中恢復當前的3D網格以及3D過去和未來的運動。

我們的方法旨在使其能夠以半監督的方式從具有2D姿勢注釋的視頻中學習。但是,帶標籤的數據總是有限的。另一方面,網際網路上每天都有數百萬的視頻上傳。在這項工作中,我們通過使用從現成的2D姿勢檢測器獲得的偽地面真實的這種網際網路規模的未標記的2D姿勢數據源,來訓練我們的模型。我們的實驗表明,添加更多具有偽地面真實2D視頻的視頻可以單調提高3D預測性能。

我們在最近具有挑戰性的3D Poses in the Wild數據集中評估我們的模型,並在沒有任何微調的情況下獲得3D預測任務的最先進性能。

demo

項目實戰

1、依賴

Python 3(在3.5版上測試)TensorFlow(在1.8版本上測試)PyTorch(0.4.0版上測試)AlphaPose / PoseFlowNeural Mesh Renderer CUDA(使用Titan 1080 TI在CUDA 9.0上測試)ffmpeg(在3.4.4版本上測試)注意:目前沒有CPU支持。

2、安裝

①git clone 本項目庫

本文不便放置外鏈,以防止被平臺誤偵測為廣告哈!

②設置python虛擬環境--virtualenv

代碼:

virtualenv venv_hmmr -p python3

source venv_hmmr/bin/activate

pip install -U pip

pip install numpy

# Some of the required packages need numpy to already be installed.

deactivate

source venv_hmmr/bin/activate

pip install -r requirements.txt

②安裝其他額外依賴庫

Neural Mesh Rendere和AlphaPose用於渲染結果:

代碼:

cd src/external

sh install_external.sh

上面的腳本還克隆了我的AlphaPose/PoseFlow分支,這是運行演示以提取視頻中人物軌跡所必需的。請按照安裝中的說明進行操作,特別是執行pip install -r requirements.txt以便從src/external/AlphaPose安裝依賴項及下載預訓練過的模型。

3、演示

①下載預先訓練的模型。將models文件夾放在頂級目錄中。

wget + 預訓練模型下載連結

本文不便放置外鏈,以防止被平臺誤偵測為廣告哈!原始庫裡提供了預訓練模型下載的連結。

②下載demo_data視頻。將demo_data文件夾放在頂級目錄中。

wget + demo_data視頻下載連結

本文不便放置外鏈,以防止被平臺誤偵測為廣告哈!原始庫裡提供了demo_data視頻下載的連結。

③運行演示。此代碼為您運行AlphaPose / PoseFlow。如果您遇到任何問題,請確保AlphaPose可以在圖像目錄上運行。

# Run on a single video:

python -m demo_video --vid_path demo_data/penn_action-2278.mp4

# If there are multiple people in the video, you can also pass a track index:

python -m demo_video --track_id 1 --vid_path demo_data/insta_variety-tabletennis_43078913_895055920883203_6720141320083472384_n_short.mp4

# Run on an entire directory of videos:

python -m demo_video --vid_dir demo_data/

這將創建一個目錄demo_output/<video_name>,其中中間跟蹤結果和我們的結果保存為視頻,以及pkl文件。或者,您也可以指定輸出目錄。

4、數據

InstaVariety

我們提供了用於InstaVariety的原始視頻列表,以及tfrecords中的預處理文件。有關詳細信息,請參閱 doc/insta_variety.md文件。

5、引文

如果您將此代碼用於研究,請考慮引用:

@InProceedings{humanMotionKZFM19,

title={Learning 3D Human Dynamics from Video},

author = {Angjoo Kanazawa and Jason Y. Zhang and Panna Felsen and Jitendra Malik},

booktitle={Computer Vision and Pattern Recognition (CVPR)},

year={2019}

代碼和相關下載連結請訪問GitHub項目庫:akanazawa/human_dynamics

相關焦點

  • 一個超乾貨的3D視覺學習社區
    視覺從入門到精通」知識星球超全的資料和答案獲取,請移步到「3D視覺從入門到精通」知識星球:一個超乾貨的3D視覺社區,目前已有近2000+的小夥伴加入學習,每天都有新知識分享。星球內部匯集了眾多實戰問題(相信一定能幫你少走很多彎路),以及各個模塊的學習資料:論文、書籍、源碼、視頻等。針對小白,星球推出了學習路線,能夠幫助新人逐漸進階學習,我們的vip群更是營造了良好的學術交流環境。針對需要進階的童鞋,星球匯總了大量的前沿技術資源,相信這些內容一定能夠幫助到個人的成長發展。
  • 圖靈獎「擁抱」深度學習
    ACM 將本屆圖靈獎頒給了深度學習領域,並且讚譽三位獲獎人為「深度學習之父」。他們分別是:Yoshua Bengio,蒙特婁大學教授,人工智慧孵化器 Element AI 聯合創始人;Geoffrey Hinton,多倫多大學名譽教授,Google Brain 高級研究員;Yann LeCun,紐約大學教授,Facebook 首席 AI 科學家。
  • 三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇
    他的報告題目是「人體動態重建技術前沿」。報告對人體動態重建這一研究課題,圍繞便捷性和實時性兩大目標的學術界相關研究成果回顧了技術發展歷程,做了全方位的技術介紹。二維人臉分析解決不了光照問題;二維人臉識別無法很好解決姿態變化的問題(對於不同表情的人臉,做身份識別之前需要嘗試恢復到中性的表情,但信息的重加工可能會破壞身份信息);三維人臉分析對化妝的容忍度更高。以及,對於照片、視頻、仿真面具三類攻擊的容忍程度上,三維對前兩種有天然的免疫(採集不到深度信息),而且對面具的抵抗性也要比二維方法好很多。
  • 「原創」課題-基於深度信息的人體姿態在公共場合的應用
    一、研究內容:基於深度信息的人體姿態在公共場合的應用基於深度信息的人體姿態在公共場合風險控制的應用關鍵技術攻關項目,主要研究在公共場合通過採集深度圖像,檢測圖像中的人體並返回人體矩形框位置,精準定位核心關鍵點,支持多人檢測,並通過群體姿態研判公共場合風險情況,詳細研究內容如下:1)構建通過人(群)體姿態研判公共場合風險評估模型;2)實現公共場合下群體深度圖像採集
  • 2019年最值得學習的機器學習項目(下)
    (上)中,我們盤點了很多優秀的機器學習項目,其中有 3D 姿態估計,建築機器翻譯,圖像和視頻中的汽車消除等等有意思的內容。Abhishek 還快速概述了項目結構:「Maskrcnn 在 Coco 數據集上訓練以識別和分割對象->將其屏蔽並刪除像素->在 Place2 數據集上訓練邊緣連接模型以填充丟失的像素。」
  • WAVE SUMMIT+2020深度學習開發者峰會報名啟動
    與往屆相比,WAVE SUMMIT+2020在「生態盛典」這一環節的設置上,更加著重呈現了生態的豐富,從產業合作落地、人才培養、開源生態共建三個維度分別呈現:產業合作落地方面,邀請了來自不同行業的知名企業進行合作案例的分享,並且將頒發「飛槳產業應用創新獎」;人才培養方面,北京大學、北京航空航天大學、中國人民大學等諸多頂級高校人工智慧專家將對話如何培養人才;
  • 如何畫好女生人體動態?這些方法值得學習!
    這些方法值得學習!很多同學在學畫畫到一定階段後,就會進入人體學習階段,這時有的同學會發現,畫正常的靜止姿勢沒問題,但一畫動態就感覺人物姿態很是彆扭?關節角度和人體姿勢十分不科學。這是為什麼呢?    如果大家想要學習繪畫的話,可以去輕微課網站看一下,裡面有大量的繪畫學習資源、教程、素材。下載「輕微課APP」學習更方便!
  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    包含了推薦算法系統實戰、深度學習人臉識別實戰、深度學習對話機器人實戰等高級前沿的精品課程,下面分別介紹下各個實戰項目:1、推薦算法系統實戰首先推薦系統不等於推薦算法,更不等於協同過濾。下面我們就從推薦系統的整體架構以及各個子系統的實現給大家深度解密來自一線大型網際網路公司重量級的實戰產品項目!!!
  • 因深度學習成就,香港大學羅平入選《麻省理工科技評論》亞太區「35...
    《麻省理工技術評論》表示,該區域名單能為亞太地區最聰明和最年輕的人們創建聯繫,並擴大其創新成果所產生的影響。師從湯曉鷗、王曉剛,最早將深度學習應用於計算機視覺的「先行者」——香港大學計算機系助理教授羅平本次也位列榜單。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    更重要的是,大家已經意識到了深度學習的種種限制,那麼想要破除限制、實現更高級的智慧時,就免不了需要思考,是「繼續改進深度學習就可以達到目標」,還是「我們需要在深度學習之外另起爐灶」,這裡也就引出了那個看似簡單,但大家尚未達成共識的問題「深度學習是什麼?」不少學者最近都參與了這個討論,雷鋒網 AI 科技評論帶大家回顧一下各方觀點。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    近日,北京智源人工智慧研究院開展了第一次論壇,其以「人工智慧的數理基礎」這一重大研究方向為主題,從數學、統計和計算等角度討論了智能系統應該怎樣融合數學系統。在論壇中,北京大學董彬副教授、林偉研究院和張志華教授等研究者從基礎出發介紹了「數學」眼中的機器學習是什麼樣的。
  • 埃洛克防務發布「守望者」、「觀測者」
    AIRLOOK子公司埃洛克防務正式發布定點巡航系統——「守望者」、偵查系統——「觀測者」,兩款防務無人機系統將提供全天候視頻監測,二、三維地圖數據獲取
  • 「GAIR 大講堂」大牛、學霸們的精華分享一次看個夠 | 年度盤點
    極限元算法專家:深度學習在語音生成問題上的典型應用 內容簡介:深度學習在語音生成和語音增強上的新穎應用方法Video ++孫兆民:人工智慧行業報告——視頻內容識別行業分析   內容簡介:這份報告並非針對人工智慧領域全局觀,而是解構視頻行業,圍繞國內視頻內容識別這一垂直領域的創業公司展開討論,從市場、產品、技術、商業模式、人才等多個維度出發,淺析人工智慧技術在視頻中的發展方向
  • 「視頻」ENVI基礎操作教學視頻(46集)匯總
    好久不見,最近蠻多同學求ENVI相關的學習資料,小編收集了ENVI-IDL中國官方的視頻教程。
  • 深度強化學習走入「死胡同」,繼續死磕電子遊戲還是另闢蹊徑?
    無論是 DeepMind 星際2 AI 「AlphaStar」血虐人類玩家,還是 OpenAI 最終因太過強大而被認為可能有風險所以不公開發布的語言模型 GPT-2,無疑都在過去一年中最轟動的 AI 大事件之列,也吸引了 AI 社區的越來越多的研究者投身深度強化學習研究之列。然而,也有很多反對的聲音認為深度強化學習現在的一系列成果,其實更像是一種虛假的「繁榮」。
  • 怎樣通過深度案例式學習持續提升職業技能?
    某些時刻,某個職業階段,我們多多少少都會經歷這樣一種無力的狀態……可能,這也是「中年危機」、「網際網路沒有35+」這些詞彙由來的原因。幾乎每一個人在職場中遇到的困境和挑戰,比如:精力不足、健康透支、時間管理差、跟直線老闆溝通困難甚至無法相處、項目推動不起來 、面對創新業務完全無從下手、人際關係緊張、崗位績效差長期沒有優質產出……這些在一份工作中的「不適」和「焦灼」,本質上,無一不是背後的能力錯配、能力低配導致的。這個能力,對應來說,可以劃分為幾個維度:1.
  • DeepMind綜述深度強化學習中的快與慢,智能體應該像人一樣學習
    不過雖然它們很強大,但學習效率的低下讓它們很難推廣到更普遍的任務,也許結合「快」與「慢」的學習才是強化學習應該走的路。DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上發表文章,概覽了深度強化學習中的一些新技術,這些技術旨在彌補強化學習智能體與人類之間的學習速度鴻溝。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    圖網絡GNN(特別篇):一文遍覽圖網絡中16種典型的圖卷積和9種圖池化Graph Pooling從源頭深入分析GCN的四個行文思路:重要度度量與累計,注意力,局部一致性,Laplacian變換KDD『18 | 學習任意階鄰近度的Network Embedding3 綜述論文清華大學朱文武「基於深度學習的圖表示」綜述論文,51頁pdf
  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享...
    近期,在雷鋒網(公眾號:雷鋒網) GAIR 大講堂上,來自德州大學奧斯汀分校的在讀博士沈彥堯基於亞馬遜實習項目延伸探討了主動學習在深度學習中的應用與思考,並分享了多篇深度主動學習的 ICLR,ICML 文章。
  • 深度解析:一文看懂CVPR 2017五大研究前沿
    在本屆CVPR,該研究方向亦受到廣泛關注,並體現出兩大特點:一方面其在傳統多視圖幾何如三維重建等問題上有所突破,另一方面它也和現今研究熱點,如深度強化學習等領域緊密結合。四、計算機視覺與機器學習Computer Vision & Machine Learning計算機視覺與機器學習歷來聯繫緊密,隨著深度學習近年來在視覺領域取得的空前成功,機器學習更是受到更廣泛的重視。作為機器學習一個分支,深度學習依然是計算機視覺領域絕對主流。但與前幾年不同的是,純粹用深度學習模型「單打獨鬥」解決某個視覺問題似乎不再流行。