CVPR2020 Oral | 動態多尺度圖表達3D人體骨架運動,實現精準預測...

2020-11-24 和訊

  新智元推薦

  編輯:白峰

  【新智元導讀】上海交大、三菱電機實驗室聯合提出將人體骨架建模為一個可學習的多尺度圖,並且對不同層次的特徵,多尺度圖呈現動態變化。通過學習綜合的多尺度特徵表達,DMGNN實現了更準確的未來運動預測,超越SOTA。

  現有的基於3D人體骨架的運動預測方法往往不考慮身體不同部位之間的關聯關係,或是僅考慮單一尺度的關節點關係。

  然而,很多時候是一組關節一起運動,抽象地表達動作的整體特徵;相反,如果過度關注細節的關節,模型的整體性能也容易被複雜的運動影響。這種新的動態多尺度圖神經網絡(DMGNN),實現了更精準的運動預測。

  動態多尺度圖建模3D人體骨架

  基於3D人體骨架的運動預測目的是基於觀測的人體骨架運動序列生成未來的姿態,被廣泛應用於眾多領域如人機互動、自動駕駛和行人跟蹤等。

  現有方法通常無法顯式地挖掘不同身體部位之間的關係或約束,或者僅構建了單一尺度下關節點之間的關係,卻不足以反應一組運動的關節,例如,在行走中,包含多個關節的上肢和下肢之間的交互運動至關重要,不應該過度關注手指和腳趾。

  行走

  拍照

  買東西

  本文提出一種多尺度圖用來描述不同尺度下的人體部位和人體結構。每個多尺度圖包含兩個子圖:單尺度圖和跨尺度圖。

  單尺度圖逐步抽象人體骨骼;跨尺度圖連接相鄰的兩個單尺度圖。多尺度圖是可訓練的,並且在不同的網絡層中呈現動態變化,可靈活的表達不同層級的身體部位之間的關聯關係。

  基於多尺度圖,作者提出動態多尺度圖神經網絡(DMGNN),其整體框架為一個編碼器-解碼器結構,分別用於提取運動特徵和生成未來姿態。

  編碼器的核心是一系列基本組分「多尺度圖計算單元」(MGCU),解碼器核心是「基於圖的門控循環單元」(G-GRU)。

  基於動態多尺度圖的運動預測算法

  動態多尺度圖

  為了建模人體中綜合的關聯關係,作者提出建立多尺度圖,其中圖的節點是不同尺度下的身體部位,邊為身體部位之前的關係。

  多尺度圖包含兩個子圖:單尺度圖和跨尺度圖,其中單尺度圖用於描述單個尺度中的人體內部關聯,而跨尺度圖連接了不同 的單尺度圖,描述了不同尺度中的身體部位的相互作用。

  例如,在粗尺度中的「上肢」節點可與細尺度中的「手」和「肘」建立連接。基於人類先驗,多尺度圖由一種預定義的物理性質的連接作為初始化,在模型的訓練過程中被自適應地調整;針對網絡不同層中的人體特徵,多尺度圖呈現動態變化,靈活地描述不同層級中的人體表達。

  模型框架

  動態圖神經網絡包含一個編碼器和一個解碼器,其中編碼器內部包含串聯的的動態多尺度圖計算單元(MGCU),用來逐層地提取人體運動的多尺度特徵。每個MGCU包含多個單尺度圖卷積塊(SS-GCB)和跨尺度融合模塊(CS-FB)

  其中SS-GCB利用單尺度圖的空間圖卷積以及時間卷積提取單個尺度中運動的時空特徵;CS-FB通過兩個相鄰尺度中的特徵表達,學習兩個尺度中不同身體部位之間的關聯關係,以構建跨尺度圖,並實現兩個尺度中特徵的交替融合。

  解碼器中包含了基於圖的門控循環單元(G-GRU),可以利用圖卷積增強動作隱含特徵中的信息傳播,以更準確地生成未來姿態。

  此外,本文還提出了差分算子,用來獲取運動的速度、加速度等高階特徵,有效地輔助運動預測。

  目標函數

  DMGNN通過L1 loss進行訓練,原因主要是相比於L2 loss,L1 loss在loss小的情況下保持足夠大的梯度,在loss大的情況下降低了梯度爆炸的情況,可訓練模型生成更準確的預測。

  Human3.6M和CMU Mocap數據集驗證效果超SOTA

  作者在Human3.6M和CMU Mocap兩個數據集上進行了實驗,通過計算預測結果與真實序列之間的平均角度誤差進行定量評價,通過展示生成樣本進行定性評價。

  Human3.6實驗結果

  在短期預測中,可以超過絕大多數state-of-the-art方法。在長期預測中,DMGNN可達到十分具有競爭力的表現。

  CMU Mocap實驗結果

  在短期和長期預測中,DMGNN均可超過大多數state-of-the-art方法。

  實驗結果可視化

  通過生成樣本可視化,可以看出,相比於眾多前人工作,DMGNN可以生成準確且合理的未來動作;而其他方法,容易在短期或長期出現較大的誤差或偏移。

  消融實驗

  通過改變不同的身體尺度,可以發現:

  1)當利用3個尺度時,模型的表達效果最優;

  2)當尺度過少時,模型沒有足夠的抽象能力,無法準確把握動作的整體特徵,故表達效果不夠強;

  3)當尺度過多時,模型引入了過多抽象的特徵表達,而動作預測本身對抽象和精度的要求都很高,過於粗化的特徵反而影響了模型的預測能力。

  通過定量和定性的實驗分析,本文證明了DMGNN對比state-of-the-art方法,可以實現準確且合理的短期或長期人體運動預測。

  本文作者:Maosen Li, Siheng Chen, Ya Zhang等

  論文地址:https://arxiv.org/abs/2003.08802

  項目地址:https://github.com/limaosen0/DMGNN(待完善)

  視頻連結:https://www.bilibili.com/video/BV1hf4y1U7Ri

本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:季麗亞 HN003)

相關焦點

  • CVPR2020即將舉行 優必選科技12篇入選論文搶先看
    現有方法大多關注所生成的字幕中物體類別預測的準確性,但很少強調物體之間交互的預測(一般表示為所生成的句子中的動作/謂語)。與句子中的其他成分(比如主語、賓語、冠詞等)不同,謂語既依賴於視頻中的靜態場景(比如主語物體的類別),又與相關物體具體的運動有關。由於忽略了該特性,現有方法預測的謂語可能在很大程度上取決於物體的同現(co-occurrence)。
  • 全球海洋科技發展動態2020年第二期
    現有研究表明,尺度從幾十公裡到幾百公裡不等的、遍布全球並佔據海洋動能90%的海洋中尺度運動,在熱量、可溶性碳、葉綠素、營養鹽等物質與能量的輸送和再分配過程中起著至關重要的作用。最近研究發現海洋中尺度運動存在顯著地沿某個方向伸長的特徵,然而受觀測解析度和現代湍流理論中各向同性假設的限制,當前對海洋中中尺度運動的各向異性特徵的認識仍非常有限。
  • 3d模型製作軟體有哪些?6款常用的3d模型製作軟體推薦
    提到3d模型製作軟體,最出名的就是:3dmax這一款軟體了,不過,除了3dmax,還有許多3d模型製作軟體也非常不錯。那麼,3d模型製作軟體有哪些?下面,小編就給大家整理了6款常用的3d模型製作軟體推薦給大家!
  • 科學家以3D圖像呈現人體內臟消化反應(圖)
    當珊瑚誘捕營養物質時,當前的水流和海浪將把海水和營養物質混合在一起,其結果將形成一種動態效應——液體和營養物質交互。以上珊瑚的生活習性與人體消化系統交互反應所形成的營養交換混合十分相似,在人體消化管道,營養物質通過肌肉運動將濃縮在消化系統內「穿梭」,這導致食物沿著消化管道的一個方向壓縮,其作用就如同海洋水流。
  • 中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR...
    我們提出一種動態特徵匹配方法來解決部分人臉識別問題,它結合全卷積網絡和稀疏表達分類。首先,利用全卷積網絡提取 Gallery 和 Probe 的特徵圖;其次,利用一個大小滑動窗口把 Gallery 的特徵圖分解為與 Probe 特徵圖大小相同的子特徵圖,進而動態特徵字典;最後,利用稀疏表達分類來匹配 Probe 特徵圖與動態特徵字典的相似度。
  • 從模糊到清晰,AI對圖片的識別越來越精準 | Facebook CVPR2016最新...
    但是在之前的方法中,訓練目標僅僅是作為一個代理去鼓勵網絡學會一個有用的表達,我們最初的目標是訓練邊緣探測器,而學會表達僅僅是一個意外結果。3.從視頻中學習邊緣我們最開始是使用電腦視覺中的標準工具製作一些簡單的提示,例如點對應和圖像梯度。我們使用DeepMatching去獲得連續兩幀(I,I』)之間的半稠密匹配。
  • 清華劉永進提出APDrawingGAN,CVPR Oral(附微信小...
    該項工作被CVPR 2019錄取為oral paper。本文還提供微信小程序,供讀者嘗試。肖像畫是一種獨特的藝術形式,通常使用一組稀疏的連續圖形元素如線條來捕捉一個人的外表特徵。肖像畫通常是在人物面前或基於人物照片進行創作的,其創作依賴於細緻的觀察、分析和豐富的經驗。一幅好的肖像畫能很好地捕捉到人的個性和情感。圖1.
  • 北京生科院揭示人體口腔菌群的穩定性和動態變化規律
    北京生科院揭示人體口腔菌群的穩定性和動態變化規律 2019-06-25 北京生命科學研究院 【字體:大 中 小】
  • 水桶腰變S曲線 解析美圖T9骨骼點識別技術
    如今,越來越多的用戶在自拍美顏中,不再刻意追求千篇一律的錐子臉、大眼和瘦臉,而更注重突出和表達專屬於自己的五官之美。因此,此次美圖T9結合獨家金字塔多維人像算法,通過運用全新的改善人像質量的技術,在針對皮膚瑕疵進行精細化處理的同時,能極大限度地保留皮膚細節,實現「不磨皮的美顏」。
  • 人體結構基本概念簡述及畫法
    不知道大家有沒有聽說過六頭身,七頭身這些詞彙,我們簡單地把人的身高劃分為幾頭身,如下圖:這個女人站直的話大概七頭身,就是這個意思。為什麼要這麼分呢,為了方便掌握比例,圖中這個人沒有站直,所以我只是用來表達幾頭身的意思,人體的一般比例如下圖,這是安德魯路米斯畫的人體結構圖,為了讓大家看清楚我標註了一下,順便解釋一下:頭頂到下巴是一個頭,下巴到乳頭是一個頭,乳頭到肚臍是一個頭,肚臍到恥骨是一個頭,恥骨到膝蓋是兩個頭,膝蓋到腳底是兩個頭,以上是男性的比例,來看看女性的比例:一般的比例就是這樣
  • 認識一下細胞骨架體系
    人體有骨骼的支撐,細胞也有它自身的骨質系統作為支撐,是真核細胞藉以維持其基本形態的重要結構,被形象地稱為細胞骨架。微絲(圖2):是由肌動蛋白分子螺旋狀聚合成的纖絲,又稱肌動蛋白絲(actin filament)。一般其直徑大約7納米。微絲和它自身的結合蛋白(association protion)以及肌球蛋白(myosin)三者構成化學機械系統,並利用化學能產生機械運動。由微絲形成的微絲束被稱為應力纖維,常橫貫於細胞長軸。
  • 人體3D 微觀圖展示人體內部構造
    這一圖集其實是對人體內部構造極其真實的展示,旨在以新穎而具創意的方式幫助學生和科學家了解錯綜複雜的科學和生物進程。   據報導,美國康乃狄克州哈特福特市XVIVO工作室的動畫師將人體內耳和骨髓的運動圖像及胃腸道裡的免疫系統放大了十倍。儘管採用了真實的數據,但設備制出的微觀圖像不是彩色的。因此,插圖專家增加了形狀和色調。
  • 「一日三查」動態管理 精準防控紅黃碼人員
    「一日三查」動態管理 精準防控紅黃碼人員 發布時間:2020年02月28日 來源:蒼南新聞網 疫情期間,工業園區實行「一日三查」動態管理,精準防控紅黃碼人員,累計「三返」人員返蒼隔離6人,隔離率均達100%。  2月27日早,蒼南工業園區網格員接到園區一公司負責人的電話匯報,該公司有一名員工健康碼轉為紅色。網格員隨即通知園區有關負責人,隨後,園區應急聯動組第一時間前往企業核實。
  • 3D列印眼鏡市場將達到23億美元
    2020年11月17日,SmarTech Analysis發布3D列印市場研究報告,題為「 2021年3D列印眼鏡穿戴市場」,重點是眼鏡領域採用3D列印的應用。這不僅包括眼鏡片,太陽鏡和眼鏡架,還包括智能眼鏡和運動裝備。為了獲得最新的市場信息,調查人員對主要廠商進行了大量採訪。
  • 上海市質子重離子醫院成功構建肺癌個性化精準預測模型,相關成果登...
    上海市質子重離子醫院成功構建肺癌個性化精準預測模型,相關成果登國際權威期刊 2020-10-27 18:05 來源:澎湃新聞·澎湃號·政務
  • AR+Ai3D姿態捕捉,實時解鎖世界盃球星動態
    AR+Ai3D人體姿態捕捉  科技讓姿捕行業跨形態更精準  太平洋未來科技團隊研發的AR+Ai3D人體姿態捕捉技術,基於自身的AMreal 光場算法,解決光度立體算法,通過深度卷積神經網絡和Wi-Fi穿牆的形態原理,整合特定人的常規形態和三維空間動作,將所有捕捉像素點及掃描參數固定在一個維度中,並將其饋送到訓練網絡,從而完全控制目標對象。
  • 計算機視覺在生物力學和運動康復中的應用和研究
    通常,無標記運動捕獲系統將具有如下圖所示的形式,在此階段,先前的數據會告知模型設計或基於機器學習的判別算法的訓練,然後圖像數據將被捕獲,處理並輸入到可估計人體姿勢和形狀的算法中。生成算法生成運動捕捉方法是通過將人體模型擬合到從圖像中提取的信息來確定人的姿勢和形狀。
  • 2分鐘完成全身掃描,「人體哈勃望遠鏡」落戶仁濟醫院!
    圖說:uEXPLORER 探索者 院方供圖(下同)近日,全景動態PET-CT成像系統uEXPLORER 探索者在仁濟醫院核醫學科完成裝機。這臺2米長的全景動態PET-CT成像系統可一次實現整個人體的全景採集,並完成所有組織和器官同時成像。
  • 布袋除塵器的骨架如何量尺寸?
    布袋除塵器骨架在訂貨形好定,但尺度的問題由於大多變形的原因,使得布袋除塵器骨架多數在丈量上呈現問題。布袋除塵器骨架儘管用的是含有剛性的冷拔絲,但布袋除塵器骨架的原料只能確保未運用時帶有彈性,在布袋除塵器骨架經外力稍稍變形的情況下,一旦完畢外力作用,布袋除塵器骨架能夠原來的尺度。
  • 一文讀懂:圖卷積在基於骨架的動作識別中的應用
    什麼是基於骨架的動作識別人的骨架是什麼?相信沒有誰比我們自己更了解我們身體的構造了。通俗地說,人骨架框架包括六個部分——頭部、左手、右手、軀幹、左腳和右腳。在維基百科中有對人骨架更加精確的定義:人體骨架是人身體的內在框架。人剛出生時,體內約有 270 塊骨頭,成年之後體內骨頭的數量減少為 206 塊。