遷移性好、多用途,港中文提出特徵分離的無監督人類三維姿態表徵

2021-01-10 AI科技大本營

本文將介紹一種基於特徵分離的通用人類姿態特徵的學習算法

Unsupervised Human 3D Pose Representation with Viewpoint and Pose Disentanglement。

該算法從無監督的特徵分離過程中,習得了一個遷移性好、多用途的人類3D姿勢的表徵,從而有助於人工智慧系統獲取對人體姿態一個通用本質的理解。

實驗證明,所習得的表徵,能夠用於姿態去噪、人體動作識別和人體3D姿態估計等多個不同的任務。這篇文章來自於香港中文大學,被ECCV 2020 收錄。本文將言簡意賅的分享這篇文章,希望對讀者有所啟示。

問題解析

在這篇文章中,作者首先對人類姿勢表徵學習這一問題進行了剖析,認為人體姿態表徵應該考慮一下幾個方面:

1)人體姿態的本質特徵(inherent feature)是什麼

作者認為,姿態表徵應該首先能夠表達人體姿態的本質特徵,而該特徵應該同時包括人體關節間運動學關係(kinematic dependency)和人體骨骼結構外觀特性(geometric dependency)。

人體關節間運動學關係表述了運動在人體各部分間的傳播關係,解釋了人體姿態是如何生成的,以及決定著在某一動作中身體各個部分的作用。外觀特性指人體骨骼結構特有的外觀,比如說左右肢體的對稱性。

2)本質特徵的視角不變性(view-invariant)

數據記錄中的人體姿態常常隨著觀測相機的視角變化而變化。但人體姿態的本質特徵是不隨視角而改變的。表徵作為人體姿態的抽象理解,應該也具備這樣的特性。

3)特徵分離(feature disentanglement)

人體姿態的形成常常是多個因素互相作用的結果。例如,某一個人體姿態跟動作的執行者、動作本身、以及相機的記錄角度是息息相關的。人工特徵提取常常基於人類的先驗知識,從物理學或統計學的角度去考慮某些因素。

這些考慮常常是不完善的,容易導致信息丟失。信息丟失也同樣發生在單純不變特徵的學習過程中。

因而,以人工特徵(hand-crafted feature)或者不變特徵(view-invariant feature)為表徵,常常只能用於特定任務,缺乏泛化性。作者引用圖靈獎獲得者Bengio的觀點,認為特徵分離是解決這一問題最有效方式。

現有的人體姿態表徵方法因為對以上幾點,沒有做到一個全面地考量,所以導致泛化性和有效性受限。

學習算法思路

作者借鑑去噪自編碼器(denoising autoencoder)的思想,設計了一個恢復破壞人體姿態的任務。但是不同於一般的去噪自編碼器對輸入添加高斯噪聲,文中對人體3D姿態進行了隨機嚴重的破壞。

作者認為,如果網絡能夠恢復那些被破壞關節的正確位置,那麼它就應該學習到了人體3D姿態的本質特徵。同時在潛空間中,作者將人體姿態特徵分解為視角不變的姿態特徵(pose-dependent feature)和隨視角變化的視角特徵(view-dependent feature)。

這一過程可以由下面式(1)表示。

然而,作者認為上述過程依舊不足以引導網絡學習到想要的特徵。因為單個去噪自編碼器每次只能從一個視角下的姿態學習,它並不知道某一姿態在另一視角下是什麼樣的。

因而也就沒人任何視角的概念,無法做到視角變化下的魯棒性(robustness)。為了引入視角的概念,作者將原始輸入姿態進行隨機的3D旋轉,並引入另外一條神經網絡並行處理這些旋轉變換後的人體姿態。

兩條神經網絡共享網絡參數,這是學習的關鍵。簡單來說,通過共享參數,實現了讓同一個learner同時從不同視角觀測某一姿態,並理解這兩個視角下哪些是相同的(pose-dependent feature),哪些是不同的特徵(view-dependent feature)。

作者在文中,從生成模型的角度,給出了相應的解釋及最終的學習目標,如式(2)。

網絡結構

3.1 SeBiReNet

圖1 用於對人體骨骼數據建模的SeBiReNet

為了實現對人體3D姿態運動學關係的內在建模,作者提出一個串聯雙向遞歸網絡(Sequential Bidirectional Recursive Network, SeBiReNet)如圖1所示。

該網絡由兩個部分組成,一個遞歸子網絡(recursive subnet),一個發散子網絡(diffuse subnet)。兩個子網絡中的每個神經節點都對應人體骨骼模型中的一個關節,因而它們具有相同數量的節點。每個子網絡中的節點數和骨骼模型中的關節數相當。

圖1中,不同的顏色代表了不同的身體部分,比如左右上肢、左右下肢、軀幹。信息在這兩個網絡中的流向是反向的,它們分別模擬了人體運動過程中的逆向運動關係(inverse kinematic process)和前向運動關係(forward kinematic process)。

兩個子網絡具有各自的參數但是共享隱狀態量(hidden states)。也就是說,遞歸子網絡中的推理能夠更新發散子網絡的推理結果。發散子網絡的中隱狀態的變化依賴於遞歸子網絡的結果。

這樣,推理過程可以在兩個子網絡中,以一種循環的方式(recurrent mode)進行,從而達到不斷優化結果的目的。子網絡計算過程由式(3)給出,其中上標r代表遞歸子網絡,d代表發散子網絡。

文中進一步還給出了該網絡的複雜度分析。如果SeBiReNet每個網絡節點的隱狀態維度為

,輸入量的維度為

,那麼某一有著N個子節點(在遞歸子網絡中)或者父節點(在發散子網絡中)的神經元具有的參數量為

在後續實驗中,作者與其他網絡結構的參數量進行了對比,證明所提出的網絡結構輕量而有效。

3.2 基於SeBiReNet的表徵學習網絡架構

圖2 人體3D姿態表徵學習網絡(Siamese-DAE)

基於前面所提到的人體姿態表徵學習思路,作者提出了一個孿生去噪自編碼器(S-DAE)的網絡結構用於表徵學習。

其中兩個去噪自編碼器分別處理原始輸入和隨機旋轉後的姿態輸入,並共享學習參數。為了習得預想的特徵,該架構的主要組成部分有:

1)姿態重建損失函數(pose reconstruction loss)

為了在編碼運動學關係的同時捕捉人體3D結構的幾何外觀特性,作者認為姿態重建損失函數應當包括三個部分,關節位置損失(

),骨骼長度損失(

)和對稱性損失(

)。

其中關節位置損失定義為恢復關節點的位置和ground truth位置的歐氏距離。骨骼長度損失要求恢復後的骨骼長度和ground truth骨骼長度一致。對稱性損失要求恢復後的人體姿態,其左右肢體的骨骼長度是一致的。

2)對視角不變的姿態特徵的約束

由於姿態特徵(pose-dependent feature)只跟具體人體姿態相關,是不隨觀測視角變化而變化的。因而在兩個去噪自編碼器中,這一部分的特徵應該相同。

3)對視角變化特徵的約束

人腦在認知人體姿態時,能夠將姿態形狀和視角分離。受此啟示,作者認為網絡潛空間中視角特徵應該不影響姿態特徵的度量空間,就像旋轉並不改變骨骼長度。酉變換能夠滿足此要求,但在實數域的問題中,只需要將視角特徵約束在正交變換空間中。即

4)視角遷移姿態重構

受益於特徵分離,作者認為,如果姿態特徵和視角特徵能夠很好地分離,那麼通過交換兩個姿態潛空間中的視角特徵,可以將一個姿態變換到另一個姿態的視角下,生成交叉視角的姿態(view-transferred poses)。

綜上所述,作者最終提出的網絡訓練損失函數為:

實驗結果

在實驗室,作者使用四個數據集:Cambridge-Imperial APE dataset, Northwestern-UCLA dataset, NTU RGB+D dataset 和H3.6M dataset. 其中Cambridge-Imperial APE dataset用於去噪自編碼器(S-DAE)的訓練和驗證。

Northwestern-UCLA dataset和NTU RGB+D dataset用於評估網絡在去噪3D人體姿態的表現和所習得的姿態表徵在人體動作識別中的表現。最後,文章探索了習得表徵在人體3D姿態估計中的應用,並在H3.6M dataset上驗證。各部分實驗結果如下:

4.1 對SeBiReNet的對比分析

文中首先對SeBiReNet建模人體骨骼姿態的能力進行了比較分析,結果如表1所示。結果表明,所提出的SeBiReNet在處理人體骨骼結構方面由於傳統的遞歸神經網絡(recursive neural network)和多層感知器(MLP),這主要得益於SeBiReNet對人體內在運動學關係的建模。

4.2 人體姿態去噪(Pose Denoising)

圖3 左圖(a)APE dataset中的人體骨骼模型以及隨機破壞後的人體姿態(corrupted skeletons)樣例;右圖(b)經過網絡恢復後的人體姿態(recovered skeletons)樣例。其中綠線、紅線和藍線分別繪製的ground truth姿態,破壞後的姿態以及恢復的姿態。

圖4 未經進一步訓練,在Northwestern-UCLA上的骨骼去噪結果。

從骨骼長度,肢體對稱以及關節運動範圍來看,恢復後的骨骼比原始骨骼更加合理穩定。

4.3 無監督人體動作識別

表2 展示了所習得的姿態表徵用於跨視角人體動作識別的結果。可以看到,所提出的姿態表徵在無監督動作識別中具有最好的識別結果(state-of-the-art results)。

這一結果即使跟一些有監督方法比較,也非常有競爭力。作者認為這充分說明了所習得表徵的有效性。只有習得的姿態特徵編碼了人體姿態的本質特徵以及具備視角不變的特性,才能獲取如表所示的結果。

而且跟其他方法相比,文中方法的驗證過程更加嚴格。作者在APE dataset上進行網絡訓練,然後沒有在動作數據集上進行任何進一步的微調,直接提取特徵。這也充分表明了文中方法的泛化性能。

進一步通過ablation study表明,如表3所示,學習架構中的所提出的各個部分均能夠提升表徵在動作識別中的表現,其中特徵分離和對姿態特徵的約束最為重要。

4.4 在3D人體姿態估計中的推廣應用

圖5 3D人體姿態估計的推廣應用

在文章的最後一部分,作者設計了一個簡單網絡架構將習得的姿態表徵應用到3D的人體姿態估計中。

如圖5 所示,該架構包括一個3D編碼器(encoder),一個3D解碼器(decoder)和一個2D編碼器。其中編碼器和解碼器的網絡結構同前文中S-DAE中的編碼器和解碼器結構相同。

通過約束2D編碼器習得一個和3D編碼器一樣的姿態表徵,在通過共享解碼器解碼,實現了從2D 人體姿態估計3D人體姿態。

在H3.6M dataset上微調後,得到的結果如表4所示。可以看到,所習得的姿態表徵也能夠被用於人體3D姿態估計。

總結

作者基於特徵分離以及對人體3D姿態本質特徵的分析, 提出了一個新的人體姿態表徵學習方法。所習得的表徵在不同的數據集和與人體姿態相關的任務上,具備良好泛化能力和有效性。

該表徵有助於人工智慧系統獲得一個對人體姿態普適本質的理解,從而有助於各種與人體姿態相關的下遊任務(down-stream tasks)。

論文地址:

https://arxiv.org/abs/2007.07053

代碼地址:

https://github.com/NIEQiang001/unsupervised-human-pose

性能超越GPU、FPGA,華人學者提出軟體算法架構加速AI實時化馬斯克腦機接口、BrainOS相繼發布,不努力也能有出路了跑路後再刪庫?思科前員工離職後惡意刪庫,損失達 240 萬美元

相關焦點

  • 螞蟻金服提自監督表徵學習識別方法
    特徵提取器的訓練採用了表徵學習方法,使用無標籤的數據樣本以自監督的方式進行訓練,使特徵提取器能夠提取到有效的且具有判別力的字符特徵。當特徵提取器訓練好了之後,在後面接上分類器,使用少量帶有標籤的驗證碼圖片以全監督的方式訓練分類器。
  • 港中文開源OpenSelfSup: Open-MMLab自監督表徵學習代碼庫
    本文作者:Xiaohang Zhanhttps://zhuanlan.zhihu.com/p/148782886本文已由原作者授權,不得擅自二次轉載前言自監督的表徵學習領域近幾個月來獲得了顯著的突破,特別是隨著Rotation Prediction, DeepCluster, MoCo, SimCLR等簡單有效的方法的誕生,大有超越有監督表徵學習的趨勢。
  • 一行命令跑評測,港中文MMLab開源自監督表徵學習代碼庫
    自監督表徵學習發展迅速,但也存在諸多問題。近日,香港中文大學多媒體實驗室(MMLab)和南洋理工大學的研究者開源了一套統一的自監督學習代碼庫 OpenSelfSup。前言近幾個月來自監督表徵學習領域獲得了顯著突破,特別是隨著 Rotation Prediction、DeepCluster、MoCo、SimCLR 等簡單有效的方法的誕生,自監督表徵學習大有超越有監督表徵學習的趨勢。
  • ICML 2019最佳論文:谷歌質疑現有無監督分離式表徵學習
    谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。另外,還有七篇論文獲得提名獎。今年的論文錄取競爭異常激烈,ICML 2019共提交了3424篇論文,其中錄取774篇,論文錄取率為22.6%。
  • 加速RL探索效率,CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵
    選自arXiv作者:Lisa Lee等機器之心編譯機器之心編輯部巨大的探索空間阻礙了強化學習(RL)的發揮,這篇論文通過弱監督學習從廣泛的目標空間中分離出有語義意義的表徵空間,從而增強 RL 的學習速度與泛化性能。通用型智能體必須通過與真實環境交互來高效學習各種任務。
  • 「神經網絡就像任性的小孩」港中文博士揭開自監督學習的秘密
    最近,港中文MMLab開源自監督表徵學習代碼庫OpenSelfSup,號稱「一行命令跑評測」,並在各大Benchmark上復現結果。OpenSelfSup 使用 PyTorch 實現,支持基於分類、重建、聚類、memory bank、contrastive learning 的多種自監督學習框架。
  • 海康威視提出:無監督圖像分類的深度表徵學習
    論文:https://arxiv.org/abs/2006.11480最近因為工作原因,對半監督和無監督論文比較感興趣,今天看到一篇講圖像分類無監督的文章"Unsupervised Image Classification
  • ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習
    谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。另外,還有七篇論文獲得提名獎。深度學習的一個重要挑戰是用無監督學習的方式理解現有數據。目前主要提出的方法是一個利用分離式表徵 (disentangled representation) 的模型,它可以捕捉到各種相互獨立的特徵,如果其中一個特徵改變了,其他特徵不會受到影響。
  • 多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。
  • 港中文、上交大、商湯聯合提出兩種軌跡預測新方法
    基於遞歸目標關係圖的軌跡預測方法(Recursive Social Behavior Graph for Trajectory Prediction) RSBG 論文地址:https://arxiv.org/pdf/2004.10402.pdf 論文作者來自商湯自動駕駛分析與預測組、港中文
  • 多任務上實現SOTA,UBC、谷歌聯合Hinton等提出3D點雲的無監督膠囊...
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。
  • 算法庫開源講座第三講:港中文在讀博士葛藝瀟主講無監督重識別算法庫OpenUnReID解析與開發實踐 | 公開課預告
    在算法庫開源講座前兩講中,第一講由香港中文大學MMLab詹曉航博士主講,主題為《自監督學習算法庫OpenSelfSup解析與開發實踐》。第二講由香港中文大學在讀博士史少帥主講,主題為《點雲3D目標檢測算法庫OpenPCDet解析與開發實踐》。
  • 關於句子表徵的學習筆記
    無監督模型3. 監督模型4. 多任務學習5. Reference1. 基線模型1.1. 詞袋模型1.1.1. 基於統計的詞袋模型在詞向量技術未出現前,句子表徵一般採用基於統計的詞袋模型。以 「I like you and you like me.」
  • 滴滴提出無監督預訓練模型,中文識別性能提10%以上
    但是,建立一個好的語音識別系統通常需要大量的轉錄數據,而這些數據收集起來成本高昂。為了解決這個問題,來自滴滴出行人工智慧實驗室的研究者提出了一種新穎的無監督預訓練方法,他們稱之為 masked 預測編碼(masked predictive coding,MPC)。這種方法可以應用於基於 Transformer 模型的無監督預訓練。
  • 港科大教授權龍:三維視覺重新定義人工智慧安防
    「我們的終極目標是對圖像的理解,也就是認知,但當前的計算機視覺只處於感知階段,我們並不知如何理解,計算機視覺一直是要探索最基礎的視覺特徵,這一輪視覺卷積神經網絡CNN本質上重新定義了計算機視覺的特徵。但人類是生活在三維環境中的雙目動物,這使得人類生物視覺的識別不只是識別,同時也包括三維感知與環境交互。」
  • Hinton構思下一代神經網絡:屬於無監督對比學習
    受人腦的啟發,他和其他研究者提出了「人工神經網絡」(artificial neural network),為機器學習研究奠定了基石。那麼,30 多年過去,神經網絡的未來發展方向在哪裡呢?Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。
  • 一組圖帶你了解金屬材料表面的三維形貌表徵應用
    導 言人類文明的發展和社會的進步同金屬材料關係十分密切。現代,種類繁多的金屬材料已成為人類社會發展的重要物質基礎。本文將通過一組圖片帶您了解金屬材料表面的三維形貌表徵應用實例。材料常見失效形式的表面形貌表徵金屬材料的機械性能是零件的設計和選材時的主要依據。
  • 港中文聯合商湯提出視覺引導的聲源分離輔助立體聲重構方法 Sep...
    作者 | Johann Zhou編輯 | 陳大鑫今天介紹的是一篇已被ECCV 2020接收的論文,這篇論文中提出了一種全新的通用框架,利用共享的主幹網絡,同時解決音頻-視覺學習的兩大主流問題:視覺信息引導的聲源分離和立體聲重構。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    為什麼我們需要無監督學習呢?Hinton 從生物學的角度做出了詮釋。他指出,人類大腦有 10^14 個神經元突觸,而生命的長度僅有 10^9 秒,因此人類無法完全依賴監督學習方式完成所有神經元訓練,因而需要無監督學習的輔助。
  • GAN不只會造假:捕獲數據中額外顯著特徵,提高表徵學習可解釋性...
    用GAN做無監督表徵學習,就可以去做圖像分類了,就像那個半路出家的BigBiGAN,秒殺了一眾專注分類20年的AI選手。現在,最新研究表明,在無監督環境中,GAN在學習可解釋性表徵方面也大有可為。在實際情況中,有一些表徵可能是各種因素相互作用的結果,忽略這些相互作用可能會導致無法發現更多的特徵。