人體關鍵點檢測模型研究

2020-11-29 人民網

摘要:依賴於「大數據」技術與高性能處理器的蓬勃發展,深度學習以其強大的魯棒性和有效性成為了計算機視覺、自然語言處理等人工智慧分支領域中佔據主導地位的研究方法。人體關鍵點檢測是計算機視覺中一個極具挑戰性的研究。可用於:動作識別,異常行為檢測,安防等。本文旨在提出一種基於深度學習的模型,解決人體關鍵點檢測任務中存在的諸多問題,提升檢測效果。該任務目前主要存在人體關鍵點尺度差異性問題。本文引入目標檢測領域中流行的特徵金字塔網絡(Feature pyramidnetwork),通過在多尺度的特徵圖上提取特徵並將高層語義特徵與底層圖像特徵融合的方式解決此問題。本文在改進後設置了對比實驗以驗證假設。最終提出了一個新模型——特徵金字塔注意力沙漏模型,其在MPII和LSP人體關鍵點檢測數據集上取得了目前最好的檢測效果。

關鍵詞:人體關鍵點檢測;特徵金字塔網絡;注意力模型

1 課題背景與研究意義

1.1 課題背景

21世紀是大數據的時代,雲計算的出現、行動裝置的普及,使得人們在舉手投足間就會產生大量的數據。這些數據的形式多種多樣,可以是微信中的語音信息,可以是微博中的文字信息,也可以是淘寶上的訂單信息。這些數據體量巨大但是結構複雜,如何高效的利用這些數據成為擺在研究人員面前的一個重要問題。與此同時,以CPU、GPU為代表的高性能處理器的迅猛發展也為高效利用這些數據提供了充足的動力。

人體關鍵點檢測是計算機視覺中一個具有重要意義的任務,2014年以前,研究者解決該任務的方法主要是使用SIFT,HOG等特徵算子提取特徵,結合圖結構模型來檢測關節點位置。隨著深度學習與計算機視覺諸多任務結合併取得顯著成果,研究者開始嘗試將其與人體關鍵點檢測任務結合。深度學習可以通過訓練得到複雜的映射關係,從而提取更複雜的高階特徵代替SIFT,HOG等人工特徵。深度學習具有更強的魯棒性和表達能力,在物體識別,目標檢測領域所取得的成果已經印證了這些優點。所以深度學習恰恰可以解決上述兩個缺點。本文將分析基於深度學習的人體關鍵點檢測算法的發展,並對其進行改進。

1.2 人體關鍵點檢測簡介及意義

人體關鍵點檢測也稱人體姿態估計。如圖1-1所示,人體姿態估計的任務是要在給定的圖片中定位人體的身體關鍵部件,例如頭部,頸部,肩部,手部等。在不同數據集上,需要檢測的具體部位不同。例如,本文中使用的MPII數據集上定義的關鍵點共有16個。它是更高級別計算機視覺任務的基礎。其應用場景主要有:

(1)人類行為識別:人類行為識別是指在給定的圖片或者圖片序列中識別出人體的動作意圖。如圖1-2所示,給定一張圖片要求計算機識別出圖中人類的動作,上面一行得到的結果為走路,下面一行得到的結果為打高爾夫。人類行為識別是計算機視覺領域一個極其重要的研究方向。其被廣泛的應用於監控,娛樂,人機互動,圖像和視頻搜索等領域。

(2)人機互動:人機互動是指設計一種計算機和用戶進行信息傳遞的接口程序。人機互動處於計算機科學,行為科學,設計,媒體研究的交叉點。一個常見的例子是:研究人員可以通過給計算機安裝攝像頭的方式使其可以獲取人類用戶的圖像信息,再通過對圖像信息的識別使得計算機理解用戶的意圖,從而達到交互的目的。

(3)服裝解析:服裝解析是指在一張圖像中解析出人體上不同的服裝,如圖1-3所示。解析服裝的視覺算法具有各種各樣的潛在應用價值,更好的理解圖像,人物服飾識別,或基於內容的圖像檢索等。但是,由於人體姿態的複雜性,解析服飾的任務並不容易。

2 基於特徵金字塔網絡的改進方法 

針對上一章提出的關於人體關鍵點檢測中尺度差異性的問題,本章通過將特徵金字塔網絡(Feature pyramid network, FPN)融合到堆疊沙漏模型解決這一問題。特徵金字塔網絡在不同尺寸的特徵圖上提取特徵,然後又將不同尺寸的特徵圖進行融合,可以提取到多尺度的特徵,從而解決之前提到的尺度差異性問題。本章首先詳細描述尺度差異性問題,並分析其原因。然後,給出具體模型設計細節和實驗結果。

2.1 人體關鍵點尺度差異性問題

人體關鍵點檢測任務中一個突出的問題就是由於視角不同和人體姿態的複雜而引起的關鍵點尺度差異性問題。具體如圖2-1所示。

這兩張圖片均出自於LSP數據集,但是由於視角和人體姿態的不同,造成了人體關鍵點的尺度差異,即使已經對圖片進行裁剪和縮放處理,使得人體區域大致位於圖像中心,並且人體的尺寸近似。但是依然可以觀察到,圖2-1 (a)中人體頭部的尺寸遠大於腳部的尺寸,圖2-1 (b)中人體頭部的尺寸遠小於腳部的尺寸。這對於檢測人體關鍵點的模型來說是一個挑戰,如果模型不能學習到這些尺度差異性下的高緯度一般性就無法準確的定位關節點。這個問題不僅會影響CNN深層的語義信息,而且也會影響CNN淺層的圖像特徵。

2.2 基礎模型——堆疊沙漏模型的分析

本文在1.2節中提到,受ResNet殘差學習思想的啟發,Newell等人與2016年提出了堆疊沙漏模型(Stacked Hourglass)。堆疊沙漏模型的目標是在推理階段儘量在所有尺寸的特徵圖上捕獲信息。首先通過若干個池化層和卷積層執行下採樣,並通過反卷積進行上採樣處理。然後將這兩個過程中相同尺寸相同的特徵圖相加,就像ResNet中所做的相加一樣。重複這種「先下後上」處理來建立「堆疊沙漏」網絡,並在每個「沙漏」後進行中間監督訓練。

該模型在當年取得了最好的效果,並且其結構清晰,階段式的網絡結構具有很好的可擴展性。其基礎模塊沙漏模塊具有高度對稱性,結構清晰易於修改。2016年後許多模型均是在其基礎上進行修改的結果。所以本文選取堆疊沙漏網絡為基礎網絡,在其基礎上進行改進。該模型將貫穿本文的始終,下面詳細介紹其網絡結構和訓練方法。

其網絡結構如圖1-11所示,圖中的每個沙漏形狀即代表一個沙漏模塊。一個沙漏模塊的網絡結構如圖2-2所示,其中每一個方塊代表了一個殘差模塊,方塊的大小表示輸入特徵圖的尺寸,殘差模塊網絡結構如圖2-3 (a)所示。

沙漏模塊具有對稱性,首先是自底向上過程進行若干次卷積和最大值池化操作得到最小尺寸的特徵圖。在每次最大值池化操作後網絡產生一個包含若干卷積的分支,用於下一階段的特徵圖融合。該分支的輸入是最大值池化操作之前的特徵圖。得到最小尺寸圖後,網絡開始進行第二階段的自頂向下過程,即上採樣和特徵融合過程。上採樣使用反卷積操作,將上採樣後的特徵圖與網絡分支上同尺寸的特徵圖進行元素級的相加,得到融合的特徵圖。殘差模塊使1ⅹ1和3ⅹ3步長為1的卷積層,不改變輸入特徵圖的尺寸。輸出特徵緯度和卷積核大小如圖2-3 (a)所示,圖中虛線代表跳層連接。

圖2-3 (b)表示的是中間監督過程,圖中虛線是跳層連接,沙漏圖形代表一個沙漏模塊,圖中藍色的方塊代表生成的HeatMap,用其與ground truth計算範數損失。使用1ⅹ1的卷積將HeatMap重新變為與特徵與相同的通道數並且相加輸入到下一個沙漏模塊。

在作者的實現中,輸入圖片被裁剪和縮放成256ⅹ256的解析度。圖片首先進入一個步長為2卷積核大小為7的卷積層,隨後連接一個殘差模塊和一個最大值池化層將特徵圖解析度降到64ⅹ64。隨後連接若干個沙漏模塊,每個沙漏模塊進行中間監督訓練。所有沙漏模塊內部最小特徵圖尺寸為4ⅹ4,所有殘差模塊生成的特徵圖通道數均為256。

         

(責編:尹崢、燕帥)

相關焦點

  • 人體關鍵點識別重大升級,新增7個頭部關鍵點
    尊敬的百度 AI 開放平臺用戶:感謝您長期以來對人體分析服務的支持,我們將持續豐富人體分析的產品能力!本次人體關鍵點識別服務重大升級,新增7個頭部關鍵點,並全面優化模型算法和接口參數,提升識別準確率、接口應用的靈活度。
  • 解密:面部特徵點檢測的關鍵技術
    面部特徵點定位任務即根據輸入的人臉圖像,自動定位出面部關鍵特徵點,如眼睛、鼻尖、嘴角點、眉毛以及人臉各部件輪廓點等,如下圖所示。由於不同的姿態、表情、光照以及遮擋等因素的影響,準確地定位出各個關鍵特徵點看似很困難。
  • 人體生物電阻抗的脈衝式檢測方法
    傳統的人體生物電阻抗檢測採用單頻法,即只在一個固定頻率下,利用正弦波信號進行測量,一般只測量電阻抗的模,所以實現簡單,很適合在便攜儀器上推廣。但是,單頻法無法將CPE的影響表現出來,測量結果容易出現較大的誤差。為了能夠更準確地得到人體生物電阻抗的信息,需要有一種可同時檢測多個頻率點電阻抗的方法。
  • 人體生物電阻抗的檢測方法及其應用
    1、引言  在人體成分的研究中,測量人體生物電阻抗值可以得到水分、脂肪等與人體健康狀況有關的信息,對人身體狀況的監視、疾病的早期診斷有著重要的意義[1]。
  • 解密:人臉檢測關鍵技術
    該算法基於深度卷積檢測網絡,通過學習人臉和非人臉的特徵,從而識別出人臉的位置和大小。那麼,在複雜的環境中究竟如何準確定位出人臉的各個關鍵特徵點?人臉識別的關鍵技術有哪些?本文將對這些問題進行深度解析。作者張杰,中科院計算技術研究所VIPL課題組博士生,專注於深度學習技術及其在人臉識別領域的應用。
  • 僅憑一張照片就能生成3D人體模型
    僅憑一張照片就能生成3D人體模型近日,重慶中科雲從科技有限公司(以下簡稱雲從科技)提出一種新型DenseBody框架,可直接從彩色照片中獲取3D人體姿勢和形狀。而此基於單幀圖像的3D人體重建技術,將原有最低誤差降低30%,刷新了世界紀錄。
  • 基於「雙腦模型」對人體和自然界的新理解
    基於「雙腦模型」對人體和自然界的新理解及其在醫學和社會科學中應用的學術思考為了真正有效地解決這些問題,迫切需要對諸如慢病這樣錯綜複雜的問題引入新觀點進行研究。在前期大量研究的基礎上,我們提出一個新模型作為科學假說來解釋這些複雜問題,稱之為&34;。該模型認為:由腸道菌群構成的&34;負責人體對於以食物為代表的物質的記憶,形成物質記憶系統,而通常意義上的&34;則負責人體對物質的抽象理解即通過符號進行記憶和邏輯分析過程,構成意識和精神記憶系統。
  • 視覺工具包torchvision重大更新:支持分割模型、檢測模型
    訓練/評估腳本現在,reference/文件夾地下,提供了訓練和評估用的腳本,支持許多任務:分類、語義分割、目標檢測、實例分割,以及人物關鍵點檢測。這些腳本可以當做log:寫著某一個特定的模型要怎樣訓練,並且提供了基線。有了這份快速指引,便於順利展開研究。
  • 超越物理學標準模型,發現超高能事件,是研究中微子的關鍵!
    聖路易斯華盛頓大學的物理學家提出了一種方法:可以利用超高能中微子來研究超越粒子物理學標準模型的相互作用。「Zee Burst」模型利用了來自大型中微子探測器的新數據,如南極洲的冰立方中微子天文臺及其未來擴建項目。
  • 「原創」課題-基於深度信息的人體姿態在公共場合的應用
    一、研究內容:基於深度信息的人體姿態在公共場合的應用基於深度信息的人體姿態在公共場合風險控制的應用關鍵技術攻關項目,主要研究在公共場合通過採集深度圖像,檢測圖像中的人體並返回人體矩形框位置,精準定位核心關鍵點,支持多人檢測,並通過群體姿態研判公共場合風險情況,詳細研究內容如下:1)構建通過人(群)體姿態研判公共場合風險評估模型;2)實現公共場合下群體深度圖像採集
  • 實時檢測人體狀況的「創可貼」傳感器
    該傳感器模仿蛇的動作、蜘蛛網和紙模型的複雜結構設計,極大地提高了傳感器的穩定性,有望應用於生物診斷,皮膚智能,衣服和牲畜診斷等各個領域。隨著健康時代的到來,可穿戴醫療設備的研究也得到了積極的開展。然而,由於收集諸如身體運動,汗水和分泌物之類的生物信息方面的障礙,產品開發面臨許多困難。權教授的團隊專注於開發傳感器,該傳感器可以從包括劇烈運動和緊急情況在內的各種情況中收集穩定的生物特徵數據。
  • MediaPipe Holistic谷歌發布面部,手部與姿勢同時檢測模型
    當包括所有三個組件時,MediaPipe Holistic為突破性的540多個關鍵點(33個姿勢,每手21個和468個面部標誌)提供了統一的拓撲,並在行動裝置上實現了近乎實時的性能。MediaPipe整體作為一部分發布,並且可在設備上用於行動裝置(Android,iOS)和臺式機。我們還將介紹MediaPipe的新的現成的研究API()和Web(),以簡化對該技術的訪問。
  • 小鼠模型在轉化醫學研究中的應用
    作者明白,只依賴體外實驗結果是很難具有真正說服力的,因此,作者計劃在小鼠體內複製人LDLR-E207X點突變,以研究該基因新突變與疾病發生的關係。作者找到我們賽業生物尋求幫助,構建LDLR-E207X點突變小鼠模型。
  • 動物疾病模型研究進展一覽
    這個新的模型提供了一個全新的方法檢測病理變化是如何影響肺功能的。「這項研究最令人興奮的是通過這些分析,我們可以通過簡單測定喉嚨的氣流和氣壓確定肺部組織發生了什麼。」這篇文章的共一作者 Andrew Gow說。未來的工作需要修改這些新模型和確定這些結果在人類身上的應用如何,這項研究打開了研究的新渠道。
  • 曠視論文三連發,揭秘COCO +Places 2017比賽獲獎模型
    在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
  • 研究人員發明 3D 人體解剖模型,還能模擬觸覺
    目前,他們正在完善的男性和女性的整體模型,將在 2018 年初推出。據報導,格拉斯哥大學虛擬可視化學院正在和一流的醫院和大學合作,完成目前最精確和詳細的頭頸模型。3D 虛擬模型具有超高的解析度,可以跟用戶完全互動,能在各種環境和平臺使用。學生可以在場景中和模型互動,這個場景像 IMAX 影院一樣;也能在平板電腦、筆記本電腦或行動裝置上進行單人學習。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    最新的研究成果在2019年,首次引入多模態檢測的AI模型HFM,其準確率能夠達到83%。而近日,該項研究取得突破性進展,其準確率提升了2.74%。這項成果來自中國北京的信息工程研究所和中國科學院聯合研究團隊,他們研發的新型多模態AI諷刺檢測模型,經過Twitter數據集檢測準確率可達到86%。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    最新的研究成果在2019年,首次引入多模態檢測的AI模型HFM,其準確率能夠達到83%。而近日,該項研究取得突破性進展,其準確率提升了2.74%。這項成果來自中國北京的信息工程研究所和中國科學院聯合研究團隊,他們研發的新型多模態AI諷刺檢測模型,經過Twitter數據集檢測準確率可達到86%。
  • 紡織品偶氮染料檢測及關鍵點
    這些受禁偶氮染料染色的服裝或其他消費品與人體皮膚長期接觸後,會與代謝過程中釋放的成分混合併產生還原反應形成致癌的芳香胺化合物,這種化合物會被人體吸收,經過一系列活化作用使人體細胞的DNA發生結構與功能的變化,成為人體病變的誘因。
  • 人體細胞製成可眨眼三維人眼模型
    據英國《自然·醫學》雜誌網絡版5日報導,美國科學家利用人體細胞,製成了可眨眼的三維人眼模型,有望取代目前通用的動物模型。眾所周知,細胞是生物體結構和功能的基本單位。人體器官具有非常複雜的多細胞結構,這些結構好比「守門人」,可以隔離外部環境,起到維持穩態的作用。長期以來,人類對這些細胞組織屏障的了解不斷深入。但現階段,要仿效它們的各種特徵,依然存在巨大的挑戰。而此次,美國賓夕法尼亞大學的一個科學家團隊,通過模擬人眼最外層的幾何學結構和細胞組成,開發了一個3D眼表模型。