曠視COCO2018 Keypoint冠軍算法詳解

2021-02-20 極市平臺

極市平臺是專業的視覺算法開發和分發平臺,加入極市專業CV交流群,與6000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!更有機會與李開復老師等大牛群內互動!

同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流點擊文末「閱讀原文」立刻申請入群~

來源:知乎

作者:skicy Yu

原文連結:

https://zhuanlan.zhihu.com/p/54357376?utm_source=wechat_session&utm_med

Background

人體關鍵點檢測(Human Keypoint Detection)又稱為人體姿態識別,旨在準確定位圖像之中人體關節點的位置,是人體動作識別、人體行為分析、人機互動的前置任務。作為當前計算機視覺不可或缺的熱門研究領域之一,人體姿態識別有著大量的落地場景和廣闊的應用前景,現有及可期的場景應用有人體步態識別、體感遊戲、AI 美體、虛擬實境、增強現實、康復訓練、體育教學等等,可廣泛賦能於遊戲、手機、醫療、教育、數字現實等不同領域。

人體關鍵點檢測任務對於現實生活有著很大的潛在用途,目前公開的比賽中最權威的是MS COCO Keypoint track的比賽,也是該領域最有挑戰的比賽,參賽隊不乏Facebook,Google及微軟這樣的國際巨頭,也不乏CMU等頂尖研究機構,是該領域最先進方法的試金石。曠視科技Detection組在2017,2018年兩次奪得該比賽的冠軍,2017年曠視COCO Keypoint比賽冠軍工作CPN在業界具有深遠影響,並獲得廣泛使用。這裡,我們將介紹曠視2018年COCO Keypoint 比賽奪冠的工作。

人體姿態識別主流方法目前分為兩種:單階段和多階段,雖然後者遵照從粗糙到精細的邏輯更貼合任務本質,但是目前表現似乎沒有優於單階段方法,我們認為,目前多階段方法差強人意的性能主要歸因於多種不合理的設計。我們的工作從 1)網絡設計、2)特徵流、3)損失函數入手提出一系列改進措施,工作成果在 MS COCO Keypoint 數據集上超越現有方法取得當前最優結果,論文已公開於Arxiv,連結請見:arxiv.org/abs/1901.00148

Introduction


圖1

深度卷積網絡出現之後,人體姿態識別飛速發展。現階段最優方法[1,2]網絡結構較為簡單,多是採用單階段網絡設計,比如 2017 COCO Keypoint 挑戰賽冠軍方法[1]採用基於 ResNet-Inception 的網絡結構,最新的 Simple Baseline[2] 採用 ResNet 網絡結構。另一種網絡結構則採用多階段網絡設計,即把一個輕量級網絡作為單元網絡,接著將其簡單地堆疊到多階段。

直觀上講,多階段的天然逐級優化特性會更適用於這個任務,但是當前存在的多階段網絡並沒有單階段網絡在 COCO 上表現好。我們試圖研究這一挑戰性問題,提出當前多階段網絡的欠佳表現主要是由於設計不足導致的,並可通過一系列 1)網絡結構、2)特徵流、3)損失函數方面的創新性優化,最大化發掘多階段網絡的潛力,實現目前最先進的效果。

因此,我們提出新型的多階段姿態估計網絡 MSPN,具體改進有 3 個方面:

目前多階段網絡裡的單元網絡離最優比較遠,使用已經驗證的網絡(如 Resnet)要比主流的多階段方法(如 Hourglass)採用的輕量級網絡好很多,究其原因主要是下採樣 Encoder 需要承載更多內容,而輕量級網絡滿足不了。

由於重複下採樣,上採樣會丟失信息從而不利於學習,我們提出融合多階段特徵以加強信息流動,來緩解這一問題。

我們觀察到關節點的定位是逐級精細優化的,因此提出由粗到精的學習策略,並採用多尺度監督提升訓練。由圖 1 可知,當提升單階段網絡容量時,精度會趨近於飽和,而增長遇到瓶頸;對於目前主流的多階段網絡,當堆疊多於 2 個單元網絡後,精度提升非常有限。對於我們提出的 MSPN,隨著單元網絡的堆疊數增加,精度會持續提升。


在 MS COCO 基準上,MSPN 在 test-dev 數據集上獲得 76.1 AP;在 MS COCO 2018 中,test-dev 達到 78.1 AP,test-challenge 76.4 AP, 相比去年冠軍提升了 4.3 AP。 

---多階段網絡----

圖2

多階段姿態估計網絡 MSPN 如圖 2 所示。它採用自上向下的框架,即首先使用人體檢測算法給出人體框,據此摳圖,並進行單人人體姿態估計。如上所述,MSPN 的新突破有 3 點:第一,使用圖像分類表現較好的網絡(如 ResNet)作為多階段網絡的單元網絡;第二,提出逐階段傳遞的信息聚集方式,降低信息損失;第三,引入由粗到精的監督,並進行多尺度監督。

-有效的單階段子單元網絡設計

表1

目前主流的多階段網絡全部基於 Hourglass 變體。從表 1 可知,Hourglass 在重複下採樣和上採樣的過程中,卷積層的通道數是相同的。這是因為高層語義信息更強,需要更多通道表徵。

下採樣時,Hourglass 變體會導致特徵編碼(Encoder)無法很好地表達特徵,從而造成一定程度上的特徵信息丟失。相比於下採樣,上採樣很難更優地表徵特徵,所以增加下採樣階段的網絡能力對整體網絡會更有效。

----跨階段特徵融合---

圖3

多階段網絡在重複的上採樣和下採樣過程中,很容易造成信息流失,我們提出了一種有效的跨階段特徵融合方法來應對這一現象。如圖 3 所示,上一階段上、下採樣的特徵經過 1x1 卷積相加到後一階段下採樣部分,從而實現多階段之間的特徵融合,有效緩解特徵流失。

由粗到精監督----

圖4

人體姿態估計如果要定位較有挑戰性的關節點(如隱藏關節點)需要較強的領域上下文信息。同時,對於基於回歸 heatmap 的任務,作為 GT 的高斯核越小,回歸精度越準。考慮到以上兩點,並結合多階段網絡的自身逐級遞進優化的特性,我們提出基於多階段的由粗到精的監督方式。每個階段方式的監督heatmap的高斯核逐漸減小,可較理想地兼顧領域上下文信息和精準度。由於中間監督對於深度神經網絡有較好效果[3],我們在每個階段內部也採用了多尺度的中間監督。

---實驗---

實驗中,我們使用 MegDet [4]獲得人體檢測框,並使用 COCO(80 類)之中人這一類的結果作為人體框結果,沒有單獨針對人進行訓練。摳圖之前,框擴展為高寬 4:3 的比例。訓練中,我們採用 Adam 作為優化策略,初始學習率為 5e-4,Weight Decay 為 1e-5。數據增強方面,主要採用翻轉、旋轉(-45度~+45度)、尺度變換(0.7~1.35)。姿態估計網絡圖像輸入尺寸為 384x288。消融實驗中,圖像輸入尺寸為 256x192。測試方面,沿用 [5] 中的策略,即採用翻轉求平均,最大值位置向次大值位置偏移 1/4 作為最終位置。所有消融實驗在 COCO minival 上進行。

消融實驗

多階段網絡

我們通過一系列實驗驗證多階段網絡設計的重要性。

表2

首先,我們通過實驗觀察單階段網絡增加模型複雜度的表現。從表 2 可知,ResNet-50 作為 Backbone 的單階段網絡精度可以達到 71.5,ResNet-101 可以提升 1.6 個點,但是繼續往高增加複雜度,精度的提升幅度逐漸變小,趨近於飽和。

表3

我們同時對比了當前主流的多階段網絡 Hourglass 與該工作在精度提升方面的差異。由表 3 可知,Hourglass 在第 2 個階段以上疊加新階段提升非常有限:從 2 個階段到 8 個階段,計算量增加 3 倍,而精度只漲了 0.7 AP。相比於 Hourglass 的增長受限,MSPN 從第 2 個階段以上疊加新階段會持續提升精度。

為驗證我們對多階段網絡有效改進的泛化性,我們嘗試把其他網絡作為單元網絡。如表 4,兩階段的 ResNet-18 會稍高於相當計算量的單階段 ResNet-50 網絡。4 階段小計算量的 X-ception 網絡會比同計算量單階段的大計算量的 X-ception 網絡高出近 1 AP。

表4

跨階段特徵融合以及由粗到精監督

表5

表 5 的實驗可以驗證跨階段特徵融合以及由粗到精監督的有效性。對於 4 階段的 Hourglass 和 2 階段的 MSPN 藉助以上兩種策略均實現漲點。

--實驗結果---

表6表7

表 6 和表 7 分別對比 MSPN 與當前最優方法在 COCO test-dev 數據集和 COCO test-challenge 數據集上的精度差異。可以看出,MSPN 均超過當前最優方法,在 test-dev 上領先2.3 AP,在 test-challenge上領先 1.9 AP。

-總結

我們提出了針對人體姿態估計更有效的多階段網絡設計思想,並用充分的實驗驗證其有效性,該網絡在 COCO 數據集上突破當前的精度瓶頸,實現了新的 state-of-the-art。我們同時也驗證了該工作所涉及的多階段網絡設計思想的泛化性。

----結果例圖-

圖5

PS.感興趣的同學可以加入Face++ Detection Team,簡歷可以投到yugang@megvii.com。

Reference

[1] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun. Cascaded pyramid network for multi-person pose estimation. arXiv preprint, 2018.

[2] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. arXiv preprint arXiv:1804.06208, 2018.

[3] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015.

[4] C. Peng, T. Xiao, Z. Li, Y. Jiang, X. Zhang, K. Jia, G. Yu, and J. Sun. Megdet: A large mini-batch object detector. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6181–6189, 2018.

[5] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In European Conference on Computer Vision, pages 483–499. Springer, 2016.

----解讀者介紹--

王志成,清華大學計算機系碩士,現為曠視科技研究員,人體姿態估計研究負責人,COCO Keypoint 冠軍算法 CPN、MSPN 共同第一作者,研究方向涵蓋人體姿態估計與跟蹤、人體動作識別,並在上述方向有著長期深入的研究;2017、2018 年作為負責人帶隊參加 COCO 人體姿態識別競賽(Human Keypoint Detection),連續兩次奪魁。

*推薦文章*

每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流點擊左下角「閱讀原文」立刻申請入群~

麻煩給個好看哦~ 

相關焦點

  • COCO2018 Keypoint冠軍算法解讀
    第一期是我們 2018 年做 COCO skeleton 的工作。下面先上一個我們模型的視頻結果:COCO2018 Keypoint算法結果展示。人體關鍵點檢測任務對於現實生活有著很大的潛在用途,目前公開的比賽中最權威的是 MS COCO Keypoint track 的比賽,也是該領域最有挑戰的比賽,參賽隊不乏 Facebook,Google 及微軟這樣的國際巨頭,也不乏 CMU 等頂尖研究機構,是該領域最先進方法的試金石。
  • 曠視科技研究院包攬 COCO、Places 三項世界冠軍
    在共七項挑戰項目中,曠視科技研究院團隊(Megvii)參與了其中最重要的四項,並獲得了三項第一、一項第二的優異成績,一舉擊敗了來自微軟、Facebook、Google、商湯科技等企業,以及卡內基梅隆大學、北京大學、香港中文大學、上海交通大學等高校的競爭者,成為了第一個在 COCO 競賽中獲得冠軍的中國企業。
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    基於這篇論文所提出的算法,Megvii(Face++)隊在COCO2017人體姿態估計競賽上獲得了歷史最好成績,相對 2016年人體姿態估計的最好成績提高了19%。本期主講人為曠視研究院研究員王志成,同時也是COCO 2017 Detection競賽隊owner、論文共同一作,在比賽中主要負責整體方案的確定,模型設計、訓練調優的工作。
  • 2007COCO及Places競賽排名:曠視科技研究院獲三項冠軍
    在共七項挑戰項目中,曠視科技研究院團隊(Megvii)參與了其中四項,並獲得了三項第一、一項第二的成績,成為第一個在 COCO 競賽中獲得冠軍的中國企業。與關注整體圖像的ImageNet圖像分類任務相比,COCO中的物體檢測任務更關注的是圖像中出現的每個物體的個體(比如各種小物體,各種遮擋物體),因此要求算法對圖像細節有更好的理解。這個比賽也代表了繼ImageNet 後的圖像識別的最高水平。  COCO從2015年開始舉辦,至今已經三屆,前兩屆物體檢測冠軍分別是 MSRA 和 Google。
  • 曠視科技Face++公開COCO2017冠軍模型
    在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
  • 曠視科技Face++公開COCO2017冠軍模型_2018歸檔-稿件庫-中文科技...
    在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
  • 2018 COCO 競賽中國團隊包攬所有冠軍,曠視 4 項第一!
    >】計算機視覺界的頂級競賽之一MS COCO 2018年結果最新出爐,在實例分割、全景分割、人體關鍵點檢測、DensePose以及今年最新的街景檢測和分割任務中,全部6項冠軍均由中國團隊包攬。其中,曠視獲得了4項冠軍(含1項並列第一),來自北郵和滴滴的團隊分別獲得1項冠軍。微軟亞洲研究院獲得1項亞軍,北京大學和360組成的團隊也獲得了1項亞軍。2018年最受關注的計算機視覺挑戰賽是什麼?COCO!
  • 曠視論文三連發,揭秘COCO +Places 2017比賽獲獎模型
    在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
  • CVPR 2018 | 8篇論文、10+Demo、雙料挑戰賽冠軍,曠視科技掀起CVPR...
    DFN 一作餘昌黔與 poster 合影RepLoss 一作王鑫龍與 poster 合影此外,還有兩篇挑戰賽冠軍論文——人體姿態估計(CPN)及 COCO 2017 物體檢測相關賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。
  • CVPR 2019|奪取6項冠軍的曠視如何築起算法壁壘
    參加 CVPR 對以算法為核心的曠視有重要的戰略意義。2019 年伊始,在成立八年之際,曠視宣布了從品牌到戰略的全面升級,並且確立了以算法為核心基因,圍繞計算視覺及相關傳感技術開發感知、控制、優化算法,包括但不限於人臉識別、手勢識別、文字識別、物體檢測、視頻分析、三維重建、智能傳感與控制等機器學習技術。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    參加 CVPR 對以算法為核心的曠視有重要的戰略意義。2019 年伊始,在成立八年之際,曠視宣布了從品牌到戰略的全面升級,並且確立了以算法為核心基因,圍繞計算視覺及相關傳感技術開發感知、控制、優化算法,包括但不限於人臉識別、手勢識別、文字識別、物體檢測、視頻分析、三維重建、智能傳感與控制等機器學習技術。
  • 專訪曠視副總裁顧亮:刷臉算法準確率98%或99%無關緊要
    我們認為傳統的硬體,很難釋放出算法的極致能力。從2015年開始曠視就在硬體方面投入很多研發資源,幾年來這個思路一直沒有變過,只不過從今年開始,大家從發布會現場看出曠視做的硬體越來越多,功能越來越廣,覆蓋場景越來越豐富,但其實這些都是我們近年來在構建自有的硬體產品體系之後厚積薄發的結果。
  • CVPR 2019|曠視斬獲6冠,彰顯深度學習算法引擎優勢
    這是一套由曠視研究院自主原創的算法引擎,致力於從雲、端、芯三個方面全面賦能物理世界,以實現對世界的感知、控制、優化。Brain++不僅助力曠視拿下世界冠軍,還將推動智能汽車、商品識別、手機影像處理、智慧農業等應用領域的進步發展。
  • 全方位解讀全景分割技術, 曠視冠軍團隊最新分享
    ,曠視科技研究院算法研究員,全景分割算法 OANet 第一作者,研究方向包括全景分割、語義分割等。同時,他也是 2018 COCO + Mapillary 全景分割比賽曠視 Detection 組冠軍團隊成員。本文原載於知乎,雷鋒網(公眾號:雷鋒網)獲授權轉載。
  • 快報|曠視在ICCV 2019共斬獲三項第一,國家電網成立區塊鏈公司
    ICCV 2019,曠視研究院國際頂賽COCO實現三連冠,蟬聯霸主堪比我國桌球  當地時間10月27日,兩年一度的國際計算機視覺大會ICCV 2019(International Conference on Computer Vision)在韓國首爾開幕。
  • 曠視CVPR 2019摘得6項世界冠軍 全方位解密獲獎模型
    北京曠視科技有限公司在 CVPR 2019 的3項挑戰賽中,最終擊敗Facebook、通用動力、戴姆勒等國內外一線科技巨頭/知名高校,共計斬獲6項世界冠軍!在 iNaturalist 上,曠視擊敗了通用動力等頂尖團隊;在 Herbarium 上,曠視擊敗了大連理工(上年冠軍)、瑞典自然歷史博物館、Facebook。
  • 搞算法還要當「美學家」?曠視要用AI重新定義計算攝影
    但蘋果卻憑藉這一枚祖傳800萬像素攝像頭,「吊打」了當時一眾安卓旗艦手機的拍照素質,在一個小小的相機模組背後,對於硬體的調教和算法產生了關鍵作用。 時間來到2018年,谷歌Pixel 3系列憑藉最佳鏡頭模式、超級變焦、夜景拍照等功能,成為了當時的「地表最強單攝」手機。
  • 呼和浩特市政府、和林格爾新區與北京曠視科技有限公司籤署三方...
    據介紹,曠視科技創立於2011年,是一家人工智慧產品和解決方案公司。以深度學習為核心競爭力,曠視融合算法、算力和數據,打造出 「三位一體」的新一代AI生產力平臺曠視Brain++,並開源其核心——深度學習框架「天元」。
  • 中國團隊屠榜:COCO&Mapillary挑戰賽包攬全部冠軍
    備受矚目COCO+Mapillary 2018物體識別聯合挑戰賽上,中國團隊完成「屠榜」:包攬全部六項賽事的第一名,其中曠視團隊獲得4項冠軍,商湯、北郵和滴滴團隊分別獲得1項冠軍。(包括一項並列第一)據介紹,COCO+Mapillary是當前物體識別領域最為權威、最具標杆作用的數據集之一,也是繼ImageNet之後最有影響力的競賽平臺之一。
  • AI人才供需比例失衡 曠視完善培養體系塑造頂級AI團隊
    2017年,曠視成立了學術委員會並邀請姚期智院士、鄭南寧院士等人工智慧領域的知名人士作為顧問;在行業的探索逐漸深入,曠視還在北京、南京、成都和上海等地設立獨立研究院,由曠視研究院院長孫劍博士、曠視上海研究院院長危夷晨博士、曠視研究院基礎模型組負責人張祥雨博士等帶領團隊的成長;2018年,經中國人力資源社會保障部、全國博士後管理委員會批准,曠視正式設立博士後科研工作站一級站點。