曠視科技Face++公開COCO2017冠軍模型

2020-12-16 中國網科學頻道

  今年 ICCV 2017會議期間,COCO +Places 2017挑戰賽公布了獲獎榜單。在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。


  有趣的是,Places Challenge 中允許提交五次成績,曠視在實體分割項目上第一次提交的成績就以0.27717 Mean AP遠遠甩開了其它隊伍中的最好成績0.24150,最終的第三次提交更繼續提升到了0.29772,穩坐第一名。

  近日,曠視科技研究院就在arXiv上連發三篇論文,內容包括了自己在COCO +Places 2017挑戰賽中的獲獎模型。AI 科技評論把這三篇論文簡單介紹如下,感興趣的讀者歡迎查看原論文仔細研究。

  Light-Head R-CNN: In Defense of Two-Stage Object Detector

  · 輕量頭部 R-CNN:守護兩階段物體檢測器的尊嚴

  · 論文地址:https://arxiv.org/abs/1711.07264

  · 論文簡介:這篇論文中,作者們首先探究了典型的兩階段物體檢測方法沒有YOLO和SSD這樣的單階段檢測方法運行速度快的原因。他們發現,Faster R-CNN 和 R-FCN 在候選區域產生前或後都會進行高強度的計算。Faster R-CNN 在候選區域識別後有兩個全連接層,而 R-FCN 會產生一張很大的分數表。這些網絡由於有這樣的高計算開銷的設計,運行速度就較慢。即便作者們嘗試大幅度縮減基準模型的大小,計算開銷也無法以同樣幅度減少。

  曠視科技的作者們在論文中提出了一個新的兩階段檢測器,Light-Head R-CNN,輕量頭部 R-CNN,意在改善當前的兩階段方法中計算開銷大的缺點。在他們的設計中,通過使用小規模的feature map和小規模的R-CNN子網絡(池化層和單個全連接層),網絡的頭部被做得儘可能輕量化。作者們基於ResNet-101構造了一個輕量頭部的R-CNN網絡,在COCO數據集上超越當前最好水準的同時還保持了很高的時間效率。更重要的是,只要把骨幹結構換成一個較小的網絡(比如 Xception),作者們的 Light-Head R-CNN 就可以在COCO數據集上以102FPS的運行速度得到30.7mmAP的成績,在速度和準確率兩個方面都明顯好於YOLO和SSD這樣的快速單階段檢測方法。相關代碼將會公開發布。


檢測精度與推理時間對比圖

  

  Cascaded Pyramid Network for Multi-Person Pose Estimation

  · 用於多人姿態估計的級聯金字塔網絡CPN

  · COCO Keypoint Challenge 第一名

  · 論文地址:https://arxiv.org/abs/1711.07319

  · 論文簡介:多人姿態估計這個課題的研究成果近期有了很大的提升,尤其是在卷積神經網絡快速發展的幫助下。然而,還是有許多情境會造成檢測困難,比如關鍵點重疊、關鍵點不可見以及背景複雜的情況都還解決得不理想。在這篇論文中,作者們提出了一種新的網絡結構 Cascaded Pyramid Network,級聯金字塔網絡 CPN,意在解決這些困難情境下的關鍵點識別問題。具體來說,他們的算法包含兩個階段,GlobalNet 和 RefineNet。GlobalNet 是一個特徵金字塔網絡,它可以找到所有「簡單」的關鍵點,比如眼、手;重疊的或者不可見的關鍵點就可能無法準確識別。然後RefineNet 是專門用來處理「難」的關鍵點的,它會把 GlobalNet 中所有級別的特徵表徵和一個難關鍵點的挖掘損失集成到一起。總的來說,為了解決多人姿態預測問題,他們採用了一個逐步細化的流水線,首先用檢測器生成一組邊界框,框出圖中的人體,然後用級聯金字塔網絡 CPN在每個人體邊界框中定位關鍵點。

  根據所提的算法,曠視科技的作者們在COCO的關鍵點檢測比賽中刷新了最好成績,在COCO test-dev 數據集上取得73.0的平均精度,並在COCO test-challenge 數據集上取得72.1的平均精度。這一成績比COCO 2016 關鍵點檢測比賽的最好成績60.5提升了19%之多。


CPN 的部分檢測結果

  MegDet: A Large Mini-Batch Object Detector

  · mini-batch很大的物體檢測模型MegDet

  · COCO Detection/Segmentation Challenge 第一名

  · 論文地址:https://arxiv.org/abs/1711.07240

  · 論文簡介:基於CNN的物體檢測研究一直在不斷進步,從 R-CNN 到 Fast/Faster R-CNN,到近期的 Mask R-CNN,再到 RetinaNet,主要的改進點都在於新的網絡架構、新的範式、或者新的損失函數設計。然而mini-batch大小,這個訓練中的關鍵因素並沒有得到完善的研究。在這篇論文中,作者們提出了一個大mini-batch物體檢測模型MegDet,從而可以使用遠大於以往的mini-batch大小訓練網絡(比如從16增大到256),這樣同時也可以高效地利用多塊GPU聯合訓練(在論文的實驗中最多使用了128塊GPU),大大縮短訓練時間。技術層面上,作者們也了提出了一種學習率選擇策略以及跨GPU的batch normalization方法,兩者共同使用就得以大幅度減少大mini-batch物體檢測器的訓練時間(例如從33小時減少到僅僅4個小時),同時還可以達到更高的準確率。文中所提的MegDet就是提交到COCO2017比賽的mmAP 52.5%成績背後的骨幹結構,這個成績也拿下了檢測任務的第一名。


  同一個物體檢測網絡在COCO數據集上訓練的驗證準確率,mini-batch數量為16的運行在8塊GPU上,256的運行在128塊GPU上。mini-batch更大的檢測器準確率更高,訓練速度也幾乎要快一個數量級。

  「4.6億美元融資」、「姚期智院士加盟」、「人臉識別方案應用於多款手機上」,再加上COCO比賽相關的技術成果和比賽成績,僅近期的幾則消息就可以說明曠視科技已經走得很大、很穩了。相信未來曠視科技研究院將在計算機視覺領域做出更多的研究成果,在世界範圍內取得商業和學術的雙豐收。

 

相關焦點

  • 曠視科技Face++公開COCO2017冠軍模型_2018歸檔-稿件庫-中文科技...
    在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
  • 曠視論文三連發,揭秘COCO +Places 2017比賽獲獎模型
    在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
  • 曠視科技研究院包攬 COCO、Places 三項世界冠軍
    曠視科技研究院包攬 COCO、Places 三項世界冠軍 2017在共七項挑戰項目中,曠視科技研究院團隊(Megvii)參與了其中最重要的四項,並獲得了三項第一、一項第二的優異成績,一舉擊敗了來自微軟、Facebook、Google、商湯科技等企業,以及卡內基梅隆大學、北京大學、香港中文大學、上海交通大學等高校的競爭者,成為了第一個在 COCO 競賽中獲得冠軍的中國企業。
  • 2007COCO及Places競賽排名:曠視科技研究院獲三項冠軍
    中國網科技10月31日訊 日前,計算機視覺國際頂級會議International Conference on Computer Vision(ICCV 2017)的「Joint COCO and Places Recognition Challenge」Workshop中公布了COCO及Places競賽排名情況。
  • 曠視COCO2018 Keypoint冠軍算法詳解
    人體關鍵點檢測任務對於現實生活有著很大的潛在用途,目前公開的比賽中最權威的是MS COCO Keypoint track的比賽,也是該領域最有挑戰的比賽,參賽隊不乏Facebook,Google及微軟這樣的國際巨頭,也不乏CMU等頂尖研究機構,是該領域最先進方法的試金石。
  • CVPR 2018 | 8篇論文、10+Demo、雙料挑戰賽冠軍,曠視科技掀起CVPR...
    以去年 7 月就已經被大家熟悉並被業界廣泛使用的 ShuffleNet 為例,對於企業而言,不論是否有論文產出的需求,如何設計更為輕量級的模型結構一直是移動端應用落地的重要問題。因此,曠視科技團隊以高效卷積層設計減少計算複雜度的方式,提升了內存訪問效率和計算速度。
  • 曠視CVPR 2019摘得6項世界冠軍 全方位解密獲獎模型
    北京曠視科技有限公司在 CVPR 2019 的3項挑戰賽中,最終擊敗Facebook、通用動力、戴姆勒等國內外一線科技巨頭/知名高校,共計斬獲6項世界冠軍!對此,曠視設計了一個多尺度、多任務的模型,藉助新型檢測網絡,結合均衡採樣等策略,極大提高了模型的檢測精度,尤其是在小物體上。由最終結果可知,相較於官方Baseline 45.3%,曠視的模型高出18個點,達到63.3%,比第二名也高出8.8個點,擊敗一系列頂尖團隊,一舉奪魁。
  • 呼和浩特市政府、和林格爾新區與北京曠視科技有限公司籤署三方...
    曠視是首個公開發布《人工智慧應用準則》的AI企業,並成立了由企業內外專家組成的人工智慧道德倫理委員會。  曠視總部位於北京,擁有近3000名員工,並在北京、上海、南京、成都等地都設有研發中心。曠視與中國移動籤署戰略合作協議,2019年9月,曠視與中國電信籤署戰略合作協議,2019年7月,曠視在行業首發《人工智慧應用準則》,倡導科技向善,2019年5月,完成由中銀集團投資有限公司(BOCGI)、阿布達比投資局(ADIA)旗下全資子公司、麥格理集團以及工銀資管(全球)有限公司參與的7.5億美元D輪融資,2019年4月,北京智源-曠視智能模型設計與圖像感知聯合實驗室揭牌,2019年4月,曠視與海澱區東升鎮達成戰略合作
  • COCO2018 Keypoint冠軍算法解讀
    人體關鍵點檢測任務對於現實生活有著很大的潛在用途,目前公開的比賽中最權威的是 MS COCO Keypoint track 的比賽,也是該領域最有挑戰的比賽,參賽隊不乏 Facebook,Google 及微軟這樣的國際巨頭,也不乏 CMU 等頂尖研究機構,是該領域最先進方法的試金石。
  • 虧損近百億股東中途退出,曠視科技IPO是真缺錢還是真有貨?
    2012年還在清華讀書的印奇看到了一則新聞,「Facebook以1億美元的價格收購以色列人臉識別技術公司face.com」。在此之前,印奇已經和同班同學唐文斌、師弟楊沐開始了創業的嘗試,曾研製出一款體感互動遊戲《烏鴉來了》。而這則新聞讓印奇十分震驚,原來人臉技術可以這麼值錢,正式打開了曠視科技的大門,印奇主攻視覺識別,唐文斌搞定圖像搜索,而楊沐則負責系統架構與數據挖掘。
  • CVPR 2019|奪取6項冠軍的曠視如何築起算法壁壘
    從 2017 年組建至今,南京研究院希望將此機會將多年積累的技術放到國際舞臺上比一比。魏秀參後來透露,挑戰賽的勝利提升了團隊的自信心和凝聚力。相比於在 iNaturalist 挑戰賽上的突破,曠視研究院檢測組負責人俞剛帶隊獲得自動駕駛挑戰賽三項冠軍更像是「常規操作」。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    最終結果,曠視在 iNaturalist 挑戰賽上比第二、三名領先了一個身位。在另一個細粒度圖像識別的比賽 Herbarium Challenge(植物標本挑戰賽)中,參賽團隊需要從植物標本中鑑定開花植物物種(Melastomes),數據來自紐約植物園。曠視擊敗了去年的冠軍、今年的第二名大連理工。
  • 公司:曠視科技簡介
    北京曠視科技有限公司是一家世界領先的人工智慧企業,在深度學習方面擁有核心競爭力。公司於 2011 年由印奇、唐文斌和楊沐三位創始人成立。曠視商業化的第一款人工智慧產品是人臉識別解決方案。而公司原創的深度學習框架Brain++則為其訓練算法和改進模型提供了量身定製的基礎性支持。
  • 曠視科技Face++提出RepLoss,優化解決密集遮擋問題 | CVPR 2018
    作為大會鑽石贊助商,曠視科技 Face++研究院也將在孫劍博士的帶領下重磅出席此次盛會,本次曠視共有 1 篇 spotlight 論文,7 篇 poster 論文,在雷鋒網(公眾號:雷鋒網)旗下學術頻道 AI 科技評論旗下資料庫項目「AI影響因子」中有突出表現。而在盛會召開之前,曠視將針對 CVPR 2018 收錄論文集中進行系列解讀。
  • 實錄| 曠視研究院詳解COCO2017人體姿態估計冠軍論文(PPT+視頻)
    基於這篇論文所提出的算法,Megvii(Face++)隊在COCO2017人體姿態估計競賽上獲得了歷史最好成績,相對 2016年人體姿態估計的最好成績提高了19%。本期主講人為曠視研究院研究員王志成,同時也是COCO 2017 Detection競賽隊owner、論文共同一作,在比賽中主要負責整體方案的確定,模型設計、訓練調優的工作。
  • 李開復「口誤」背後 曠視科技是家什麼公司?
    來源:成都商報原標題:李開復「口誤」背後 曠視科技是家什麼公司?2019年9月,曠視科技對外展示了其開發的「智慧教學」系統,可以在屏幕上準確的捕捉到學生的面部細節,不過在「課堂監控」實踐引發了巨大的爭議後,曠視科技稱該圖片只是概念演示。
  • CVPR 2019|曠視斬獲6冠,彰顯深度學習算法引擎優勢
    曠視通過 Oral、Poster、Workshop、Demo、Booth等形式,同世界分享在計算機視覺理論與應用領域的最新進展。值得一提的是,在 CVPR 2019的3項挑戰賽中,曠視最終擊敗 Facebook、通用動力、戴姆勒等國內外一線科技巨頭/知名高校,共計斬獲6項世界冠軍!
  • 曠視科技聯合創始人兼CTO唐文斌個人簡歷
    曠視科技聯合創始人兼CTO唐文斌 唐文斌,男,出生於浙江紹興,初中還未畢業就「毛遂自薦」進入紹興一中高中部,先後獲得全國信息學奧林匹克聯賽一等獎、全國信息學奧林匹克競賽金獎等大獎。高二時,被保送清華大學。清華大學計算機系研究生,曠視科技聯合創始人兼CTO 。
  • 曠視科技擬科創板上市:已啟動上市輔導,三年半累虧近百億元
    公開資料顯示,曠視科技成立於2011年10月,是從事人工智慧產品和解決方案公司,主要提供個人物聯網、城市物聯網和供應鏈物聯網領域解決方案。 根據灼識諮詢報告,按2018年收入計算,曠視科技是國內最大的雲端人臉識別身份驗證解決方案提供應,佔據超過60%的市場份額。