今年 ICCV 2017會議期間,COCO +Places 2017挑戰賽公布了獲獎榜單。在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。
有趣的是,Places Challenge 中允許提交五次成績,曠視在實體分割項目上第一次提交的成績就以0.27717 Mean AP遠遠甩開了其它隊伍中的最好成績0.24150,最終的第三次提交更繼續提升到了0.29772,穩坐第一名。
近日,曠視科技研究院就在arXiv上連發三篇論文,內容包括了自己在COCO +Places 2017挑戰賽中的獲獎模型。AI 科技評論把這三篇論文簡單介紹如下,感興趣的讀者歡迎查看原論文仔細研究。
Light-Head R-CNN: In Defense of Two-Stage Object Detector
· 輕量頭部 R-CNN:守護兩階段物體檢測器的尊嚴
· 論文地址:https://arxiv.org/abs/1711.07264
· 論文簡介:這篇論文中,作者們首先探究了典型的兩階段物體檢測方法沒有YOLO和SSD這樣的單階段檢測方法運行速度快的原因。他們發現,Faster R-CNN 和 R-FCN 在候選區域產生前或後都會進行高強度的計算。Faster R-CNN 在候選區域識別後有兩個全連接層,而 R-FCN 會產生一張很大的分數表。這些網絡由於有這樣的高計算開銷的設計,運行速度就較慢。即便作者們嘗試大幅度縮減基準模型的大小,計算開銷也無法以同樣幅度減少。
曠視科技的作者們在論文中提出了一個新的兩階段檢測器,Light-Head R-CNN,輕量頭部 R-CNN,意在改善當前的兩階段方法中計算開銷大的缺點。在他們的設計中,通過使用小規模的feature map和小規模的R-CNN子網絡(池化層和單個全連接層),網絡的頭部被做得儘可能輕量化。作者們基於ResNet-101構造了一個輕量頭部的R-CNN網絡,在COCO數據集上超越當前最好水準的同時還保持了很高的時間效率。更重要的是,只要把骨幹結構換成一個較小的網絡(比如 Xception),作者們的 Light-Head R-CNN 就可以在COCO數據集上以102FPS的運行速度得到30.7mmAP的成績,在速度和準確率兩個方面都明顯好於YOLO和SSD這樣的快速單階段檢測方法。相關代碼將會公開發布。
檢測精度與推理時間對比圖
Cascaded Pyramid Network for Multi-Person Pose Estimation
· 用於多人姿態估計的級聯金字塔網絡CPN
· COCO Keypoint Challenge 第一名
· 論文地址:https://arxiv.org/abs/1711.07319
· 論文簡介:多人姿態估計這個課題的研究成果近期有了很大的提升,尤其是在卷積神經網絡快速發展的幫助下。然而,還是有許多情境會造成檢測困難,比如關鍵點重疊、關鍵點不可見以及背景複雜的情況都還解決得不理想。在這篇論文中,作者們提出了一種新的網絡結構 Cascaded Pyramid Network,級聯金字塔網絡 CPN,意在解決這些困難情境下的關鍵點識別問題。具體來說,他們的算法包含兩個階段,GlobalNet 和 RefineNet。GlobalNet 是一個特徵金字塔網絡,它可以找到所有「簡單」的關鍵點,比如眼、手;重疊的或者不可見的關鍵點就可能無法準確識別。然後RefineNet 是專門用來處理「難」的關鍵點的,它會把 GlobalNet 中所有級別的特徵表徵和一個難關鍵點的挖掘損失集成到一起。總的來說,為了解決多人姿態預測問題,他們採用了一個逐步細化的流水線,首先用檢測器生成一組邊界框,框出圖中的人體,然後用級聯金字塔網絡 CPN在每個人體邊界框中定位關鍵點。
根據所提的算法,曠視科技的作者們在COCO的關鍵點檢測比賽中刷新了最好成績,在COCO test-dev 數據集上取得73.0的平均精度,並在COCO test-challenge 數據集上取得72.1的平均精度。這一成績比COCO 2016 關鍵點檢測比賽的最好成績60.5提升了19%之多。
CPN 的部分檢測結果
MegDet: A Large Mini-Batch Object Detector
· mini-batch很大的物體檢測模型MegDet
· COCO Detection/Segmentation Challenge 第一名
· 論文地址:https://arxiv.org/abs/1711.07240
· 論文簡介:基於CNN的物體檢測研究一直在不斷進步,從 R-CNN 到 Fast/Faster R-CNN,到近期的 Mask R-CNN,再到 RetinaNet,主要的改進點都在於新的網絡架構、新的範式、或者新的損失函數設計。然而mini-batch大小,這個訓練中的關鍵因素並沒有得到完善的研究。在這篇論文中,作者們提出了一個大mini-batch物體檢測模型MegDet,從而可以使用遠大於以往的mini-batch大小訓練網絡(比如從16增大到256),這樣同時也可以高效地利用多塊GPU聯合訓練(在論文的實驗中最多使用了128塊GPU),大大縮短訓練時間。技術層面上,作者們也了提出了一種學習率選擇策略以及跨GPU的batch normalization方法,兩者共同使用就得以大幅度減少大mini-batch物體檢測器的訓練時間(例如從33小時減少到僅僅4個小時),同時還可以達到更高的準確率。文中所提的MegDet就是提交到COCO2017比賽的mmAP 52.5%成績背後的骨幹結構,這個成績也拿下了檢測任務的第一名。
同一個物體檢測網絡在COCO數據集上訓練的驗證準確率,mini-batch數量為16的運行在8塊GPU上,256的運行在128塊GPU上。mini-batch更大的檢測器準確率更高,訓練速度也幾乎要快一個數量級。
「4.6億美元融資」、「姚期智院士加盟」、「人臉識別方案應用於多款手機上」,再加上COCO比賽相關的技術成果和比賽成績,僅近期的幾則消息就可以說明曠視科技已經走得很大、很穩了。相信未來曠視科技研究院將在計算機視覺領域做出更多的研究成果,在世界範圍內取得商業和學術的雙豐收。