MS COCO的全稱是通用物體圖像檢測(Microsoft Common Objects in Context),是微軟於2014年出資標註的Microsoft COCO數據集的同名競賽,與此前著名的ImageNet 競賽一樣,被視為是計算機視覺領域最受關注和最權威的比賽之一。
而在ImageNet競賽停辦後,MS COCO競賽就成為當前計算機視覺領域的一個最權威、最重要的標杆,也是目前該領域在國際上唯一能匯集Google、微軟、Facebook以及國內外眾多頂尖院校和優秀創新企業共同參與的大賽。
曠視是一家行業領先的人工智慧公司,在深度學習方面擁有核心競爭力,同時也是全球為數不多的擁有自主研發深度學習框架的公司之一,作為人工智慧技術商業化的先行者,通過提供多種高效的全棧式解決方案為不同垂直領域的客戶賦能。
從2017年至2019年,曠視連續三年參戰COCO,取得了三連冠的輝煌戰績,共計斬獲10項冠軍,成為這一挑戰賽的最大贏家,究其根本原因,與曠視自主研發的人工智慧算法平臺Brain++密不可分。
曠視Brain++始於2014年,可以端到端實現訓練與部署的一體化,不僅高效率賦能算法生產的規模化,還能把這種能力投射到AI產品之中,快速推進AI行業落地;同時又可以兼顧介於算法與產品之間的AI競賽,是曠視拿下COCO十冠的利器和法寶。正是這種卓絕的工程性努力,Brain++算法輸出能力有效而高效,助力曠視在COCO的舞臺交上一份滿意的答卷。
通過Brain++,曠視不僅可以快速驗證論文idea,而且試錯成本低,在大大提升算法創新效率的同時,還可以廣泛吸收業界最新科研成果,復現並作為算子整合進深度學習框架,為優秀的算法設計提供精良彈藥;而行業領先的AutoML技術再次錦上添花,助力曠視從算法生產的手工時代邁入自動化時代。值得一提的是,曠視Brain++還利用VM技術,搭建起高效完備的算力資源調度體系,可以實現多機多卡同步訓練,保證訓練穩定性,大幅減少訓練時間。
下面,本文就以COCO 2019最新拿下的三項冠軍,揭開獲勝背後的關鍵技術。據官方信息,ICCV 2019共有60場Workshops,COCO 2019是其中的重頭戲,堪稱人工智慧領域最具影響力的通用物體檢測挑戰賽。這次,曠視研究院拿下物體檢測(Detection)、人體關鍵點(Keypoint)和全景分割(Panoptic)三項第一,取得了COCO三連冠的驕人戰績;同時,由於深具原創性的算法,曠視研究院還獲得COCO首次設立的Best Paper Award這一全場最高榮譽。
COCO 2019 Detection
當前計算機視覺領域中,實例分割是物體檢測的代表性任務,它旨在檢測圖像物體的同時,分割出每個物體的前景。曠視研究院在本次COCO Detection任務中,通過重新設計RPN匹配策略和Proposal採樣策略,兩階段檢測器即可直接獲得很好的高IoU檢測結果,甚至超過使用更多階段的Cascade R-CNN。曠視研究院的單模型在test-dev上取得了59.7/51.9的檢測和分割精度,在進一步多模型融合下,精度達到61.0/53.1;最終,曠視研究院取得了test-challenge 52.5的冠軍成績。
COCO 2019 Keypoint
在Human Keypoint任務中,圖像人體關鍵點的視角和大小變化幅度很大,抽取合適的全局和局部特徵對於精度漲點至關重要。為此,在COCO Keypoint比賽中,曠視研究院提出一種新結構,稱之為殘差階梯網絡,在只有COCO訓練集,沒有額外數據,並採用小輸入尺寸(256x192)的情況下,可以大幅超過當前最優方法。該方法單模型結果為test-dev 78.0,多模型融合結果為test-dev 79.2,曠視最終以test-chanllenge 77.1的成績斬獲冠軍。
COCO 2019 Panoptic
全景分割的目標是同時解析一張圖像的前景(thing)和背景(stuff),並給每個像素點打上實例ID和類別ID。在COCO Panoptic任務中,曠視研究院的冠軍方法可有效提取上下文信息豐富的特徵,並通過thing類別輔助stuff類別訓練,提高Stuff類別預測準確度;同時改進模型集成方法,優化預測結果概率分布,有效提高stuff預測精度。藉助實例分割預測結果,並利用空間層級排序方法,曠視研究院解決了全景分割中的遮擋問題,最終以test-challenge 54.5的PQ精度奪魁。