百度大腦「雙殺」!獲得國際目標檢測領域權威比賽兩項冠軍

2020-12-23 網易新聞

(原標題:百度大腦「雙殺」!獲得國際目標檢測領域權威比賽兩項冠軍)

2020年8月23-28日,原定於在英國格拉斯哥舉行的ECCV 2020受疫情影響,改為虛擬形式在線上進行,但這並未影響參加者的熱情,依然輸出了相當多計算機視覺領域優質內容。百度作為計算機視覺領域的"佼佼者",在ECCV 2020上也有不菲的成績,先有10篇論文中選被收錄,如今又"連中兩元"拿下兩個Workshop冠軍,分別是Tiny Object Detection和目標檢測領域最權威的比賽COCO。

在目標檢測領域,百度可謂是獲獎"常客"。去年,在目前規模最大的目標檢測公開數據集Open Images Dataset V5(OIDV5)中,百度憑藉領先的AI技術,摘得桂冠;在CVPR 2019 Workshop中,百度獲得"Objects365物體檢測"國際競賽 Full Track 冠軍。

ECCV是世界計算機視覺頂級會議之一,每兩年舉辦一場,與CVPR和ICCV並稱計算機視覺領域三大會議。在本屆的Workshop中,COCO Object Detection備受關注,它是目前學術界最權威的檢測和實例分割比賽。首屆Tiny Object Detection是為了幫助更多新興領域提出新的基準和微小目標檢測方式,解決行業痛點、滿足應用需求。

1、 COCO Object Detection

COCO數據集中囊括11萬訓練數據、80個類別,百度團隊基於PaddleDetection,在此次目標檢測和實例分割任務中通過3種方法進行優化:強大的目標檢測效果;加強版FPN模塊和加強版header;Two pipeline策略。

1、 強大的檢測分支

在比賽中,百度用效果優良的cascade mask rcnn和htc網絡作為基礎網絡,在這些基礎網絡上,加入更多改進策略來提升檢測部分的效果。

首先,百度通過飛槳框架下的ImageNet蒸餾模型作為預訓練模型對Objects365數據集的檢測模型進行訓練,訓練好的Objects365檢測模型可以作為預訓練模型,並用來訓練相同網絡結構的COCO模型,這樣可以在檢測任務上獲得顯著提升的效果。對於具體的網絡結構而言,百度訓練的Res2net200模型、CBResnet200、SE154模型作為檢測模型的backbone,其中Res2net200的檢測模型在單尺度下mAP可以達到56.2%。

其次,百度採用加強版的FPN模塊提升網絡效果:使用Acfpn網絡增強檢測能力,該模型可以解決高解析度輸入上特徵圖解析度與感受域之間的矛盾,Acfpn包括兩個模塊,加入Acfpn後,box mAP增加了0.8%;除了Acfpn,還使用DetectoRS中的RFP網絡,RFP網絡將反饋連接添加到自底向上的主幹層中,它在htc-r50上使box mAP提升4.2%。

除了加強版的FPN模塊,百度還用了non-local算子和數據增強策略。non-local算子用於描述距離像素之間的關聯,輸出特徵圖的每個元素都會受到所有輸入特徵圖的影響;同時,百度還根據COCO數據集的特性,使用隨機擦除的數據增強策略——在圖像中隨機選取一個矩形區域,並在訓練中對其像素進行隨機擦除,降低過擬合風險,並提高模型對於遮擋目標的檢測魯棒性。

2、 分割模塊

為了提高模型最終的mask準確率,百度使用增強版的header模塊,在此模塊中,使用htc的header作為基礎header。在此基礎上,百度用增強的雙網絡box header代替原有的box header,除此之外,mask header分支整合了rescoring信息,實際坐標信息和邊緣信息,組合成增強版的header。

原始的htc的box header只有兩個全卷積層用於目標框的回歸和分類,而增強版的雙分支box header使用兩個分支,分別預測框的坐標和類別,為了提高效率,百度沒有用過重的head結構,只使用一個bottleblock模塊代替第一個卷積層,其他的卷積層不變;而對於分割rescoring分支,為了避免計算量過大,百度只在最後一個階段加入分割rescoring分支,並用rescoring分支的結果取代原有的box分值賦給mask;而邊緣分割分支,是在mask header裡融入了邊緣信息,以提升mask mAP。

3、 two pipeline

最後,為了可以效利用多個檢測網絡的結果,百度將檢測網絡結果當作候選框輸入到分割網絡的head前,得到實例分割網絡的最終mask結果,通過這種two pipeline策略,mask mAP可以增長3.1%。基於上述優化方法,百度團隊在COCO object detection track中一舉奪魁。

此次競賽中,百度團隊使用了最新發布的"PP-YOLO",它是YOLOv3的"華麗變身"。PP-YOLO的高精度和高推理速度,即使對檢測視頻中非常快速運動的目標也可以達到很好的效果。經過一系列優化方法,飛槳研發人員已將訓練迭代次數和學習率衰減迭代次數調整至和原始YOLOv3模型的迭代次數一致,也就是訓練迭代次數從25萬次增加到50萬次,對應學習率衰減的迭代次數調整至40萬和45萬,使PP-YOLO模型在COCO minival數據集精度達到45.3%,單卡V100上batch size=1時的預測速度為72.9 FPS。如果使用COCO test_dev2017數據集測試,精度將達到45.9%。

如下表所示,在不同輸入尺度下PP-YOLO模型與YOLOv4模型在COCO數據集精度和V100推理速度的交手結果。

而PP-YOLO所應用的這套優化策略,也可以被嘗試應用到該系列的其它模型上,產業開發者或者科研人員可借鑑這套優化算法展開進一步的探索。

目標檢測是計算機視覺領域中的核心任務,也是百度的拿手強項。去年,在目前規模最大的目標檢測公開數據集Open Images Dataset V5(OIDV5)中,百度基於飛槳PaddleDetection目標模型庫研發了大規模圖像目標檢測模型MSF-DET (Multi-Strategy Fused Detection framework),它也成為了OIDV5 2019目標檢測比賽中的最好單模型,並且在計算機視覺領域的頂級學術會議ICCV 2019上進行技術分享。此外,在CVPR 2019 Workshop中,百度獲得"Objects365物體檢測"國際競賽 Full Track 冠軍,而 Full Track 主要用於探索目標檢測系統的性能上限,備受矚目。

2、 小目標檢測,tiny object detection

TinyPerson數據集包括794張訓練圖片,每張圖片中包括上百個小目標人物需要檢出。任務的目標是評估測試圖片中的tiny大小(20*20~40*40像素)的人體目標的AP(Average Precision)。

百度研究了常見的兩級檢測器:Faster R-CNN、FPN、Deformable R-CNN、Cascade R-CNN等,從而探查其對不懂IoU閾值的檢測標準的適合性。該方法主要分為四個部分:數據增強、訓練策略改進、模型改進和模型融合。

1. 數據增強

針對一般無人機採集的人群數據集,如Semantic Drone Dataset、Stanford Drone Dataset,由於數據集數量較小難以達到快速收斂和較好的檢測效果。百度採用額外的同類數據來進行同尺度預訓練,從而提高模型對同等先驗知識的理解,提高模型的檢測能力。通過加入數據增強策略,AP50(tiny)提升2%至3%。

2. 訓練策略改進

對於無人機航拍收集的數據,不同圖像的原始尺寸和目標的相對尺寸會有所不同,這樣會造成檢測器對有些圖像的理解困難。在訓練過程中,百度隨機將輸入圖像的大小調整為原始大小的0.5、1.5倍、1.5倍,以幫助解決尺度差異問題。在改進訓練策略以後,AP50(tiny)由57.9%提升至65.38%。

3. 模型改進

對於傳統的二階段檢測器,如R-CNN和FPN系列,通常使用ResNet系列網絡作為骨架網絡。為了改進這種系列檢測器,對於FPN檢測器,P3層為微小物體的檢測提供了相對應尺度的特徵。然而,P3層的不足在於它具有語義描述。因此百度用PAFPN代替FPN,提高網絡的語義識別能力。相較普通的FPN,PAFPN增加了一條自下而上的路徑,從而提高了基於提議的實例分割框架中的信息流。此外,在下採樣模塊中,百度通過"carafe"採樣方法來代替原來的卷積模塊下採樣方法,然後使用可變形卷積模塊。在上採樣模塊中,百度基於可變形卷積模塊代替原來的卷積模塊對特徵進行上採樣。改進後的PAFPN,AP50(tiny)提升了1.5%。

4. 模型融合

對於難度較大的無人機航拍目標的小目標檢測任務,單模型單尺度顯然無法滿足圖像的複雜以及低信噪比特性,因此,百度考慮使用多尺度多模型實現高精度檢測。對於模型融合方法,百度採用具有不同骨架網絡(Res2Net, ResNet200,ResNeXt101,SENet154等)的Cascade R-CNN檢測器進行融合。對於每個模型,百度預測了NMS後的邊界框。給每個模型一個從0到1的標量權重,所有權重總和為1,每個模型的盒子的可信度分數乘以其權重,最後合併來自所有模型的框並運行原始的NMS,除了百度添加來自不同模型的分數而不是只保留最高的一個。依次順序使用NMS的修改合併了不同IoU閾值的預測框。最終,模型的AP50(tiny)達到了72.23%。

通過以上優化,百度團隊在Tiny Object Detection比賽中獲得冠軍,領先第二名0.8%。與此同時,百度通過這樣的優化方式,能對更多不同領域的微小目標檢測需求提供更有力的幫助,為各行各業賦能。

百度持續在物體檢測技術上深耕,近兩年在國際檢測大賽中,斬獲5項國際比賽冠軍;取得了業內最重磅的coco object detection檢測比賽冠軍,代表了百度在目標檢測領域的領先性;取得tiny object detection比賽的冠軍,更表明了百度在小目標檢測領域技術的突破。取得這些成績的同時,百度產研並重,深度布局不同領域。2017年至今,百度AI工業已落地電子、汽車、鋼鐵、能源、橡膠、紡織等10多個行業,超過50個細分垂類。

其實,百度在工業質檢領域布局早,依託百度工業視覺智能平臺打造解決方案,用戶提及率高,其主要優勢在於突出的AI能力、開放的產品能力和豐富的落地經驗。通過整合百度工業視覺智能平臺、崑崙晶片、飛槳框架和自研算法,百度實現了核心AI能力完全自主可控,並開發出靈活多變的深度適配模型,降低AI使用門檻,與合作夥伴共建軟硬一體方案,用多種合作模式賦能終端用戶。

百度在國際視覺領域賽事中拿下"雙料冠軍",是AI技術的長期積累、全面發力,也是百度AI技術實力領跑全球的最好證明。目前,百度 AI 技術的集大成者,百度大腦正在不斷開放前沿頂尖的 AI 技術,已對外開放視覺、語音、自然語言處理等260多項領先的 AI 能力,服務超過210萬名開發者,為廣大開發者提供 AI 技術研發支持,賦能各行業。

本文來源:大眾新聞 責任編輯:陳體強_NB6485

相關焦點

  • 百度大腦成為CVPR 2020大贏家 連奪八冠大秀中國AI水平
    近日,全球計算機視覺頂會CVPR 2020首次召開線上大會,百度不僅入選22篇接收論文,一舉拿下8項挑戰賽冠軍,涵蓋視頻動作分析、動作識別、圖像增強、智慧城市等多個領域,還主辦了2場重量級學術Workshop,在國際舞臺盡顯中國AI硬實力。
  • 百度斬獲NeurIPS2020挑戰賽冠軍,引領遙感變化檢測技術發展
    ,以最高得分和最快模型的成績斬獲冠軍,原創AI技術再次得到國際權威頂賽的印證。百度在遙感變化檢測領域展現出的技術領先性,將進一步促進該技術在備災、環境監測、基礎設施建設和防疫等領域的應用。據了解,NeurIPS是由大會基金會主辦的關於機器學習和計算神經科學的國際會議。作為機器學習領域的頂級會議,NeurIPS在中國計算機學會的國際學術會議排名中處於人工智慧A類會議,擁有超高專業性和權威性。
  • 「常勝軍」百度大腦來了!接連斬獲6項競賽冠軍提升智感高清能力
    近日,百度在國際視覺領域頂會ECCV2020上展現了全球領先的AI技術實力,以自研的創新技術,百度包攬了AIM 2020Real Image Super-Resolution Challenge全部3項冠軍。
  • 百度Apollo智能交通底座技術再升級!4項世界冠軍霸榜CVPR頂級賽事
    近日,堪稱計算機視覺領域「奧斯卡」的國際頂會CVPR 2020首次以線上形式拉開帷幕。在本屆大會與智能交通關係最緊密的AI CITY Challenge和MOTS Challenge兩大挑戰賽中,百度一舉擊敗阿里、滴滴、卡內基梅隆大學等參賽者,斬獲4項世界冠軍及1個榜單冠軍,並成功衛冕1項冠軍,再度彰顯了百度在「新基建」的大潮下,在智能交通和智慧城市領域領先的技術實力。此外,百度本次奪冠也與飛槳的強力支撐密不可分。
  • 百度AI遙感技術獲NeurIPS2020挑戰賽冠軍 精準解決應用痛點
    國際權威頂賽的印證。百度在遙感變化檢測領域展現出的技術領先性,將進一步促進該技術在備災、環境監測、基礎設施建設和防疫等領域的應用。大會開設的SpaceNet-7挑戰賽聚焦於遙感變化檢測技術的應用,競賽任務要求參賽者使用已建立的多目標跟蹤準確性(SCOT)指標跟蹤建築物的建設進度,從而直接評估城市化程度。
  • NeurIPS2020遙感競賽 遙感智能解譯技術獲權威認可
    得益於百度大腦先進的計算機視覺技術支撐,百度團隊以最高得分和最快模型的成績斬獲該賽事冠軍。百度AI技術實力再獲國際權威認可,也代表了百度在遙感變化檢測領域的技術領先性,並將進一步促進該技術在各個領域的應用。在此次競賽任務中,百度團隊採用了飛槳圖像分割模型庫PaddleSeg中單個語義分割模型HRNet進行訓練和預測。
  • 百度大腦最新發布人臉合成圖甄別能力,人臉識別活體檢測更安全
    針對這一情況,百度大腦AI人臉識別的「H5視頻活體檢測」、「在線活體檢測」中增加了人臉合成圖鑑別能力,在多種活體技術加持的基礎上,可以鑑別AI換臉技術和黑客工具生成的人臉圖像,安全等級更進一步。該項新功能在人臉審核、新聞鑑真、肖像維權、色情圖像審核等諸多方面均有很高的實用價值,不僅保護著廣大個人用戶的信息、權益,還協助企業提升了其服務安全性。
  • 土耳其天才青年鋼琴家獲得國際鋼琴比賽第一名
    來自土耳其西部伊茲密爾省的天才青年鋼琴家Nehir zzengin在12月23日至30日由塞爾維亞、克羅埃西亞和斯洛維尼亞的國際評審團在線舉辦的紀念桑亞·巴普羅維奇鋼琴比賽中獲得第一名。Yaar大學在一份聲明中稱,作為大學繼續教育中心音樂學院的學生,15歲的zzengin對自己在國際比賽中獲得的獎項印象深刻。這位天才最近的一次成功是她在紀念桑亞·巴普羅維奇鋼琴比賽中贏得的冠軍,在新冠肺炎疫情爆發之際,參賽的鋼琴家可以通過將自己的表演視頻發送到網上的方式參與比賽。zzengin表示,她對音樂充滿熱情,已經創作了一年,她對贏得國際比賽表示高興。
  • 百度大腦最新發布人臉合成圖甄別能力
    人臉識別中的活體檢測,普遍通過動作配合、唇語以及靜默活體進行甄別,證明是「真人」而非圖片,其解決了用列印、翻拍照片、面具等通過人臉識別的問題,但依然有部分用戶上傳AI變臉、換臉等合成視頻企圖矇混過關。一系列「換臉」技術合成的人臉圖像很難通過肉眼辨別真偽,加上人臉數據涉及到用戶的肖像和個人隱私,篡改人臉數據也對用戶個人信息安全造成了威脅。
  • AskBob醫生站核心技術再獲冠軍 輕鬆實現醫學文獻中英文雙向翻譯
    近日,平安醫療科技研究院在國際機器翻譯比賽WMT2020的生物醫學翻譯比賽中,「中譯英」、「英譯中」兩項任務評分均位居榜首,戰勝包括華為、百度、騰訊、謝菲爾德大學等在內的20多家國際知名公司、學術機構,斬獲生物醫學領域中英雙向翻譯任務機器評測的冠軍。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 循證AI賦能基層醫療,盤點百度在數字健康領域的布局大事件
    該系統基於連心醫療在醫學影像領域積累的核心AI技術,結合飛槳開源框架和視覺領域技術領先的PaddleSeg開發套件研發,可快速檢測識別肺炎病灶,為病情診斷提供病灶的數量、體積、肺部佔比等定量評估信息。同時輔以雙肺密度分布的直方圖和病灶勾畫疊加顯示等可視化手段,為臨床醫生篩查和預診斷患者肺炎病情提供定性和定量依據,提升醫生診斷和評估效率。
  • 從百度AI的成績單看出百度走向下一個十年的決心
    2020年,百度AI不忘初心,站在社會需求的第一站,積極投身抗疫防疫,持續投入人才培養,為中國、世界源源不斷輸出新的創造力。具體而言,百度AI有哪些亮眼的成績。百度大腦6.0百度多年的AI技術積累和業務實踐,集成了一個完備的系統:百度大腦。它已經形成了基礎層、感知層、認知層、平臺層和AI安全的技術體系。
  • 百度大腦開放平臺上線人臉合成圖甄別能力,揭開AI換臉視頻「假面」
    (百度大腦「人臉檢測」、「H5視頻活體檢測」、「在線活體檢測」API增加人臉合成圖鑑別能力)在線活體檢測+人臉離線採集SDK,有效防止屏幕二次翻拍;接著,再基於「在線活體檢測」功能對圖片進行二次校驗,校驗是否為紙質圖、視頻翻拍、人臉合成圖等;最後,與權威身份信息數據源校驗用戶身份信息準確性,判斷是否為本人操作。
  • 《讓夢想飛》冠軍楊永程新加坡國際華人藝術節斬獲兩項金獎
    這個從《讓夢想飛》舞臺走出去的冠軍如今走向了國際舞臺,他在新加坡國際華人藝術節暨「中國聲樂國際大賽」中獲得了兩個金獎!另一個由王業兵作詞、高峰作曲的原創曲目《青春力量》則獲得了高等院校專業通俗小組對唱的小組金獎!這首歌由高峰作詞作曲,獲得了大賽評委的一致好評。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    此外,火山翻譯團隊還拿下了「德語 -英語」和「德語-法語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。語言專家評估得分第一 火山翻譯拿下「中文-英語」語向冠軍歷年比賽中,「中文-英語」語向的翻譯任務都是參賽隊伍最多、競爭最為激烈的機器翻譯任務之一,今年更勝往年。
  • 兩站國際泳聯冠軍賽獲三金 徐嘉餘目標奧運冠軍
    2020年國際泳聯冠軍遊泳系列賽前兩站比賽日前分別在深圳和北京落幕,徐嘉餘繼續保持著自己在男子短距離仰泳項目上的優勢,兩站比賽共獲得三枚金牌,他坦言:「我的目標是奧運會冠軍,需要戰勝自己。」
  • 百度AI的2020
    2020年,百度大腦核心技術突破「知識增強的跨模態深度語義理解」,理解真實世界的複雜場景。百度提出 ERNIE-ViL,將場景圖知識融入預訓練,刷新5項多模態經典任務的世界最好效果,登頂視覺常識推理任務(VCR)榜首;發布超大規模開放域對話生成網絡 PLATO-2,在內容豐富性和連貫性上達到新高度,能夠就開放域話題進行流暢深入的聊天,在 DSTC-9比賽中斬獲五項冠軍。
  • 仲愷企業雷曼光電獲兩項年度國際大獎
    仲愷企業雷曼光電獲兩項年度國際大獎 2020-10-15 17:07 來源:澎湃新聞 政務
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    語病錯誤類型舉例表最終,在語病識別、語病分類、語病定位、語病修正四類核心指標中,HFL在兩項關鍵指標中獲取冠軍,另外獲得一項第二和一項第三。真題實戰,看看這位A.I.冠軍如何修煉本次HFL參賽評測方案,主要分為檢測和修正兩部分。在檢測任務中,我們提出了ResBERT檢測模型,這種模型可以幫助我們更好地檢測出語法的錯誤類型與位置信息等。