AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架

2020-12-17 AI科技大本營

來源 | Object Instance Mining for WeaklySupervised Object Detection編輯 | Carol

出品 | AI科技大本營(ID:rgznai100)

商湯科技視頻大數據團隊發表論文《Object Instance Mining forWeakly Supervised Object Detection》,該論文被AAAI 2020錄用。

該團隊提出了一種端到端的物體實例挖掘弱監督目標檢測框架,引入了基於空間圖及外觀圖的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。

除此之外,還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。

詳細解讀

目標檢測,是計算機視覺領域長期關注的問題,在自動駕駛、圖像理解、視頻監控等領域都有著廣泛的應用然而基於深度學習技術的目標檢測器在網絡訓練中需要大量精確標註的物體邊界框,這些耗時耗力的標註工作阻礙了該技術在實際產品中的快速和廣泛應用,同時大量的人工標註也大大提高了產品成本。

為了解決這個局限性,僅使用圖片級別標註(既標註僅包含圖片中物體的類別)的弱監督目標檢測技術在近幾年受到了廣泛的關注和研究,具有重要的意義。

現有的弱監督目標檢測方法大多數是基於多實例學習框架的,對於每個物體類別,基於多實例學習框架的方法傾向於學習圖像中該類中特徵最明顯的物體,並對於每張圖片選取得分最大的一個物體框進行訓練,其他被忽略的物體實例容易使學習網絡陷入局部最優,進而影響弱監督目標檢測的性能。

本論文提出了一種端到端的物體實例挖掘(Object Instance Mining,OIM)弱監督目標檢測框架。該框架引入了基於空間圖(Spatial Graph)及外觀圖(Appearance Graph)的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。

這樣使得在基於多實例學習方法的網絡學習過程中,特徵不夠顯著的物體實例可以被檢測到並加入訓練,進而提升特徵的表達能力和魯棒性除此之外,商湯科技視頻大數據團隊還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。

基於物體實例挖掘(OIM)弱監督目標檢測框架結構如下圖所示:

物體實例挖掘(OIM)弱監督目標檢測框架

該框架主要由多實例檢測(Multiple Instance Detection)及目標實例挖掘(Object Instance Mining)兩個部分構成。在網絡訓練迭代過程中,論文先使用多實例檢測預測每個候選區域的類別,之後基於檢測的輸出及候選區域的特徵,通過建立空間圖及外觀圖儘可能挖掘圖像中的全部物體實例,並將它們加入訓練。其中物體實例挖掘過程如下圖所示:

物體實例挖掘過程示例。

在網絡訓練迭代過程中,在一幅圖中,首先學習/檢測到最具辨識力的物體實例,基於此實例通過位置關係,既其他候選框與此實例的重疊關係,建立空間圖(Spatial Graph),如圖(a)

之後基於此實例,通過計算它與其他候選框之間的外觀相似度,挖掘圖片中可能屬於同一類別的物體實例,建立外觀圖(Appearance Graph),針對每一個新挖掘到實例同樣建立空間圖,如圖(b),(c)。以此步驟進行迭代訓練,直到挖掘出圖像中全部可能的物體實例加入訓練如圖(d)

除此之外,由於在網絡迭代學習過程中,尤其是對於非剛性物體實例,基於CNN的分類器學習到的最具辨識力的是物體實例的某個局部而不是整個物體的整體,因此本論文設計了物體實例權重調整損失函數(reweighted loss), 以學習到更準確的物體檢測框。團隊提出對於不同的候選框應分配不同的權重,對於分類器置信度得分高的候選框分配較低的權重,反之對最高分候選框周圍的候選框分配較高的權重,從而學習更完整的物體實例檢測框。

團隊在PASCAL VOC 2007訓練集上進行了弱監督物體實例挖掘的過程的可視化,如下圖所示(從左到右),隨著網絡的迭代學習,更多更準確的物體實例可以被檢測出來並加入訓練中。

團隊使用 PASCAL VOC 2007及VOC 2012數據進行了測試,比較了物體實例挖掘(OIM)方法與其他相關弱監督檢測方法效果。結果表明,弱監督物體實例挖掘方法在定位精確率以及檢測準確率均達到或超過目前最先進的方法。

OIM與其他目前最先進的方法在PASCALVOC 2007 測試集上檢測精確度的比較(AP) (%)

OIM與其他目前最先進的方法在PASCALVOC 2007訓練驗證集上定位精確度的比較(CorLoc) (%)

OIM與其他目前最先進的方法在PASCALVOC 2012 驗證集/測試集上檢測精確度的比較(AP)(%)

OIM與其他目前最先進的方法在PASCALVOC 2012訓練驗證集上定位精確度的比較(CorLoc) (%)

論文:Object Instance Mining for WeaklySupervised Object Detection

論文作者:Chenhao Lin, Siwen Wang, Dongqi Xu, YuLu, Wayne Zhang

論文地址:https://arxiv.org/pdf/2002.01087.pdf

(*本文為投稿文章,投稿請微信聯繫1092722531)

為了助力對抗疫情,減少線下人員流動和聚集,CSDN與 PyCon 官方授權的 PyCon中國社區合作,舉行「Python開發者日」在線系列峰會。通過精彩的技術乾貨內容、有趣多元化的在線互動活動等,讓您足不出戶便可與大咖學習交流,共同渡過抗疫攻堅期。掃碼入群諮詢詳情!

2020年AI如何走?Jeff Dean和其他四位「大神」已做預測!AAAI 2020論文解讀:商湯科技發布新視頻語義分割和光流聯合學習算法微服務架構何去何從?微軟高管談微軟遠程辦公思考與實踐,值得每個企業看看網際網路人集體的遠程辦公終將是曇花一現?兩億人開啟在家辦公模式,看看程式設計師們怎麼說

相關焦點

  • 四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究
    (2)標註樣本容易過期,沒辦法及時跟進新出的假新聞事件。為解決上述問題,微信搜索數據質量團隊根據看一看實際業務提出了一個新的假新聞識別框架 WeFEND,能夠利用用戶的舉報內容擴充高時效性的樣本識別假新聞,提高假新聞識別的效果。識別框架主要由三部分組成:(1)弱監督樣本標註器;(2)強化學習選擇器;(3)假新聞識別器。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    本文介紹的是CVPR2020論文《CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection》,作者來自商湯 。
  • 基石小夥伴 | 商湯科技62篇論文入選CVPR 2019,多個競賽項目奪冠
    商湯科技CVPR 2019錄取論文在多個領域實現突破,包括:高層視覺核心算法——物體檢測與分割、底層視覺核心算法——圖片復原與補全、面向自動駕駛場景的3D視覺、面向AR/VR場景的人體姿態遷移、無監督與自監督深度學習前沿進展等。這些突破性的計算機視覺算法有著豐富的應用場景,將為推動AI行業發展做出貢獻。
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    商湯科技被ICCV 2019錄取的論文在多個領域實現突破,包括:面向目標檢測的深度網絡基礎算子、基於插值卷積的點雲處理主幹網絡、面向AR/VR場景的人體感知與生成、面向全場景理解的多模態分析等。這些突破性的計算機視覺算法有著豐富的應用場景,將為推動AI行業發展做出貢獻。
  • AAAI 2021 目標檢測論文大盤點(YOLObile/R3Det/StarNet等)
    本文為第一篇:目標檢測方向。主要包含:一般的2D目標檢測、旋轉目標檢測、視頻目標檢測、弱監督、域自適應等方向。注意1:並不包含3D 目標檢測和顯著性目標檢測,後續CVer會專門系統整理,還請關注後續內容。
  • 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    2017 年 7 月 11 日,專注於計算機視覺和深度學習的國內人工智慧企業商湯科技完成 4.1 億美元融資的消息引爆業內。本次融資創下了全球人工智慧公司單輪融資的最高紀錄。作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文 979 篇。
  • 業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    2017 年 7 月 11 日,專注於計算機視覺和深度學習的國內人工智慧企業商湯科技完成 4.1 億美元融資的消息引爆業內。本次融資創下了全球人工智慧公司單輪融資的最高紀錄。作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • 一種用於高粱頭狀花序檢測和計數的弱監督深度學習框架 | SPJ專遞
    ,介紹了一種用於高粱頭狀花序檢測和計數的弱監督深度學習框架。基於機器學習的方法[如基於深度卷積神經網絡(CNN)的目標檢測器]是進行目標檢測和計數的有前景的方法。然而,這種基於深度學習的方法的一個顯著局限是,它們通常需要大量手工標記的圖像來進行訓練,這仍然是一個繁瑣的過程。在此,本文提出了一個主動學習啟發弱監督深度學習的框架,在無人機圖像中進行高粱頭狀花序的檢測和計數。
  • 香港中大-商湯科技聯合實驗室AAAI錄用論文詳解:自監督語義分割的混合與匹配調節
    這篇文章介紹了香港中大-商湯科技聯合實驗室的新論文「Mix-and-Match Tuning for Self-supervised Semantic
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有44篇論文被本屆CVPR大會接收,其中包括口頭報告論文3篇(錄取率僅62/3300 = 1.88%),亮點報告論文13篇,論文錄取數量相較於CVPR 2017的23篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 一騎絕塵 商湯科技 44 篇論文入選 CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有 44 篇論文被本屆 CVPR 大會接收,其中包括口頭報告論文 3 篇(錄取率僅 62/3300 = 1.88%),亮點報告論文 13 篇,論文錄取數量相較於 CVPR 2017 的 23 篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 目標跟蹤最強算法開源:商湯SiamRPN系列解讀
    雷鋒網(公眾號:雷鋒網) AI 科技評論消息,日前,商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將獨家解讀目標跟蹤最強算法 SiamRPN 系列。
  • 論文精選—CVPR2020目標檢測文章大盤點
    6656篇,共錄取了 1470 篇論文,錄取率約為 22%。目標檢測是計算機視覺領域的基礎研究任務,也是最重要的研究領域之一,雖然目標檢測技術已經相對十分成熟,但是每年的會議文章中仍有相當比重的目標檢測文章,新方法也是層出不窮,說明目標檢測研究領域仍然小有可為,未來可期!本文主要盤點CVPR 2020 所有目標檢測相關論文,共搜集相關論文70篇,整理精選論文35篇,附論文|項目連結。
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    新智元推薦 來源:阿里巴巴AI Labs編輯:克雷格【新智元導讀】阿里AI Labs在最近的論文中提出了一種粗略到精細的多級圖像描述預測框架,該框架由多個解碼器構成,其中每一個都基於前一級的輸出而工作,從而能得到越來越精細的圖像描述。通過提供一個實施中間監督的學習目標函數,其學習方法能在訓練過程中解決梯度消失的難題。
  • CVPR 2018 | 商湯科技Oral論文詳解:BlockQNN自動網絡設計方法
    上周,商湯科技宣布以44篇論文入選CVPR 2018,吸引了諸多朋友點讚。接下來幾周,我們將陸續發布商湯科技入選CVPR 2018的重點論文解讀報導,歡迎大家關注。以下是在大規模分布式訓練領域,商湯科技發表的一篇重磅大會口頭報告(Oral)論文,提出基於分布式訓練的深度增強學習BlockQNN算法,自動設計神經網絡結構。
  • 挑戰目標跟蹤算法極限,商湯開源SiamRPN系列算法解讀
    商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將解讀目標跟蹤最強算法 SiamRPN 系列。
  • CVPR 2020 目標檢測論文精選
    字幕組雙語原文:CVPR 2020 目標檢測論文精選英語原文:CVPR 2020: The Top Object Detection Papers翻譯:雷鋒字幕組(李珺毅、沫年惜雪)一、基於在點雲上的3D目標檢測的分層圖形網絡原文標題:A Hierarchical Graph Network for 3D Object Detection on Point Clouds這篇論文提出了一種基於圖卷積(gconv)的三維目標檢測層次圖網絡(hgnet)。
  • 全新視角探究目標檢測與實例分割的互惠關係 | AAAI 2020
    論文對當前目標檢測及實例分割算法的現狀進行了簡要的概述,並對各種方法的優劣進行了簡要的分析,據此提出了一套完整的框架,同時完成目標檢測與實例分割任務,並且兩個任務相互輔助,同時取得了性能的提升。這些問題都可以在這篇論文提出的算法中得到很好的解決。二、方法介紹算法框架如下圖所示:
  • 今日Paper|弱監督目標的定位;遞歸殘差卷積神經網絡;嵌套U-Net結構...
    目錄重新思考通往弱監督目標的定位基於U-Net(R2U-Net)的遞歸殘差卷積神經網絡在醫學圖像分割中的應用UNet++: 一種醫學圖像分割的嵌套U-Net結構使用基於雙譜的深度卷積神經網絡對非線性時間序列進行分類