AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架

2020-12-26 AI科技大本營

來源 | Object Instance Mining for WeaklySupervised Object Detection編輯 | Carol

出品 | AI科技大本營(ID:rgznai100)

商湯科技視頻大數據團隊發表論文《Object Instance Mining forWeakly Supervised Object Detection》,該論文被AAAI 2020錄用。

該團隊提出了一種端到端的物體實例挖掘弱監督目標檢測框架,引入了基於空間圖及外觀圖的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。

除此之外,還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。

詳細解讀

目標檢測,是計算機視覺領域長期關注的問題,在自動駕駛、圖像理解、視頻監控等領域都有著廣泛的應用然而基於深度學習技術的目標檢測器在網絡訓練中需要大量精確標註的物體邊界框,這些耗時耗力的標註工作阻礙了該技術在實際產品中的快速和廣泛應用,同時大量的人工標註也大大提高了產品成本。

為了解決這個局限性,僅使用圖片級別標註(既標註僅包含圖片中物體的類別)的弱監督目標檢測技術在近幾年受到了廣泛的關注和研究,具有重要的意義。

現有的弱監督目標檢測方法大多數是基於多實例學習框架的,對於每個物體類別,基於多實例學習框架的方法傾向於學習圖像中該類中特徵最明顯的物體,並對於每張圖片選取得分最大的一個物體框進行訓練,其他被忽略的物體實例容易使學習網絡陷入局部最優,進而影響弱監督目標檢測的性能。

本論文提出了一種端到端的物體實例挖掘(Object Instance Mining,OIM)弱監督目標檢測框架。該框架引入了基於空間圖(Spatial Graph)及外觀圖(Appearance Graph)的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。

這樣使得在基於多實例學習方法的網絡學習過程中,特徵不夠顯著的物體實例可以被檢測到並加入訓練,進而提升特徵的表達能力和魯棒性除此之外,商湯科技視頻大數據團隊還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。

基於物體實例挖掘(OIM)弱監督目標檢測框架結構如下圖所示:

物體實例挖掘(OIM)弱監督目標檢測框架

該框架主要由多實例檢測(Multiple Instance Detection)及目標實例挖掘(Object Instance Mining)兩個部分構成。在網絡訓練迭代過程中,論文先使用多實例檢測預測每個候選區域的類別,之後基於檢測的輸出及候選區域的特徵,通過建立空間圖及外觀圖儘可能挖掘圖像中的全部物體實例,並將它們加入訓練。其中物體實例挖掘過程如下圖所示:

物體實例挖掘過程示例。

在網絡訓練迭代過程中,在一幅圖中,首先學習/檢測到最具辨識力的物體實例,基於此實例通過位置關係,既其他候選框與此實例的重疊關係,建立空間圖(Spatial Graph),如圖(a)

之後基於此實例,通過計算它與其他候選框之間的外觀相似度,挖掘圖片中可能屬於同一類別的物體實例,建立外觀圖(Appearance Graph),針對每一個新挖掘到實例同樣建立空間圖,如圖(b),(c)。以此步驟進行迭代訓練,直到挖掘出圖像中全部可能的物體實例加入訓練如圖(d)

除此之外,由於在網絡迭代學習過程中,尤其是對於非剛性物體實例,基於CNN的分類器學習到的最具辨識力的是物體實例的某個局部而不是整個物體的整體,因此本論文設計了物體實例權重調整損失函數(reweighted loss), 以學習到更準確的物體檢測框。團隊提出對於不同的候選框應分配不同的權重,對於分類器置信度得分高的候選框分配較低的權重,反之對最高分候選框周圍的候選框分配較高的權重,從而學習更完整的物體實例檢測框。

團隊在PASCAL VOC 2007訓練集上進行了弱監督物體實例挖掘的過程的可視化,如下圖所示(從左到右),隨著網絡的迭代學習,更多更準確的物體實例可以被檢測出來並加入訓練中。

團隊使用 PASCAL VOC 2007及VOC 2012數據進行了測試,比較了物體實例挖掘(OIM)方法與其他相關弱監督檢測方法效果。結果表明,弱監督物體實例挖掘方法在定位精確率以及檢測準確率均達到或超過目前最先進的方法。

OIM與其他目前最先進的方法在PASCALVOC 2007 測試集上檢測精確度的比較(AP) (%)

OIM與其他目前最先進的方法在PASCALVOC 2007訓練驗證集上定位精確度的比較(CorLoc) (%)

OIM與其他目前最先進的方法在PASCALVOC 2012 驗證集/測試集上檢測精確度的比較(AP)(%)

OIM與其他目前最先進的方法在PASCALVOC 2012訓練驗證集上定位精確度的比較(CorLoc) (%)

論文:Object Instance Mining for WeaklySupervised Object Detection

論文作者:Chenhao Lin, Siwen Wang, Dongqi Xu, YuLu, Wayne Zhang

論文地址:https://arxiv.org/pdf/2002.01087.pdf

(*本文為投稿文章,投稿請微信聯繫1092722531)

為了助力對抗疫情,減少線下人員流動和聚集,CSDN與 PyCon 官方授權的 PyCon中國社區合作,舉行「Python開發者日」在線系列峰會。通過精彩的技術乾貨內容、有趣多元化的在線互動活動等,讓您足不出戶便可與大咖學習交流,共同渡過抗疫攻堅期。掃碼入群諮詢詳情!

2020年AI如何走?Jeff Dean和其他四位「大神」已做預測!AAAI 2020論文解讀:商湯科技發布新視頻語義分割和光流聯合學習算法微服務架構何去何從?微軟高管談微軟遠程辦公思考與實踐,值得每個企業看看網際網路人集體的遠程辦公終將是曇花一現?兩億人開啟在家辦公模式,看看程式設計師們怎麼說

相關焦點

  • 業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    2017 年 7 月 11 日,專注於計算機視覺和深度學習的國內人工智慧企業商湯科技完成 4.1 億美元融資的消息引爆業內。本次融資創下了全球人工智慧公司單輪融資的最高紀錄。作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    商湯科技、香港中文大學-商湯科技聯合實驗室以及其他商湯科技聯合實驗室共有44篇論文被本屆CVPR大會接收,其中包括口頭報告論文3篇(錄取率僅62/3300 = 1.88%),亮點報告論文13篇,論文錄取數量相較於CVPR 2017的23篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創新能力。
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    新智元推薦 來源:阿里巴巴AI Labs編輯:克雷格【新智元導讀】阿里AI Labs在最近的論文中提出了一種粗略到精細的多級圖像描述預測框架,該框架由多個解碼器構成,其中每一個都基於前一級的輸出而工作,從而能得到越來越精細的圖像描述。通過提供一個實施中間監督的學習目標函數,其學習方法能在訓練過程中解決梯度消失的難題。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文對其中一些重要論文進行了解讀。,很多專家將這個問題歸結成圖像分類、對象檢測等任務。具體來說,作者首先利用 Deep Q-Learning 框架學習最優排序,從而依次在當前的 partial PGN 上增加新節點,這裡 RL 的動作就是選擇一個新節點,RL 的獎勵 reward 則根據輸入圖像的 ground-truth 場景圖進行定義。添加節點後,通過消息(上下文關係信息、對象共現信息和圖片解釋中的先驗知識)傳遞來更新當前 PGN 的特徵向量。
  • 京東雲與AI 10 篇論文被AAAI 2020 收錄,京東科技實力亮相世界舞臺
    論文模擬了人類生成摘要的過程:當人類為某一段文本生成摘要時,首先會對該文本進行閱讀,並識別出裡面的關鍵詞,進而通過創作加工,將這些關鍵詞以流暢的語言表達出來。另外,文本摘要和文本關鍵詞抽取在本質上是相通的,即都是在輸入文本中提取關鍵信息,僅僅是輸出的形式有所差異。基於上述思考,論文提出一個多任務學習框架,通過一個共享的編碼器,互相強化文本摘要和關鍵詞抽取任務。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    但是在一些劇烈變化的場景上,可能會違背無監督學習的目標,反而導致學習效果不好。這篇文章中,優圖提出了一種稱為「增廣正則化」的學習框架。該框架在一些常規學習框架基礎上,利用增廣變換的數據多做一次前向,並利用原始數據的變換預測作為監督。在文章中,優圖進一步拓展網絡,支持共享光流解碼器的多視圖輸入。在多個benchmark上,與其它的無監督方法比,以顯著的效果提升,取得了當前最好的正確率。
  • AAAI 2020|用漸進打磨獲得最佳的顯著性目標檢測結果
    論文標題:Progressive Feature Polishing Network for Salient Object Detection論文地址:https://arxiv.org/abs/1911.05942本文為 AAAI2020 接收論文
  • NeurIPS 2020最佳論文;全卷積網絡實現E2E目標檢測
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要研究包括 NeurIPS 2020最佳論文以及拋棄 Transformer 使用全卷積網絡來實現端到端目標檢測的探索。
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
  • AAAI 2020分享|南京大學:一般約束下子集選擇問題的高效演化算法
    作為今年首個召開的人工智慧頂會,AAAI 2020 也受到了極大影響。國內眾多論文作者無法正常參與此頂會,進行學術交流。為向讀者們分享更多的優質內容,讓大家在無法出門的日子裡高效學習,機器之心將繼續組織 AAAI 2020 線上論文分享。
  • 多目標跟蹤論文筆記一
    多目標跟蹤:Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification這篇文章是商湯科技和兩個高校合作的文章,關於多目標跟蹤任務的。
  • ...論文解讀:基於強化學習的時間行為檢測自適應模型 | 分享總結
    因此,視頻中的行為檢測技術也是當下熱點研究任務之一。本文主要介紹的就是一種比傳統視頻行為檢測方法更加有效的視頻行為檢測模型。在近期雷鋒網 GAIR 大講堂舉辦的線上公開上,來自北京大學深圳研究生院信息工程學院二年級博士生黃靖佳介紹了他們團隊在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應調整檢測窗口大小及位置的方法,能對視頻進行高效的檢測。
  • mmdetection目標檢測框架安裝與測試
    一、mmdetection簡介項目地址:https://github.com/open-mmlab/mmdetection香港中文大學-商湯科技聯合實驗室開源了基於
  • CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。
  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    CVPR 2020已落下帷幕,共計投稿6656篇,錄用1470篇,涵蓋的方向包括目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計、三維點雲、視頻分析、模型加速、GAN、OCR等。
  • 論文 | 基於CNN的目標檢測算法
    segmentation Tech report  近十年來,多目標檢測的進展主要的是基於SIFT和HOG。隨著CNN(卷積神經網絡)在ImageNet(圖像識別比賽)上大獲成功,本文作者考慮是否能將CNN在圖像識別比賽中的結果應用到目標檢測比賽 PASCAL VOC Challenge中呢? 本文提出了基於CNN的目標檢測算法,這種算法對比之前提及的SIFT和HOG,在性能上有巨大的提高。
  • 後浪「95」獲 CVPR 2020 最佳論文,前得主這樣解讀
    來源 | AI TIME 論道CVPR 2020已落下帷幕,共計投稿6656篇,錄用1470篇,涵蓋的方向包括目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計、三維點雲、視頻分析、模型加速、GAN、OCR等。
  • CVPR 2018 | 曠視科技物體檢測冠軍論文——大型 mini-batch 檢測器MegDet
    作為大會鑽石贊助商,曠視科技研究院也將在孫劍博士的帶領下重磅出席此次盛會。而在盛會召開之前,曠視將針對 CVPR 2018 收錄論文集中進行系列解讀。本次第 7 篇的解讀主題是 COCO 2017 物體檢測挑戰賽冠軍論文——MegDet。已有解讀請見文末。
  • 視覺目標跟蹤 VOT2020-ST 冠軍方案解讀
    原文:https://zhuanlan.zhihu.com/p/257854666近日,由計算機視覺頂級會議 ECCV 聯合舉辦的視覺目標跟蹤國際競賽 VOT2020落下帷幕,我們開發的 RPT/RPTS 跟蹤框架有幸獲得了 VOT2020 Challenge 主賽道冠軍(VOT-ST2020 Winner)。