CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

2020-12-11 機器之心Pro

機器之心發布

機器之心編輯部

上個月,計算機視覺頂會 CVPR 2020 接收論文結果已經正式公布。在 6656 篇有效投稿中,最終有 1470 篇論文被接收,錄取率約為 22%。廈門大學媒體分析與計算實驗室共有 11 篇論文接受,其中兩篇為 Oral。本文將介紹一篇CVPR 2020 Oral 論文,作者來自廈門大學、深度賦智和西安電子科技大,其提出的單階段協同學習網絡在目標檢測和目標分割任務中均實現了新的SOTA性能。

論文連結:https://arxiv.org/abs/2003.08813論文代碼:https://github.com/luogen1996/MCN

該論文名為《Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation》,其首次提出單階段的協同學習網絡來同時解決指向性目標檢測(Referring Expression Comprehension)和指向性目標分割(Referring Expression Segmentation)兩個任務,而且在性能超越了 SOTAs 的條件下,達到了實時檢測和協同檢測的目的。

論文的共同一作為廈門大學媒體分析與計算實驗室(紀榮嶸 團隊)碩士生羅根和博士後周奕毅,並由廈門大學媒體分析與計算實驗室(紀榮嶸團隊)和深度賦智合作指導完 成。以下是論文一作羅根對該論文做出的解讀:

背景

給定一句語言描述,Referring Expression Comprehension (REC) 旨在檢測出與該描述相關的目標 bounding box,而 Referring Expression Segmentation (RES) 旨在分割出對應目標。REC 和 RES 長期以來被當成兩個不同的 任務來看待並被設計出了大量的單任務網絡,例如將語言模塊嵌入到語義分割網絡(RES)或者利用語言來檢索目標(REC)。儘管其中有一些基於目標檢索的多階段網絡,例如 MAttNet,能得到兩個任務的結果,但究其本質仍是單任務的檢索(ranking)網絡,其多任務的結果歸根於後端的 mask-rcnn。

與此同時,這種依賴於預訓練目標檢測器先提特徵後利用語言特徵和其進行交互檢索的方式不僅僅費時費力,而且有如下弊端:1)兩個任務無法在多模態學習中相互促進;2)frcnn/mrcnn 特徵丟失了預訓練 CNN 網絡的關係先驗和空間先驗;3)當 proposals 中沒有候選目標,檢索網絡將毫無疑問會失敗。

動機

我們認為過去的方法不是解決這兩個任務的最佳範式。實際上,這兩個任務之間高度趨近且能夠互相促進。比如,RES 任務詳細的標籤能指導視覺和文本之間的對齊而 REC 任務得到更好的定位能力也能幫助 RES 確定目標。因此,很自然地能想到把這兩個任務放到一個單階段網絡裡學習,在保證速度和精度的同時,又能使兩個任務的學習互相促進。並且這樣的多任務嘗試在計算機視覺領域已經非常成功,即實例分割(Instance Segmentation)。

但與實例分割不同,這樣的聯合訓練仍存在一個重大問題,即預測分歧 (Prediction Conflict). 預測分歧其實也會存在於實例分割當中,比如框出來的物體沒有被分割出來,但對於任務本身的目的而言,這個問題不會顯得那麼嚴重。而這個問題在語言指導下的 RES 和 REC 中則會尤為突出:

如上圖所示,這樣的錯誤放在 RES 和 REC 中是不可接受的。因此,在解決多任務學習的同時,我們還要考慮兩個任務之間的協同性的問題,就此本文首次提出了一種高效且有效的單階段協同學習網絡。

方法

方法上可以分為網絡結構和解決預測分歧的設計兩塊內容,整體框架如下圖所示:

1)網絡結構:

網絡結構上,我們要儘可能保證兩個任務之間能相互促進,同時各個部分的設計要複合兩個任務的屬性。首先我們對視覺特徵和語言特徵進行多模態多尺度的 fusion。在 REC 部分,我們採用了單尺度的預測並通過一條通路將淺層的多模態特徵回傳過來。這樣的設計一方面考慮到淺層特徵帶有更多的紋理、顏色信息並且受到 RES 任務的直接監督因而能夠促進語言語義的理解,另一方面由於 REC 任務中的 targets 較少,多尺度的預測往往在訓練中會帶來巨大的負樣本數。而 RES 部分,則需要大的解析度的感受野,因此網絡的輸出尺度增大同時配備了 ASPP 來增加感受野。

此外,兩個任務分支間的多次交互保證了在訓練過程中能夠互相促進。訓練階段,REC 分支回歸出 bounding box 以及預測對應的 confidence score,其過程類似於 Yolov3。而 RES 分支則預測出關於目標的概率圖,具體細節可以參見論文或者代碼。

2)解決預測分歧問題:

預測分歧問題的出現,一方面是由於 RES 定位能力弱造成的(RES 無法精確定位特定的目標而只能得到分割像素的集合,但這不能保證該集合就只包含或者完整包含了指向性物體),另一方面也是由於 RES 的任務更加複雜(在目標不夠顯著的情況下,REC 仍能得到正確的 bounding box 而 RES 卻不能),對訓練和學習的要求更高。因此從這兩個角度出發,我們考慮如何增強兩個任務間的共同關注,同時減少兩者之間的分歧。

對此我們提出了協同能量最大化 (Consistency Energy Maximization) 的自監督方法來最大化兩者在訓練階段的協同,同時提出了自適應軟非定位區域抑制(Adaptive Soft Non-Located Suppression)來在測試階段利用 REC 的定位能力幫助 RES 更好地定位和區分目標。以上兩種方式幾乎不會帶來任何的額外訓練/測試成本,同時能夠大大增強兩個任務的共同關注。

協同能量最大化 (Consistency Energy Maximization) :

首先考慮訓練的問題就需要明確優化的目標,很顯然我們要優化兩個任務分支的共同關注,但由於兩個任務的特徵以及性質上有所差異,直接優化兩路特徵往往會很大程度上影響性能。一個更好的選擇則是優化 Attention 特徵。一方面 Attention 特徵能夠更直接地反映出兩個任務的關注,另一方面通過殘差連接作為額外信息也不會影響原有信息。

這裡的 Attention 可以為任意的 Attention,文中我們採用了過去的工作(GARAN Attention)來得到 RES 和 REC 的 Attention 特徵分別定義為

。接著我們將 Attention 特徵投影到平面空間來獲得 RES 和 REC 的空間關注(能量幅值):

經過 Softmax 進行歸一化後得到

。接著我們考慮

之間的關係(能量夾角),這裡我們用餘弦相似度來刻畫:

其中

為常數項用於歸一化。最終協同能量

可以被定義為:

最終我們通過最大化

來使得兩個任務在訓練中協同,其中前三項能夠最大化共同關注的能量,後兩項能夠約束非共同關注的能量。

自適應軟非定位區域抑制(Adaptive Soft Non-Located Suppression)

為了在測試階段能夠更好的幫助 RES 定位目標,一個自然地想法是採取傳統目標檢測/實例分割中的 box crop 的方式,利用 REC 檢測出來的 box 對 RES 預測出的概率分割圖進行裁剪,接著再將其二值化。然而,這種硬性裁剪的方式及其容易將目標的部分也裁剪掉,從而導致性能的下降:

對此,我們提出了一個 Soft 的方式來對框內和框外的分割圖概率分布進行重新加權/抑制。給定一個 RES 分支預測的 mask

, 以及 REC 預測的 bounding box

,中的每個元素

會按下式更新:

其中

and

為加權因子和衰減因子,最後我們再對

進行二值化,這樣的結果比直接的裁剪方式具有更強的魯棒性。更進一步地,要如何針對每個不同的樣本確定

呢?我們通過 bounding box 的 confidence score

來對其進行建模。理由也很直觀,

隱式地建模了框內特徵的顯著性,通過

我們能很好地得到不同樣本的加權因子和衰減因此。文中我們採用了如下簡單有效的線性關係建模:

其中

,

,

and

為超參,來調節加權和衰減的幅度。

實驗

實驗設計上,為了量化地衡量 prediction conflict,我們設計了一個新的評價指標 Inconsistency Error(IE)。它用於計算 REC 結果與 RES 結果不一致的比例。簡單來說,IE 計算了 REC 正確時 RES 錯誤以及 RES 正確時 REC 錯誤這兩種情況在所有樣本中的比例。

實驗部分,我們首先比較了網絡結構,將我們設計的結構與幾種可能的搭配以及單任務的網絡進行比較,結果顯示我們的網絡設計在兩個任務的性能上是最優的:

接著,我們比較了不同的推理階段後處理的方式,結果顯示 Soft-NLS 以及 ASNLS 具有更好的魯棒性,同時夠大大降低 IE score。

然後我們進行了控制變量實驗,可以看到各個部分都能有效地改進性能,同時我們提出的兩個設計能夠大大降低 IE score。

最後我們在兩個任務上和目前的 SOTAs 進行了比較,結果顯示,在兩個任務上性能均領先於 SOTAs 的情況下,我們的模型還達到了實時的檢測。

展望

實際上,RES 和 REC 只是 language+vision 任務中的一個重要分支,包括另外一些多模態任務在內,過去大家都非常青睞於 FRCNN 的特徵,直覺上它可能會表現更好,但很多的事實表明它具有一些劣勢並且性能上不會優於 Grid 特徵。有興趣的可以看一下 CVPR 2020 的一篇文章《In Defense of Grid Features for Visual Question Answering》(實驗設計堪稱典範)。

因此 single-stage 可能會成為一個趨勢。除此之外,很多多模態任務之間都有著千絲萬縷的關係,如何求同存異可能會是比 bert 這一類預訓練模型更值得研究的方向。這兩點同時也是本文的兩個非常重要的支撐點,也可能是未來進一步發展的方向。

相關焦點

  • CVPR 2020 Oral | 廈大、深度賦智提出指向性目標的實時聯合檢測...
    本文將介紹一篇CVPR 2020 Oral 論文,作者來自廈門大學、深度賦智和西安電子科技大,其提出的單階段協同學習網絡在目標檢測和目標分割任務中均實現了新的SOTA性能。(Referring Expression Comprehension)和指向性目標分割(Referring Expression Segmentation)兩個任務,而且在性能超越了 SOTAs 的條件下,達到了實時檢測和協同檢測的目的。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。  2  動機  1、現有的基於關鍵點的目標檢測網絡(如CornerNet、CenterNet、ExtremeNet等)通過使用關聯嵌入向量進行物體關鍵點的匹配,然而關聯嵌入向量具有訓練難度大且容易混淆同類物體的缺點,這會造成許多錯誤的關鍵點匹配從而導致錯誤的檢測結果。
  • CVPR2020 | RPM-Net | 像素級目標分割網絡結構
    實時分享CVPR、ECCV等會議,關注深度學習、自動駕駛領域,我們期待你的加入。關注「CNNer」,選擇加「星標」或「置頂」精選乾貨,當日達。論文地址:https://arxiv.org/abs/1909.13247來源:韓國技術學院論文名稱:RPM-Net: Robust Pixel-Level Matching Networks for Self-SupervisedVideo Object Segmentation原文作者:Youngeun Kim本文提出了一種可以不需要人工標註數據集的自監督視頻目標跟蹤算法
  • CVPR 2020 |基用於3D目標檢測的層級圖網絡
    conf=cvpr2020 由於大多數現有的點雲對象檢測方法不能充分適應點雲的特徵(例如稀疏性),所以一些關鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基於層級圖網絡(HGNet)的圖卷積(GConv),可以直接將點雲作為輸入來預測 3D 的邊界框。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    傳統方法針對上述域偏移問題,一種廣泛採用的方法是在網絡中加入一個域判別器Discriminator (D),利用對抗訓練的機制,減少源域Source (S)和目標域Target(T)之間不同分布的差異,以加強原始網絡(G)在域間的泛化能力。方法具體包括兩方面:(1)利用源域的有標籤數據進行有監督學習,提取領域知識:
  • CVPR 2020 目標檢測論文精選
    字幕組雙語原文:CVPR 2020 目標檢測論文精選英語原文:CVPR 2020: The Top Object Detection Papers翻譯:雷鋒字幕組(李珺毅、沫年惜雪)一、基於在點雲上的3D目標檢測的分層圖形網絡原文標題:A Hierarchical Graph Network for 3D Object
  • 獲得Open Images冠軍,商湯TSD目標檢測算法入選CVPR 2020
    此項競賽由Google AI主辦,Open Images是目前通用物體檢測和實例分割兩個領域中數據量最大,數據分布最複雜,最有挑戰性的競賽,比COCO數據大一個量級,標註更不規則,場景更複雜。獲得此項競賽冠軍的核心算法是基於任務間空間自適應解耦(task-aware spatial disentanglement,TSD)檢測算法。
  • Domain Adaptation 圖像分類分割MCD_DA算法 | CVPR2018Oral論文
    關於這個研究任務具體是研究什麼的,具體請參考以前的文章AI圖像分割算法 | 帶你了解最近減小域間差異分割算法LSD-seg當前使用的方法:如下圖,一般的分類或者分割網絡包括下採樣的特徵生成模塊和分類模塊,圖片輸入網絡,通過特徵生成模塊提取為圖片特徵,再利用分類模塊預測圖片的類別,利用已有的標籤對網絡進行訓練。
  • CVPR 2019錄取結果公布,7篇新鮮好文推薦
    下面,我們重點推薦7篇CVPR 2019的新鮮熱文,包括目標檢測、圖像分類、3D目標檢測、3D重建、點雲分割等主題,一睹為快!論文列表來自中科院自動化所博士生朱政的CV arXiv Daily。通過將這個generalized IoU (GIoU)作為一種損失採用到最新的目標檢測框架中,在PASCAL VOC和MS COCO等流行目標檢測基準得到了性能改進。
  • 移動端實時3D目標檢測,谷歌開源出品,安卓下載就能用
    選自Google AI Blog作者:Adel Ahmadyan、Tingbo Hou機器之心編譯機器之心編輯部常規目標檢測,已經不能滿足移動端了,谷歌開源的 3D 實時目標檢測了解一下?目標檢測是一個得到廣泛研究的計算機視覺問題,但大多數研究側重於 2D 目標檢測。
  • 華科Oral論文:點雲中3D目標檢測的魯棒性
    雖然 NeurIPS 2019 上的乾貨還未看完,2020 年的第一場 AI 學術頂會 AAAI 2020 又即將開始。 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 將於美國紐約舉辦。
  • 全新視角探究目標檢測與實例分割的互惠關係 | AAAI 2020
    論文對當前目標檢測及實例分割算法的現狀進行了簡要的概述,並對各種方法的優劣進行了簡要的分析,據此提出了一套完整的框架,同時完成目標檢測與實例分割任務,並且兩個任務相互輔助,同時取得了性能的提升。因此便設計了如圖所示的雙流網絡,上面的 object stream 重點完成目標檢測任務,可以是 SSD, YOLO, RetinaNet 等任一 anchor-based 的目標檢測算法(文中採用了 RetinaNet);下面 pixel stream 重點完成分割的任務,解析度很高(文中採用了類似 PanopticFPN 的方式融合了多尺度的特徵,得到了高解析度的輸出);後續的若干操作則是文章的重點
  • 匯總|實時性語義分割算法
    對於圖像的理解有一下幾個層次:分類,即將圖像中最具代表性的物體歸為某一個類;帶有定位的分類,對分類任務的一個擴展,使用邊界框將對象框起來在分類;目標檢測,對多個不同類型的對象進行分類和定位;語義分割,是對圖像中的每個像素進行分類和定位;實例分割,是語義分割的擴展,在實例分割中
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    CVPR 2020 會議上,有哪些目標檢測論文值得關注?目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,現在我們可以輕鬆訓練計算機以高精度檢測出圖像中的多個對象。前不久結束的 CVPR 2020 會議在推動目標檢測領域發展方面做出了一些貢獻,本文就為大家推薦其中 6 篇有價值的目標檢測論文。
  • ECCV 2020 Oral|沈春華團隊新作,將條件卷積引入實例分割
    本文解讀的是ECCV 2020 Oral 論文《Conditional Convolutions for Instance Segmentation》,是沈春華團隊在實例分割領域的又一力作。本論文解讀首發於「AI算法修煉營」。
  • CVPR 2020 | 利用跨模態無監督域自適應進行三維語義分割
    本文介紹的是CVPR2020論文《xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation》,本文首發於知乎。
  • OpenCV無神經網絡對象檢測模型,如何進行目標的檢測與追蹤
    前面的文章,小編分享了很多關於目標檢測與目標追蹤的文章,且使用python方面的目標檢測算法打造了自己的目標追蹤專欄文章,小夥伴們可以參考由於目標檢測算法太大,需要大量的計算機的計算能力,在小型的應用場景中,使用YOLO系列,或者SSD對象檢測(雖然SSD算法簡單,模型較小),Fast-RCNN 等等對象檢測算法,需要配備高計算能力的計算機,有沒有簡單的適合小型應用場景的目標檢測與追蹤算法
  • CVPR2020|3D目標檢測算法推薦論文源碼大盤點
    本文收集了CVPR 2020 關於目標檢測相關論文和算法,自動駕駛依然熱門,所以帶動著3D目標檢測論文居多,當然2D目標檢測依舊熱門,神經架構搜索也開始在應用與目標檢測,樣本少和跨域的研究也是非常值得關注研究。
  • 百度霸榜CVPR 2020 飛槳助攻連奪八冠 AI領先技術助推中國新基建
    更多信息請參見百度CVPR2020線上主頁:http://cvpr20.com/sponsor/beijing-baidu/。  MOTS2020挑戰賽  MOTS (Multi-Object Tracking and Segmentation) 多目標跟蹤與實例分割挑戰賽由德國慕尼黑大學、德國亞琛工業大學、ETH聯合舉辦,是多目標跟蹤方向的權威競賽。該挑戰賽均是計算機視覺頂會CVPR的議程之一,可以直觀反映參賽者真實的應用能力。
  • CVPR2020|行人檢測與重識算法推薦論文源碼大盤點
    本文收集了CVPR 2020 一些行人檢測與人員重識別優秀論文,我們知道在視頻監控相關領域這些技術方向可以得到很好得廣泛應用。論文地址:https://arxiv.org/pdf/2003.12729.pdf3.STINet: Spatio-Temporal-Interactive Network for Pedestrian Detection and Trajectory PredictionSTINET:用於行人檢測和軌跡預測的時空交互網絡