MaskFlownet:基於可學習遮擋掩模的非對稱特徵匹配丨CVPR 2020

2020-12-06 AI科技大本營

編者按:在光流預測任務中,形變帶來的歧義與無效信息會干擾特徵匹配的結果。在這篇 CVPR 2020 Oral 論文中,微軟亞洲研究院提出了一種可學習遮擋掩模的非對稱特徵匹配模塊 ,它可以被輕鬆結合到端到端的基礎網絡中,無需任何額外數據和計算開銷就可以學習到遮擋區域,從而顯著改進光流預測的結果。

光流預測任務(opticalflow estimation)即給定一張原始圖像與一張目標圖像,希望建立一個表示從原始圖像的每個像素到目標圖像的對應關係的流場(flow field)。在理想情況下,目標圖像通過流場形變得到的形變圖像應該與原始圖像非常相似。但是,前景與背景之間的相對位移產生的遮擋區域(occlusions)給形變圖像帶來了歧義與無效信息(如圖1),使得光流預測任務變得更加困難。

圖1:可學習遮擋掩模作用於形變圖像

近年來,基於卷積神經網絡的深度學習正在被廣泛地應用於光流預測領域,而特徵形變(feature warping)則是其中最關鍵的一步。原始圖像與目標圖像首先通過同一個特徵提取器得到不同層級的特徵圖,為了找到原始特徵圖與目標特徵圖之間的對應關係,特徵形變將目標特徵圖通過當前預測的流場形變到與原始特徵圖相似的位置,再通過互相關層得到局部區域內兩兩像素之間的相關程度。然而,形變後的特徵圖同樣在遮擋區域留下了歧義與無效信息,會干擾特徵匹配的結果,這也是光流問題中尚未解決的主要問題之一。

本文提出一種可學習遮擋掩模(learnable occlusion mask)的非對稱特徵匹配模塊,不需要任何顯式的監督信息就可以預測遮擋區域、過濾特徵形變帶來的無效信息。如圖1,目標圖像通過流場形變之後,可學習遮擋掩模預測的遮擋(黑色)區域準確地過濾了重影部分的幹擾信息,得到了乾淨的掩模圖像(masked image)。在這個簡單的例子中就可以看到,原始圖像與目標圖像並非完全對等——後者在形變之後產生了重影,需要利用掩模信息進行過濾。

可學習遮擋掩模的非對稱特徵匹配模塊可以輕鬆結合到任何已有的基礎網絡上,通過端到端的方式自動學習到遮擋掩模,僅僅引入可忽略不計的額外計算量就可以顯著提升網絡的表現。

除此之外,我們還發現學習到的掩模可以和形變圖像一起送入之後的級聯網絡中,進一步提升網絡的整體表現。我們在 MPI Sintel、KITTI 2012 和 KITTI 2015 的光流數據集上都做了算法評測,截至投稿時間,均達到所有不使用額外信息的公開方法中最好的結果。

模型介紹

圖2:可學習遮擋掩模的非對稱特徵匹配模塊(AsymOFMM)

可學習遮擋掩模的非對稱特徵匹配模塊的結構如圖2所示。首先,我們非對稱地引入了變形卷積(deformable convolution),即在根據當前流場對目標特徵圖進行形變的同時做一次額外的卷積,目的在於打破原始特徵圖與目標特徵圖的對稱性。此時,網絡預測的可學習遮擋掩模作用在形變後的特徵圖上(相乘),過濾重影現象帶來的幹擾信息,得到掩模特徵圖。最後,由於遮擋區域原本攜帶的信息在過濾之後有所缺失,因此需要與一個權衡項相加作為彌補,而這個權衡項,也是無監督學習到良好掩模的關鍵。

從圖3中的對比可以看出,該模塊不需要任何額外的監督信息就可以學習到反映真實遮擋區域的掩模。

圖3:可學習遮擋掩模與遮擋區域真值(取反)對比

在該模塊的基礎上,我們還提出了可以充分利用掩模信息的雙特徵金字塔級聯網絡結構,進一步提升整個網絡的表現。結合以上模塊設計的MaskFlownet 的整體結構如圖4所示。

圖4:MaskFlownet 完整網絡結構

實驗評估與結果展示

表1:總體實驗結果

我們在 MPISintel、KITTI 2012 和 KITTI 2015 數據集上進行了廣泛的實驗。表1總結了我們的方法與其它方法相比的總體表現。其中,MaskFlownet-S 不使用級聯部分、以 PWC-Net 為基礎網絡,僅僅將所有特徵匹配部分替換為我們提出的可學習遮擋掩模的非對稱特徵匹配模塊,就在所有數據集上都取得了實質性的提升。MaskFlownet 則進一步受益於級聯網絡,在所有測試集上都取得了所有方法中的最佳結果。

表2:不同特徵匹配模塊之間的對比

表3:對稱與非對稱卷積的對比

表2證明了可學習遮擋掩模的非對稱特徵匹配模塊相對於普通設計的優越性。表3證明了增加一個對稱的額外卷積層(sym-conv)對結果的影響並不顯著,而簡單的非對稱設計就可以帶來明顯的提升。我們在實驗中發現,經過非對稱卷積的目標特徵與原始特徵的確可以學習到完全不同的特徵表示進而從中受益,如圖5所示。

圖5:特徵圖中的非對稱性

表4:掩模與權衡項的作用

表5:級聯與雙特徵金字塔的作用

表4說明了掩模與權衡項需要同時存在才會提升網絡的表現。一個可能的解釋是,只有質量良好的掩模才可以幫助特徵匹配,而缺少權衡項將會導致網絡無法學習到質量良好的掩模,如圖6所示。表5證明了級聯網絡與雙特徵金字塔結構的作用。

圖6:有無權衡項(右上無,右下有)所學習到的掩模對比

結語

我們提出了可學習遮擋掩模的非對稱特徵匹配模塊,該模塊可以被輕鬆結合到端到端的基礎網絡中,不需要任何額外數據就可以學習到遮擋區域,並且能顯著改進光流預測的結果。

憑藉其整體表現的優越性、不帶來額外計算開銷的便捷性、無需遮擋區域真值的普遍適用性、以及獨立於基礎網絡的一般性,我們期望該模塊可以在光流預測與特徵匹配任務中得到廣泛的應用。

GitHub連接:

https://github.com/microsoft/MaskFlownet

360金融首席科學家張家興:別指望AI Lab做成中臺我們想研發一個機器學習框架,6 個月後失敗了那個分分鐘處理10億節點圖計算的Plato,現在怎麼樣了?中國 App 出海「變形記」詹克團反攻比特大陸:一場失去人心的自我挽留

相關焦點

  • CVPR 2020 Oral |神奇的自監督場景去遮擋
    在本文中,來自香港中文大學、商湯、南洋理工大學的研究者提出了一種自監督的場景去遮擋方法,旨在恢復潛在的遮擋順序並補全被遮擋對象的不可見部分,其效果可媲美全監督的方法。目前,該論文已被 CVPR 2020 接收為 Oral 論文。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。角點檢測採用關鍵點預測的方法,用角點的ground truth構建要回歸的角點熱力圖並加以高斯化,讓網絡輸出回歸該熱力圖從而學習預測角點位置;特徵調節即是十字星可變形卷積,通過利用角點池化之後的特徵預測十字星幾何信息(guiding shift),然後從十字星幾何信息中學習可變形卷積的採樣點偏移。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    論文連結:http://dhoiem.cs.illinois.edu/publications/hoiem_cvpr06.pdf2005年最佳論文實時非剛性表面檢測Real-Time Non-Rigid Surface Detection核心內容:論文提出一種無需任何先驗知識、可實時檢測變形表面的方法。
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    目前,用於目標檢測的方法通常屬於基於機器學習的方法或基於深度學習的方法。對於機器學習方法,首先使用 SIFT、HOG 等方法定義特徵,然後使用支持向量機 (SVM)、Adaboost 等技術進行分類。對於深度學習方法,深度學習技術能夠在沒有專門定義特徵的情況下進行端到端目標檢測,並且通常基於卷積神經網絡 (CNN)。
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    主鏈路是鏈式單元主要的信息處理鏈路,通過學習函數F對輸入向量進行特徵學習,F的學習函數可看作是輸入向量的特徵表達。第二環接收了第一環中的特徵,基於捷徑連接結構,在網絡傳遞過程中,該特徵得以完整保持,且藉助學習函數,特徵可實現進一步的加強深化過程,得到其增強特徵。對輸入信息來說,鏈式網絡第二環實現了其局部特徵的保持過程和增強過程。
  • 智庫丨陳曉勇:低空攝影測量立體影像匹配的現狀與展望
    本文系統闡述了低空攝影測量影像匹配的研究現狀與展望。對影像匹配的分類進行總結和歸納,大體上,影像匹配可劃分為兩大類,即基於灰度和基於特徵的匹配。重點針對基於特徵的影像匹配,從點、線、面等特徵提取算法及特徵描述符和相似性測度與策略等方面進行了詳細闡述。此外,列舉最新的基於深度學習的影像匹配算法,對低空平臺搭載的多樣化傳感器數據融合可能涉及的影像匹配方法進行了展望。
  • 從口罩(mask)想到的英語單詞「意向」記憶法
    從口罩的英文單詞mask,想到了英語單詞的「意向」記憶法(本人原創說法)。今天只聊mask名詞意義,看過我的另一篇文章(《英語單詞的詞性轉換》)的朋友自然就懂對應的動詞意思。mask名詞意義有:面具、口罩、面罩、面膜。咱們中國人背單詞就是這樣的,一對一的背誦記憶,大概是這樣的:「mask,面具;mask、口罩;….」
  • 擦除:提升 CNN 特徵可視化的 3 種重要手段
    再比如,直接利用CAM作為mask作用到特徵圖上,等等。類dropout的策略,按照一定規則在特徵圖上進行隨機擦除,通常不會利用網絡預測信息,是一種正則化的手段。該結構可⽀持分類標籤監督或語義監督或⼆者都有,其中語義監督可以為bbox形狀的mask。
  • 【強化學習實戰】基於gym和tensorflow的強化學習算法實現
    1新智元推薦【新智元導讀】知乎專欄強化學習大講堂作者郭憲博士開講《強化學習從入門到進階》,我們為您節選了其中的第二節《基於gym和tensorflow的強化學習算法實現》,希望對您有所幫助。同時,由郭憲博士等擔任授課教師的深度強化學習國慶集訓營也將於 10 月 2 日— 6 日在北京舉辦。
  • 從手工提取特徵到深度學習的三種圖像檢索方法
    前言圖片檢索是計算機視覺,數字圖像處理等領域常見的話題,在我學習相關知識的過程中,圖像檢索算是我第一個學習的 demo,該過程都記錄在 利用python進行識別相似圖片(一) 和 利用python進行識別相似圖片(二) 兩篇文章,分別記錄了直方圖匹配,phash/average hash/dhash 三種基於哈希的方法。
  • CVPR2020即將舉行 優必選科技12篇入選論文搶先看
    1.基於姿態引導可見部分匹配下的遮擋行人重識別方法  摘要:遮擋環境下的行人重新識別是一項極具挑戰性的任務,因為不同類型的障礙物會使行人外觀發生巨大變化,特別是在密集人群場景中。為了解決這一問題,我們提出一種基於姿勢引導的可見部分匹配(PVPM)方法。該方法結合姿勢引導的注意力來學習更具判別性的特徵,並在端到端框架中自挖掘個身體部位的可見性。
  • 利用基於仿真的掩模缺陷鑑定工具縮短晶圓代工廠的周轉時間
    由於IC的特徵尺寸小於現有光刻設備的波長,這使得光學接近校正(OPC)和相移掩模(PSM)等技術的採用成為必然選擇。而這些技術的採用必然會帶來龐大的數據文件,這會影響光罩設備的成本和周轉時間,並給掩模檢查帶來困難。例如,過去掩模上每個額外的特徵都會被認為是掩模缺陷,採用OPC之後,在掩模檢查的過程中,必須考慮各個額外特徵是否確實是一個缺陷。
  • 輪廓檢測論文解讀 | Richer Convolutional Features| CVPR | 2017
    揭曉答案:HED是豹子的圖片,但是RCF是兩隻小鳥的圖片(手動狗頭)HED中的是side output的輸出的特徵圖,而RCF中是conv3_1,conv3_2,這意味著RCF似乎把每一個卷積之後的輸出的特徵圖都作為了一個side output。
  • 「CVPR Oral」TensorFlow實現StarGAN代碼全部開源,1天訓練完
    給定來自兩個不同領域的訓練數據,這些模型將學習如何將圖像從一個域轉換到另一個域。我們將屬性(attribute)定義為圖像中固有的有意義的特徵,例如頭髮顏色,性別或年齡等,並且將屬性值(attribute value)表示為屬性的一個特定值,例如頭髮顏色的屬性值可以是黑色 / 金色 / 棕色,性別的屬性值是男性 / 女性。我們進一步將域(domain)表示為共享相同屬性值的一組圖像。
  • 中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR...
    我們提出一種動態特徵匹配方法來解決部分人臉識別問題,它結合全卷積網絡和稀疏表達分類。首先,利用全卷積網絡提取 Gallery 和 Probe 的特徵圖;其次,利用一個大小滑動窗口把 Gallery 的特徵圖分解為與 Probe 特徵圖大小相同的子特徵圖,進而動態特徵字典;最後,利用稀疏表達分類來匹配 Probe 特徵圖與動態特徵字典的相似度。
  • 一種基於點雲的Voxel(三維體素)特徵的深度學習方法
    本文介紹一種基於點雲的Voxel(三維體素)特徵的深度學習方法,實現對點雲中目標的準確檢測,並提供一個簡單的ROS實現,供大家參考。 特徵學習網絡 特徵學習網絡的結構如下圖所示,包括體素分塊(Voxel Partition),點雲分組(Grouping),隨機採樣(Random Sampling),多層的體素特徵編碼(Stacked Voxel Feature Encoding),稀疏張量表示(Sparse Tensor Representation)等步驟,具體來說:
  • FAIR最新視覺論文集錦:FPN,RetinaNet,Mask 和 Mask-X RCNN(含代碼...
    深究細節之前先強調一點,FPN 是基於一個特徵提取網絡的,它可以是常見的 ResNet 或者 DenseNet 之類的網絡。在你最常用的深度學習框架下取一個預訓練模型,就可以用來實現 FPN 了。   圖像裡的目標尺寸大小各種各樣,數據集裡的物體不可能涵蓋所有的尺度,所以人們利用圖像金字塔(不同解析度的下採樣)來幫助 CNN 學習。
  • 基於RTX2060構建TensorFlow-gpu(keras)學習平臺
    開始菜單運行anaconda navigator檢查是否安裝了notebook(默認有安裝)三、安裝tensorflow/keras在激活的環境中安裝:1. 如果機器上有gpu,則安裝gpu版本,沒有GPU就安裝cpu版。