編者按:在光流預測任務中,形變帶來的歧義與無效信息會干擾特徵匹配的結果。在這篇 CVPR 2020 Oral 論文中,微軟亞洲研究院提出了一種可學習遮擋掩模的非對稱特徵匹配模塊 ,它可以被輕鬆結合到端到端的基礎網絡中,無需任何額外數據和計算開銷就可以學習到遮擋區域,從而顯著改進光流預測的結果。
光流預測任務(opticalflow estimation)即給定一張原始圖像與一張目標圖像,希望建立一個表示從原始圖像的每個像素到目標圖像的對應關係的流場(flow field)。在理想情況下,目標圖像通過流場形變得到的形變圖像應該與原始圖像非常相似。但是,前景與背景之間的相對位移產生的遮擋區域(occlusions)給形變圖像帶來了歧義與無效信息(如圖1),使得光流預測任務變得更加困難。
圖1:可學習遮擋掩模作用於形變圖像
近年來,基於卷積神經網絡的深度學習正在被廣泛地應用於光流預測領域,而特徵形變(feature warping)則是其中最關鍵的一步。原始圖像與目標圖像首先通過同一個特徵提取器得到不同層級的特徵圖,為了找到原始特徵圖與目標特徵圖之間的對應關係,特徵形變將目標特徵圖通過當前預測的流場形變到與原始特徵圖相似的位置,再通過互相關層得到局部區域內兩兩像素之間的相關程度。然而,形變後的特徵圖同樣在遮擋區域留下了歧義與無效信息,會干擾特徵匹配的結果,這也是光流問題中尚未解決的主要問題之一。
本文提出一種可學習遮擋掩模(learnable occlusion mask)的非對稱特徵匹配模塊,不需要任何顯式的監督信息就可以預測遮擋區域、過濾特徵形變帶來的無效信息。如圖1,目標圖像通過流場形變之後,可學習遮擋掩模預測的遮擋(黑色)區域準確地過濾了重影部分的幹擾信息,得到了乾淨的掩模圖像(masked image)。在這個簡單的例子中就可以看到,原始圖像與目標圖像並非完全對等——後者在形變之後產生了重影,需要利用掩模信息進行過濾。
可學習遮擋掩模的非對稱特徵匹配模塊可以輕鬆結合到任何已有的基礎網絡上,通過端到端的方式自動學習到遮擋掩模,僅僅引入可忽略不計的額外計算量就可以顯著提升網絡的表現。
除此之外,我們還發現學習到的掩模可以和形變圖像一起送入之後的級聯網絡中,進一步提升網絡的整體表現。我們在 MPI Sintel、KITTI 2012 和 KITTI 2015 的光流數據集上都做了算法評測,截至投稿時間,均達到所有不使用額外信息的公開方法中最好的結果。
模型介紹
圖2:可學習遮擋掩模的非對稱特徵匹配模塊(AsymOFMM)
可學習遮擋掩模的非對稱特徵匹配模塊的結構如圖2所示。首先,我們非對稱地引入了變形卷積(deformable convolution),即在根據當前流場對目標特徵圖進行形變的同時做一次額外的卷積,目的在於打破原始特徵圖與目標特徵圖的對稱性。此時,網絡預測的可學習遮擋掩模作用在形變後的特徵圖上(相乘),過濾重影現象帶來的幹擾信息,得到掩模特徵圖。最後,由於遮擋區域原本攜帶的信息在過濾之後有所缺失,因此需要與一個權衡項相加作為彌補,而這個權衡項,也是無監督學習到良好掩模的關鍵。
從圖3中的對比可以看出,該模塊不需要任何額外的監督信息就可以學習到反映真實遮擋區域的掩模。
圖3:可學習遮擋掩模與遮擋區域真值(取反)對比
在該模塊的基礎上,我們還提出了可以充分利用掩模信息的雙特徵金字塔級聯網絡結構,進一步提升整個網絡的表現。結合以上模塊設計的MaskFlownet 的整體結構如圖4所示。
圖4:MaskFlownet 完整網絡結構
實驗評估與結果展示
表1:總體實驗結果
我們在 MPISintel、KITTI 2012 和 KITTI 2015 數據集上進行了廣泛的實驗。表1總結了我們的方法與其它方法相比的總體表現。其中,MaskFlownet-S 不使用級聯部分、以 PWC-Net 為基礎網絡,僅僅將所有特徵匹配部分替換為我們提出的可學習遮擋掩模的非對稱特徵匹配模塊,就在所有數據集上都取得了實質性的提升。MaskFlownet 則進一步受益於級聯網絡,在所有測試集上都取得了所有方法中的最佳結果。
表2:不同特徵匹配模塊之間的對比
表3:對稱與非對稱卷積的對比
表2證明了可學習遮擋掩模的非對稱特徵匹配模塊相對於普通設計的優越性。表3證明了增加一個對稱的額外卷積層(sym-conv)對結果的影響並不顯著,而簡單的非對稱設計就可以帶來明顯的提升。我們在實驗中發現,經過非對稱卷積的目標特徵與原始特徵的確可以學習到完全不同的特徵表示進而從中受益,如圖5所示。
圖5:特徵圖中的非對稱性
表4:掩模與權衡項的作用
表5:級聯與雙特徵金字塔的作用
表4說明了掩模與權衡項需要同時存在才會提升網絡的表現。一個可能的解釋是,只有質量良好的掩模才可以幫助特徵匹配,而缺少權衡項將會導致網絡無法學習到質量良好的掩模,如圖6所示。表5證明了級聯網絡與雙特徵金字塔結構的作用。
圖6:有無權衡項(右上無,右下有)所學習到的掩模對比
結語
我們提出了可學習遮擋掩模的非對稱特徵匹配模塊,該模塊可以被輕鬆結合到端到端的基礎網絡中,不需要任何額外數據就可以學習到遮擋區域,並且能顯著改進光流預測的結果。
憑藉其整體表現的優越性、不帶來額外計算開銷的便捷性、無需遮擋區域真值的普遍適用性、以及獨立於基礎網絡的一般性,我們期望該模塊可以在光流預測與特徵匹配任務中得到廣泛的應用。
GitHub連接:
https://github.com/microsoft/MaskFlownet
360金融首席科學家張家興:別指望AI Lab做成中臺我們想研發一個機器學習框架,6 個月後失敗了那個分分鐘處理10億節點圖計算的Plato,現在怎麼樣了?中國 App 出海「變形記」詹克團反攻比特大陸:一場失去人心的自我挽留