實例分割是計算機視覺領域的基礎任務,需要算法預測出圖像中每個實例的掩膜和對應的分類標籤。Mask R-CNN作為一種性能優異的算法,在實例分割領域取得了巨大成功,這種兩階段的方法主要依賴於ROI操作來獲取最終的實例掩膜。
而在這篇文章中,作者從全新的角度解決了實例分割問題,來自澳大利亞阿德萊德大學的研究人員在實例條件下提出了動態實例生成的網絡模型,代替了先前逐個實例的ROI區域作為預測的輸入。
這種全卷積網絡消除了對於ROI區域測裁剪操作和特徵配準方法,其次由於動態生成的條件卷積大幅提升了網絡容量使得mask分支變得非常緊湊,推理速度得到了大幅度提升。實驗表明這種方法無需更長時間的訓練,在COCO數據集上取得了比Mask R-CNN更好的結果,同時在精度和速度上都得到了明顯提升。
實例分割
Mask R-CNN是近幾年來實例分割領域非常重要的突破,它使用了Faster R-CNN來為每個實例預測邊界框,而後針對每個實例利用ROIAlign操作對在特徵圖中進行ROI區域裁剪,最後利用緊湊的全卷積網絡來對每一個實例的掩膜進行預測。
然而這種基於ROI的方法也有著諸多需要克服的困難:
首先ROI一般都是和圖像坐標軸對齊的邊框,當遇到非常規不規則物體時框中就會包含較多的背景或者其他實例的部分。雖然可以通過旋轉ROI解決這一問題,但隨之而來是更為複雜的計算代價和處理流程;其次為了區分前景和背景或者其他雜亂的實例,mask端需要堆疊更多的卷積層來獲取更大的感受野,這使得計算量大幅增加;第三由於ROI尺寸各不相同,為了有效利用批(batch)處理計算它們會被重置為相同的大小,這會限制大範圍實例的解析度。
在計算機視覺領域與實例分割最相近的要數語義分割了,全卷積網絡FCN在這一任務上取得了巨大的成功。此外FCN同時也在其他逐像素的預測任務上表現優異,像圖像去噪、超分辨這類底層圖像處理任務、光流估計和邊緣檢測這類中級任務,單發目標檢測、單目深度估計和目標計數這類高級任務都有著FCN的貢獻。但在實例分割任務中幾乎所有的純粹FCN方法都沒有達到最先進的水平。究竟是什麼原因讓強大的FCN在實例分割中敗下陣來呢?
研究人員發現主要的問題在於,網絡對於同一張圖像需要針對不同類別預測出不同的掩膜,這會讓FCN陷入兩難的境地。例如針對兩個人A和B,在圖像中具有相同的外觀和形狀特徵,但在預測A的掩膜時網絡需要將B視為背景,這會讓網絡陷入到一定程度的迷茫中。所以ROI才需要將目標區域特徵圖剪切出來。
本質上來講,實例分割網絡需要兩種類型的信息:外觀形狀特徵信息用於確定目標類別、位置信息用於從同一類中區分出不同的實例。基於ROI的方法都隱式地編碼了目標實例的位置信息。而這篇文章的方法則探索對對於實例位置敏感的卷積層來嘗試解決目標位置信息問題。
基於這樣的考量,研究人員提出了新的解決方法,來代替標準的、由一系列固定權重濾波器組成的ConvNet來作為實例預測端針對所有實例進行處理,利用了一種參數基於待預測實例自適應的網絡結構來進行預測。在動態濾波器和條件卷積的啟發下,控制子網絡會針對每一個實例動態生成mask FCN的網絡參數(也就是基於帶預測實例的中心區域來生成),隨後這些參數實例化為mask FCN用於預測對應實例的掩膜。
其中的思想在於網絡參數能夠編碼實例的特徵、並僅激活這一實例的像素,巧妙地避開了前面提到的問題。得到的條件mask端作用於整個特徵圖免去了獲取ROI的操作。這一方法也許在有的人看來會帶來非常多的網絡參數(由於實例的數量很多),但研究人員巧妙地利用了動態生成的濾波器來構建緊湊的FCN mask預測端,在提高性能的同時,大幅度減少了計算複雜性。
CondInst
實例分割模型的目標在於通過輸入圖像為圖中的實例預測出對應的掩膜,實例數量的不確定對於傳統的FCN來說十分困難。本文工作的核心在於,針對圖中待處理的K個實例,模型會動態生成K個不同的掩膜處理端,每個掩膜處理分支將目標實例的特徵包含在了其參數中。當其作用於特徵圖時僅僅會激活實例上的像素用於掩膜預測。下圖顯示了模型的主要架構:
12下一頁>(免責聲明:本網站內容主要來自原創、合作媒體供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,並對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或連結內容可能涉嫌侵犯其智慧財產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,並提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件後,將會依法儘快聯繫相關文章源頭核實,溝通刪除相關內容或斷開相關連結。 )