編輯:魔王
相比於人像摳圖,長相各異、渾身毛茸茸的動物似乎難度更大。IEEE 會士 Jizhizi Li、陶大程等人開發了一個專門處理動物摳圖的端到端摳圖技術 GFM。
在這個圖像和視頻逐漸成為主流媒介的時代,大家早已對「摳圖」習以為常,說不定還看過幾部通過「摳圖」拍攝的電視劇呢。然而,相比於人像摳圖,長相各異、渾身毛茸茸的動物似乎難度更大。
那麼,是否有專用於動物的摳圖技術呢?IEEE 會士 Jizhizi Li、陶大程等人就開發了一個專門處理動物摳圖的端到端摳圖技術。
動物的外觀和毛皮特徵給現有的方法帶來了挑戰,這些方法通常要求額外的用戶輸入(如 trimap)。
為了解決這些問題,陶大程等人研究了語義和摳圖細節,將任務分解為兩個並行的子任務:高級語義分割和低級細節摳圖。具體而言,該研究提出了新型方法——Glance and Focus Matting network (GFM),使用共享編碼器和兩個單獨的解碼器以協作的方式學習兩項子任務,完成端到端動物圖像摳圖。
研究人員還創建了一個新型動物摳圖數據集 AM-2k,它包含 20 個類別的 2000 張高解析度自然動物圖像,並且具備手動標註的前景蒙版。
此外,該研究通過對前景和背景圖像之間的不同差異進行綜合分析,來研究合成圖像和自然圖像之間的領域差距(domain gap)問題。研究人員發現,其精心設計的合成流程 RSSN 能夠降低差異,帶來更好的、泛化能力更強的模型。在 AM-2k 數據集上的實驗表明,GFM 超過當前最優方法,並且有效降低了泛化誤差。
動物圖像摳圖方法 GFM
在給動物圖像摳圖時,人類首先會瀏覽一下圖像,快速識別出大致的前景或背景區域,然後聚焦於過渡區域,將動物細節與背景區分開來。這可以大致形式化為分割階段和摳圖階段。注意,這兩個階段可能會出現交叉,因為第二階段的反饋信息可以糾正第一階段錯誤的決策。
為了模仿人類經驗,使摳圖模型具備處理這兩個階段的能力,有必要將其合併進一個模型,並顯式地建模二者之間的協作。因此,研究者提出了新型 GFM 網絡,進行端到端的自然動物圖像摳圖,模型架構參見下圖:
圖 2:GFM 網絡架構圖示。它包含一個共享編碼器和兩個單獨的解碼器,解碼器分別負責圖像分割和細節摳圖。
新型圖像合成流程 RSSN
為自然圖像標註前景蒙版費時費力且成本高昂,常見的操作是基於一些前景圖像和成對前景蒙版生成大規模合成圖像。
目前常見的蒙版合成流程是通過蒙版混合(alpha blending)將一個前景粘貼至不同的背景。但由於前景圖像和背景圖像通常採樣自不同的分布,合成圖像會出現大量合成偽影,從而導致合成圖像和自然圖像之間出現較大的領域差距。合成偽影可能會被模型誤以為是 cheap feature,從而導致在合成圖像上過擬合,在自然圖上出現較大的泛化誤差。
該研究系統地分析了引起合成偽影的因素:解析度差異、語義模糊、銳度差異和噪聲差異,並提出了解決方案——一套新的合成流程 RSSN 和大規模高解析度背景數據集 BG-20k。
RSSN 的整體流程如下所示:
下圖對比了不同合成圖像方法,其中 c 和 d 使用的背景圖像來自 BG-20k 數據集:
BG-20k 數據集具備以下特徵:
動物圖像摳圖數據集 AM-2K
AM-2k 數據集包含 20 個類別的 2000 張高解析度自然動物圖像,並且具備手動標註的前景蒙版。研究者將該數據集分割為訓練集和驗證集,並設置了兩個評估 track:ORI-Track (Original Images Based Track) 和 COMP-Track (Composite Images Based Track)。
下表展示了 AM-2k 數據集與現有摳圖數據集的對比情況:
該數據集中的示例參見下圖:
實驗
定量和主觀評估
下表 2 展示了多種 SOTA 方法在 AM-2k ORI-Track 上的結果:
與 SOTA 方法相比,GFM 在所有評估指標上均超過它們,通過同時分割前景和背景圖像以及在過渡區域摳圖,取得了最優性能。
下圖 6 展示了不同方法在 AM-2k ORI-Track 上的定性對比結果:
從圖中可以看出,SHM、LF 和 SSS 無法分割一些前景部分,因為其分段式結構導致模型無法顯式地分辨前景 / 背景和過渡區域。語義分割和摳圖細節是很難平衡的,分別需要全局語義特徵和局部結構特徵。HAtt 和 SHMC 無法獲得過渡區域的清晰細節,因為全局指引有助於識別語義區域,但對細節摳圖的用戶就沒那麼大了。
相比而言,GFM 獲得了最優結果,這得益於其統一模型,使用單獨的解碼器處理前景 / 背景和過渡區域,並以協作的方式進行優化。
模型集成和混合解析度測試
如下表 3 所示,模型集成的結果優於單個模型:
控制變量研究
控制變量研究結果如下表 4 所示:
模型複雜度分析
如下表 5 所示,使用 DenseNet-121 或 ResNet34 作為主幹網絡的 GFM 在運行速度上超過 SHM、LF、Hatt 和 SHMC,它們處理一張圖像分別只需大約 0.2085s 和 0.1734s。
論文地址:https://arxiv.org/pdf/2010.16188v1.pdf
GitHub 地址:https://github.com/JizhiziLi/animal-matting