MODNet 更快:它專為實時應用而設計,輸入大小為 512 × 512 時,MODNet 在 Nvidia GTX 1080Ti GPU 上的運行速度為 63 fps;
MODNet 獲得了新的 SOTA 結果,原因在於:1)目標分解和同步優化;2)對每個子目標應用特定的監督信號;
MODNet 具備更好的泛化能力,這得益於 SOC 策略。
儘管 MODNet 的結果沒有超過那些基於 trimap 的方法,但實驗表明 MODNet 在實際應用中更加穩定,原因就在於其移除了 trimap 輸入。該方法對實時人像摳圖任務中綠幕的必要性提出了挑戰。現有開源人像摳圖數據集的規模或精度均有一定限制,之前很多研究是在質量和難度等級不同的私人數據集上進行模型訓練和驗證的。這就使得不同方法的對比變得困難。而這項研究在統一的標準下評估現有的 trimap-free 方法:所有模型均在相同數據集上訓練完成,並在來自 Adobe Matting 數據集和該研究提出的新基準數據集的人像數據中執行驗證。研究人員表示,他們提出的新基準完成了高質量標註,多樣性也優於之前的基準,因而能夠更全面地反映出摳圖性能。總之,這項研究提出了新型網絡架構 MODNet,可實時完成 trimap-free 人像摳圖。研究者還提出了兩項技術 SOC 和 OFD,使 MODNet 能夠很好地泛化至新的數據領域,視頻摳圖質量更加平滑。此外,該研究還構建了新的人像摳圖驗證基準數據集。基於多個模型的方法表明,「將 trimap-free 摳圖看作 trimap 預測(分割)步驟加上基於 trimap 的摳圖步驟」能夠實現更好性能。這表明,神經網絡從分解複雜目標中受益。於是,該研究將這一思路繼續擴展,將 trimap-free 摳圖目標分解為語義估計、細節預測和語義 - 細節融合三個子目標。直觀來看,語義估計輸出粗糙的前景掩碼,細節預測生成細粒度的前景邊界,而語義 - 細節融合則將這二者的特徵進行混合。如圖 2 所示,MODNet 包含三個分支,每一個均通過特定約束學習不同的子目標。具體而言:低解析度分支用於估計人類語義(監督信號是真值蒙版的縮略圖);
高解析度分支用於辨別人像邊界(監督信號是過渡區域 (α ∈ (0, 1));
融合分支用來預測最終的前景蒙版(監督信號是整個真值蒙版)。
該研究創建了新型人像摳圖基準 PPM-100,並在其上對比了 MODNet 和現有的人像摳圖方法,還證明了 SOC 和 OFD 策略對於 MODNet 適應現實數據的有效性。該研究提出了新型人像摳圖基準 Photographic Portrait Matting benchmark (PPM-100),包含 100 張精心標註、背景不同的人像。如下圖 4 所示, PPM-100 中的樣本背景更加自然、人物姿勢更豐富,因此數據也更全面。研究者在 PPM-100 上對比了 MODNet 和 FDMPA、LFM、SHM、BSHM、HAtt,結果參見下表 1。從中可以看出,MODNet 在 MSE 和 MAD 這兩項指標上超過其他 trimap-free 方法,但仍遜色於基於 trimap 的 DIM 方法。將 MODNet 修改為基於 trimap 的方法後,其性能超過 DIM。從中可以看出,MODNet 可以更好地處理空心結構(第一行)和頭髮細節(第二行),但在處理難度較大的姿勢或服飾時仍然會出現問題(第三行)。下圖展示了 MODNet 在現實數據上的摳圖效果,從圖中可以看出 SOC 對於模型在現實數據上的泛化能力非常重要,OFD 可以進一步使輸出結果更加平滑。MODNet 不基於 trimap,因而能夠避免錯誤 trimap 的問題。圖 8 展示了 MODNet 與基於 trimap 的 DIM 方法的對比結果:此外,研究者還對比了 MODNet 和華盛頓大學提出的 background matting (BM) 方法,參見圖 9。從圖中可以看出,當移動對象突然出現在背景中時,BM 方法的結果會受到影響,而 MODNet 對此類擾動具備魯棒性。一場屬於蓉城的「鮮香」盛宴,DevRun開發者沙龍邀您開啟「麻辣」開發之旅12月12日,DevRun開發者沙龍華為雲成都專場將帶你逐一解鎖:AI開發與雲原生DevOps的進階之旅、華為雲技術專家面對面的教學指導、技術瓶頸突破與核心效能提升的關鍵要義以及擁抱變革與自我進階的最佳姿勢。精彩不容錯過!© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:content@jiqizhixin.com