不用綠幕也能實時摳圖,商湯等提出只需單張圖像、單個模型的新方法MODNet

2021-02-25 機器之心
沒有綠幕怎麼摳圖?此前,華盛頓大學的研究人員提出用背景圖替換 trimap,不用綠幕也能實現不錯的摳圖結果。但該方法需要處理和對齊原始圖像和背景圖兩張圖像,不便於現實應用。近日,香港城市大學和商湯提出一種新型人像摳圖方法 MODNet,不用綠幕、只用單張圖像、單個模型即可實時完成人像摳圖。人像摳圖即預測一個精確的前景蒙版(alpha matte),然後利用它從給定圖像或視頻中提取人物。這一技術得到了廣泛的應用,如照片編輯、電影再創作等。目前,實時獲得高質量前景蒙版仍需要綠幕的輔助。但如果沒有綠幕呢?目前大部分摳圖方法使用預定義 trimap 作為先驗。但,trimap 需要人類標註,所需成本高昂,並且如果是通過深度相機捕獲,還會出現低精度問題。因此,近期的一些工作嘗試消除模型對 trimap 的依賴,即 trimap-free 方法。例如,華盛頓大學提出的 background matting 方法用分離背景圖像來替代 trimap。其他方法使用多個模型先生成偽 trimap 或語義掩碼,然後將其作為先驗進行前景蒙版預測。但使用背景圖像作為輸入需要輸入並對齊兩張圖像,使用多個模型會使推斷時間顯著增加。這些缺陷使得前述所有摳圖方法不適用於現實應用,如相機預覽。此外,受到標註訓練數據不足的限制,trimap-free 方法在實踐中常遇到域偏移問題,即模型無法很好地泛化至現實數據。能不能只用一個模型、一張 RGB 圖像,來預測精確的前景蒙版呢?最近,香港城市大學和商湯合作提出了一種輕量級網絡 MODNet,它將人像摳圖任務分解成三個相關的子任務,並通過特定約束執行同步優化。

一,神經網絡更擅長學習一組簡單目標,而不是一個複雜目標。因此,解決多個摳圖子目標可以實現更好的性能。二,對每個子目標應用顯式監督信號,可以使模型的不同部分學習解耦的知識,從而實現一個模型解決所有子目標。為了克服域遷移問題,該研究基於子目標一致性 (SOC) 提出了一種自監督策略,即利用子目標之間的一致性來減少預測前景蒙版中的偽影。此外,該研究還提出單幀延遲 (OFD) trick 這種後處理方法,以在視頻摳圖應用中獲得更流暢的輸出。MODNet 框架參見下圖:

相比 trimap-free 方法,MODNet 具備以下優勢:

MODNet 更快:它專為實時應用而設計,輸入大小為 512 × 512 時,MODNet 在 Nvidia GTX 1080Ti GPU 上的運行速度為 63 fps;

MODNet 獲得了新的 SOTA 結果,原因在於:1)目標分解和同步優化;2)對每個子目標應用特定的監督信號;

MODNet 具備更好的泛化能力,這得益於 SOC 策略。

儘管 MODNet 的結果沒有超過那些基於 trimap 的方法,但實驗表明 MODNet 在實際應用中更加穩定,原因就在於其移除了 trimap 輸入。該方法對實時人像摳圖任務中綠幕的必要性提出了挑戰。現有開源人像摳圖數據集的規模或精度均有一定限制,之前很多研究是在質量和難度等級不同的私人數據集上進行模型訓練和驗證的。這就使得不同方法的對比變得困難。而這項研究在統一的標準下評估現有的 trimap-free 方法:所有模型均在相同數據集上訓練完成,並在來自 Adobe Matting 數據集和該研究提出的新基準數據集的人像數據中執行驗證。研究人員表示,他們提出的新基準完成了高質量標註,多樣性也優於之前的基準,因而能夠更全面地反映出摳圖性能。總之,這項研究提出了新型網絡架構 MODNet,可實時完成 trimap-free 人像摳圖。研究者還提出了兩項技術 SOC 和 OFD,使 MODNet 能夠很好地泛化至新的數據領域,視頻摳圖質量更加平滑。此外,該研究還構建了新的人像摳圖驗證基準數據集。基於多個模型的方法表明,「將 trimap-free 摳圖看作 trimap 預測(分割)步驟加上基於 trimap 的摳圖步驟」能夠實現更好性能。這表明,神經網絡從分解複雜目標中受益。於是,該研究將這一思路繼續擴展,將 trimap-free 摳圖目標分解為語義估計、細節預測和語義 - 細節融合三個子目標。直觀來看,語義估計輸出粗糙的前景掩碼,細節預測生成細粒度的前景邊界,而語義 - 細節融合則將這二者的特徵進行混合。如圖 2 所示,MODNet 包含三個分支,每一個均通過特定約束學習不同的子目標。具體而言:

低解析度分支用於估計人類語義(監督信號是真值蒙版的縮略圖);

高解析度分支用於辨別人像邊界(監督信號是過渡區域 (α ∈ (0, 1));

融合分支用來預測最終的前景蒙版(監督信號是整個真值蒙版)。

該研究創建了新型人像摳圖基準 PPM-100,並在其上對比了 MODNet 和現有的人像摳圖方法,還證明了 SOC 和 OFD 策略對於 MODNet 適應現實數據的有效性。該研究提出了新型人像摳圖基準 Photographic Portrait Matting benchmark (PPM-100),包含 100 張精心標註、背景不同的人像。如下圖 4 所示, PPM-100 中的樣本背景更加自然、人物姿勢更豐富,因此數據也更全面。

研究者在 PPM-100 上對比了 MODNet 和 FDMPA、LFM、SHM、BSHM、HAtt,結果參見下表 1。從中可以看出,MODNet 在 MSE 和 MAD 這兩項指標上超過其他 trimap-free 方法,但仍遜色於基於 trimap 的 DIM 方法。將 MODNet 修改為基於 trimap 的方法後,其性能超過 DIM。

從中可以看出,MODNet 可以更好地處理空心結構(第一行)和頭髮細節(第二行),但在處理難度較大的姿勢或服飾時仍然會出現問題(第三行)。下圖展示了 MODNet 在現實數據上的摳圖效果,從圖中可以看出 SOC 對於模型在現實數據上的泛化能力非常重要,OFD 可以進一步使輸出結果更加平滑。

MODNet 不基於 trimap,因而能夠避免錯誤 trimap 的問題。圖 8 展示了 MODNet 與基於 trimap 的 DIM 方法的對比結果:

此外,研究者還對比了 MODNet 和華盛頓大學提出的 background matting (BM) 方法,參見圖 9。從圖中可以看出,當移動對象突然出現在背景中時,BM 方法的結果會受到影響,而 MODNet 對此類擾動具備魯棒性。一場屬於蓉城的「鮮香」盛宴,DevRun開發者沙龍邀您開啟「麻辣」開發之旅12月12日,DevRun開發者沙龍華為雲成都專場將帶你逐一解鎖:AI開發與雲原生DevOps的進階之旅、華為雲技術專家面對面的教學指導、技術瓶頸突破與核心效能提升的關鍵要義以及擁抱變革與自我進階的最佳姿勢。精彩不容錯過!

© THE END 

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

相關焦點

  • 智能算法之多目標協同優化摳圖算法
    針對上述問題,智能算法實驗室在多目標優化模型的基礎上,提出了基於模糊多準則評估與分解的多目標協同優化摳圖算法[1]。該算法的基本思路是利用進化多目標優化得出非劣前沿,然後通過模糊多準則評估選出最適合目標圖像的摳圖方案。如圖4所示,下面將詳細地介紹該方法。
  • PS摳圖的十種方法
    摳圖是Photoshop操作最基本的技能,看似簡單,但不同的圖像用不同的方法或許會達到事半功倍的效果。
  • 商湯科技:科學家的冒險之旅
    2015年5月,融360聯合商湯科技推出名為「天機」的風控系統,從用戶身份認證、還款意願和還款能力三個大維度,進行信用評分,再根據分值向放貸機構提出放款建議。 2015年8月小米推出作業系統MIUI7,其中發布的寶寶相冊,正是聯手商湯科技共同打造的新賣點。
  • PS摳圖的九種方法,最後一個簡直是萬能
    摳圖是Photoshop操作最基本的技能,看似簡單,但不同的圖像用不同的方法或許會達到事半功倍的效果。小編今天推送的教程列舉了PS摳圖的九個絕招,掌握之後足以應對大部分摳圖工作了!   1.橡皮擦工具   橡皮擦工具,更多時候跟「摳圖」看似沒啥關係,然而,竟然它能起到「擦除」的作用,那麼就完全可以用來摳圖去背了,它的鍵盤快捷鍵是:單按一個字母鍵「e」,簡單粗暴地擦掉你不想要的背景或其他畫面部分就可以了。
  • PS摳圖的九種方法,最後一個簡直是萬能
    摳圖是Photoshop操作最基本的技能,看似簡單,但不同的圖像用不同的方法或許會達到事半功倍的效果。今天推送的教程列舉了PS摳圖的十個絕招,掌握之後足以應對大部分摳圖工作了!今天來聊一聊PS摳圖那些事,十種原生基本工具,用熟了再也不愁摳圖去背景了。
  • PS摳圖的十種方法,可應對大部分摳圖工作!
    操作最基本的技能,看似簡單,但不同的圖像用不同的方法或許會達到事半功倍的效果。今天推送的教程列舉了PS摳圖的十個絕招,掌握之後足以應對大部分摳圖工作了!今天來聊一聊PS摳圖那些事,十種原生基本工具,用熟了再也不愁摳圖去背景了。摳圖或者叫去背,或者只是說選用素材圖中的一部分,是設計工作常常要遇到的情況,常言道「一個效果,多種方法」也是PS中經久不衰的「條條大道通羅馬」的典範。
  • 最新人工智慧摳圖神器,一鍵處理,小白也能完美摳圖!
    說到摳圖,不的不說是這每一個PS後期頭疼的地方,摳圖不僅耗費大量的精力和時間
  • ps通道摳圖技巧_扣圖去背景方法(圖解)
    想要詳細了解ps通道摳圖技巧,可以繼續關注photoshop的最新動態。扣圖去背景方法PS是一款功能最全、用途最廣泛的照片調色軟體,總能製作出意想不到的作品。那麼ps通道摳圖技巧有哪些?扣圖去背景方法是什麼呢?
  • 2020最新人工智慧摳圖神器,一鍵處理,小白也能完美摳圖!
    說到摳圖,不的不說是這每一個PS後期頭疼的地方,摳圖不僅耗費大量的精力和時間
  • 【後期修圖】PS摳圖的十種方法,最後一個簡直是萬能!
    摳圖是Photoshop操作最基本的技能,看似簡單,但不同的圖像用不同的方法或許會達到事半功倍的效果。
  • 資源 | 一個基於PyTorch的目標檢測工具箱,商湯聯合港中文開源mmdetection
    該工具包支持 Mask RCNN 等多種流行的檢測框架,讀者可在 PyTorch 環境下測試不同的預訓練模型及訓練新的檢測分割模型。當單個進程的 GPU 工作負載並不是很大時,運行多個進程將加速測試,這由參數 --proc_per_gpu <PROCESS_NUM> 指定。
  • 商湯-W(00020HK)開啟AI新時代
    AI新時代自此開啟2014年,商湯糰隊發表DeepID系列人臉識別算法擊敗Facebook,全球首次超過人眼識別率。為解決研究究成果商業化落地,實現價值,商湯科技在2014年10月正式成立。徐立,2000年被保送至上海交大計算機系,在香港中文大學計算機科學與工程系取得博士學位,為聯合創始人。
  • 攝影課堂(一)丨這些小妙招,帶你輕鬆玩轉摳圖
    「摳圖」是圖像處理中最常做的操作之一,將圖像中需要的部分從畫面中精確地提取出來,我們就稱為摳圖,摳圖是後續圖像處理的重要基礎。初學者都認為摳圖不好掌握,其實摳圖不難,只要你有足夠的耐心和細心,掌握最基礎的Photoshop知識就能完美的摳出圖片。
  • MonoRec:無需雷射雷達,只需單個相機就可以實現三維場景的稠密重建
    在本文中,我們提出了MonoRec,一種半監督的單目密集重建架構,該方案可在動態環境中根據單個移動攝像機預測深度圖。MonoRec提出了一種新型的多階段訓練方案,該方案可以不需要LiDAR深度值的半監督損失公式。在KITTI數據集上仔細評估了MonoRec,並表明與多視圖和單視圖方法相比,它具有最先進的性能。
  • 超簡單PS摳圖技巧揭秘!掌握這3個工具,摳圖真的一點都不難
    魔棒和快速選擇工具魔棒和快速選擇工具適合摳的是有單個比較明確主體的圖片,最有代表性的就是人像類照片了,如果照片是單色背景,那麼用魔棒工具就可以快速進行摳圖。如果背景有點複雜,那麼可以使用快速選擇工具,下面我們來看兩個案例。
  • 視覺人工智慧第一股上市,商湯創造了哪些AI應用?
    從科研走向技術落地,商湯還擁有8029個專利(數據來自智慧芽),圖像深度、虛化、增強、去模糊等視覺處理,以及車道線檢測、運動軌跡預測等自動駕駛等相關方向。小o是湯曉鷗教授在微軟亞研院期間的「藝名」,由於本人過於幽默,他被推選為研究院文工團團長,他有一句名言:「看事物要一分為二,任何事物都有兩個方面,有可笑的一面,同時也有更可笑的一面」。
  • MMEditing: 多任務圖像視頻編輯工具箱
    這是一個圖像和視頻編輯的工具箱,它目前包含了常見的編輯任務,例如圖像修復,圖像摳圖,超解析度和生成模型。在編輯圖像或者視頻的時候,往往是需要組合使用以上任務的,因此本工作將這些任務整理到一個統一的框架下,方便大家使用。為了幫助更多的同學在復現上少走彎路,並且實現可以在一個相同的環境下比較不同的settings, 香港中文大學多媒體實驗室(MMLab)推出了OpenMMLab計劃。
  • PS中常用的10種摳圖技術,學不會也要看看
    摳圖可以說是後期中經常需要執行的操作,你不常摳圖?那在後期修圖時,你是不是經常需要對局部進行選區然後調修呢?其實摳圖方法中很大一部分是選區的方法。看了本文介紹的10種摳圖方法,那麼再複雜的選區相信也可以精確選出並進行局部進行處理。下面就進入好機友攝影今天為大家準備的摳圖教學吧!橡皮擦工具可以說是最簡單的摳圖工具了!
  • 【新紀錄】90秒訓練AlexNet!
    近日,商湯和新加坡南洋理工大學的研究者發布最新研究,他們在 ImageNet 數據集上使用 512 個 GPU 僅用一分半鐘完成了 AlexNet 的訓練(此前,騰訊機智團隊用了 1024 個 GPU、4 分鐘時間);在 512 個 GPU 上用 7.3 分鐘完成了 ResNet-50 的訓練。擴展深度神經網絡(DNN)訓練對於減少模型訓練時間非常重要。
  • 【學術論文】基於ZYNQ的Retinex實時圖像去霧
    提出一種基於ZYNQ的Retinex實時圖像去霧方法,在HSV顏色空間對亮度分量V進行Retinex算法去霧處理;採用ARM+FPGA軟硬體協同的方式,由ARM完成算法控制功能及圖像的顏色空間轉換、對數等簡單運算;在FPGA中採用高斯核函數與二維圖像卷積的並行算法估計環境光的照度。