Double DIP——一種無監督層圖像分割 AI 技術

2021-01-09 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:每月《Computer Vision News》都會選擇一篇關於計算機視覺領域研究成果的論文進行回顧。今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。

概況

許多看似無關的計算機視覺任務可以被視為圖像分割為不同的層的特殊情況。舉兩個突出的例子:圖像分割——分割成背景層和前景層的區域;圖像去霧——分割為清晰圖層和有霧圖層。在該論文中,作者提出了一種基於耦合的「深度圖像先驗」(DIP)網絡對單個圖像進行無監督層分割的統一框架。

被 CVPR 2018 會議接收的深度圖像先驗(DIP)網絡,是一種可以用來對單個圖像的低級統計數據進行生成的結構,而且只需要在單張圖像上進行訓練。而在論文中,作者向我們展示了如何通過耦合多個 DIP 網絡得到一個強大的工具,來將圖像分割為其基本組成,從而使其適用於各類任務。正因為所得數據來自於混合層的內部,相比其各個組成部分的數據更複雜且更具代表性,這使其多功能適用性具有實現的可能。作者們認為,模型能勝任多種任務的原因是,相比於在不同的層上各自進行,多種不同的層的內部統計特性更為魯棒,也有更好的表徵能力。

作者向我們展示了該方法在各類計算機視覺任務上的運用,比如:水印去除,前景/背景分割,圖像去霧以及視頻中的透明度分離等。在沒有提供任何額外數據的情況下,只需要在單張圖像上進行訓練,就可以完成以上所有的任務。

關於「圖像分割的統一框架」

由三個不同任務重新定義的原圖分割,可以視為簡單基本層的混合,如下圖所示,圖像分割、圖像去霧、透明度分離這三種任務都可以看作是,先把原始圖像拆分成一些基本層,然後再把這些層重新混合。

這種方法將圖像分割成若干基本層,並提供一個統一的框架來對大量明顯不同且無關的計算機視覺任務進行處理。所有這些圖像分割的共同點是每個單獨層內小塊的分布比「混合」圖像(即原始圖像)更「簡單」(均勻),從而導致每個單獨層的內部相似性很強。已有研究證明小圖像塊(例如 5×5,7×7)的統計特徵(分布)在自然圖像中極具重複性,所以這種強內部重複性,可以很好的用於處理各種計算機視覺任務。

圖1 圖像分割的統一框架

作者的方法結合內部補丁重現,即小塊圖像的重複出現的特性(無需監督即可解決任務的能力)和深度學習的強大力量,提出了一種基於 DIP 網絡的無監督框架。當 DIP 網絡的輸入是隨機噪聲時,它也能學會重建單個圖像(該圖像作為訓練的唯一輸入)時,單個 DIP 網絡被證明可以很好的捕獲單個自然圖像的低級統計數據。這個網絡還被證實在無監督情況下,完全能夠解決如:去噪,超解析度和修復等問題。

圖像分割基本原理

圖2 圖像分割基本原理

圖 2 向我們說明了該方法的基本原理。它展示了如何利用 X 和 Y 兩個圖案,來混合產生新的更複雜的圖像 Z。每個「純」圖案(X 和 Y)的小圖像塊的分布相比混合圖像 Z 小圖像塊的分布更簡單。眾所周知,如果 X 和 y 是兩個獨立的隨機變量,那麼它們的和 Z = X + Y 的熵大於它們各自的熵。

圖 2 的損失函數圖還向我們詳細展示了單個 DIP 網絡作為時間函數(訓練迭代)時的 MSE 重建損失。對於圖中的 3 條線:(i)橙色是訓練重建紋理圖像 X 的 MSE 損失;(ii)藍色是訓練重建紋理 Y 的 MSE 損失;(iii)綠色是訓練重建紋理圖像 X+Y 的 MSE 損失。可以發現,MSE 損失值越大時,收斂時間越長。而且,混合圖像的 MSE 損失值不僅大於兩個單獨圖像的 MSE 損失值,實際上,還大於兩個單獨圖像 MSE 損失值的總和。

為了證明這個現象不是偶然,作者從 BSD100 數據集(為了防止自然圖像與規則圖案間有差異)中隨機選擇了 100 對自然圖像來重複該實驗。而結果證明,混合圖像與合成圖像組之間 MSE 損失值的差值甚至更高。

圖像分割工作模型

圖3 圖像分割工作模型

圖 3 詳細說明了 Double-DIP 對圖像進行分割時的工作模型。兩個深度圖像先驗(DIP)網絡(DIP1 DIP2)將輸入圖像分割成對應的圖像層(y1&y2),然後根據二進位掩模 m(x)進行重組,以形成儘可能接近於輸入圖像本身的重建圖像 I。

什麼樣的分割是好的圖像分割?有很多方法可以將其分割為基本圖層,但作者提出有意義的分割應該滿足這樣幾個標準:

重新組合時,恢復的圖層能夠重建輸入圖像每層應該儘可能「簡單」,即它應該具有很強的圖像元素內部自相似性恢復的圖層之間彼此獨立這三個標準也是 Double-DIP 網絡需要具體實現的參考。第一個標準通過最小化重建損失(衡量構造圖像和輸入圖像之間的誤差的參數)來實現;第二個標準通過採用多個 DIP(每層一個)實現;第三個標準由不同 DIP 的輸出間的「不相容損失」強制執行(最小化它們的相關性)。

每個 DIP 網絡重建輸入圖像 I 的不同圖層 yi;每個 DIPi 的輸入是隨機採樣的均勻噪聲 zi; 使用權重掩模 m(x) 混合 DIP 輸出 yi = DIPi(zi),從而生成重建圖像:

其應儘可能接近輸入圖像 I。

對於某些任務中,權重掩模 m 非常簡單,而在其他情況下則需要進行學習(使用附加 DIP 網絡)。學習的掩模 m 可以是均勻的或空間變化的,連續的或二進位的。對 m 的約束條件與任務相關聯,並且使用指定任務的「正則化損失」來強制執行。因此優化損失是:

關於 Double-DIP 網絡的訓練和優化類似於基本 DIP。而在輸入噪聲中,增加額外的非恆定噪聲擾動可以增加重建的穩定性。通過使用 8 個變換(4 個旋轉 90°和 2 個鏡像反射 - 垂直和水平)轉換輸入圖像 I 和所有 DIP 的相應隨機噪聲輸入,可以進一步豐富訓練集。

優化過程使用到了 ADAM 優化器,而每張圖片在 Tesla V100 GPU 上僅需要幾分鐘來完成。

研究成果

論文內提到的多個成果中,我們在下文中著重討論:

1)前景/背景分割

2)水印去除

前景/背景分割我們可以設想將圖像分割成前景和背景區域,前景層為 y1,背景層為 y2,對於每個像素根據二進位掩模 m(x)進行組合,得到:

這個公式非常適合文中所提到的框架,它將「好的圖像片段」定義為易於通過自身合成,但很難使用圖像其他部分進行合成這個概念。為了使分割掩碼 m(x)變為二進位,我們使用以下正則化損失:

Double-DIP 能夠基於無監督的層分割獲得高質量的分割,如圖 4 所示,更多圖像分割結果可以在該項目的網站上進行觀看。儘管有許多其他分割方法(其中包括語義分割)的表現甚至比 DIP 要好,然而它們都有一個的缺點——需要用大量的數據訓練。

圖 4 圖像分割實例

水印去除水印廣泛用於保護受版權保護的圖像和視頻。Double-DIP 能夠將水印作為圖像反射的特殊情況來進行去除,其中圖層 y1 和圖層 y2 是分別是清理後的圖像和水印。

和圖像分割不同,在這種情況下,掩模沒有被明確設置,而是使用兩種實際解決方案之一來處理固有的透明層模糊性。如果僅涉及單個水印,則用戶通過帶有邊界框來標記水印區域;而當有少量圖像具有相同的水印時(通常 2-3 張圖像),在訓練過程中將由模糊性原則自行處理。圖 5 為一些水印去除的實例:

圖 5 水印去除實例

結論

「Double-DIP」為無監督層分割的提供了統一的框架,這個框架可以適用於各種各樣的任務。除了輸入圖像/視頻之外,它不需要任何其它訓練數據。儘管這是一種通用的方法,但在某些任務中(如去霧),它所得到的結果可以與該領域的最先進的專業技術效果相當或甚至更好。該論文的作者認為,用語義/感知線索增強 Double-DIP 可能會使得語義分割和其他高級計算機視覺任務方面的進步,在接下來的工作中,他們也打算對這個方面做進一步的研究。

相關焦點

  • Double DIP ——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。
  • CNN 在基於弱監督學習的圖像分割中的應用
    最近基於深度學習的圖像分割技術一般依賴於卷積神經網絡 CNN 的訓練,訓練過程中需要非常大量的標記圖像,即一般要求訓練圖像中都要有精確的分割結果。對於給出 bounding box 標記的訓練圖像,該方法先使用 CRF 對該訓練圖像做自動分割,然後在分割的基礎上做全監督學習。
  • 自動計數:利用田間圖像對植物器官進行無監督分割和計數
    點擊藍色字免費訂閱,每天收到這樣的好資訊本文提出了一種對植物器官等密集物體進行計數的無監督計數法利用田間圖像對植物器官進行計數,如頭狀花序或穗,是植物表型研究中一個基準計算機視覺任務,此前文獻中已使用最先進的監督深度學習技術進行了研究。然而,在田間圖像中,器官的標註耗時較長,容易出錯。
  • 2019 語義分割指南
    這種分割在計算對象數量的應用程式中非常有用,例如計算商城的行人流量。它的一些主要應用是在自動駕駛、人機互動、機器人和照片編輯/創意工具中。例如,語義分割在汽車自動駕駛和機器人技術中是至關重要的,因為對於一個模型來說,了解其所處環境中的語義信息是非常重要的。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    Chen等人[38]提出了一種基於CNNs與全連通CRFs結合的語義分割算法(圖9)。他們發現,來自深層CNNs的最後一層的響應並沒有足夠的本地化以進行精確的對象分割(這是由於CNNs的不變性使其適合於分類等高級任務)。為了克服深度CNNs定位性能差的問題,他們將最後一層的響應與全連接的CRF相結合。
  • 一文概述用 python 的 scikit-image 模塊進行圖像分割
    而圖像分割是圖像處理中非常重要的一個步驟,它是把圖像分成若干個特定的、具有獨特性質的區域,並提取出感興趣目標的技術。近日,工程師 Parul Pandey 發表了一篇博文,在博文中,她介紹了用 python 的 scikit-image 庫進行圖像分割的方法。具體涉及 scikit-image 的安裝,圖像導入以及用監督算法和無監督算法進行圖像分割的方法。
  • U-Net 和 ResNet:長短跳躍連接的重要性(生物醫學圖像分割)
    原文連結:https://medium.com/datadriveninvestor/review-u-net-resnet-the-importance-of-long-short-skip-connections-biomedical-image-ccbf8061ff43這次,我們來聊一聊用於生物醫學圖像分割的的一種全卷積神經網絡
  • 浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結
    :圖像語義分割是 AI 領域中一個重要的分支,是機器視覺技術中關於圖像理解的重要一環。近年的自動駕駛技術中,也需要用到這種技術。車載攝像頭探查到圖像,後臺計算機可以自動將圖像分割歸類,以避讓行人和車輛等障礙。隨著近些年深度學習的火熱,使得圖像分割有了巨大的發展,本文為大家介紹深度學習中圖像分割的經典算法。
  • 百度飛槳發布工業級圖像分割利器PaddleSeg
    ③揭秘包攬了 CVPR2019 LIP 挑戰賽人體解析任務大滿貫的三冠王 ACE2P 預測模型關鍵技術,帶你一步體驗世界領先水平效果。1. PaddleSeg 重磅發布飛槳的新產品 PaddleSeg 全新上線,重點針對圖像分割領域,面向開發者提供了完備且易用的工業級分割模型庫。
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。
  • OpenCV圖像處理專欄十五 |《一種基於亮度均衡的圖像閾值分割技術》
    前言對於光照不均勻的圖像,用通常的圖像分割方法不能取得滿意的效果。為了解決這個問題,論文《一種基於亮度均衡的圖像閾值分割技術》提出了一種實用而簡便的圖像分割方法。該方法針對圖像中不同亮度區域進行亮度補償,使得整個圖像亮度背景趨於一致後,再進行常規的閾值分割。實驗結果表明,用該方法能取得良好的分割效果。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    From: Arxiv;編譯: T.R  與先前使用大規模監督數據進行訓練的算法不同,Deep Image Prior(DIP)利用隨機初始化的神經網絡模型和退化後的圖像進行自監督迭代,在無需大規模數據進行訓練的情況下,就能有效實現圖像去噪、超分辨和補全等任務。
  • double是兩倍,talk是說話,那麼「double-talk」是什麼意思呢?
    我們知道double有「雙倍的」的意思,而talk有「說話」的含義,那麼double-talk是什麼意思呢?double-talk.下面再介紹幾個和double有關的詞彙:double-quickdouble-quick是副詞,也是形容詞,它的意思是「very quickly」,即「十分迅速,馬上,立即」。in double-quick time的意思等同於「as quickly as possible」,意思是「馬上,儘快」。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    雷鋒網 AI 科技評論按:百度研究院、華中科技大學、雪梨科技大學聯合新作——關於無監督領域自適應語義分割的論文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF
  • 語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab
    原標題:語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab 王小新 編譯自 Qure.ai Blog 量子位 出品 | 公眾號 QbitAI 圖像語義分割就是機器自動從圖像中分割出對象區域,並識別其中的內容
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    而醫學圖像的分類也非常具有現實意義,比如可以判斷人是有病還是無病、以及是哪類病,像 Nature、Science 雜誌就發表過皮膚癌、胸片、眼底照等醫學場景的圖像分類模型。但在實操過程中,我們發現將醫學影像當成一個分類問題來處理,任務設置未免過於宏大和粗放。
  • ECCV 2020 Oral | 蘇黎世聯邦理工學院提出:弱監督語義分割新網絡
    作者採用跨圖像(cross image)的方式,獲得了更加豐富的圖片間的上下文信息,從而實現了更高的精度。本篇文章在pacvoc 2012驗證集上mIoU達到了66.2,在測試集上達到了66.9,均為最高。一、簡介如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    該材料共包括四大部分,在本文中機器之心對第二部分做了編譯介紹,第一部分和第四部分詳見《計算機視覺這一年:這是最全的一份 CV 技術報告》和《計算機視覺這一年:2017 CV 技術報告 Plus 之卷積架構、數據集與新趨勢》。圖像分割計算機視覺任務的核心是分割(Segmentation)處理,它將整幅圖片分割成可被標記和分類的像素組。
  • 實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換
    因而,越來越多的研究人員開始探索無監督設置下的圖像到圖像轉換方法。2019 年 5 月,英偉達的一項研究探索 few-shot 無監督的圖像到圖像轉換算法,並實現了逼真的轉換效果。近日,韓國延世大學等機構的研究者實現了完全無監督設置下的圖像到圖像轉換。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    本文旨在介紹深度學習在計算機視覺領域四大基本任務中的應用,包括分類(圖a)、定位、檢測(圖b)、語義分割(圖c)、和實例分割(圖d)。圖像分類(image classification)給定一張輸入圖像,圖像分類任務旨在判斷該圖像所屬類別。(1) 圖像分類常用數據集以下是幾種常用分類數據集,難度依次遞增。