使用CNN生成圖像先驗,實現更廣泛場景的盲圖像去模糊

2020-12-05 機器之心Pro

現有的最優方法在文本、人臉以及低光照圖像上的盲圖像去模糊效果並不佳,主要受限於圖像先驗的手工設計屬性。本文研究者將圖像先驗表示為二值分類器,訓練 CNN 來分類模糊和清晰圖像。實驗表明,該圖像先驗比目前最先進的人工設計先驗更具區分性,可實現更廣泛場景的盲圖像去模糊。

簡介

盲圖像去模糊(blind image deblurring)是圖像處理和計算機視覺領域中的一個經典問題,它的目標是將模糊輸入中隱藏的圖像進行恢復。當模糊形狀滿足空間不變性的時候,模糊過程可以用以下的方式進行建模:

其中代表的是卷積算子,B、I、k 和 n 分別代表模糊圖像、隱藏的清晰圖像、模糊核以及噪聲。式(1)中的問題是不適定性,因為 I 和 k 都是未知的,存在無窮多個解。為了解決這個問題,關於模糊核和圖像的額外約束和先驗知識都是必需的。

圖 1: 一個去模糊的例子。本文提出了一個判別圖像先驗,它是從用於圖像去模糊的深度二分類網絡中學習得到的。

最近的去模糊方法的成功主要來自於有效圖像先驗和邊緣檢測策略方面的研究進展。然而,基於邊緣預測的方法常常會涉及到啟發式的邊緣選擇步驟,當邊緣不可預測的時候,這種方法表現不佳。為了避免啟發式的邊緣選擇步驟,人們提出了很多基於自然圖像先驗的算法,包括稀疏性歸一化(normalized sparsity)[16]、L0 梯度 [38] 和暗通道先驗(dark channel prior)[27]。這些算法在一般的自然圖像上表現良好,但是並不適用於特殊的場景,例如文本 [26]、人臉 [25] 以及低光照圖像 [11]。大多數上述的圖像先驗都有相似的效果,它們更加適用於清晰的圖像,而不是模糊的圖像,這種屬性有助於基於 MAP(最大後驗)的盲圖像去模糊方法的成功。然而,大多數先驗都是手工設計的,它們主要是基於對特定圖像統計的有限觀察。這些算法不能很好地泛化以處理自然環境中的多種場景。所以,開發能夠使用 MAP 框架來處理不同場景的圖像先驗是很有意義的。

為達到這個目的,研究者將圖像先驗表示為能夠區分清晰圖像和模糊圖像的二值分類器。具體來說,他們訓練深度卷積神經網絡來分類模糊圖像 (標記為 1 ) 和清晰圖像 (標記為 0 )。由於基於 MAP(最大後驗)的去模糊方法通常使用 coarse-to-fine(由粗到精)策略,因此在 MAP 框架中插入具有全連接層的 CNN 無法處理不同大小的輸入圖像。為了解決這個問題,他們在 CNN 中採用了全局平均池化層 [ 21 ],以允許學習的分類器處理不同大小的輸入。此外,為了使分類器對不同輸入圖像尺寸具有更強的魯棒性,他們還採用多尺度訓練策略。然後將學習到的 CNN 分類器作為 MAP(最大後驗)框架中潛在圖像對應的正則項。如圖 1 所示,本文提出的圖像先驗比目前最先進的人工設計的先驗 [ 27 ] 更具區分性。

然而,使用學習到的圖像先驗去優化這個去模糊方法是很困難的,因為這裡涉及到了一個非線性 CNN。因此,本文提出了一種基於半二次方分裂法(half-quadratic splitting method)和梯度下降算法的高效數值算法。這個算法在實際使用中可以快速地收斂,並且可以應用在不同的場景中。此外,它還可以直接應用在非均勻去模糊任務中。

本文的主要貢獻如下:

提出了一種高效判別圖像先驗,它可以通過深度卷積神經網絡學習到,用於盲圖像去模糊。為了保證這個先驗(也就是分類器)能夠處理具有不同大小的輸入圖像,研究者利用全局平均池化和多尺度訓練策略來訓練這個卷積神經網絡。將學習到的分類器作為 MAP(最大後驗)框架中潛在圖像對應的正則化項,並且提出了一種能夠求解去模糊模型的高效優化算法。研究者證明,與當前最佳算法相比,這個算法在廣泛使用的自然圖像去模糊基準測試和特定領域的去模糊任務中都具備有競爭力的性能。研究者展示了這個方法可以直接泛化到非均勻去模糊任務中。

二分類網絡

我們的目標是通過卷積神經網絡來訓練一個二分類器。這個網絡以圖像作為輸入,並輸出一個標量數值,這個數值代表的是輸入圖像是模糊圖像的概率。因為我們的目標是將這個網絡作為一種先驗嵌入到由粗到精的 MAP(最大後驗)框架中,所以這個網絡應該具備處理不同大小輸入圖像的能力。所以,我們將分類其中常用的全連接層用全局平均池化層代替 [21]。全局平均池化層在 sigmoid 層之前將不同大小的特徵圖轉換成一個固定的大小。此外,全局平均池化層中沒有額外的參數,這樣就消除了過擬合問題。圖 2 展示了整個網絡架構和二分類網絡的細節參數。

圖 2. 本文中使用的二分類網絡的架構和參數,其中使用了全局平均池化層取代全連接層來應對不同大小的輸入。CR 代表的是後面跟著一個 ReLU 非線性函數的卷積層,M 代表的是最大池化層,C 代表的是卷積層,G 指的是全局平均池化層,S 代表的是 Sigmoid 非線性函數。

圖 4. 數據集 [15] 中的一個很具挑戰性的例子。本文提出的方法以更少的邊緣振蕩效應和更好的視覺愉悅度恢復了模糊圖像。

圖 5. 在實際的模糊圖像中的去模糊結果。本文的結果更加清晰,失真較少。

圖 6. 文本圖像上的去模糊結果。與目前最先進的去模糊算法 [26] 相比,本文的方法生成了更加尖銳的去模糊圖像,其中的字符更加清晰。

圖 12. 去模糊結果和中間結果。作者在圖 (a)-(d) 中與目前最先進的方法 [40, 27] 比較了去模糊結果,並在 (e)-(h) 中展示了迭代中的(從左至右)中間隱藏圖像。本文的判別先驗恢復了用於核估計的具有更強邊緣的中間結果。

論文:Learning a Discriminative Prior for Blind Image Deblurring(學習用於盲圖像去模糊的判別先驗)

論文連結:https://arxiv.org/abs/1803.03363

我們提出了一種基於數據驅動的判別先驗的盲圖像去模糊方法。我們的工作是基於這樣一個事實:一個好的圖像先驗應該有利於清晰的圖像而不是模糊的圖像。在本文中,我們將圖像先驗表示為一個二值分類器,它可以通過一個深度卷積神經網絡 ( CNN ) 來實現。學習到的先驗能夠區分輸入圖像是否清晰。嵌入到最大後驗 ( MAP ) 框架中之後,它有助於在各種場景 (包括自然圖像、人臉圖像、文本圖像和低照明圖像) 中進行盲去模糊。然而,由於去模糊方法涉及非線性 CNN,因此很難優化具有學習已圖像先驗的去模糊方法。為此,本文提出了一種基於半二次分裂法和梯度下降法的數值求解方法。此外,該模型易於推廣到非均勻去模糊任務中。定性和定量的實驗結果表明,與當前最優的圖像去模糊算法以及特定領域的圖像去模糊方法相比,該方法具備有競爭力的性能。

相關焦點

  • 如何從失焦的圖像中恢復景深並將圖像變清晰?
    盲去卷積 - 更加實用的圖像去模糊方法,https://zhuanlan.zhihu.com/p/105500403,我介紹了用它來解決相機抖動導致的運動模糊我注意到了文章下面一些朋友的評論,比如@sfezzzz的觀點就很有代表性是的,
  • 圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...
    據 CVPR 大會官方介紹,此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。壓縮表徵的先驗概率通過使用超先驗自編碼器的拉普拉斯分布來建模,並與變換自編碼器進行聯合訓練。為了去除低碼率圖像的壓縮失真和模糊,我們提出了一種基於卷積的高效後處理模塊。最終,考慮到 CLIC 挑戰賽對碼率的限制,我們使用一個碼率控制算法來對每一個圖像自適應性地分配碼率。在驗證集和測試集上的實驗結果證明,使用感知損失訓練出的該優化框架能夠實現最優的 MS-SSIM 性能。
  • 用Keras搭建GAN:圖像去模糊中的應用(附代碼)
    這篇文章主要介紹在Keras中搭建GAN實現圖像去模糊。所有的Keras代碼可點擊這裡。可點擊查看原始出版文章和Pytorch實現。快速回憶生成對抗網絡GAN中兩個網絡的訓練相互競爭。這些只是對生成對抗網絡的一個簡單回顧,如果還是不夠明白的話,可以參考完整介紹。數據Ian Goodfellow首次使用GAN模型是生成MNIST數據。 而本篇文章是使用生成對抗網絡進行圖像去模糊。因此生成器的輸入不是噪聲,而是模糊圖像。
  • 比無所不能的DIP更強大的圖像恢復方法:DeepRED
    本文基於 DIP 和去噪正則化(RED)概念,提出了 DeepRED 方法。它將兩者結合,獲得了非常有效的結果。成像中的逆問題(inverse problem)是基於給定的損壞程度 y 對未知圖像 x 的恢復。由於逆問題往往是病態(ill-posed)的,因此恢復過程成功的關鍵是正則化的選擇。作為穩定逆向退化的圖像先驗,正則化將結果導向更合理的圖像。
  • 明景模糊圖像處理系統功能
    隨著「平安城市」的廣泛建設,各大城市已經建有大量的視頻監控系統,雖然監控系統己經廣泛地存在於銀行、商場、車站和交通路口等公共場所,但是在公安工作中,由於設備或者其他條件的限制,案情發生後的圖像回放都存在圖像不清晰,數據不完整的問題,無法為案件的及時偵破提供有效線索。
  • 黃浴:基於深度學習的超解析度圖像技術發展軌跡一覽
    由於端到端的上採樣方式,亞像素層也被 SR 模型廣泛使用。與轉置卷積層相比,亞像素層的最大優勢是具有較大的感知場,提供更多的上下文信息,能幫助生成更準確的細節。然而,亞像素層的感受野的分布是不均勻的,塊狀區域實際上共享相同的感受野,這可能導致在塊邊界附近的一些畸變。各種深度學習的模型已經被用於 SR ,如圖所示。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    解密運動模糊:走向實用的非特定場景圖片去模糊技術在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優圖實驗室的研究人員開發了可以恢復模糊圖像的有效新算法。在此之前,圖像去模糊一直是圖像處理中困擾業界的難題。圖像模糊產生的原因可能非常複雜。比如,相機晃動,失焦,拍攝物體高速運動等等。
  • 基於PyTorch圖像特徵工程的深度學習圖像增強
    我們還將實現這些圖像增強技術,以使用PyTorch構建圖像分類模型。目錄為什麼需要圖像增強?不同的圖像增強技術選擇正確的增強技術的基本準則案例研究:使用圖像增強解決圖像分類問題為什麼需要圖像增強?深度學習模型通常需要大量的數據來進行訓練。通常,數據越多,模型的性能越好。但是獲取海量數據面臨著自身的挑戰。不是每個人都有大公司的雄厚財力。
  • TP-GAN 讓圖像生成再獲突破,根據單一側臉生成正面逼真人臉
    作者表示,他們這項工作是使用合成的人臉圖像進行圖像識別任務的首次有效嘗試。真實應用場景中,不同姿勢的識別沒有很好的解決方案雖然計算機識別圖像已經在多個基準數據集中超越了人類,但真實應用場景中,對於不同姿勢的識別問題仍然沒有得到很好地解決。
  • 基於百度EasyDL定製化圖像識別平臺的海洋魚類識別方法
    為此,針對以問題,本文提出了一種基於百度EasyDL定製化圖像識別平臺的海底魚類識別方法。利用百度EasyDL定製化圖像識別平臺解決目標數據集訓練數據過小和數據分布差異問題,而且通過引入伽馬校正法和暗通道先驗算法對數據進行預處理,使數據特徵具有更好的辨別能力,同時使用數據增強方法對模型進行調優,使得訓練得到的模型的泛化性更強。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    (圖鴨科技憑藉在 CLIC 中 MOS 和 MS-SSIM 指標第一,在雷鋒網(公眾號:雷鋒網)學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中增加 10 分。)本次挑戰賽中有來自全球各地的圖片壓縮團隊,主要從 PSNR、MOS、MS-SSIM 這三個業界通用的圖像質量評估(Image Quality Assessment,IQA)標準和解碼速度(評分較高的隊伍裡解碼速度最快)四個方面進行評比。賽後,圖鴨科技圖片壓縮團隊提交了自己關於深度學習圖片壓縮方向的論文,他們為雷鋒網 AI 研習社撰寫了關於這篇論文的獨家解讀。
  • 計算機視覺(圖像)技術:視覺圖像搜索綜述
    做視覺搜索,其實是深度學習(或人工智慧)領域最重要的研究課題之一,在現實生活中有著非常廣泛的應用。  通常,視覺搜索包含了兩步任務:首先,待搜索物體的檢測與定位;其次,從庫(知識圖譜、圖片庫、信息庫等)中搜索該物體,或查詢相關聯的場景。
  • 使用Python+OpenCV進行圖像處理(二)
    對應的圖像處理技術包括:模糊化(Blurring)、閾值化(thresholding)和形態轉換(morphological transformation)。本篇我們將詳細介紹這幾個常見的圖像預處理技術。(本文假設讀者已經熟悉卷積的概念。)模糊化(Blurring)模糊化的目標是實現降噪。
  • 使用神經網絡為圖像生成標題
    神經網絡在計算機視覺和自然語言生成方面的應用已經非常引人注目。本文將介紹神經網絡的一個這樣的應用,並讓讀者了解如何使用CNNs和RNNs (LSTM)的混合網絡實際為圖像生成標題(描述)。我們在這個任務中使用的數據集是流行的flickr 8k圖像數據集注意:我們將把數據集分割為7k用於訓練,1k用於測試。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    提出了基於全局特徵分析的 non-lcao 注意力模塊,並融合進編碼網絡和解碼網絡,以實現提升自適應碼字分配性能的目的。2. 設計了一種基於自適應聚類的軟量化方法以降低量化損失。3. 提出了能融合超先驗子網絡和基於 pixel cnn++的上下文模型的碼率估計模塊。
  • 圖像的本徵分解模型簡介
    計算機視覺和圖像處理中的很多任務都會受到物體顏色、紋理和光照變化的影響,因此圖像本徵分解具有十分重要的研究意義。本徵分解問題,即從原始圖像去估計反射率圖與亮度圖的問題,是非常具有挑戰性的。通常,現有本徵分解模型會假設亮度圖是單波段的灰度圖像,而反射率圖與原始圖像均是包含了紅、綠、藍三個波段的彩色圖像。換言之,不同的反射率圖搭配不同的亮度圖,均可能產生一幅完全一樣的原始圖像。
  • 使用Wasserstein GAN生成小狗圖像
    一.前期學習經過GAN(Generative Adversarial Nets)是生成對抗網絡的簡稱,由生成器和判別器組成,在訓練過程中通過生成器和判別器的相互對抗,來相互的促進、提高。最近一段時間對GAN進行了學習,並使用GAN做了一次實踐,在這裡做一篇筆記記錄一下。
  • 4種紅外圖像生成方法
    ·相機傳感器-不同的照相機在使用濾光片的紅外攝影時會工作得更好或更糟。這可以歸結為遮擋紅外線的濾鏡對你的相機感應器的影響有多強。一個強大的過濾器將意味著你將需要更長的曝光,而且結果並不總是那麼強。
  • 今日Paper|小樣本學習;機器學習;單幅圖像去霧;零樣本目標檢測等
    為從城市元素之間的相互作用的角度揭示城市的演變開闢了一條新的途徑,有著廣泛的應用FD-GAN:具有融合鑑別器的生成對抗網絡用於單幅圖像去霧論文名稱:FD-GAN: Generative Adversarial Networks with Fusion-discriminator for Single Image Dehazing
  • 基於提升小波變換的模糊圖像融合算法研究
    引言 圖像融合指綜合和提取兩個或多個圖像的信息,從而獲得對同一場景或目標更為準確、全面和可靠的圖像,使其更加適合人眼感知或計算機後續處理。