拍照手抖有救了!DeblurGAN 消除運動模糊效果驚人 | 附論文+代碼

2020-12-08 極客公園

本文轉載自量子位(ID:QbitAI),編譯:安妮,極客公園已獲轉載授權,轉載請聯繫出處


十圖九糊。

置身異國街道,感受著陌生環境裡熙熙攘攘的街道,你掏出手機想留住這一刻。

好嘞,一、二、三,咔嚓。

由於行人和車輛都在運動,再加上你的手稍微抖了一抖,照片中的景象是這樣的——


這樣的——


和 這樣的——


這是什麼 AV 畫質啊!


拍照時手抖,或者畫面中的物體運動都會讓畫面模糊,女友辛辛苦苦擺好的各種 Pose 也將淹沒在各種模糊的線條中,是時候要有一種新的算法解救水深火熱中的你了。

近日,烏克蘭天主教大學、布拉格捷克理工大學和解決方案提供商 Eleks 聯手公布了一篇論文,文章標題為《DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks》。

這篇文章中,研究人員提出一種基於條件對抗式生成網絡和內容損失(content loss)的端對端學習法 DeblurGAN,去除圖像上因為物體運動而產生的模糊。

效果嘛,可以說好到讓你不太相信自己的眼睛。

比如我們剛剛在異國街頭拍糊了的那張,處理後變成了這樣——


爐火純青。

還不來學習一下去糊大法的手藝?


GAN 中得到靈感

回歸我們的終極議題:在沒有提供任何關於核(kernel)或相機的運動信息的情況下,怎樣去除單張照片中的運動模糊 (Motion Blur) 呢?

這不禁讓人聯想起生成對抗網絡(GAN),因為它能夠保存高紋理細節,創建的圖案又接近真實圖像,所以是圖像超解析度和圖像修復中的主力軍。

能否將這種方法應用到消除運動模糊的工藝中呢?

可以。模糊處理可以看作是圖像轉化中的一個特例,研究人員提出基於條件生成式對抗網絡和多元內容損失的 DeblurGAN 法。

這是種什麼方法?我們繼續往下看。


基本原理

因為目標是把模糊圖像 IB在沒有提供模糊核的情況下恢復成清晰圖像 IS,因此,我們需要訓練一個 CNN GθG作為生成器。每張 IB都對應著一張估計出的清晰圖像 IS。此外,在訓練階段,我們將引入 critic 函數 DθD,以對抗的方式訓練兩個網絡。

DeblurGAN 生成網絡架構

從上圖的架構中可以看出,DeblurGAN 包含兩個 1/2 間隔的卷積單元、9 個剩餘 residual 單元和兩個反卷積單元。每個 ResBlock 由一個卷積層、實例歸一化層和 ReLU 激活組成。

去除運動模糊的整個流程,如下圖所示:


先生成運動模糊圖像

想去糊,先得知道怎樣將清晰圖像轉換成運動模糊圖像,這個準備階段也學問多多。

與超解析度和黑白照片上色等流行的圖像到圖像(image-to-image)的轉換問題相比,用於訓練算法的清晰和模糊的圖像對(image pairs)難以獲取,一種典型的獲取方法是用高幀頻相機捕捉視頻中清晰的幀模擬模糊圖像。

用這種方法創建真實圖片的模糊圖像,會將圖像空間(image space)局限在拍攝的視頻中出現的場景,並將數據集變得更複雜。

根據前人的實驗,研究人員提出的方法更真實地模擬了複雜的模糊核(blur kernel)。這種方法遵循了 Boracchi 和 Foi 2012 年在論文 Modeling the performance of image restoration from motion blur 中所描述的隨機軌跡生成的概念,對軌跡矢量應用亞像素插值法生成核。每個軌跡矢量都是一個複雜矢量,對應著一個連續域中的二維隨機運動物體的離散位置。

生成的相機運動軌跡和模糊內核以及相應的模糊圖像示例

軌跡生成由馬爾可夫過程完成、由算法總結。根據前一個點速度和位置、高斯攝動方程和脈衝攝動,隨機生成下一個點的位置。


打造 DeblurGAN

基本思路和運動模糊生成後,可以開始著手訓練模型了。

研究人員用 PyTorch 中實現了自己的所有模型,整個訓練過程是在一個 Titan-X GPU 上執行三種不同的數據集。

第一個模型 DeblurGANWILD是在隨機裁剪的 256x256 像素的 GoPro 數據集上訓練的;第二個模型 DeblurGANSynth在用上文所介紹方法模糊過的 MS COCO 數據集上訓練;此外,還有一個特殊的模型 DeblurGANComb,所用的訓練集中有 2/3 是合成圖像,1/3 是高幀率相機拍攝的圖像。

由於它們均為全卷積模型,又是在圖像 patch 上訓練的,因此可以應用在任意大小的圖像中。

為了進行優化,研究人員在 DθD上執行了 5 次梯度下降,在 GθG上執行了 1 次。最初生成器和判別器設置的學習速率為 10-4,經過 150 次迭代後,在接下來的有一輪 150 次迭代中將這個比率線性衰減。

6 天后,研究人員訓練出一個 DeblurGAN 網絡,最激動人心的部分終於來了。


開始測試!

GoPro 數據集

GoPro 數據集包含了 2103 對從不同的場景拍攝的 720p 的模糊-清晰的圖像對。研究人員將模型的結果與標準指標的模型狀態進行比較,並在單個 GPU 上顯示每個算法的運行時間,結果如下:

GoPro 數據集測試圖像的平均峰值信噪比和結構相似度

測試結果表明,DeblurGAN 在定性和定量兩方面都表現出優異的結果。它可以處理由相機抖動和物體運動引起的模糊,不會受到通常的核評估方法的影響,同時參數僅為 Multi-scale CNN 的六分之一,大大加快了推理速度。

不信?那來看看 GoPro 數據集測試的去模糊圖像——

GoPro 測試數據集的評估結果/從左到右:模糊圖像、Nah 算法處理結果和我們算法的處理結果


Kohler 數據集

Kohler 數據集由 4 張圖像組成,每張用 12 個不同的核模糊圖像。這是一個標準的基準數據集,用於評價去模糊算法。數據集通過記錄和分析真實的相機運動產生,並在機器人載體上回放,這樣在 6D 相機運動軌跡上會留下一系列清晰的圖像。

在 Kohler 基準數據集上進行的平均峰值信噪比和結構相似度測度結果


YOLO 上的目標檢測基準

這項研究中還有一個小彩蛋。

研究人員探索了動態模糊對目標檢測的影響,基於在預訓練的 YOLO 網絡上目標檢測的結果,提出一種評估質量的去模糊算法的新方式。

通過用高幀率攝像機模擬相機抖動,研究人員構建了一個清晰-模糊的街景數據集。之後,對 240fps(每秒顯示幀數-幀率)相機拍攝的 5 到 25 幀進行隨機抽樣,並計算中間幀的模糊版作為這些幀的平均值。

總體來說,數據集包括 410 對模糊-清晰圖像,這些圖像是從不同街道和停車場拍攝的,包含不同數量和類型的汽車。

在模糊化前後的目標檢測

在 recall 和 F1 socre 上,DeblurGAN 的表現遠遠超過了競爭對手。



去糊寶典

你也想告別 AV 畫質?

別著急,論文地址在這:

https://arxiv.org/abs/1711.07064

相關代碼(PyTorch):

https://github.com/KupynOrest/DeblurGAN

相關焦點

  • 拍照手抖有救了!DeblurGAN消除運動模糊效果驚人 | 附論文+代碼
    由於行人和車輛都在運動,再加上你的手稍微抖了一抖,照片中的景象是這樣的——這樣的——和 這樣的——這是什麼AV畫質啊!拍照時手抖,或者畫面中的物體運動都會讓畫面模糊,女友辛辛苦苦擺好的各種Pose也將淹沒在各種模糊的線條中,是時候要有一種新的算法解救水深火熱中的你了。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    騰訊優圖實驗室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報告)後,在今年的 CVPR 2018 上有多篇論文被錄用,也憑藉這一點在雷鋒網(公眾號:雷鋒網)學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應展示。騰訊優圖團隊將對其中兩篇論文做詳細介紹,並簡要介紹其它論文。
  • 用Keras搭建GAN:圖像去模糊中的應用(附代碼)
    這篇文章主要介紹在Keras中搭建GAN實現圖像去模糊。所有的Keras代碼可點擊這裡。可點擊查看原始出版文章和Pytorch實現。快速回憶生成對抗網絡GAN中兩個網絡的訓練相互競爭。而本篇文章是使用生成對抗網絡進行圖像去模糊。因此生成器的輸入不是噪聲,而是模糊圖像。數據集來自GOPRO數據,你可以下載精簡版數據集(9GB),也可以下載完整版數據集(35GB)。其中包含了來自不同街道視角的人造模糊圖像,根據不同的場景將數據集分在各個子文件夾中。
  • 佳能550d攝影技巧 如何避免用佳能550d拍照模糊的方法
    佳能550d攝影技巧:如何避免用佳能550d拍照模糊的方法如下:   ISO 3200、快門速度1/500秒  佳能550d拍攝數據  EF-S 18-55mm f/3.5-5.6 IS/光圈優先自動曝光(F5.6,1/500秒)/  ISO 3200
  • 手抖是什麼原因?
    手抖的原因許多,臨床醫學上較普遍的手顫叫手顫震顛,由此可見於一切年紀。這類震顛能夠是1支手,還可以2支手,通常在拿東西的情況下出現,焦慮不安的情況下加劇,叫姿勢性震顫。針對這類震顛患者,進度較遲緩,有一些患者會出現家族史,叫手顫震顛,通常不用尤其幹涉。
  • 北京電影學院發了滿是數學公式的計算機頂會論文,並開源了其代碼
    而不管是由工業光魔發表的用來補充煙火高精度細節的算法:還是來源於迪士尼研究院-ETH Zurich的小波湍流論文:都是不斷在嘗試攻克一個令人頭疼的問題:如何在使用高效穩定的流體特效仿真算法前提下,儘可能地保證流體運動的細節,這最終落在了對於N-S方程中的對流部分的求解上。
  • 夜拍效果驚人 谷歌Pixel 3系列推出Night Sight模式
    夜拍效果驚人 谷歌Pixel 3系列推出Night Sight模式 2018年11月15日 13:38作者:李鑫編輯:李鑫文章出處:泡泡網原創
  • 讓模糊圖片變視頻,找回丟失的時間維度,MIT這項新研究就像魔術
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI在拍照時我們常常會遇到這樣的苦惱:由於設置的快門時間太長,快速運動的物體會在身後產生嚴重的拖影。除非是為了特殊的藝術效果,一般來說這張照片就報廢了。然而來自MIT的研究人員卻告訴我們,拍糊了的照片不要扔,丟給這個神經網絡,還你一份運動視頻。
  • 帕金森病日專家提醒:帕金森病不僅是「手抖」
    因為大部分帕金森病患者都會出現手抖症狀,因此很多人提起帕金森病就會想到手抖,專家提醒,帕金森病早期識別很重要,手抖不是帕金森病的唯一症狀,其他的非運動症狀如睡眠異常、嗅覺障礙、抑鬱等也是帕金森病的早期信號,它們比「手抖」出現得更早,更值得我們警惕。
  • AI 圖像智能修復老照片,效果驚豔到我了!| 附代碼
    其中常見的修複方法有:偏微分方程的方法:Bertalmio採用偏微分方程(PDE)的方法進行圖像修復,取得了較好的效果。用戶需指定需要修復的區域,算法將待修補的區域邊界的等值線外部的信息沿輪廓法向擴散到中間待修補的象素上。該算法利用局部顏色的光滑度沿著等值線擴散,考慮了各向異性的擴散,以保證邊緣處的邊界連續,但該方法計算不穩定。
  • 手抖就一定是帕金森病?專家:可能是特發性震顫
    手抖就是帕金森病嗎?陸軍特色醫學中心(大坪醫院)神經內科主任醫師許志強說,這可不一定。主要影響中老年人,症狀多表現為靜止時手、腳、頭或嘴不自主地震顫,肌肉僵直、運動緩慢以及姿勢平衡障礙等,患者的活動能力大大受到限制。帕金森病患者常有運動症狀、非運動症狀兩大表現。1.運動症狀靜止性震顫:就是常說的「抖」,手抖、腳抖、頭抖都算,安靜時明顯,活動後反而能緩解。運動遲緩:早期可以發現患者精細動作緩慢,比如走路、刷牙、打雞蛋、繫鞋帶等動作明顯變慢。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    現在這套系統有個單獨的名字:「深夢(Deep Dream)」。△ Deep Dream模型利用普通照片生成的一張奇幻照片△ Deep Dream模型將塔樓、房屋和小鳥等對象融入圖像中的效果示例想要運行Deep Dream模型,你只需要輸入一張圖像,然後這個模型就開始窮盡所能,尋找被訓練識別的目標。
  • 經常手抖,或是身體的求救信號,請不要再忽視它了
    手抖在醫學可分為生理性震顫和病理性震顫,一般以有節律性的顫動為主。但是人體的四肢主要是通過大腦發出指令來行動的,因此經常出現的手抖症狀,可能是由於某種器質性疾病所導致的,因此在出現手抖的症狀之後,一定要提起高度重視。
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    我們提出了一種新的深度網絡結構,成分回歸網絡,來對美化圖像進行盲復原。即使在不知道美化系統具體參數的情況下,該網絡結構亦能更好地將美化後的圖像映射為原始圖像。實驗表明,該網絡在不同尺度上均可以得到較高的還原度。*本文入選ICCV 2017 口頭報告(Oral),該類論文僅佔總投稿數的2.1%。2.
  • 有碼一鍵變無碼?AI黑科技真的能去馬賽克嗎
    影片裡看到馬賽克,你會索然無味;文檔裡看到馬賽克,你會興致掃地……無數朋友都在尋找一個問題的答案——馬賽克真的是不可消除的嗎?有碼能不能用什麼黑科技,一鍵變成無碼?從原理上來說,馬賽克屬於永久性的信息丟失。馬賽克的原理很簡單,把大量的小像素點合併到一個大的像素點,並取平均色,就製造成了馬賽克。馬賽克顯然屬於不可逆運算,你無法從一個平均數,推斷出它是由哪幾個數平均而來的。
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    此次騰訊優圖入選的論文提出了諸多創新點,既是科研實力的體現,更挖掘出了更多可擴展應用技術,視覺AI有望為學術界和產業界帶來更多有價值的貢獻。解密運動模糊:走向實用的非特定場景圖片去模糊技術在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優圖實驗室的研究人員開發了可以恢復模糊圖像的有效新算法。在此之前,圖像去模糊一直是圖像處理中困擾業界的難題。 圖像模糊產生的原因可能非常複雜。比如,相機晃動,失焦,拍攝物體高速運動等等。
  • 硬體相似成像效果就一定接近?實際拍照對比告訴你答案
    在拍照手機領域,有這麼一對「針尖對麥芒」的組合,它們就是vivo X50 Pro+與華為P40 Pro+。無論是從vivo和華為的角度、還是從產品本身的硬體配置、亦或是在成像效果方面,二者在很多消費者的心目中都可謂是旗鼓相當、不分伯仲。但事實真的是如此嗎?
  • 論文LaTeX、項目README:無腦套用格式、開源模板最高10萬贊
    選自GitHub機器之心整理參與:Jamin、思、一鳴即使是最具創意性的機器學習研究者,也不得不面對枯燥無味的論文和項目文檔寫作。這項工作還怠慢不得,因為一旦少了重要的部分,很有可能對研究造成影響。在這裡,機器之心整理了一些高贊開源項目 Readme、Gitignore 文檔和論文的 LateX 模板。