基於CNN的單一圖像超分辨(SISR)方法總結

2021-01-21 tju青年湖湖底

單一圖像超解析度(SingleImage Super-Resolution, SISR)指的是由一幅低解析度圖像估計其對應的高解析度圖像,這是計算機視覺領域一個重要的研究方向,在醫學影像、視頻監控等領域都有著重要的應用。

早期的prediction-based的方法包括linear, bicubic等插值方法,隨後有一些根據邊緣特徵進行超分辨重建的工作。這些方法速度快,但會產生過於平滑的紋理細節。

之後有很多example-based方法,藉助訓練數據,嘗試建立低解析度圖像到高解析度圖像的映射。針對這一映射函數,很多學習方法被提出,其中基於稀疏編碼的方法逐漸成為主流。經典的方法有A+,KK,SC等。

近年來使用CNN建立低分辨圖像到高分辨圖像映射的方法取得了很好的效果,計算機視覺其他領域成功應用的新CNN結構,訓練方法也不斷的被引入SISR領域。本篇文章覆蓋範圍也從這裡開始。

需要強調的是,SISR是一個ill-posed的問題,對於給定的低解析度圖像,其對應的高解析度圖像是不定的。這一點帶來的關鍵影響是評價標準很難明確。對於example-based方法來說,選擇怎樣的訓練數據建立數據集,是有待商榷的。17和18年舉辦的NTIRE(New Trends in Image Restoration and Enhancement workshop and challenge on image super-resolution)中圖像超分辨競賽,圍繞這點有了很多新工作。

SISR領域常用數據集有Set5, Set14, B100, Train91, Urban100, BSD500。這些數據集存在著數量少,解析度不高,圖像種類單一等問題。在2017 NTIRE競賽,ETH Zurich的vision組提出了DIV2K數據集作為競賽用數據集,在數量、種類、解析度方面都超出當時常用的數據集。

在訓練數據處理方面,普遍採用bicubicdownscaling作為降解析度方法,由作為Ground Truth的高解析度圖像,獲得對應的低解析度圖像。這樣的降解析度方法過於簡化真實情況,對最後模型的效果有不利影響。

在2018NTIRE競賽中,除了採用了bicubic方法的Classic Bicubic比賽,競賽還提供了其他三項採用更貼近現實的降解析度方法的比賽。最終後三項比賽中參賽結果的PSNR指標明顯低於第一項比賽的結果,這一塊還有很大的挑戰性。

 

1. [14ECCV]:(SRCNN) Learning a Deep Convolutional Network for ImageSuper-Resolution (800+ citations)

這是最先把CNN引入SISR領域的工作。首先將低解析度(LR)圖像進行bicubic插值,放大至高解析度(HR)的大小。之後輸入至端到端的三層CNN,輸出獲得高解析度圖像。

文章的核心思想是,當時主流的基於稀疏編碼的方法,LR圖像特徵提取與表示->非線性映射->HR圖像重建流程,其中每一個環節都可以用卷積操作表示。

文章修改擴充後發表在了PAMI上。

Website: http://mmlab.ie.cuhk.edu.hk/projects/SRCNN.html


2. [16CVPR]:(VDSR) AccurateImage Super-Resolution Using Very Deep Convolutional Networks (500+ citations)

VDSR的idea來源於更深的VGG網絡在圖像分類領域的應用與deep residual learning的出現。

VDSR通過加深網絡層數(20層)來獲得更大的感受野,並使用超高學習率與一個global的residual learning來降低深層網絡的訓練難度。在測試的準確率與速度方面相比SRCNN有很大的提高。此外,這項工作也嘗試將不同SR倍率的圖像混合在一起進行訓練,訓練得到的單一模型可以解決不同SR倍率的超分辨問題。


Website: https://cv.snu.ac.kr/research/VDSR/

 

3. [16CVPR]:(ESPCN) Real-TimeSingle Image and Video Super-Resolution Using an Efficient Sub-PixelConvolutional Neural Network (250+ citations)

前面的SRCNN先將LR圖像進行bicubic插值將圖像尺寸擴大至HR圖像大小,再輸入CNN。這意味著CNN中的卷積操作是在HR尺度上進行的,消耗較高的計算量。

ESPCN中採用了亞像素卷積層(sub-pixelconvolutional layer)。其網絡輸入是LR圖像,經過多層卷積操作得到feature maps。位於最後一層的亞像素卷積層由feature maps重建HR圖像。這樣網絡中的卷積運算是在LR尺寸上進行的,明顯降低了計算量。同時由訓練得到的亞像素卷積層有著比bicubic插值更好的效果。


pdf: https://arxiv.org/abs/1609.05158

 

4. [17CVPR]:(SRGAN/SRResNet)Photo-Realistic Single Image Super-Resolution Using a Generative AdversarialNetwork (500+ citations)

之前的工作使用L2 Loss,獲得了很高的峰值信噪比(PSNR),但是丟失了很多高頻細節信息,這些高頻信息的丟失對人的主觀視覺感受有著很大影響。

SRGAN將生成對抗網絡(GAN)應用在SR問題上,提出一種perceptual loss作為oss函數。採用重建的HR圖像與真實HR圖像在預先訓練的VGGnet中不同層輸出的feature maps之間的歐氏距離作為content loss,加上GAN的adversarialloss 構成 perceptual loss。

還有一個有意思的點是,作者提出了MOS評價標準,讓26個人對SR結果進行主觀評分,來呼應文章最開始對「人的主觀感受」的重視XD。

pdf: https://arxiv.org/abs/1609.04802

 

5. [17CVPR]:(LapSRN) DeepLaplacian Pyramid Networks for Fast and Accurate Super-Resolution (90+ citations)

不同卷積層的信息是可以相互補充的,以往的方法最終輸出只直接利用了最後一個卷積層,信息利用不充分。LapSRN參考了傳統圖像處理方法的Laplacian金字塔結構,在特徵提取網絡中逐次放大輸入的LR圖像,每次放大後將在該尺度提取出的殘差特徵疊加到圖像重建分支的圖像上,構建出該尺度的圖像超分辨結果。這樣的結構可以同時輸出不同尺度的超分辨圖像。

此外,LapSRN提出了robustCharbonnier loss來取代會使輸出圖像過度平滑的L2 loss。 

pdf: https://arxiv.org/abs/1704.03915

 

6. [17CVPR Workshops]:(EDSR/MDSR)Enhanced Deep Residual Networks for Single Image Super-Resolution (70+ citations)

EDSR在NTIRE2017中取得了最佳表現。它的主要特點是去除了之前SRResNet中的Batch Normalization(BN)層。這樣節省的計算量可以用來擴大網絡規模。

最初BN的提出主要解決了反向傳播中的梯度消失/爆炸問題。很多high-level vision問題引入BN後獲得了很好的效果。但圖像超分辨作為一個low-level vision的問題,他對於scale的信息非常依賴,CNN輸入的低解析度圖像與輸出的高解析度圖像有著很相似的空間分布。BN的操作白化了中間的特徵,破壞了原始輸入圖像的空間表徵。BN引入的這一塊損失需要整個模型分出一部分參數來做補償,佔用了額外的資源。

針對同時解決多尺度超分辨問題,文章中認為不同尺度的圖像超分辨是有著很強關聯的。EDSR首先訓練了用於2X超分辨的網絡,並用於後續的3X,4X超分辨網絡的參數初始化,明顯加速了網絡訓練速度。


沿著這個思路,作者提出了MDSR,一個網絡解決多尺度圖像超分辨問題。可以看出,MDSR相比EDSR,是在輸入端加上2個residual blocks並在輸出端加上對應尺度的上採樣模塊。這樣得到的MDSR在各數據集上取得了與前面各尺度分別訓練的EDSR模型極為接近的結果。


pdf: https://arxiv.org/abs/1707.02921


7. [18CVPR]:(DBPN/D-DBPN)Deep Back-Projection Networks For Super-Resolution

這篇文章的工作非常有意思。之前的圖像超分辨工作中,LR圖像升採樣至HR圖像尺寸都是單向前饋的。DBPN通過迭代的升採樣降採樣操作來為LR-HR映射建立誤差反饋機制,最終通過deep concatenation來綜合網絡中不同階段的LR-HR映射。

文章後續利用DenseNet的思路,進行特徵復用,提出了D-DBPN模型。

整體來看,這樣的迭代反饋結構在面對X8這樣的大尺度超解析度,有效信息更少的情況時,有state-of-the-art的效果。NTIRE 2018的超解析度比賽中,絕大部分隊伍方法是基於ResNet, DenseNet以及NTIRE2017競賽的最佳方法ESPN來做的改進。而這裡的DBPN是在NTIRE2018的Classic Bicubic比賽中取得了最佳表現。


Website: https://www.toyota-ti.ac.jp/Lab/Denshi/iim/members/muhammad.haris/projects/DBPN.html

 

8. [18CVPR] (SFT-GAN) Recovering RealisticTexture in Image Super-resolution by Deep Spatial Feature Transform


最近兩年有越來越多將高層次語義信息引入low-level vision的工作。這篇文章先使用語義分割概率圖作為先驗信息,使用空間特徵調製層(SFT)將語義分割信息結合到CNN中的特徵空間。語義信息的引入讓生成的圖像有著更真實的視覺效果,從這個角度展開,還有很多可以做的工作。

Website: http://mmlab.ie.cuhk.edu.hk/projects/SFTGAN/

相關焦點

  • 空間-角度信息交互用於光場圖像超分辨重構,性能達到最新SOTA
    最後,將交互的空間和角度特徵融合在一起,去超分辨每個子孔徑的圖像。 作者在6個公共的LF測試數據集上做了實驗,證明了本文方法的優越性。與現有的LF圖像和單張圖像超分辨方法相比,本文的方法可以恢復更多的細節,並且在PSNR和SSIM兩個指標上比現有技術有顯著提升。
  • AI驅動的超分辨技術落地實踐
    近年來,隨著深度學習技術的快速發展,基於AI的超分辨技術在圖像恢復和圖像增強領域呈現出廣闊的應用前景,受到了學術界和工業界的關注和重視。但是,在RTC視頻領域中,很多AI算法並不能滿足實際場景下的應用需求。本文將著眼於AI技術從研究到部署的落地問題,分享超分辨技術在RTC領域落地應用所面臨的機遇與挑戰。
  • 基於光子晶片的超分辨顯微鏡
    在這種方法中,整個照明光路都是使用光子晶片提供的(光傳輸、圖案生成和光束控制),這種晶片可以很容易地進行改造,允許任何標準顯微鏡獲取超分辨SIM圖像。該文章被發表在Nature Photonics。02背景介紹自從大約400年前胡克發現細胞(在一片軟木中)以來,光學顯微鏡一直是生物學發現的終極工具。
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    目前,用於目標檢測的方法通常屬於基於機器學習的方法或基於深度學習的方法。對於機器學習方法,首先使用 SIFT、HOG 等方法定義特徵,然後使用支持向量機 (SVM)、Adaboost 等技術進行分類。對於深度學習方法,深度學習技術能夠在沒有專門定義特徵的情況下進行端到端目標檢測,並且通常基於卷積神經網絡 (CNN)。
  • 浙大科學家提出三維光學超分辨成像新方法
    2014年的諾貝爾化學獎頒發給了超分辨螢光顯微技術的發明者,這一技術利用特定的螢光染料實現光學的超分辨,突破衍射極限,到達200納米以下的尺度。科學家們可以通過光學顯微鏡,看到細胞的精細結構。然而,這項技術也有自己的弊端,比如對螢光染料有特殊的擦除或者開關效應要求,或需要獲取成百上千張原始圖像以重構超分辨圖像,因此成像時間較長。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    NAS-DIP  DIP可以利用退化後的圖像和未經訓練的模型處理圖像超分辨、去噪和補全等圖像修復問題。這種思想為圖像修復提供了獨特的思路,但如何選擇適合的網絡結構依然有待研究。  具體來講,這一工作首先利用基於強化學習的RNN控制器,在一系列配對圖像上尋找最優的網絡結構,而後在測試階段隨機初始化學習到的最佳結構,來對退化後的圖像進行處理,實現圖像修復。下圖展示了該工作與監督學習、DIP的比較,以及整個算法的流程。
  • 深度學習之圖像超分辨重建技術
    圖9 RAISR在2x上採樣率時與SRCNN, A+等超分辨算法的技術指標對比左圖為PSNR-runtime指標,右圖為SSIM-runtime指標【4】 結語超分辨重建在醫學影像處理、壓縮圖像增強等方面具有廣闊的應用前景,近年來一直是深度學習研究的熱門領域
  • 潘雷霆:2014年諾貝爾化學獎-超分辨光學成像小談
    「趕超」遠場解析度的方法有個途徑:遠場超分辨光學成像(此次諾貝爾化學獎);近場超分辨光學成像。這兩種超分辨的思維與方法是截然不同的。若螢光產生過程是多光子吸收過程,則可激發出螢光的光斑區只能是中間的大光強區,此時簡單有效的實現了超分辨螢光成像,最終通過掃描獲得超分辨圖像。該方法優點是激發光源是長波長光,光毒性小,穿透能力強,不過容易造成熱損傷。目前最成功的應用是雙光子掃描螢光顯微鏡(注意不是雙光子掃描共聚焦顯微鏡),主要應用在腦部神經活動研究,因為較好的穿透深度。
  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。
  • 一種基於人工智慧的腦圖像處理方法
    打開APP 一種基於人工智慧的腦圖像處理方法 MedPeer 發表於 2019-10-22 16:41:57 (文章來源:MedPeer
  • 超分辨螢光輔助衍射層析成像揭露細胞器相互作用全景
    這一雙模態成像方法在細胞生物學研究及生物醫學成像領域有著廣泛應用前景。 超分辨螢光成像技術的出現極大的推動了現代生命科學對細胞內新結構和新的動態過程的研究。然而,受限於較寬的發射光譜及光毒性,其僅能對有限幾種螢光標記同時成像,難以用於細胞內不同細胞器間複雜代謝過程的研究。電子顯微鏡雖然具有更全面及高解析度的成像能力,但不能對活細胞進行動態成像。即使在活細胞的超分辨螢光成像中,依然也需面對螢光漂白效應對三維成像速度、成像總時程的限制。
  • 多源空譜遙感圖像質量改善問題之討論
    單幅空譜圖像超分辨單幅空譜圖像超分辨是僅對觀測的低分辨空譜圖像,而沒有其他輔助源圖像或者信息,其通過估計亞像素的信息,進行空間(幾何)解析度的增強。在實際中,該問題可能非常複雜和極具挑戰,其退化模型包括空間模糊、下採樣和噪聲汙染。不同於簡單的圖像插值與放大,單幅空譜圖像超分辨具有高度病態性,因此包含圖像復原(圖像去模糊和去噪)和圖像插值等處理要素。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度 李倩 發表於 2018-06-04 15:46:49 基於視覺的自動駕駛系統需要基於單目攝像頭獲取的圖像
  • 稿件速遞|超分辨螢光偏振成像
    導讀近年來,研究者將一系列超分辨成像技術與螢光偏振顯微術結合,實現了納米尺度上乃至單分子水平的螢光偶極子成像。北京大學席鵬副教授課題組總結了已有的螢光偏振成像技術,介紹了最近開發的兩種超分辨螢光偏振成像技術,比較了各種螢光偏振成像技術的優劣。
  • CNN 在基於弱監督學習的圖像分割中的應用
    香港中文大學的 Di Lin 提出了一個基於 Scribble 標記的弱監督學習方法。 Scribble 是一個很方便使用的標記方法,因此被用得比較廣泛。如下圖,只需要畫五條線就能完成對一副圖像的標記工作。
  • 陳黎明教授聯合中科院專家首次實現超分辨的X射線鬼成像
    而自1895年倫琴發現X射線以來,成像的方法並沒有根本上的改變,都是採用直接投影到面探測器,通過累計帶有物體信息的光子來展現出一定灰度分布的技術,因此這種方式的成像效率很低,不僅難以大幅度地降低成像所需劑量,而且解析度受光源尺寸及探測設備分辨力的限制,成為制約傳統成像方法的兩大相互牽制的瓶頸問題。
  • 基於NV色心的超分辨量子磁學顯微鏡助力新型磁存儲研究
    磁性斯格明子在不同的作用機理下,形成的尺寸大小也有所區別,一般在1 nm~1 μm之間,上面提到的STXM觀測,解析度高,但因其基於同步輻射,不能在普通實驗室中完成。近年來發展的基於NV色心的超分辨量子磁學顯微鏡(如圖2所示)[2],是一種很好的替代檢測設備。
  • OEE封面 |【上海交大施聖賢團隊】多尺度特徵的光場圖像超解析度方法
    作為新一代成像設備,光場相機已逐漸被廣泛應用於工程測試領域,如粒子圖像測速技術、火焰三維溫度場測量以及物體三維形貌測量等。然而,光場相機記錄的光場在空間解析度和角度解析度之間存在著權衡制約關係。子孔徑圖像有限的空間解析度,限制了光場相機的應用場景。
  • 雷達成像近似二維模型及其超分辨算法簡述
    現有的雷達成像超分辨算法是基於目標回波信號的二維正弦信號模型,所以模型誤差,特別是距離走動誤差,將使算法性能嚴重下降或失效.為此,本文採用距離走動誤差下的一階近似雷達成像二維信號模型,提出了一種基於非線性最小二乘準則的參數化超分辨算法.在算法中,距離走動誤差補償與目標參量估計聯合進行.文中同時給出了算法估計性能的Cramer-Rao界及仿真結果.
  • 無極子誘導的強光熱非線性及光刻結構的超分辨定位成像
    基於此機制,他們提出了一種高效動態的全光調控方式,實現了對納米矽盤光散射響應接近100%的調製幅度。研究還發現,利用簡單的掃描雷射共聚焦顯微系統對納米矽盤散射成像,能夠得到具有亞波長特徵尺度的成像光斑,並展示了對亞波長矽結構的精度高達40納米的遠場超分辨定定位成像。