單一圖像超解析度(SingleImage Super-Resolution, SISR)指的是由一幅低解析度圖像估計其對應的高解析度圖像,這是計算機視覺領域一個重要的研究方向,在醫學影像、視頻監控等領域都有著重要的應用。
早期的prediction-based的方法包括linear, bicubic等插值方法,隨後有一些根據邊緣特徵進行超分辨重建的工作。這些方法速度快,但會產生過於平滑的紋理細節。
之後有很多example-based方法,藉助訓練數據,嘗試建立低解析度圖像到高解析度圖像的映射。針對這一映射函數,很多學習方法被提出,其中基於稀疏編碼的方法逐漸成為主流。經典的方法有A+,KK,SC等。
近年來使用CNN建立低分辨圖像到高分辨圖像映射的方法取得了很好的效果,計算機視覺其他領域成功應用的新CNN結構,訓練方法也不斷的被引入SISR領域。本篇文章覆蓋範圍也從這裡開始。
需要強調的是,SISR是一個ill-posed的問題,對於給定的低解析度圖像,其對應的高解析度圖像是不定的。這一點帶來的關鍵影響是評價標準很難明確。對於example-based方法來說,選擇怎樣的訓練數據建立數據集,是有待商榷的。17和18年舉辦的NTIRE(New Trends in Image Restoration and Enhancement workshop and challenge on image super-resolution)中圖像超分辨競賽,圍繞這點有了很多新工作。
SISR領域常用數據集有Set5, Set14, B100, Train91, Urban100, BSD500。這些數據集存在著數量少,解析度不高,圖像種類單一等問題。在2017 NTIRE競賽,ETH Zurich的vision組提出了DIV2K數據集作為競賽用數據集,在數量、種類、解析度方面都超出當時常用的數據集。
在訓練數據處理方面,普遍採用bicubicdownscaling作為降解析度方法,由作為Ground Truth的高解析度圖像,獲得對應的低解析度圖像。這樣的降解析度方法過於簡化真實情況,對最後模型的效果有不利影響。
在2018NTIRE競賽中,除了採用了bicubic方法的Classic Bicubic比賽,競賽還提供了其他三項採用更貼近現實的降解析度方法的比賽。最終後三項比賽中參賽結果的PSNR指標明顯低於第一項比賽的結果,這一塊還有很大的挑戰性。
1. [14ECCV]:(SRCNN) Learning a Deep Convolutional Network for ImageSuper-Resolution (800+ citations)
這是最先把CNN引入SISR領域的工作。首先將低解析度(LR)圖像進行bicubic插值,放大至高解析度(HR)的大小。之後輸入至端到端的三層CNN,輸出獲得高解析度圖像。
文章的核心思想是,當時主流的基於稀疏編碼的方法,LR圖像特徵提取與表示->非線性映射->HR圖像重建流程,其中每一個環節都可以用卷積操作表示。
文章修改擴充後發表在了PAMI上。
Website: http://mmlab.ie.cuhk.edu.hk/projects/SRCNN.html
2. [16CVPR]:(VDSR) AccurateImage Super-Resolution Using Very Deep Convolutional Networks (500+ citations)
VDSR的idea來源於更深的VGG網絡在圖像分類領域的應用與deep residual learning的出現。
VDSR通過加深網絡層數(20層)來獲得更大的感受野,並使用超高學習率與一個global的residual learning來降低深層網絡的訓練難度。在測試的準確率與速度方面相比SRCNN有很大的提高。此外,這項工作也嘗試將不同SR倍率的圖像混合在一起進行訓練,訓練得到的單一模型可以解決不同SR倍率的超分辨問題。
Website: https://cv.snu.ac.kr/research/VDSR/
3. [16CVPR]:(ESPCN) Real-TimeSingle Image and Video Super-Resolution Using an Efficient Sub-PixelConvolutional Neural Network (250+ citations)
前面的SRCNN先將LR圖像進行bicubic插值將圖像尺寸擴大至HR圖像大小,再輸入CNN。這意味著CNN中的卷積操作是在HR尺度上進行的,消耗較高的計算量。
ESPCN中採用了亞像素卷積層(sub-pixelconvolutional layer)。其網絡輸入是LR圖像,經過多層卷積操作得到feature maps。位於最後一層的亞像素卷積層由feature maps重建HR圖像。這樣網絡中的卷積運算是在LR尺寸上進行的,明顯降低了計算量。同時由訓練得到的亞像素卷積層有著比bicubic插值更好的效果。
pdf: https://arxiv.org/abs/1609.05158
4. [17CVPR]:(SRGAN/SRResNet)Photo-Realistic Single Image Super-Resolution Using a Generative AdversarialNetwork (500+ citations)
之前的工作使用L2 Loss,獲得了很高的峰值信噪比(PSNR),但是丟失了很多高頻細節信息,這些高頻信息的丟失對人的主觀視覺感受有著很大影響。
SRGAN將生成對抗網絡(GAN)應用在SR問題上,提出一種perceptual loss作為oss函數。採用重建的HR圖像與真實HR圖像在預先訓練的VGGnet中不同層輸出的feature maps之間的歐氏距離作為content loss,加上GAN的adversarialloss 構成 perceptual loss。
還有一個有意思的點是,作者提出了MOS評價標準,讓26個人對SR結果進行主觀評分,來呼應文章最開始對「人的主觀感受」的重視XD。
pdf: https://arxiv.org/abs/1609.04802
5. [17CVPR]:(LapSRN) DeepLaplacian Pyramid Networks for Fast and Accurate Super-Resolution (90+ citations)
不同卷積層的信息是可以相互補充的,以往的方法最終輸出只直接利用了最後一個卷積層,信息利用不充分。LapSRN參考了傳統圖像處理方法的Laplacian金字塔結構,在特徵提取網絡中逐次放大輸入的LR圖像,每次放大後將在該尺度提取出的殘差特徵疊加到圖像重建分支的圖像上,構建出該尺度的圖像超分辨結果。這樣的結構可以同時輸出不同尺度的超分辨圖像。
此外,LapSRN提出了robustCharbonnier loss來取代會使輸出圖像過度平滑的L2 loss。
pdf: https://arxiv.org/abs/1704.03915
6. [17CVPR Workshops]:(EDSR/MDSR)Enhanced Deep Residual Networks for Single Image Super-Resolution (70+ citations)
EDSR在NTIRE2017中取得了最佳表現。它的主要特點是去除了之前SRResNet中的Batch Normalization(BN)層。這樣節省的計算量可以用來擴大網絡規模。
最初BN的提出主要解決了反向傳播中的梯度消失/爆炸問題。很多high-level vision問題引入BN後獲得了很好的效果。但圖像超分辨作為一個low-level vision的問題,他對於scale的信息非常依賴,CNN輸入的低解析度圖像與輸出的高解析度圖像有著很相似的空間分布。BN的操作白化了中間的特徵,破壞了原始輸入圖像的空間表徵。BN引入的這一塊損失需要整個模型分出一部分參數來做補償,佔用了額外的資源。
針對同時解決多尺度超分辨問題,文章中認為不同尺度的圖像超分辨是有著很強關聯的。EDSR首先訓練了用於2X超分辨的網絡,並用於後續的3X,4X超分辨網絡的參數初始化,明顯加速了網絡訓練速度。
沿著這個思路,作者提出了MDSR,一個網絡解決多尺度圖像超分辨問題。可以看出,MDSR相比EDSR,是在輸入端加上2個residual blocks並在輸出端加上對應尺度的上採樣模塊。這樣得到的MDSR在各數據集上取得了與前面各尺度分別訓練的EDSR模型極為接近的結果。
pdf: https://arxiv.org/abs/1707.02921
7. [18CVPR]:(DBPN/D-DBPN)Deep Back-Projection Networks For Super-Resolution
這篇文章的工作非常有意思。之前的圖像超分辨工作中,LR圖像升採樣至HR圖像尺寸都是單向前饋的。DBPN通過迭代的升採樣降採樣操作來為LR-HR映射建立誤差反饋機制,最終通過deep concatenation來綜合網絡中不同階段的LR-HR映射。
文章後續利用DenseNet的思路,進行特徵復用,提出了D-DBPN模型。
整體來看,這樣的迭代反饋結構在面對X8這樣的大尺度超解析度,有效信息更少的情況時,有state-of-the-art的效果。NTIRE 2018的超解析度比賽中,絕大部分隊伍方法是基於ResNet, DenseNet以及NTIRE2017競賽的最佳方法ESPN來做的改進。而這裡的DBPN是在NTIRE2018的Classic Bicubic比賽中取得了最佳表現。
Website: https://www.toyota-ti.ac.jp/Lab/Denshi/iim/members/muhammad.haris/projects/DBPN.html
8. [18CVPR] (SFT-GAN) Recovering RealisticTexture in Image Super-resolution by Deep Spatial Feature Transform
最近兩年有越來越多將高層次語義信息引入low-level vision的工作。這篇文章先使用語義分割概率圖作為先驗信息,使用空間特徵調製層(SFT)將語義分割信息結合到CNN中的特徵空間。語義信息的引入讓生成的圖像有著更真實的視覺效果,從這個角度展開,還有很多可以做的工作。
Website: http://mmlab.ie.cuhk.edu.hk/projects/SFTGAN/