單幅圖像超解析度重建旨在從一幅低解析度(LR)圖像重建或生成一幅高解析度(HR)圖像。近期基於CNN的SISR研究逐漸增多,主要分為兩類:一類是將SR視為重建問題,利用MSE作為損失函數以獲得高PSNR值;另一類方法是將SR轉換為圖像生成問題,以獲得更好的視覺質量。第二類方法能獲得更加逼真的重建圖像,該文就是研究這種感知SR方法。
感知SR方法面臨的最具挑戰性的問題是評估,依靠人類主觀判斷不可靠也不公平。為了解決這個問題,該文提出了許多與人類評價高度相關的無參考圖像質量評估(NR-IQA)指標,例如NIQE(相關係數0.76)和PI(相關係數0.83),PIRM2018-SR挑戰已成功使用了這些指標。但是這些NR-IQA指標大多數是不可微分的,例如它們包括手工特徵提取或統計回歸操作,因此無法用作損失函數來優化網絡。
為了使感知指標能用於優化網絡,進一步提高重建質量,作者提出了一個通用且可微分的模型--Ranker,該模型可以模擬任何NR-IQA指標,並提供明確的目標(作為損失函數)以優化感知質量。Ranker是一個孿生CNN,它通過學習排序方法來模擬感知指標。Ranker與標準的SRGAN模型一起形成一個新的感知SR框架--RankSRGAN(帶有Ranker的SRGAN)。所提出的框架還具有rank-content loss(內容排序損失),用訓練好的Ranker來度量輸出圖像質量,這樣SR模型可以針對特定的感知指標穩定地優化。圖1顯示了RankSRGAN的結果,它融合了SRGAN和ESRGAN的圖像效果並獲得了更好的NIQE得分(NIQE值越小越好,PSNR值越大越好)。
作者進行了全面實驗證明了所提出方法的有效性。總結本文的貢獻有三點。(1)提出了一個通用的感知SR框架--RankSRGAN,該框架可以利用不可微分的感知指標優化生成器,並實現了最先進的性能。(2)本文首次利用其他SR方法的結果來構建訓練數據集。所提出的方法結合了不同SR方法的優勢,並產生了更好的結果。(3)所提出的SR框架具有高度的靈活性,並且在構造的不同數據集,感知指標和損失組合的情況下產生多種結果。
圖 1 RankSRGAN與其它感知SR方法的比較
RankSRGAN是在基於GAN的SR方法上建立的,它包含一個生成器和一個判別器。判別器網絡區分是真實圖像還是超解析度重建的結果,訓練生成器網絡來愚弄判別器。為了獲得更自然的紋理,作者通過利用感知指標的先驗知識為標準SRGAN增加額外約束,以提高輸出圖像的視覺質量。RankSRGAN的整體框架如圖2所示,主要包括三個階段。
圖 2 RankSRGAN的整體框架
階段一:利用感知度量生成不同SR方法的重建圖像,獲得rank數據集。首先在公開的SR數據集上生成不同SR方法的超解析度重建圖像;然後在生成的圖像上應用選定的感知指標(例如NIQE),之後選出內容相同的圖像組成圖像對(即相同圖像經不同SR方法得到的HR圖像組成的圖像對),並根據感知指標計算出的圖像質量得分對圖像對進行排序。最後就獲得了成對圖像和對應的排序標籤(標籤的分配規則是:最好的NIQE值標記為1,即重建質量好的、NIQE值低的用1標記)。
階段二:訓練Ranker。Ranker採用孿生網絡結構來學習感知指標的行為,Ranker具有兩個相同的網絡分支,其中包含一系列的卷積、LeakyReLU激活、池化和全連接層。在特徵提取器之後使用全局平均池化GAP層,這樣網絡可以擺脫輸入大小的限制。為了得到排序得分,使用一個全連接層作為回歸器來量化排序結果。注意這裡並不是預測感知指標的實際值,而是只關注排名信息。最後,兩個分支的輸出構成margin-ranking loss,這樣我們可以計算梯度並應用反向傳播來更新整個網絡的參數。訓練好的Ranker應該具有根據圖像感知得分對圖像進行排序的能力。
階段三:訓練重建網絡RankSRGAN,判別器D的損失與SRGAN中的相同,生成器G的總損失包含三部分:感知損失、對抗損失和rank-content loss。其中rank-content loss由階段二用訓練好的Ranker給出,是本文方法新引入的損失函數,能使標準SRGAN生成視覺逼真的圖像。