智東西(公眾號:zhidxcom)
編 | 董溫淑
智東西6月24日消息,近日,杜克大學的研究團隊研發了一個AI圖像生成模型PULSE。PULSE可以在5秒鐘內將低解析度的人像轉換成清晰、逼真的人像。
要指出的是,PULSE所做的工作並不是把輸入的低解析度人像變成一張高解析度的人像,而是「一對多」地輸出許多張面部細節各不相同的高解析度人像。比如,用戶輸入一張16*16解析度的圖像,PULSE可輸出一組1024*1024解析度的圖像。
點擊播放 GIF 3.9M
這項研究於本月在計算機視覺與模式識別頂會CVPR 2020上發表,論文標題為《PULSE:通過對生成模型的潛在空間探索實現自監督照片上採樣(PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models)》。
論文連結:https://drive.google.com/file/d/1fV7FsmunjDuRrsn4KYf2Efwp0FNBtcR4/view
PULSE項目官網:http://pulse.cs.duke.edu/
GitHub:https://github.com/adamian98/pulse
一、PULSE:能為天文學/醫學提供參考
在好萊塢間諜電影中,肩負拯救世界重任的特工常常採用高科技手段、把一張模糊的兇犯照片還原成清晰的人臉照片。現實中,許多研究人員致力於用AI技術使電影中的炫酷場景成真。但是,現有AI模型的性能普遍較差,生成的人臉圖像往往與照片主人公的真實長相併不相似。
杜克大學計算機科學專業教授Cynthia Rudin指出,這是因為低像素圖像中的信息較少,AI模型無法準確地「補足」缺失信息、進而還原出清晰人臉圖像。因此,用AI技術對模糊人像進行面部識別十分困難。
Rudin團隊認為,雖然不能用於模糊人像的面部識別,但是這類AI模型可以作為一種分類和探索工具,用於天文學、醫學等難以獲得清晰圖像的領域。也就是說,基於模糊圖像中缺失信息的各種可能性,AI模型可以生成許多清晰的圖像,生成的多種圖像可以為天文學、醫學等領域研究人員提供參考。
基於這種設想,杜克大學研究人員研發了基於生成式對抗網絡(GAN)的圖像超解析度模型PULSE。PULSE模型基於NVIDIA的StyleGAN算法進行開發。
二、降尺度損失方法:用生成圖像「倒推」模糊圖,相似才能輸出
為了保證輸出圖像與輸入圖像的「對應性」,研究人員在PULSE模型中應用了一種「降尺度損失(downscaling loss)」方法。
當PULSE模型的生成網絡提議以一張清晰圖像作為輸出時,判別網絡會把這張清晰圖像的解析度降低到與輸入圖像相等的水平。然後,判別網絡會對比降尺度損失圖像與輸入圖像之間的相似性。
只有在降尺度損失圖像與輸入圖像相似性較高時,判別網絡才會判定生成網絡提議的清晰圖片可以作為輸出。
▲基於同一張模糊的圖像,PULSE可以生成面部細節不同的清晰圖像
三、40位評估者參與打分,PULSE模型MOS得分最高
研究人員用高分辨人臉數據集CelebA HQ評估PULSE的性能。為了進行對比,研究人員利用CelebA HQ數據集訓練了監督模型BICBIC、FSRNET和FSRGAN。
所有模型均以16*16解析度的圖像作為輸入,BICBIC、FSRNET和FSRGAN模型以128*128解析度圖像作為輸出,PULSE模型以128*128解析度圖像和1024*1024解析度圖像作為輸出。
評估結果顯示,圖像質量方面,PULSE模型在生成眼睛、嘴唇等圖像細節方面的能力優於其他模型。
▲PULSE生成圖像的嘴唇、眼睛更加清晰
接下來,研究人員用平均意見分數(MOS)測試來定量評估模型的解析度。研究人員應用6個模型生成128*128解析度的圖像,邀請40位評估者對6個模型的輸出結果進行打分。
用於對比的模型分別是:HR、Nearest、Bicubic、FSRNet、FSRGAN。
結果顯示,PULSE的MOS分數最高,為3.60,即評估者認為PULSE模型生成的圖像解析度最高。
結語:代碼已在GitHub開源,用戶擔憂種族偏見
本項研究中,杜克大學研發的PULSE模型能夠基於一張模糊的人像,生成多張面部細節不同的清晰人像,為使用者提供一個可能的參考範圍。目前,研究團隊已將模型代碼在GitHub開源,鼓勵其他開發者進行實驗。
研究人員稱,在未來,PULSE或可被用於天文學、醫學等領域。比如,一位天文學研究人員可以輸入一張模糊的黑洞圖像,並獲得許多可能的天體照片。
同時,也有人對PULSE的種族偏見問題表示擔憂。有Twitter用戶爆料稱,其在PULSE模型中輸入深膚色種族(比如歐巴馬的照片)的人臉照片後,PULSE輸出了白人的照片。研究人員稱,目前他們正嘗試通過引入更廣泛的數據集解決這一問題。
參考信源:IEEE Spectrum,PULSE