今天解讀的是一篇已被ECCV 2020接收的論文,在這篇論文中,來自哈工大的作者們針對之前方法忽略對側臉-正臉圖像對之間光照情況不一致的考慮,引入了一個光照保留損失,實現了圖像中光照信息和人臉身份信息的特徵解藕,同時使用光流估計在特徵層面得到了側臉-正臉之間的特徵對應關係,作為一個強有力的正向化監督信號,進而生成了更加逼真的正面人臉,同時也保留了更多的細節信息,實驗結果表明,本文方法達到了SOTA效果。
論文:《Learning Flow-based Feature Warping for Face Frontalization with Illumination Inconsistent Supervision》。
論文連結:https://arxiv.org/pdf/2008.06843
代碼連結:https://github.com/csyxwei/FFWM
1 動機
目前針對人臉正向化問題,較為流行的方法是通過大量的側臉-正臉圖像對(profile-frontal pairs)訓練一個GAN網絡,但是此類方法都忽略了側臉-正臉之間存在光照不一致的現象,光照不一致主要是由拍攝角度(拍攝現場使用固定的照明設備)造成的,尤其是側臉角度達到±90°時,光照的明暗差異非常明顯,下圖為Multi-PIE數據集中不同角度的人臉。
之前的方法直接最小化生成人臉與ground-truth正面人臉的像素級損失,會迫使網絡同時學習對姿態和光照的轉換,對光照的轉換在一定程度上會干擾前者,本文針對該問題,在正向化過程中保留了輸入側臉的光照信息,使模型更加專注於姿態轉換的學習,從而得到了更好的生成效果。
2 方法
人臉正向化本質上是人臉圖像的旋轉變化,本文使用光流場來構建側臉-正臉之間的特徵對應關係,光流估計網絡使用FlowNetSD[1],正向光流場(Forward Flow Field)表徵側臉到正臉的特徵轉換,反向光流場(Reverse Flow Field)表徵正臉到側臉的特徵轉換。然後將得到的兩個光流場分別應用到光照保留模塊(Illumination Preserving Module)和注意力特徵轉換模塊(Warp Attention Module)。
光照保留模塊
光照保留模塊主要負責將人臉圖像中的光照信息與代表人臉身份的細節信息進行特徵解藕。光照保留模塊分為兩個支路,其中光照保留支路(Illumination preserving pathway)保證生成的正面圖像與輸入的側臉圖像在光照情況上一致,而光照適應支路(Illumination adaption pathway)儘可能的保證學習到與ground-truth圖像一致的身份細節特徵。
由於光照條件很難量化到特徵空間中,所以作者直接在圖像空間對生成前後圖像的光照情況進行約束,如上圖Illumination Preserving Module中首先通過反向光流場將模型生成的正向人臉
轉換到側臉視角,然後對和輸入側臉
計算光照保留損失。
在光照適應支路中,考慮到生成圖像與ground-truth圖像
的光照條件不一致,直接對它們進行約束可能會消除前面光照保留支路的效果,所以使用guided filter[2]對ground-truth圖像做光照條件的遷移得到
,保證兩幅正面圖像有同樣的光照條件,然後對其計算細節特徵損失即可。
該模塊主要實現側臉到正臉的特徵轉換,使用正向光流場可以得到非常精確的像素對應關係,但是由於人臉自身旋轉帶來的自遮擋現象,使得側臉圖像會有一部分信息丟失,進而也就無法得到完整的像素對應關係,針對這個問題,作者根據人臉對稱先驗對得到的特徵圖進行水平翻轉,再通過一個注意力模塊進行特徵融合,消除翻轉特徵帶來的信息混亂。
3 損失函數
多尺度像素級損失
為了保證生成圖像與ground-truth圖像的內容一致性,本文仿照TP-GAN[3],CAPG-GAN[4]加入了多尺度像素級損失,本文設置了三個尺度,分別為32x32、64x64和128x128。由於ground-truth圖像與生成正面圖像的光照情況不同,所以計算該損失之前需要進行光照遷移。
感知損失
為了緩解像素級損失帶來的生成圖像較為模糊的問題,本文加入了VGG-19的感知損失,為了使感知損失作用到人臉圖像中的關鍵區域,這裡重點關注了眼睛、鼻子和嘴巴部分。
對抗損失
上式為標準的圖像對抗損失,促使生成器生成更加逼真的人臉圖像。
光照保留損失
上式為本文比較核心的多尺度光照保留損失,其中S代表的多尺度與上面的多尺度像素級損失一致,本質上是對輸入側臉與經過反向光流場生成的側臉圖像計算L1距離。
身份特徵保留損失
人臉正向化需要保證正向化過程中儘可能的保留與輸出側臉相同的身份信息,所以本文也加入了身份特徵的保留損失,分別對LightCNN-29[5]最後一個池化層和全連接層的特徵向量計算L1距離。
優化:
最後將上述各項損失整合起來得到總優化目標,即以下損失項的加權和。
4 實驗與結果
本文數據集使用了Multi-PIE數據集和LFW數據集,前者是目前比較流行的受限條件下多角度人臉數據集,後者為非受限條件下的人臉數據集。
定性實驗
本文分別與4種人臉正向化方法進行了對比,可以看到其他方法得到的生成圖像的光照情況與最左側的輸入側臉的光照情況有很大差異,同時在臉部輪廓和其他細節區域與真實圖像也有明顯的差異,本文方法首先保證生成圖像的光照情況與原圖一致,使模型能夠更加明確的執行正向化。
上圖為在Multi-PIE數據集上的生成效果,下圖為在LFW數據集的效果。
定量實驗
為了體現人臉正向化模型對人臉識別性能的提升以及本文方法的優越性,作者將本文方法作為人臉識別的一個預處理過程,首先對所有側臉執行正向化操作,其後將生成正臉圖像輸入到LightCNN中計算得到特徵向量,使用餘弦距離作為相似性度量計算得到Rank-1識別準確率,可以看到本文方法在大於75度的極端角度情況下可以達到SOTA效果。
為了展示本文方法在受限場景和非受限場景中都可以得到很好的效果,作者在LFW數據集上計算了ACC和AUC指標,都達到了SOTA效果。
5 總結
在這篇論文中,作者以側臉-正臉圖像對中光照條件不一致為切入點,通過光照保留模塊對人臉關鍵信息與光照信息進行解藕,然後使用雙向的光流場對兩種視角人臉特徵對應關係進行擬合,再通過注意力特徵轉換模塊消除掉一些與人臉關鍵特徵無關的信息,進而實現精確的人臉正向化。實驗結果表明,本文的方法不僅能夠生成較為逼真的正面人臉,同時也可以解決大角度的人臉識別問題。
參考引用
[1] Ilg, E., Mayer, N., Saikia, T., Keuper, M., Dosovitskiy, A., Brox, T.: Flownet 2.0: Evolution of optical flow estimation with deep networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2462–2470 (2017)
[2] He, K., Sun, J., Tang, X.: Guided image filtering. In: Proceedings of the European Conference on Computer Vision. pp. 1–14. Springer (2010)
[3] Huang, R., Zhang, S., Li, T., He, R.: Beyond face rotation: Global and local per- ception gan for photorealistic and identity preserving frontal view synthesis. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 2439– 2448 (2017)
[4] Hu,Y.,Wu,X.,Yu,B.,He,R.,Sun,Z.:Pose-guidedphotorealisticfacerotation.In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 8398–8406 (2018)
[5] Wu, X., He, R., Sun, Z., Tan, T.: A light cnn for deep face representation with noisy labels. IEEE Transactions on Information Forensics and Security 13(11),2884–2896 (2018)
[博文視點贈書福利]
AI科技評論聯合博文視點贈送周志華教授「森林樹」十五本,在「周志華教授與他的森林書」一文留言區留言,談一談你和集成學習有關的學習、競賽等經歷。
AI 科技評論將會在留言區選出15名讀者,每人送出《集成學習:基礎與算法》一本。
活動規則:
1. 在「周志華教授與他的森林書」一文留言區留言,留言點讚最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。
2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間為2020年8月23日 - 2020年8月30日(23:00),活動推送內僅允許中獎一次。