哈工大提出基於光流估計與光照不一致監督的人臉正向化模型

2020-08-30 AI科技評論

今天解讀的是一篇已被ECCV 2020接收的論文,在這篇論文中,來自哈工大的作者們針對之前方法忽略對側臉-正臉圖像對之間光照情況不一致的考慮,引入了一個光照保留損失,實現了圖像中光照信息和人臉身份信息的特徵解藕,同時使用光流估計在特徵層面得到了側臉-正臉之間的特徵對應關係,作為一個強有力的正向化監督信號,進而生成了更加逼真的正面人臉,同時也保留了更多的細節信息,實驗結果表明,本文方法達到了SOTA效果。

論文:《Learning Flow-based Feature Warping for Face Frontalization with Illumination Inconsistent Supervision》。

論文連結:https://arxiv.org/pdf/2008.06843

代碼連結:https://github.com/csyxwei/FFWM

1 動機

目前針對人臉正向化問題,較為流行的方法是通過大量的側臉-正臉圖像對(profile-frontal pairs)訓練一個GAN網絡,但是此類方法都忽略了側臉-正臉之間存在光照不一致的現象,光照不一致主要是由拍攝角度(拍攝現場使用固定的照明設備)造成的,尤其是側臉角度達到±90°時,光照的明暗差異非常明顯,下圖為Multi-PIE數據集中不同角度的人臉。

之前的方法直接最小化生成人臉與ground-truth正面人臉的像素級損失,會迫使網絡同時學習對姿態和光照的轉換,對光照的轉換在一定程度上會干擾前者,本文針對該問題,在正向化過程中保留了輸入側臉的光照信息,使模型更加專注於姿態轉換的學習,從而得到了更好的生成效果。

2 方法

人臉正向化本質上是人臉圖像的旋轉變化,本文使用光流場來構建側臉-正臉之間的特徵對應關係,光流估計網絡使用FlowNetSD[1],正向光流場(Forward Flow Field)表徵側臉到正臉的特徵轉換,反向光流場(Reverse Flow Field)表徵正臉到側臉的特徵轉換。然後將得到的兩個光流場分別應用到光照保留模塊(Illumination Preserving Module)和注意力特徵轉換模塊(Warp Attention Module)。

光照保留模塊

光照保留模塊主要負責將人臉圖像中的光照信息與代表人臉身份的細節信息進行特徵解藕。光照保留模塊分為兩個支路,其中光照保留支路(Illumination preserving pathway)保證生成的正面圖像與輸入的側臉圖像在光照情況上一致,而光照適應支路(Illumination adaption pathway)儘可能的保證學習到與ground-truth圖像一致的身份細節特徵。

由於光照條件很難量化到特徵空間中,所以作者直接在圖像空間對生成前後圖像的光照情況進行約束,如上圖Illumination Preserving Module中首先通過反向光流場將模型生成的正向人臉

轉換到側臉視角,然後對和輸入側臉

計算光照保留損失。

在光照適應支路中,考慮到生成圖像與ground-truth圖像

的光照條件不一致,直接對它們進行約束可能會消除前面光照保留支路的效果,所以使用guided filter[2]對ground-truth圖像做光照條件的遷移得到

,保證兩幅正面圖像有同樣的光照條件,然後對其計算細節特徵損失即可。

注意力特徵轉換模塊

該模塊主要實現側臉到正臉的特徵轉換,使用正向光流場可以得到非常精確的像素對應關係,但是由於人臉自身旋轉帶來的自遮擋現象,使得側臉圖像會有一部分信息丟失,進而也就無法得到完整的像素對應關係,針對這個問題,作者根據人臉對稱先驗對得到的特徵圖進行水平翻轉,再通過一個注意力模塊進行特徵融合,消除翻轉特徵帶來的信息混亂。

3 損失函數

多尺度像素級損失

為了保證生成圖像與ground-truth圖像的內容一致性,本文仿照TP-GAN[3],CAPG-GAN[4]加入了多尺度像素級損失,本文設置了三個尺度,分別為32x32、64x64和128x128。由於ground-truth圖像與生成正面圖像的光照情況不同,所以計算該損失之前需要進行光照遷移。

感知損失

為了緩解像素級損失帶來的生成圖像較為模糊的問題,本文加入了VGG-19的感知損失,為了使感知損失作用到人臉圖像中的關鍵區域,這裡重點關注了眼睛、鼻子和嘴巴部分。

對抗損失

上式為標準的圖像對抗損失,促使生成器生成更加逼真的人臉圖像。

光照保留損失

上式為本文比較核心的多尺度光照保留損失,其中S代表的多尺度與上面的多尺度像素級損失一致,本質上是對輸入側臉與經過反向光流場生成的側臉圖像計算L1距離。

身份特徵保留損失

人臉正向化需要保證正向化過程中儘可能的保留與輸出側臉相同的身份信息,所以本文也加入了身份特徵的保留損失,分別對LightCNN-29[5]最後一個池化層和全連接層的特徵向量計算L1距離。

優化:

最後將上述各項損失整合起來得到總優化目標,即以下損失項的加權和。

4 實驗與結果

本文數據集使用了Multi-PIE數據集和LFW數據集,前者是目前比較流行的受限條件下多角度人臉數據集,後者為非受限條件下的人臉數據集。

定性實驗

本文分別與4種人臉正向化方法進行了對比,可以看到其他方法得到的生成圖像的光照情況與最左側的輸入側臉的光照情況有很大差異,同時在臉部輪廓和其他細節區域與真實圖像也有明顯的差異,本文方法首先保證生成圖像的光照情況與原圖一致,使模型能夠更加明確的執行正向化。

上圖為在Multi-PIE數據集上的生成效果,下圖為在LFW數據集的效果。

定量實驗

為了體現人臉正向化模型對人臉識別性能的提升以及本文方法的優越性,作者將本文方法作為人臉識別的一個預處理過程,首先對所有側臉執行正向化操作,其後將生成正臉圖像輸入到LightCNN中計算得到特徵向量,使用餘弦距離作為相似性度量計算得到Rank-1識別準確率,可以看到本文方法在大於75度的極端角度情況下可以達到SOTA效果。

為了展示本文方法在受限場景和非受限場景中都可以得到很好的效果,作者在LFW數據集上計算了ACC和AUC指標,都達到了SOTA效果。

5 總結

在這篇論文中,作者以側臉-正臉圖像對中光照條件不一致為切入點,通過光照保留模塊對人臉關鍵信息與光照信息進行解藕,然後使用雙向的光流場對兩種視角人臉特徵對應關係進行擬合,再通過注意力特徵轉換模塊消除掉一些與人臉關鍵特徵無關的信息,進而實現精確的人臉正向化。實驗結果表明,本文的方法不僅能夠生成較為逼真的正面人臉,同時也可以解決大角度的人臉識別問題。

參考引用

[1] Ilg, E., Mayer, N., Saikia, T., Keuper, M., Dosovitskiy, A., Brox, T.: Flownet 2.0: Evolution of optical flow estimation with deep networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2462–2470 (2017)

[2] He, K., Sun, J., Tang, X.: Guided image filtering. In: Proceedings of the European Conference on Computer Vision. pp. 1–14. Springer (2010)

[3] Huang, R., Zhang, S., Li, T., He, R.: Beyond face rotation: Global and local per- ception gan for photorealistic and identity preserving frontal view synthesis. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 2439– 2448 (2017)

[4] Hu,Y.,Wu,X.,Yu,B.,He,R.,Sun,Z.:Pose-guidedphotorealisticfacerotation.In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 8398–8406 (2018)

[5] Wu, X., He, R., Sun, Z., Tan, T.: A light cnn for deep face representation with noisy labels. IEEE Transactions on Information Forensics and Security 13(11),2884–2896 (2018)

[博文視點贈書福利]

AI科技評論聯合博文視點贈送周志華教授「森林樹」十五本,在「周志華教授與他的森林書」一文留言區留言,談一談你和集成學習有關的學習、競賽等經歷。

AI 科技評論將會在留言區選出15名讀者,每人送出《集成學習:基礎與算法》一本。

活動規則:

1. 在「周志華教授與他的森林書」一文留言區留言,留言點讚最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。

2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。

3. 本活動時間為2020年8月23日 - 2020年8月30日(23:00),活動推送內僅允許中獎一次

相關焦點

  • 基於GANs無監督回歸三維參數化人臉模型
    三維人臉重建是指通過一張或多張同一個人的照片來構建該人的三維人臉網格。該課題一直是計算機視覺和圖形學的熱門關注焦點,擁有廣泛的應用場景,如人臉身份識別、醫學方案展示、三維人臉動畫等。在三維人臉重建領域,VETTER T和BLANTZ V在1999年提出的三維人臉參數化模型(3DMM)[1]具有重要意義。
  • 「技術綜述」基於3DMM的三維人臉重建技術總結
    基於結構光和雷射儀器的三維成像儀是其中的典型代表,我們熟知的iphoneX中的人臉識別就是基於結構光進行三維人臉重建,正因如此才有iphonex中的三維人臉表情包。這些基於儀器採集的三維模型,精度可達毫米級,是物體的真實三維數據,也正好用來為基於圖像的建模方法提供評價資料庫。不過由於儀器的成本太高,一般的用戶是用不上了。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域
    因此,本文還提出了一種金字塔區域感知損失(PRA Loss),從圖像塊級別開始以一種自上而下的方式迭代地選擇最困難的樣本來優化。鑑於PRA Loss能夠根據上層父圖像塊是過預測還是欠預測來選擇困難樣本,因此還能夠緩解業界普遍面臨的訓練目標最小化和計數誤差最小化之間不一致的問題。騰訊優圖的方法在多達四個公開數據集上取得了優異的性能。
  • 基於新的膚色模型的人臉檢測方法
    膚色是人臉的重要信息,具有相對的穩定性並可和大多數背景物體的顏色相區別,也與物體的大小、伸縮及姿態基本上無關。本文引用地址:http://www.eepw.com.cn/article/195592.htm1 Hsu R L膚色檢測算法 Hsu R L在論文中提出了一種可變光照及複雜背景下的膚色檢測算法,該算法應用於人臉檢測中可以取得較好的效果。 Hsu R L首先採用一種光照補償算法。
  • 無需人臉檢測,即可實時,6自由度3維人臉姿態估計方法 | 代碼剛開源
    摘要我們提出了實時、六自由度(6DoF)、三維人臉姿態估計,無需人臉檢測或關鍵點定位。我們發現估計人臉的6自由度剛性變換比人臉關鍵點檢測更簡單,人臉關鍵點檢測通常用於三維人臉對齊。此外,6DoF提供了比人臉框標籤更多的信息。
  • 基於MAP-MRF的視差估計
    日益增長的數據量,同時內部數據還受到諸如光照變化、遮擋等不可控環境因素的影響都對深度圖估計的效率、精度都提出了挑戰。參考影像的深度估計可以轉化為立體像對的視差估計,傳統方法利用稠密匹配的算法進行快速特徵匹配,例如半全局匹配算法,而往往在收到遮擋的影響而效果不佳。而深度學習方法在立體視覺中的成功應用,使得高效率、高精度的基於神經網絡的端到端三維重建成為可能。
  • 基於深度學習的人臉識別技術全解
    通過人臉識別身份的方法與人類的習慣一致,人和機器都可以使用人臉圖片進行識別。而指紋,虹膜等方法沒有這個特點,一個沒有經過特殊訓練的人,無法利用指紋和虹膜圖像對其他人進行身份識別。 非接觸性。人臉圖像信息的採集不同於指紋信息的採集,利用指紋採集信息需要用手指接觸到採集設備,既不衛生,也容易引起使用者的反感,而人臉圖像採集,用戶不需要與設備直接接觸。 可擴展性。
  • 無需標註數據集,自監督注意力機制就能搞定目標跟蹤
    深度學習的蓬勃發展得益於大規模有標註的數據驅動,有監督學習推動深度模型向著性能越來越高的方向發展。但是,大量的標註數據往往需要付出巨大的人力成本,越來越多的研究開始關注如何在不獲取數據標籤的條件下提升模型的性能,這其中就包括自監督注意機制。
  • 解密:人臉檢測關鍵技術
    近來,級聯形狀回歸模型在特徵點定位任務上取得了重大突破,該方法使用回歸模型,直接學習從人臉表觀到人臉形狀(或者人臉形狀模型的參數)的映射函數,進而建立從表觀到形狀的對應關係。此類方法不需要複雜的人臉形狀和表觀建模,簡單高效,在可控場景(實驗室條件下採集的人臉)和非可控場景(網絡人臉圖像等)均取得不錯的定位效果。
  • 一種基於OpenCV的人臉識別設計方案
    人臉識別的研究可以追溯到上個世紀六、七十年代,經過幾十年的曲折發展已日趨成熟,構建人臉識別系統需要用到一系列相關技術,包括人臉圖像採集、人臉定位、人臉識別預處理、身份確認以及身份查找等 .而人臉識別在基於內容的檢索、數字視頻處理、視頻檢測等方面有著重要的應用價值,可廣泛應用於各類監控場合,因此具有廣泛的應用前景。OpenCV是Intel 公司支持的開源計算機視覺庫。
  • 今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...
    目錄用於語義場景完成的3D門控遞歸融合用於大姿態人臉正面化的雙注意力GANUniversal-RCNN:基於可轉移圖R-CNN的通用目標檢測器用於圖像深度估計的無監督域自適應嵌套命名實體識別的神經分層模型用於語義場景完成的3D門控遞歸融合論文名稱:3D Gated Recurrent
  • 依圖NIST奪冠,解密人臉識別算法原理
    因為人臉由眼睛、鼻子、嘴巴、下巴等部件構成,正因為這些部件的形狀、大小和結構上的各種差異才使得世界上每個人臉千差萬別,所以對這些部件的形狀和結構關係的幾何描述,可以做為人臉識別的重要特徵。  2.特徵臉方法(PCA)  特徵臉方法是90年代初期由Turk和Pentland提出的目前最流行的算法之一,具有簡單有效的特點, 也稱為基於主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。
  • 人臉識別:AI產品經理需要了解的CV通識
    3)光照環境:過曝或過暗的光照環境都會影響人臉識別效果。可以從攝像頭自帶的功能補光或濾光平衡光照影響,也可以利用算法模型優化圖像光線。4)模糊程度:實際場景主要著力解決運動模糊,人臉相對於攝像頭的移動經常會產生運動模糊。部分攝像頭有抗模糊的功能,而在成本有限的情況下,考慮通過算法模型優化此問題。
  • 近紅外解光照難題 人臉識別前景廣闊
    ,即通過對面像樣品集和非面像樣品集的學習產生分類器;   ☉膚色模型法   這種方法是依據面貌膚色在色彩空間中分布相對集中的規律來進行檢測。這樣的特點對於利用人臉進行定位是有利的,但是對於利用人臉區分人類個體卻是不利的。另一方面,人臉的外形很不穩定,人可以通過臉部的變化產生很多表情,而在不同觀察角度,人臉的視覺圖像也相差很大,另外,人臉識別還受光照條件(例如白天和夜晚,室內和室外等)、人臉的很多遮蓋物(例如口罩、墨鏡、頭髮、鬍鬚等)、年齡等多方面因素的影響。
  • CVPR 2018:阿里提出應用 LocalizedGAN 進行半監督訓練
    有了基於Graph的流型,我們就可以建立一個分類模型:它輸出的分類標籤在相似樣本上具有最小的變化。這個就是一種平滑性的假設,是基於圖的半監督方法的核心假設。上圖:基於圖的流型表示和半監督分類。儘管這種基於圖的半監督方法取得了很大的成功,但是它的缺點也是很明顯的。當數據點數量非常巨大的時候,構建這樣一個Graph的代價會非常大。
  • 深度學習之視頻人臉識別系列三:人臉表徵
    在該人臉識別模型中分為四個階段:人臉檢測 => 人臉對齊 => 人臉表徵 => 人臉分類,在LFW數據集中可以達到97.00%的準確率。(1)人臉檢測與對齊:該模型使用3D模型來將人臉對齊,該方法過於繁瑣,在實際應用中很少使用,經過3D對齊以後,形成的圖像都是152×152的圖像,具體步驟如下圖。
  • 依圖NIST二次奪冠,人臉識別的幾種方法和解決姿態問題的三種思路
    因為人臉由眼睛、鼻子、嘴巴、下巴等部件構成,正因為這些部件的形狀、大小和結構上的各種差異才使得世界上每個人臉千差萬別,所以對這些部件的形狀和結構關係的幾何描述,可以做為人臉識別的重要特徵。 2.特徵臉方法(PCA) 特徵臉方法是90年代初期由Turk和Pentland提出的目前最流行的算法之一,具有簡單有效的特點, 也稱為基於主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    ,判斷當前車輛與周圍車輛、行人和障礙物的距離,距離判斷的精度對自動駕駛系統的安全性有著決定性的影響,商湯科技在CVPR 2018發表亮點報告(Spotlight)論文,提出基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度,進一步提升自動駕駛系統的安全性。