美圖影像實驗室(MTlab)10000 點人臉關鍵點技術全解讀

2020-12-27 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按,日前,美圖影像實驗室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點 3D 人臉關鍵點技術」——利用深度學習技術實現 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中構建玩家人臉的 3D 遊戲角色並且驅動,也可以應用於虛擬試妝試戴和醫療美容領域等。本文為美圖影像實驗室 MTlab 基於該技術為雷鋒網 AI 科技評論提供的獨家解讀。正文如下:

簡介

在計算機視覺領域,人臉關鍵點定位在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識別以及與多媒體相關的交互式圖像視頻編輯任務。目前行業內常用的是 2D 人臉關鍵點技術,然而,2D 人臉點定位技術由於無法獲取深度信息,不能分析用戶的立體特徵,比如蘋果肌,法令紋等更加細緻的用戶信息,也無法分析出用戶當前的姿態和表情。為了能夠給用戶的自拍添加動畫效果,如面具、眼鏡、3D 帽子等物品,並且提供更加智能的 AI 美顏美型效果,需要一套特殊的感知技術,實時跟蹤每個用戶的微笑、眨眼等表面幾何特徵。因此,美圖影像實驗室 MTlab 研發人員研發了 10000 點人臉關鍵點技術,將面部圖像提升到三維立體空間,將用戶的姿態、臉型以及表情分解開來,實時跟蹤用戶當前的姿態、表情、五官特徵改變後的面部形態,調整後的圖像更加自然美觀。

基於 3DMM 的人臉關鍵點定位方法

1. 三維形變模型 (3DMM)

1999 年,瑞士巴塞爾大學的科學家 Blanz 和 Vetter 提出了一種十分具有創新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉資料庫的基礎上,以人臉形狀和人臉紋理統計為約束,同時考慮了人臉的姿態和光照因素的影響,生成的人臉三維模型精度較高。

3DMM

如上圖所示 3DMM 的主要思想是:一張人臉模型可以由已有的臉部模型進行線性組合。也就是說,可以通過改變係數,在已有人臉基礎上生成不同人臉。假設建立 3D 變形的人臉模型由 m 個人臉模型組成,其中每一個人臉模型都包含相應的臉型和紋理兩種向量,這樣在表示新的 3D 人臉模型時,就可以採用以下方式:

其中表示平均臉部形狀模型,表示 shape 的 PCA 部分,表示對應臉型係數。

Blanz 和 Vetter 提出的 3DMM 雖然解決了人臉變形模型的表達問題,但其在人臉表情表達上依然存在明顯不足。2014 年時,FacewareHouse 這篇論文提出並公開了一個人臉表情資料庫,使得 3DMM 有了更強的表現力,人臉模型的線性表示可以擴充為:

在原來的臉型數據基礎上,增加了表情表示對應的表情係數,係數讓實時表情 Tracking 成為了可能。

2. 美圖 MT3DMM 模型

為了能夠更加精細地刻畫不同人臉的 3D 形狀,並且適用於更廣泛的人種,MTlab 的研發團隊採用先進的 3D 掃描設備採集了 1200 個不同人物、每人 18 種表情的 3D 人臉數據,其中男女各半,多為中國人,年齡分布在 12~60 歲,模型總數超過 20000 個,基於這些數據,建立了基於深度神經網絡的 MT3DMM 模型。相比於目前主流的 3DMM 模型,MT3DMM 具有表情豐富,模型精度高,並且符合亞洲人臉分布的特點,是目前業界精度最高的 3D 人臉模型之一。

3DMM 模型,代表了一個平均臉,也同時包含了與該平均臉的偏差信息。例如,一個胖臉在一個瘦臉模型基礎上,通過調整五官比例可以得到胖臉模型。利用這種相關性,計算機只需要利用用戶的臉與平均人臉的偏差信息,就能夠生成專屬於用戶的 3D 模型。不僅如此,這些偏差還包括大致的年齡、性別和臉部長度等參數。但是,這樣也存在一個問題,世界上的人臉千變萬化,要將所有人臉與平均人臉的偏差都存儲下來,3DMM 模型需要集成大量面部的信息,然而目前的開源模型在模仿不同年齡和種族人臉方面的能力十分有限。

如下圖 BFM 的人臉數據基本都是外國人臉,跟亞洲人臉的數據分布存在差異;Facewarehouse 的數據主要是亞洲人臉,但是用 Kinect 掃描的模型則存在精度較低的問題;SFM 開源的數據只包含了 6 種表情,並且模型的精度較低,無法滿足我們的需求;LSFM 數據包含了較多的人臉數據,但是不包含表情,無法用於用戶表情跟蹤。

BFM 和 SFM 數據中的部分數據

掃描出來的模型雖然是高精度的模型,但是不包含具體的語義信息。因此,MTlab 的 3D 研發團隊專門為此開發了一套自動註冊算法,無需人工進行標定就可以對掃描模型進行精細化註冊,如下圖所示:

註冊流程

模型生成結果

最終,MTlab 將所有註冊好的 3D 模型組合成 MT3DMM 資料庫,用於 10000 點面部關鍵點定位。高精度的掃描模型也為開發其它功能提供了更多的可能。

3. 數據製作

為了能夠發揮深度學習的大數據優勢,需要給神經網絡提供大量的數據,MTlab 研發人員設計了一套高複雜度的數據製作算法,同時配合高精度的 MT3DMM 模型製作出大量的訓練數據。相比目前主流的訓練數據製作方法,MTlab 的訓練數據可以有效的解耦臉型,表情以及姿態信息,在進行精確的稠密點人臉定位的同時,進行 AR 特效以及精準的人臉表情驅動。

從上面的公式可以將人臉重建的問題轉化成求, 係數的問題,將我們參數化的 3D 人臉模型跟 2D 特徵點進行映射後,便可以用下面的公式對臉部進行擬合,具體求解過程如下:

這裡是三維模型投影到二維平面的點,P 為正交投影矩陣,R 為旋轉矩陣,為位移矩陣,這樣我們就可以將三維求解問題轉化成求解下面的能量方程:

這裡加了正則化部分,其中是 PCA 係數(包括形狀係數以及表情係數),表示對應的主成分偏差。

目前的 3D 重建算法大多都是將姿態,臉型以及表情參數一起優化,並不能將這三者獨立開來,為了能夠解耦姿態,表情,以及臉型之間的關係,MTlab 的數據包含了一個人同一姿態下的不同表情,以及同一表情下不同姿態的數據集,採用 Joint Optimization 策略來計算每個人的臉型,姿態以及表情參數,得到解耦後的參數數據可以真實反應出當前人臉的姿態信息,臉型信息以及表情信息,極大的豐富了應用場景。

4. 神經網絡訓練

傳統的 3D 人臉重建算法,不管是單圖重建、多圖重建還是視頻序列幀重建,都需要通過凸優化算法優化出所需要的參數,為了能夠讓算法在移動端實時運行,MTlab 研發人員採用深度神經網絡進行 End-to-End 學習,通過神經網絡強大的學習能力替代了凸優化過程的大量計算。通過研究分析目前移動端較快的網絡(SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3)的特性,MTlab 研發人員提出了一種適合移動端網絡,並且具備低功耗特性的 ThunderNet,配合 MTlab 研發的 AI 前向引擎和模型量化技術,在美圖 T9 上運行幀率達到 500fps。MT3DMM 神經網絡訓練的要點如下:

MT3DMM 整體流程

數據增益:為了適應 In-the-wild 圖像,需要讓算法對低解析度、噪聲、遮擋或包含運動和不同的光照場景下具有強魯棒性,MTlab 採用了海量的數據,並用算法擾動模擬了各種真實環境下的數據進行訓練。

網絡結構:使用了 MTlab 自研的 ThunderNet 網絡結構,在速度和精度上都超過了同規模的快速網絡,包括 SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3,並具有低功耗的特點。

損失函數:Loss 主要採用了參數 Loss、KeyPoints Loss、3D Vertexes Loss 以及 Texture Loss,並且用相應的權重去串聯它們,從而使網絡收斂達到最佳效果。實驗發現,參數 Loss 可以獲取更加準確的參數語意信息,KeyPoints Loss 可以使最終的稠密人臉點貼合人臉五官信息,3D Vertexes Loss 能更好地保留用戶臉部 3D 幾何信息,Texture Loss 則可以幫助網絡實現更好的收斂效果。

最終,在得到網絡輸出的參數後,MTlab 用 MT3DMM 模型解碼出相應的人臉 3D 模型,根據姿態以及投影矩陣就可以得到面部稠密人臉點。模型都是經過參數化後,每一個點都有其相對應的語義信息,可以通過修改 3D 模型對圖像進行相應的編輯。美圖手機上光效相機、個性化美顏檔案、3D 修容記憶、美顏立體提升、3D 姿態調整、App 萌拍動效、美妝相機萬聖節妝容、彩妝、Avatar 驅動等功能都採用了該項技術。

參考文獻

V. Blanz and T. Vetter. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187– 194, 1999.

Cao C, Weng Y, Zhou S, et al. Facewarehouse: A 3d facial expression database for visual computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(3): 413-425

Huber P, Hu G, Tena R, et al. A multiresolution 3d morphable face model and fitting framework[C]//Proceedings of the 11th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. 2016.

Booth J, Roussos A, Zafeiriou S, et al. A 3d morphable model learnt from 10,000 faces[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 5543-5552.

Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size[J]. arXiv preprint arXiv:1602.07360, 2016.

Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.

Wang R J, Li X, Ling C X. Pelee: A real-time object detection system on mobile devices[C]//Advances in Neural Information Processing Systems. 2018: 1963-1972.

Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520.

Sun K, Li M, Liu D, et al. Igcv3: Interleaved low-rank group convolutions for efficient deep neural networks[J]. arXiv preprint arXiv:1806.00178, 2018.

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 獨家| 揭秘美圖影像實驗室:數據、算法和一件關於美的事
    目前,負責「克服問題」的美圖影像實驗室有大約 60 多位研究員,分布在北京、廈門、深圳。位於美圖總部的廈門實驗室是最老也是最大的團隊,主要提供人臉技術、美顏技術、3D 技術和性能優化;北京實驗室更偏向計算機視覺,包括視頻技術及深度學習;深圳則是與智能硬體相關的影像算法。這樣的設置自然有吸引人才的考量。
  • 人臉專集3 | 人臉關鍵點檢測(下)—文末源碼
    今天繼續上期的《人臉關鍵點檢測》,精彩的現在才真正的開始,後文會陸續講解現在流行的技術,有興趣的我們一起來學習!
  • 人臉關鍵點越多越好?曠視Face++為你詳解1000點和106點的差別
    日前,Face++人工智慧開放平臺推出稠密人臉關鍵點SDK產品,而在近日,Face++雲端稠密人臉關鍵點API也正式上線。所謂稠密人臉關鍵點,即其可檢測人臉1000個關鍵點信息,那不僅有人問:人臉關鍵點是越多越好麼?1000點和106點、81點有什麼區別呢?對此,Face++也給出了一些解讀。
  • 美圖影像實驗室技術新突破 BeautyCam美顏相機超清人像功能突破...
    近日,BeautyCam美顏相機推出全新超清人像功能,通過美圖影像實驗室(MTlab)大數據和生成網絡技術,將人像圖片進行精細化處理,超越硬體設備的局限,可真正實現像素級別的畫質提升、美學增強、超清美顏,一鍵破解暗糊假。
  • 美圖公司旗下美圖魔鏡技術賦能美髮業 為魅尚萱帶來最潮「虛擬染髮」
    美圖魔鏡技術首次嵌入至魅尚萱活動網站,解決了消費者在網站購買產品時無法實時試發色的營銷痛點,幫助消費者實現染後效果預覽,推動消費者的購買決策,提升品牌主銷售轉化率。魅尚萱活動網站虛擬染髮美圖魔鏡技術加持美髮業 為消費者帶來最潮體驗美圖魔鏡先進的虛擬染髮技術來自於美圖影像實驗室(MTlab)。
  • 美圖宜膚、美圖魔鏡亮相廣州美博會受追捧
    美圖宜膚和美圖魔鏡展區人頭攢動搭載業界領先的硬體配置+AI技術美圖宜膚是由美圖AI核心團隊「美圖影像實驗室(MTlab)」打造的全球首款配備三顆高清攝像頭的皮膚檢測儀,定位專業臉部顧問,可實現一次拍攝覆蓋98%全臉人像,遠超同類產品,擁有檢測時間短、準確率高的特點
  • 機器學習 | 人臉關鍵點檢測
    在機器學習中,這些標記被稱為人臉關鍵點。在本文中,我將指導您如何使用機器學習來檢測這些「面部坐標」。首先,我將簡單地從導入這個任務所需的所有庫開始。在本文中,我將使用PyTorch使用深度學習進行地標檢測。
  • 一文讀懂人臉識別技術
    主要案例是圍繞各個美化軟體與直播平臺製作人臉貼圖,重點強化了人臉識別的關鍵點檢測及跟蹤技術。Fisher Face算法文檔:https://blog.csdn.net/zizi7/article/details/529994323.3 EGM(彈性圖匹配)其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特徵點,其屬性為相應特徵點處 的多解析度、多方向局部特徵——Gabor變換12特徵,稱為Jet;邊的屬性則為不同特徵點之間的幾何
  • 長篇乾貨 | 深度解析人臉識別技術
    Fisher Face算法文檔: https://blog.csdn.net/zizi7/article/details/52999432 3.3 EGM(彈性圖匹配) 其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特徵點,其屬性為相應特徵點處的多解析度、多方向局部特徵——Gabor變換12特徵,稱為Jet;邊的屬性則為不同特徵點之間的幾何關係
  • 解密:智能美妝和動效自拍背後的技術
    主要介紹了人臉識別系統的三大組成部分,並對手機相機能自動美顏的原因進行了深度剖析。這是一個「看臉」的時代,一談人臉技術,大家最為熟知就是人臉識別。該技術在金融、社保、教育、安防等領域表現活躍,成為AI技術領域的明星。優圖微信公眾號之前也重點介紹過優圖人臉識別,本文主要介紹一些背後默默支持人臉識別的技術。
  • 使用Python+OpenCV+Dlib實現人臉檢測與人臉特徵關鍵點識別
    我們可以將這些信息作為一個預處理步驟來完成,例如捕捉照片中人物的人臉(手動或通過機器學習),創建效果來「增強」我們的圖像(類似於Snapchat等應用程式中的效果),對人臉進行情感分析等等。今天我們將通過引入DLib和從圖像中提取面部特徵來將其提升到一個新的水平。
  • 美圖秀秀影像實力再升級 5D高光黑科技開啟妝容新體驗
    據介紹,美圖秀秀此次基於美圖影像實驗室(MTlab)獨家研發的5D高光黑科技,在妝容真實度、貼合度、光澤度上均進行了優化與調整,實力打造更加真實細膩的妝容效果。此次美圖秀秀妝容升級,針對每個妝容都搭配了獨特的高光畫法,精細的技術處理讓高光效果仿佛真實塗抹,使五官輪廓變得精緻立體,為妝容注入靈魂。
  • 雪梨科技大學CVPR 2018論文:無監督學習下的增強人臉關鍵點檢測器
    Supervision-by-Registration 的整體框架Supervision-by-Registration(SBR) 是一個訓練人臉關鍵點檢測器的算法框架,能夠利用無監督的方式增強任何基於圖像的人臉關鍵點檢測器。SBR 利用了物體在視頻中的運動比較平滑的特性來提升一個現有的人臉關鍵點檢測器。
  • 騰訊優圖實驗室高級研究員棟豪:時序動作分析技術的研究與應用 |...
    「騰訊優圖專場」,是智東西公開課邀請騰訊優圖實驗室面向開發者和科研人員,專注講解騰訊優圖實驗室前沿研究成果的系列線上公開課,第一階段共計三講。第一講由優圖實驗室資深高級研究員瑋劍主講,主題為《3D人臉重建技術的研究與應用實例》。第二講由優圖實驗室研究員太平主講,主題為《人臉安全技術的研究與應用》。
  • 獲ICME人臉106關鍵點檢測比賽冠軍 百度大腦彰顯AI實力
    在今年4月初結束的ICME人臉106關鍵點檢測比賽(Grand Challenge of 106-p Facial Landmark Localization)中,百度大腦視覺技術團隊與來自全球的20多個優秀代表隊同臺競技,其中包括阿里、華為、美團、中科大等國內視覺技術實力強勁的團隊,最終一舉摘得桂冠。
  • 深度人臉表情識別技術綜述,沒有比這更全的了
    Viola-Jones 人臉檢測器是一個經典的廣泛使用的人臉檢測方法,在許多工具箱中都有實現(例如 OpenCV 和 Matlab)。得到人臉邊界框後,原圖像可以裁剪至面部區域。人臉檢測之後,可以利用人臉關鍵點標定進一步提高 FER 的效果。根據關鍵點坐標,人臉可以利用放射變換顯示到統一的預定義模版上。這一步可以減少旋轉和面部變形帶來的變化。
  • 2020年宜春市HIV檢測點實驗室技術人員培訓(圖)
    圓滿完成  大江網/宜春頭條客戶端訊 晏偉、餘亭報導:為進一步提高愛滋病感染者和病人及時發現率,擴大全人群檢測率,確保並提高愛滋病檢測點實驗人員技術水平,近日,宜春市疾控中心檢驗科在高安市舉辦了2020年宜春市HIV檢測點實驗室技術人員上崗及復訓培訓班。
  • 美圖宜膚為美容護膚品行業提供新零售解決方案
    美圖宜膚(meitueve)全景式AI皮膚檢測儀,是美圖公司研發的專業智能測膚儀器,為美容護膚行業提供新零售解決方案。美圖宜膚內置三枚專業級高清攝像頭,全面細緻還原肌膚紋理;承襲美圖積澱十餘年的智能影像AI技術,並有3D人臉重建、定製校正色卡等多項獨家技術專利支持。