美圖影像實驗室(MTlab)10000 點人臉關鍵點技術全解讀

2021-01-11 雷鋒網

雷鋒網 AI 科技評論按,日前,美圖影像實驗室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點 3D 人臉關鍵點技術」——利用深度學習技術實現 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中構建玩家人臉的 3D 遊戲角色並且驅動,也可以應用於虛擬試妝試戴和醫療美容領域等。本文為美圖影像實驗室 MTlab 基於該技術為雷鋒網(公眾號:雷鋒網) AI 科技評論提供的獨家解讀。正文如下:

簡介

在計算機視覺領域,人臉關鍵點定位在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識別以及與多媒體相關的交互式圖像視頻編輯任務。目前行業內常用的是 2D 人臉關鍵點技術,然而,2D 人臉點定位技術由於無法獲取深度信息,不能分析用戶的立體特徵,比如蘋果肌,法令紋等更加細緻的用戶信息,也無法分析出用戶當前的姿態和表情。為了能夠給用戶的自拍添加動畫效果,如面具、眼鏡、3D 帽子等物品,並且提供更加智能的 AI 美顏美型效果,需要一套特殊的感知技術,實時跟蹤每個用戶的微笑、眨眼等表面幾何特徵。因此,美圖影像實驗室 MTlab 研發人員研發了 10000 點人臉關鍵點技術,將面部圖像提升到三維立體空間,將用戶的姿態、臉型以及表情分解開來,實時跟蹤用戶當前的姿態、表情、五官特徵改變後的面部形態,調整後的圖像更加自然美觀。

基於 3DMM 的人臉關鍵點定位方法

1. 三維形變模型 (3DMM)

1999 年,瑞士巴塞爾大學的科學家 Blanz 和 Vetter 提出了一種十分具有創新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉資料庫的基礎上,以人臉形狀和人臉紋理統計為約束,同時考慮了人臉的姿態和光照因素的影響,生成的人臉三維模型精度較高。

3DMM

如上圖所示 3DMM 的主要思想是:一張人臉模型可以由已有的臉部模型進行線性組合。也就是說,可以通過改變係數,在已有人臉基礎上生成不同人臉。假設建立 3D 變形的人臉模型由 m 個人臉模型組成,其中每一個人臉模型都包含相應的臉型和紋理兩種向量,這樣在表示新的 3D 人臉模型時,就可以採用以下方式:

其中表示平均臉部形狀模型,表示 shape 的 PCA 部分,表示對應臉型係數。

Blanz 和 Vetter 提出的 3DMM 雖然解決了人臉變形模型的表達問題,但其在人臉表情表達上依然存在明顯不足。2014 年時,FacewareHouse 這篇論文提出並公開了一個人臉表情資料庫,使得 3DMM 有了更強的表現力,人臉模型的線性表示可以擴充為:

在原來的臉型數據基礎上,增加了表情表示對應的表情係數,係數讓實時表情 Tracking 成為了可能。

2. 美圖 MT3DMM 模型

為了能夠更加精細地刻畫不同人臉的 3D 形狀,並且適用於更廣泛的人種,MTlab 的研發團隊採用先進的 3D 掃描設備採集了 1200 個不同人物、每人 18 種表情的 3D 人臉數據,其中男女各半,多為中國人,年齡分布在 12~60 歲,模型總數超過 20000 個,基於這些數據,建立了基於深度神經網絡的 MT3DMM 模型。相比於目前主流的 3DMM 模型,MT3DMM 具有表情豐富,模型精度高,並且符合亞洲人臉分布的特點,是目前業界精度最高的 3D 人臉模型之一。

3DMM 模型,代表了一個平均臉,也同時包含了與該平均臉的偏差信息。例如,一個胖臉在一個瘦臉模型基礎上,通過調整五官比例可以得到胖臉模型。利用這種相關性,計算機只需要利用用戶的臉與平均人臉的偏差信息,就能夠生成專屬於用戶的 3D 模型。不僅如此,這些偏差還包括大致的年齡、性別和臉部長度等參數。但是,這樣也存在一個問題,世界上的人臉千變萬化,要將所有人臉與平均人臉的偏差都存儲下來,3DMM 模型需要集成大量面部的信息,然而目前的開源模型在模仿不同年齡和種族人臉方面的能力十分有限。

如下圖 BFM 的人臉數據基本都是外國人臉,跟亞洲人臉的數據分布存在差異;Facewarehouse 的數據主要是亞洲人臉,但是用 Kinect 掃描的模型則存在精度較低的問題;SFM 開源的數據只包含了 6 種表情,並且模型的精度較低,無法滿足我們的需求;LSFM 數據包含了較多的人臉數據,但是不包含表情,無法用於用戶表情跟蹤。

BFM 和 SFM 數據中的部分數據

掃描出來的模型雖然是高精度的模型,但是不包含具體的語義信息。因此,MTlab 的 3D 研發團隊專門為此開發了一套自動註冊算法,無需人工進行標定就可以對掃描模型進行精細化註冊,如下圖所示:

註冊流程

模型生成結果

最終,MTlab 將所有註冊好的 3D 模型組合成 MT3DMM 資料庫,用於 10000 點面部關鍵點定位。高精度的掃描模型也為開發其它功能提供了更多的可能。

3. 數據製作

為了能夠發揮深度學習的大數據優勢,需要給神經網絡提供大量的數據,MTlab 研發人員設計了一套高複雜度的數據製作算法,同時配合高精度的 MT3DMM 模型製作出大量的訓練數據。相比目前主流的訓練數據製作方法,MTlab 的訓練數據可以有效的解耦臉型,表情以及姿態信息,在進行精確的稠密點人臉定位的同時,進行 AR 特效以及精準的人臉表情驅動。

從上面的公式可以將人臉重建的問題轉化成求, 係數的問題,將我們參數化的 3D 人臉模型跟 2D 特徵點進行映射後,便可以用下面的公式對臉部進行擬合,具體求解過程如下:

這裡是三維模型投影到二維平面的點,P 為正交投影矩陣,R 為旋轉矩陣,為位移矩陣,這樣我們就可以將三維求解問題轉化成求解下面的能量方程:

這裡加了正則化部分,其中是 PCA 係數(包括形狀係數以及表情係數),表示對應的主成分偏差。

目前的 3D 重建算法大多都是將姿態,臉型以及表情參數一起優化,並不能將這三者獨立開來,為了能夠解耦姿態,表情,以及臉型之間的關係,MTlab 的數據包含了一個人同一姿態下的不同表情,以及同一表情下不同姿態的數據集,採用 Joint Optimization 策略來計算每個人的臉型,姿態以及表情參數,得到解耦後的參數數據可以真實反應出當前人臉的姿態信息,臉型信息以及表情信息,極大的豐富了應用場景。

4. 神經網絡訓練

傳統的 3D 人臉重建算法,不管是單圖重建、多圖重建還是視頻序列幀重建,都需要通過凸優化算法優化出所需要的參數,為了能夠讓算法在移動端實時運行,MTlab 研發人員採用深度神經網絡進行 End-to-End 學習,通過神經網絡強大的學習能力替代了凸優化過程的大量計算。通過研究分析目前移動端較快的網絡(SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3)的特性,MTlab 研發人員提出了一種適合移動端網絡,並且具備低功耗特性的 ThunderNet,配合 MTlab 研發的 AI 前向引擎和模型量化技術,在美圖 T9 上運行幀率達到 500fps。MT3DMM 神經網絡訓練的要點如下:

MT3DMM 整體流程

數據增益:為了適應 In-the-wild 圖像,需要讓算法對低解析度、噪聲、遮擋或包含運動和不同的光照場景下具有強魯棒性,MTlab 採用了海量的數據,並用算法擾動模擬了各種真實環境下的數據進行訓練。

網絡結構:使用了 MTlab 自研的 ThunderNet 網絡結構,在速度和精度上都超過了同規模的快速網絡,包括 SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3,並具有低功耗的特點。

損失函數:Loss 主要採用了參數 Loss、KeyPoints Loss、3D Vertexes Loss 以及 Texture Loss,並且用相應的權重去串聯它們,從而使網絡收斂達到最佳效果。實驗發現,參數 Loss 可以獲取更加準確的參數語意信息,KeyPoints Loss 可以使最終的稠密人臉點貼合人臉五官信息,3D Vertexes Loss 能更好地保留用戶臉部 3D 幾何信息,Texture Loss 則可以幫助網絡實現更好的收斂效果。

最終,在得到網絡輸出的參數後,MTlab 用 MT3DMM 模型解碼出相應的人臉 3D 模型,根據姿態以及投影矩陣就可以得到面部稠密人臉點。模型都是經過參數化後,每一個點都有其相對應的語義信息,可以通過修改 3D 模型對圖像進行相應的編輯。美圖手機上光效相機、個性化美顏檔案、3D 修容記憶、美顏立體提升、3D 姿態調整、App 萌拍動效、美妝相機萬聖節妝容、彩妝、Avatar 驅動等功能都採用了該項技術。

參考文獻

V. Blanz and T. Vetter. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187– 194, 1999.

Cao C, Weng Y, Zhou S, et al. Facewarehouse: A 3d facial expression database for visual computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(3): 413-425

Huber P, Hu G, Tena R, et al. A multiresolution 3d morphable face model and fitting framework[C]//Proceedings of the 11th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. 2016.

Booth J, Roussos A, Zafeiriou S, et al. A 3d morphable model learnt from 10,000 faces[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 5543-5552.

Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size[J]. arXiv preprint arXiv:1602.07360, 2016.

Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.

Wang R J, Li X, Ling C X. Pelee: A real-time object detection system on mobile devices[C]//Advances in Neural Information Processing Systems. 2018: 1963-1972.

Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520.

Sun K, Li M, Liu D, et al. Igcv3: Interleaved low-rank group convolutions for efficient deep neural networks[J]. arXiv preprint arXiv:1806.00178, 2018.

雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 美圖影像實驗室MTlab斬獲2019 CVPR-NTIRE圖像增強比賽冠軍
    近日,NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges)比賽結果公布,美圖影像實驗室MTlab在圖像增強賽道(Image Enhancement Challenge)中斬獲冠軍
  • 解密:人臉檢測關鍵技術
    該算法基於深度卷積檢測網絡,通過學習人臉和非人臉的特徵,從而識別出人臉的位置和大小。那麼,在複雜的環境中究竟如何準確定位出人臉的各個關鍵特徵點?人臉識別的關鍵技術有哪些?本文將對這些問題進行深度解析。作者張杰,中科院計算技術研究所VIPL課題組博士生,專注於深度學習技術及其在人臉識別領域的應用。
  • 解密:面部特徵點檢測的關鍵技術
    VIPL課題組博士生,專注於深度學習技術及其在人臉識別領域的應用。面部特徵點定位任務即根據輸入的人臉圖像,自動定位出面部關鍵特徵點,如眼睛、鼻尖、嘴角點、眉毛以及人臉各部件輪廓點等,如下圖所示。這項技術的應用很廣泛,比如自動人臉識別,表情識別以及人臉動畫自動合成等。由於不同的姿態、表情、光照以及遮擋等因素的影響,準確地定位出各個關鍵特徵點看似很困難。
  • 向「更美」進化 美圖秀秀12年成就一鍵「變美」
    當逐漸後移的髮際線和日益稀疏的劉海成為焦慮的源頭,為了滿足這屆用戶對於濃密秀髮的嚮往,美圖秀秀基於美圖影像實驗室(MTlab)的生成對抗網絡結構,於近日推出增發功能,一鍵填充髮際線,增加劉海造型,成為又一「變美」利器。  同時,用戶的頭髮給MTlab技術人員帶來的挑戰或許也「令人頭禿」:頭髮的編輯和美化不同於皮膚或五官,要達到和原生頭髮相同的精細和自然程度並非易事。
  • 無人機影像匹配點雲技術在道路測設中的研究與應用
    作為專業的測量型無人機,PPK、免像控技術、傾斜攝影技術正極大地提升著影像定位精度與高程精度[2],同時主流的無人機處理軟體如AgiSoft PhotoScan、PIX4D Mapper、Smart 3D Capture等支持影像匹配點雲功能。點雲數據作為一種新型的附加測繪產品,其巨大應用價值在工程測量領域正脫穎而出[3]。
  • 拉新高留存、新店快速盈利 美圖宜膚如何成為美容業的鯰魚
    為了解決這些痛點,美圖公司推出了基於AI人工智慧與專業皮膚科醫生雙重診斷方案的大型商用皮膚檢測儀:美圖宜膚。美圖宜膚(產品外觀以實物為準)據介紹,美圖宜膚皮膚診斷分析的準確率高達95%。這依託於美圖影像實驗室MTlab在人臉技術、圖像增強等方向領先世界的的技術支撐。
  • 騰訊優圖:做產業網際網路時代的π型實驗室
    12月30日,騰訊優圖2020年度溝通會於海南正式舉辦,騰訊優圖實驗室總經理、騰訊雲副總裁吳運聲、騰訊優圖實驗室副總經理黃飛躍、騰訊優圖實驗室總監吳永堅、騰訊優圖實驗室總監任博,騰訊研究院高級研究員徐思彥等大咖出席了活動,並就2020年的業務進展和人工智慧趨勢做了完整的解讀和分享。
  • 論文推薦林祥國:融合點、對象、關鍵點等3種基元的點雲濾波方法
    1 本文的濾波方法MPTPD方法包括基於表面生長的點雲分割、對象關鍵點提取、基於關鍵點的對象類別判別等3個主要步驟。整體技術框架如圖 1所示;圖 2展示了某一點雲各個處理步驟的效果,文中數字「1」代表「非地面點類」,數字「2」代表「地面點類」。
  • 馬雲全息影像亮相引發熱議,微美全息AR+AI視覺引領5G全息通訊應用
    全息圖的每一部分都記錄了物體上各點的光信息,故原則上它的每一部分都能再現原物的整個圖像,通過多次曝光還可以在同一張底片上記錄多個不同的圖像,而且能互不幹擾地分別顯示出來。作為一個新興產業,全球全息AR市場具有巨大的增長潛力,自2016年以來吸引了大量投資,為行業增長做出了巨大貢獻。包括研發在內的幾個組織正在大力投資於該技術,為企業和消費者群體開發解決方案。
  • 美圖發布AI測膚技術
    近日,美圖公司旗下人工智慧實驗室——美圖影像實驗室MTlab首次亮相,正式發布其人工智慧技術成果:AI測膚技術MTskin——即通過一張面部照片診斷皮膚問題,該功能已經登陸美圖美妝,同時美圖影像實驗室還與上海市皮膚病醫院及皮膚寶app共同發布《2017中國女性皮膚問題研究報告》。
  • 美圖發布區塊鏈白皮書,AI+區塊鏈=?
    1月22日,美圖發布區塊鏈方案白皮書,將基於AI技術打造區塊鏈生態,為用戶創建一個去中心化、安全加密的身份通行證:美圖智能通行證(MIP - Meitu Intelligent Passport)。用戶能夠在區塊鏈上用人臉特徵作為通證密鑰,進行去中心化的用戶身份認證(KYC)。
  • 用人臉識別來抓罪犯,未來生物識別技術還有哪些想像空間?
    日前,河北籍逃犯李某帶著家人到桐鄉烏鎮景區旅遊,但是剛進入景區,自己就被人臉識別監控探頭識別、定位,最終「自投羅網」。傳統的人工識別犯罪不僅效率低,還極有可能造成漏網之魚,要在數以百萬計的人流中找出罪犯無異於大海撈針。
  • 降低獲客成本,「影子智能」為醫美機構提供「3D人臉診斷與設計系統」
    據新氧 8 月發布的《2018年醫美行業白皮書》,今年預計有近2000萬中國人消費醫美,中國醫美市場規模或達2245億元,同比增速27.57%;未來5年,還將保持20%以上的年增速。與新氧、更美這類專注於醫美領域的平臺型企業不同,36氪近期接觸的「影子智能」是一家醫美領域的技術提供商,為醫院以及整容機構提供一整套「3D人臉診斷與設計系統」。
  • 基於深度學習的人臉識別技術全解
    自20世紀下半葉,計算機視覺技術逐漸地發展壯大。同時,伴隨著數字圖像相關的軟硬體技術在人們生活中的廣泛使用,數字圖像已經成為當代社會信息來源的重要構成因素,各種圖像處理與分析的需求和應用也不斷促使該技術的革新。計算機視覺技術的應用十分廣泛。數字圖像檢索管理、醫學影像分析、智能安檢、人機互動等領域都有計算機視覺技術的涉足。
  • 用AI 管理你全身最大的器官,真的能讓你更美嗎?
    在 12 月 21 日的北京發布會現場,DT 君也感受了美圖的一鍵實時測膚功能,內心遭受了一萬點傷害:皮膚狀況非常多,既有肉眼能察覺到的問題,也有自己非常不願意直面存在的問題。值得注意的是,在測試的過程中,這款 App 使用了智慧型手機的後置攝像頭而非前置攝像頭。這麼做不僅僅是解析度的問題,關鍵還在於對焦,後置攝像頭的表現要好得多。
  • ICL經驗 | 一文讀懂PCR實驗室建設關鍵點
    隨著各地都在建立PCR實驗室,本文從硬體基礎的角度,梳理了PCR實驗室建設的幾個關鍵點,獨立醫學實驗室可以運用豐富的運營經驗,進行建設指導、人員梯隊建立、質控體系搭建、區域化服務支持等。下面就在PCR實驗室建設過程中的幾個關鍵控制點進行闡述:01 建立PCR實驗室質量管理體系根據實驗室的具體情況編寫質量體系文件,《質量手冊》、《程序文件》、《作業指導書》,並保證管理體系運行有效。管理體系的特點是應有明確的目的、規範的管理、有效的制約、高效的機制、能自我發展的整體。
  • 關注皮膚健康 美圖meitukey皮膚檢測儀發布
    個性化定製護膚方案 改善全家皮膚健康美圖meitukey 皮膚檢測儀基於美圖影像實驗室MTlab多年的人臉研究,通過獨家12個維度全方位立體專業皮膚檢測美圖meitukey 皮膚檢測儀需要搭配「美圖美膚管家」APP使用,通過軟硬體深度結合
  • 隱私問題與安全爭議未休,人臉識別技術的應用邊界該如何圈點?
    於是,推出人臉識別鎖的智能門鎖企業逐漸開始選用另一種人臉識別技術,即熱成像技術,也就是我們現在常說的3D活體人臉識別技術。該技術主要通過分析面部血液產生的熱輻射來產生面部圖像並進行分析。主要利用三角形相似的原理進行計算,從而得出圖像上每個點的深度信息,最終得到三維數據。基於3D結構光的人臉識別已在一些智慧型手機上實際應用,如國外iPhone X,國內OPPO、Vivo手機品牌的新款手機。以iPhone X為例,下圖中從左至右依次是:紅外鏡頭、泛光感應元件、距離感應器、環境光傳感器、揚聲器、麥克風、700萬像素攝像頭、點陣投影器。
  • 人臉識別技術原理與工程實踐(10個月人臉識別領域實戰總結)
    1人臉識別應用場景(驗證)我們先來看看人臉識別的幾個應用。第一個是蘋果的FACE ID,自從蘋果推出FaceID後,業界對人臉識別的應用好像信心大增,各種人臉識別的應用從此開始「野蠻生長」。事實上,人臉識別技術在很多場景的應用確實可以提升認證效率,同時提升用戶體驗。
  • 「技術綜述」基於3DMM的三維人臉重建技術總結
    基於圖像的人臉三維重建在人臉分析與娛樂領域裡有巨大的應用場景,同時它也可以用於提升人臉關鍵點檢測,人臉識別,人臉編輯等很多任務。本文重點介紹其中基於3DMM模型的核心技術及其研究進展。作者&編輯 | 言有三1.