【世界最大人臉對齊數據集】ICCV 2017:距離解決人臉對齊已不遠

2021-01-15 新智元

1新智元編譯  









來源:ArXiv,Github
報導:聞菲,劉小芹


【新智元導讀】在一篇已經被ICCV 2017接收的論文中,諾丁漢大學的研究人員提出了他們號稱是迄今最大3D人臉對齊數據集,以及精準實現2D、3D以及2D到3D人臉對齊的網絡。研究人員用《我們距離解決2D&3D人臉對齊問題還有多遠》為題,首次調查了在所有現有2D人臉對齊數據集和新引入的大型3D數據集上,距離達到接近飽和性能(saturating performance)還有多遠。



ImageNet百萬級精準標記數據集開啟了圖像識別新時代,人們也由此意識到,數據跟算法同樣重要。為了構建更好的模型和算法,越來越多的研究人員開始在數據集方面展開探索,而且,標記數據的方法也不僅僅限於耗時耗力的人工。


這方面最新的一項成果,是諾丁漢大學計算機視覺實驗室的研究人員即將在ICCV 2017發表的論文,研究人員在論文中描述了他們創建的迄今最大的3D人臉對齊數據集(約230,000幅精準標記圖像),以及他們使用2D到3D轉換生成標記的方法。


論文標題名為《我們距離解決2D&3D人臉對齊還有多遠?》(How far are we from solving the 2D & 3D Face Alignment problem? And a dataset of 230,000 3D facial landmarks)。研究人員希望,在此數據集的基礎上,人臉對齊問題將迎來更大更快的發展。


效果展示:使用論文提出的網絡(被作者稱為「世界上最準確的人臉對齊網絡」)檢測面部特徵點,2D和3D坐標都適用。來源:項目的Github



隨著深度學習的出現和大規模注釋數據集的發展,近來的工作已經顯示出即使在最具挑戰性的計算機視覺任務上也達到前所未有的準確性。在這項工作中,作者專注於特徵點定位(landmark localization),尤其是人臉特徵點定位,也被稱為人臉對齊(face alignment),「人臉對齊」也可以說是過去幾十年來計算機視覺中研究最多的主題之一。


近來關於使用卷積神經網絡(CNN)的特徵點定位的工作已經推動了其他領域的界限,例如如人體姿態估計,但目前尚不清楚在人臉對齊方面取得怎樣的成果。


歷史上,根據任務的不同,有不同的技術已被用於特徵點定位。例如,在神經網絡出現之前,人體姿態估計的工作主要是基於圖結構(pictorial structure)和各種複雜的擴展(extension),因為它們能夠模擬大的外觀變化, 適應廣泛的人類姿勢。這些方法雖然沒有被證明能夠實現用於人臉對齊任務的級聯回歸方法(cascaded regression method)表現出的高精確度,但另一方面,級聯回歸方法的性能在初始化不準確的情況下,或有大量的自我封閉的特徵點或大的平面內旋轉時會變差。


最近,基於熱圖回歸(heatmap regression)的完全卷積神經網絡架構徹底改變了人體姿態估計,即使對於最具挑戰性的數據集也得到非常高的準確度。由於它們對端到端訓練和人工工程的需求很少,這種方法可以很容易地應用於人臉對齊問題。



5大貢獻,包括首次構建強大基準,使用2D-3D方法構建迄今最大數據集


作者表示,按照這個路徑,「我們的主要貢獻是構建和訓練這樣一個強大的人臉對齊網絡,並首次調查在所有現有的2D人臉對齊數據集和新引入的大型3D數據集上距離達到接近飽和性能(saturating performance)有多遠」。


更具體地說,他們的貢獻是:


1. 首次構建了一個非常強大的基準(baseline),結合state-of-the-art的特徵點定位架構和state-of-the-art的 residual block,並在非常大的綜合擴展的2D人臉特徵點數據集訓練。然後,我們對所有其他2D數據集(約230000張圖像)進行評估,調查我們距離解決2D人臉對齊問題還有多遠。


2. 為了解決3D人臉對齊數據集少的問題,我們進一步提出了一種將2D注釋轉換為3D注釋的2D特徵點CNN方法,並使用它創建LS3D-W數據集,這是迄今最大、最具挑戰性的3D人臉特徵點數據集(約230000張圖像),這是將現有的幾乎所有數據集統一起來得到的。


3. 然後,我們訓練了一個3D人臉對齊網絡,並在新的大型3D人臉特徵點數據集進行評估,調查我們距離解決3D人臉對齊問題尚有多遠。


4. 我們進一步研究影響人臉對齊性能的所有「傳統」因素,例如大姿態,初始化和解析度,並引入「新的」因素,即網絡的大小。


5. 我們的研究結果顯示,2D和3D人臉對齊網絡都實現了非常高準確度的性能,這可能是接近了所使用的數據集的飽和性能。


2D-FAN結構:通過堆疊四個HG構建的人臉對齊網絡(Face Alignment Network ,FAN),其中所有的 bottleneck blocks(圖中矩形塊)被替換為新的分層、並行和多尺度block。



方法及數據:2D、3D標註及2D-3D轉換都接近飽和性能


作者首先構建了一個人臉對齊網絡「FAN」(Facee Alignment Network),然後基於FAN,構建了2D-to-3D-FAN,也即將給定圖像2D面部地標轉換為3D的網絡。作者表示,據他們所知,在大規模2D/3D人臉對齊實驗中訓練且評估FAN這樣強大的網絡,還尚屬首次。


他們基於人體姿態估計最先進的架構之一HourGlass(HG)來構建FAN,並且將HG原有的模塊bottleneck block替換為一種新的、分層並行多尺度結構(由其他研究人員提出)。


2D-to-3D-FAN網絡架構:基於人體姿態估計架構HourGlass,輸入是RGB圖像和2D面部地標,輸出是對應的3D面部地標。


2D-FAN標記結果


3D-FAN標記結果


下面是跟現有方法(紅色)的對比,這樣看更能明顯地看出新方法的精度:



除了構建FAN,作者的目標還包括創建首個超大規模的3D面部地標數據集。目前3D面部地標的數據還十分稀少,因此也讓這項工作貢獻頗大。鑑於2D-FAN卓越的效果,作者決定使用2D-to-3D-FAN來生成3D面部地標數據集。


但是,這也帶來了一個問題,那就是評估2D轉3D數據很難。現有的最大同類數據集是AFLW2000-3D。於是,作者先使用2D-FAN,生成2D面部地標標註,再使用2D-to-3D-FAN,將2D數據轉換為3D面部地標,最後將生成的3D數據與AFLW2000-3D進行比較。


結果發現,兩者確實有差異,下圖展示了差異最大的8幅圖像標記結果(白色是論文結果):



作者表示,造成差異的最大原因是,以前的方法半自動標記管道對一些複雜姿態沒有生成準確的結果。於是,在改進數據後,他們將AFLW2000-3D納入現有數據集,創建了LS3D-W(Large Scale 3D Faces in-the-Wild dataset),一共包含了大約230,000幅標記圖像,也是迄今最大的3D人臉對齊數據集。


作者之後從各個方面評估了LS3D-W數據集的性能。研究結果表明,他們的網絡已經達到了數據集的「飽和性能」,在構圖、解析度,初始化以及網絡參數數量方面表現出了超高的彈性(resilience)。更多信息參見論文。


作者表示,雖然他們還沒有在這些數據集中去探索一些罕見姿態的效果,但只要有足夠多的數據,他們確信網絡也能夠表現得一樣好。




摘要


本文研究了一個非常深的神經網絡在現有的2D和3D人臉對齊數據集上達到接近飽和性能的程度。為這個目的,我們提出做了5個貢獻:(a)結合最先進的人臉特徵點定位(landmark localization)架構和最先進的殘差模塊(residual block),我們首次構建了一個非常強大的基準,在一個非常大的2D人臉特徵點數據集(facial landmark dataset)上訓練,並在所有其他人臉特徵點數據集上進行評估。(b)我們創建了一個將2D特徵點標註轉換為3D,並統一所有現有的數據集,從而創建了迄今最大、最具有挑戰性的3D人臉特徵點數據集LS3D-W(約230000張圖像)。(c)然後,我們訓練一個神經網絡來進行3D人臉對齊(face alignment),並在新的LS3D-W數據集上進行評估。(d)我們進一步研究影響人臉對齊性能的所有「傳統」因素,例如大姿態( large pose),初始化和解析度,並引入一個「新的」因素,即網絡的大小。(e)我們的研究顯示2D和3D人臉對齊網絡都實現了非常高的性能,這很可能接近所使用的數據集的飽和性能。訓練和測試代碼以及數據集可以從 https://www.adrianbulat.com/face-alignment/ 下載。



以及模型下載


2D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7

3D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7

2D-to-3D FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz

3D-FAN-depth:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth



【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位

點擊閱讀原文可查看職位詳情,期待你的加入~


相關焦點

  • 深度學習之視頻人臉識別系列三:人臉表徵
    在該人臉識別模型中分為四個階段:人臉檢測 => 人臉對齊 => 人臉表徵 => 人臉分類,在LFW數據集中可以達到97.00%的準確率。(1)人臉檢測與對齊:該模型使用3D模型來將人臉對齊,該方法過於繁瑣,在實際應用中很少使用,經過3D對齊以後,形成的圖像都是152×152的圖像,具體步驟如下圖。
  • 人臉識別技術原理與工程實踐(10個月人臉識別領域實戰總結)
    10 人臉特徵提取-Metric Learning基於深度學習的人臉特徵提取方法主要有兩類,一類Metric Learning,另一個是Additive Margin,這兩類方法的底層原理都是一樣的,就是「通過訓練網絡,讓相同人的特徵距離儘可能近,不同人的特徵距離儘可能的遠」。孿生網絡和Triplet都屬於 Metric Learning這類方法。
  • 什麼是SeetaFace開源人臉識別引擎?
    在AFLW數據集上的量化評價和對比情況如圖6所示,其中平均定位誤差根據兩眼中心距離做了歸一化。不難看出,SeetaFace Alignment取得了state-of-the-art的定位結果。SeetaFace Alignment在AFLW數據集上的定位誤差及對比情況其中LE:左眼,RE:右眼,N:鼻尖,LM:左嘴角,RM:右嘴角人臉特徵提取與比對模塊SeetaFace Identification人臉識別本質上是要計算兩幅圖像中人臉的相似程度,其一為
  • 人臉識別:AI產品經理需要了解的CV通識
    非專業人臉識別攝像頭常見規定的最小識別人臉像素為60*60或100*100以上。在規定的圖像大小內,算法更容易提升準確率和召回率。圖像大小反映在實際應用場景就是人臉離攝像頭的距離。2)圖像解析度:越低的圖像解析度越難識別。圖像大小綜合圖像解析度,直接影響攝像頭識別距離。現4K攝像頭看清人臉的最遠距離是10米,7K攝像頭是20米。
  • 不同的人臉識別算法解析
    當然,我們不做實際的測試,只是通過它來了解識別的原理。OpenFace屬於基於模型的方法,它是一個開源庫,包含了landmark,head pose,Actionunions,eye gaze等功能,以及訓練和檢測所有源碼的開源人臉框架。在前面的步驟中,已經為大家介紹如何通過HOG的方法將圖像中人臉的特徵數據提取出來,也就是成功檢測到了人臉。
  • ECCV 2018 | 曠視科技提出GridFace:通過學習局部單應變換實現人臉...
    但是,在不受限環境中,人臉識別仍不能萬無一失,尤其是在人臉幾何變形的情況下。 有鑑於此,曠視科技創新性地提出 GridFace,通過學習局部單應變換減少人臉變形,提升識別性能。一句話,先校正,再識別,過硬的校正技術使得人臉識別性能得到顯著提高。相關實驗結果已證明該方法的有效性和高效性。
  • 人臉識別行業分析
    相關電子考勤和圖像、影像等電子檔案保存期限不少於2年。2.1.3 資金推動根據 CB Insights 在 2018 年發布的《Top AI Trends To Watch In 2018》顯示,:中國在人工智慧初創公司的資金支持方面已超過美國,位列世界第一,其投入的資金主要專注於人臉識別核心技術。
  • 中國團隊奪得MegaFace百萬人臉識別冠軍,精度98%再創紀錄
    人臉識別被很多人認為是個成熟領域的問題,在知名的人臉識別評測 LFW 中,很多團隊都取得了接近乃至超過 99.80% 的成績,這在 2017 年人臉識別諸多報導中都可以看到,由於 LFW 評測中存在個別錯誤數據的緣故,這個成績意味著接近滿分。儘管 LFW 是一個 1 比 1 比對任務,這仍然說明了在較小規模數據集上的人臉識別問題基本已經得到解決。
  • 人臉識別開發技巧揭秘
    虹軟視覺開放平臺推出的「從零學習人臉識別」技術公開課第七期——《人臉識別應用方案(PC和設備端)》對此做了詳細闡述(完整課程可搜索「從零學習人臉識別」),將主要從人臉追蹤、雙目活體對齊、圖像質量檢測和特徵值提取技巧等進行系統性介紹。
  • 人臉識別是如何進行的?看這裡就夠了!
    但很多人對於人臉識別技術不是很了解,不知道攝像頭是怎麼進行人臉識別的,今天小編帶大家一探究竟,看看人臉識別是怎麼進行的,又怎麼準確識別到人臉的! (2)人臉規範化:校正人臉在尺度、光照和旋轉等方面的變化。將人臉對齊,進行人臉校準。 (3)人臉校驗:採取某種方式表示檢測出人臉和資料庫中的已知人臉,確認兩張臉是否是同一個人。
  • CMU 領域自適應最新進展:對齊數據分布、誤差還不夠,標註函數也需...
    在這種情況下,獲得所有相機拍攝圖像的帶標籤數據的開銷是非常巨大的。理想情況下,我們將收集 200 臺相機的一個子集的帶標籤圖像,並且仍然能夠訓練一個可以在所有相機拍攝的圖像的數據集上起作用的計數系統。在本例中,源域和目標域相距太遠,以致於它們的支撐集並不相連!現在讓我們將源域和目標域對齊,使它們相距地更近一些。我們可以通過將源域向右移動一個單位,並且將目標域向左移動一個單位實現這一點。
  • 人臉識別技術介紹和表情識別最新研究
    2D人臉指的是RGB,灰度和紅外圖像,是確定視角下表徵顏色或紋理的圖像,不包括深度信息。2.5D是在某一視角下拍攝獲取的人臉深度數據,但是曲面信息不連續,沒有被遮擋部分的深度數據信息。3D人臉由多張不同角度的深度圖像合成,具有完整連續的曲面信息,包含深度信息。2D圖像人臉識別的研究時間較長,軟硬體技術較為完備,得到了廣泛的應用。
  • 孔有沒有對齊?使用SOLIDWORKS孔對齊命令,一鍵全知道
    產品零部件上的孔應該相互對齊,但是一個產品有成百上千個零部件,他們之間的孔對齊怎麼檢查呢?SOLIDWORKS提供了很好的功能:孔對齊。孔對齊檢查裝配體中是否存在未對齊的孔,孔對齊以特徵為基礎,檢查異型孔嚮導孔、簡單直孔和圓柱切除特徵的對齊情況。
  • 2D與3D人臉識別詳解
    主要利用三角形相似的原理進行計算,從而得出圖像上每個點的深度信息,最終得到三維數據。基於3D結構光的人臉識別已在一些智慧型手機上實際應用,如國外使用了超過10億張圖像(IR和深度圖像)訓練的FaceId;國內自主研發手機廠商的人臉識別。TOFTOF簡單的說就是雷射測距,照射光源一般採用方波脈衝調製,根據脈衝發射和接收的時間差來測算距離。
  • 應用層下的人臉識別(三):人臉比對
    比對照片是從動態視頻中獲取的,同時具有非配合特點——整個比對過程是無感知的,不需要人為配合。這兩個特性使人臉1:n能迅速落地於公安追捕逃犯,但時其難度要遠高於人臉1:1 。(其通常會受到光照變化、人臉姿態的影響——比如側臉、低頭、逆光現象,會大大提升人臉漏報率。)
  • 人臉識別技術原理與實現方式
    安防、金融是人臉識別切入細分行業較深的兩個領域,移動智能硬體終端成為人臉識別新的快速增長點。因此,這三大領域將是人臉識別快速增長的最大驅動力。從細分產業來看,視頻監控是構建安防系統中的核心,在中國的安防產業中所佔市場份額最大。而人臉識別在視頻監控領域具有相當的優勢,應用前景廣闊。
  • 「技術綜述」基於3DMM的三維人臉重建技術總結
    ,就是FaceWarehouse[5],不過不開源,一般研究者拿不到數據。很多的方法使用了仿真的數據集,可以產生更多的數據進行學習,但是仿真的數據集畢竟與真實的數據集分布有差異,以及頭髮等部位缺失,導致模型泛化到真實數據集的能力較差。
  • 一張圖實現3D人臉建模!中科院博士ECCV的新研究
    來自中科院模式識別實驗室的博士生郭建珠和他的團隊,提出了一種新的密集人臉對齊(3D Dense Face Alignment)方法。3DDFA能做到「動若脫兔」(面部特徵識別、對齊):還有動態的3D人臉建模:
  • 格靈深瞳發布人眼攝像機,解決安防監控中看不清遠距離人臉的難題
    今日,格靈深瞳在北京發布了一款基於人眼成像原理的人眼攝像機,其用來解決市面上常見的監控攝像頭無法清楚拍攝遠距離人臉的難題。 一直以來,人臉識別技術依靠其非侵犯性、人機信息可交流性廣泛應用於安防監控、銀行金融、國防科工等等領域。
  • 無需人臉檢測,即可實時,6自由度3維人臉姿態估計方法 | 代碼剛開源
    摘要我們提出了實時、六自由度(6DoF)、三維人臉姿態估計,無需人臉檢測或關鍵點定位。我們發現估計人臉的6自由度剛性變換比人臉關鍵點檢測更簡單,人臉關鍵點檢測通常用於三維人臉對齊。此外,6DoF提供了比人臉框標籤更多的信息。