2019ICCV論文愛奇藝提出:利用無標籤數據優化人臉識別模型

2021-01-08 機器之心Pro

研究背景

愛奇藝擁有海量優質的視頻資源,對這些視頻資源的結構化分析,尤其是分析視頻中出現的人物尤為重要。目前,人臉識別技術已經應用到愛奇藝多個產品中,如「AI雷達」和「只看TA」。 「AI雷達」分析當前視頻畫面中出現的人物,「只看TA」分析整個視頻中人物出現的所有場景片段。這兩個產品底層都依賴人臉識別技術。

訓練一個高性能的人臉識別模型,採用監督學習的方式,需要大量的帶標籤的人臉數據,通常數據量越大,訓練的模型性能越好;人物越多,識別性能越好。目前公開庫中較大的人臉數據集MS-Celeb-1M包括約10萬個人物的1000萬張圖片;iQIYI-VID包括約1萬個人物的64萬個視頻片段,其中iQIYI-VID-FACE包含約1萬個人物600萬張人臉圖像。

然而,獲取某個人的多張圖片是比較困難的,需要人工標註。這在一定程度上阻礙了模型性能的提升。同時,人臉識別是個open-set問題,有標籤數據中的幾萬個人物只是地球上幾十億人的極小一部分,訓練出來的模型泛化能力可能不足。

為了解決上述問題,我們提出用無標籤數據優化人臉識別模型。區別於其他半監督學習方法,我們的方法對無標籤數據沒有過多限制,只需基本保證這人不出現在有標籤數據中。無標籤數據的加入,可以輕易擴大訓練人物數量,提升模型泛化能力。

Unknown Identity Rejection(UIR)Loss

為了利用無標籤數據,我們設計了半監督損失函數,Unknown Identity Rejection(UIR)Loss。人臉識別是open-set問題,將開放環境中的人物類別分為兩類:有標籤類(S)和無標籤類(U),

。訓練過程中,對於有標籤類,每個樣本特徵需要逼近分類層對應類別的類心向量;對於無標籤類,它不屬於分類層的任何一個類,模型需要「拒絕」它們,即特徵與每個分類層類心距離都足夠遠。如下圖(a),w1w1和w2表示兩個分類層類心向量,圓點表示樣本特徵。圖(b)中,加入無標籤類wu後,為了wu距離w1和w2、足夠遠,會使得有標籤類別在特徵空間上更稀疏,類間距離更大。

對於CNN分類模型,全連接分類層的輸出經過softmax後得到p1,p2…pn,表示屬於各個類別的概率值。然而無標籤類別並不屬於任何一類,理想情況下p1,p2…pn應該都足夠小,可以通過設置閾值將其過濾,提升庫外拒絕率。基於這個想法,問題可以轉化成:

minimize

上式是多目標最小化問題,可以轉化成:

maximize

因此得到UIR loss,即:

模型總的loss是有標籤類別的loss加上無標籤類別的UIR loss,

模型框圖如下,無標籤數據和有標籤數據一起作為輸入,經過骨幹網絡得到特徵,全連接層得到輸出概率值,根據概率值分別計算 Lsup和Luir。

實驗結果

我們採用MS-Celeb-1M清洗過後的MS1MV2數據集作為有標籤數據,包括9萬人物類別的5百萬圖片數據。從網上爬取數據,經過清洗,基本保證與有標籤數據較低的重合率,得到約4.9百萬張無標籤數據。

分別在iQIYI-VID和Trillion-Pairs和IJB-C三個測試集上驗證了方法的有效性。測試了四種骨幹網絡,實驗結果說明,加入無標籤數據的UIR loss後,模型性能有所提升。由於篇幅原因,IJB-C測試結果只貼了ResNet100部分,其他結果可參照論文。

進一步分析

UIR Loss使得特徵分布更稀疏

從實驗結果來看,加入無標籤數據的UIR loss後,UIR Loss能使模型學習到更具區分性的特徵。下面從模型分類層類心間距離這一角度來驗證特徵分布的稀疏性。我們計算了分類層類心兩兩間的cos距離,距離越大,類心分布更稀疏。結果如下表:

隨著骨幹網絡性能提升,baseline和ours的平均距離逐漸增大。同時,ours的平均距離大於baseline。這說明了UIR Loss使得特徵分布更稀疏。

UIR Loss提升庫外拒絕率

我們找了一批新的無標籤數據,統計了它們模型最後輸出的最大概率值,值越小,代表性能越好。

總結與展望

半監督損失函數UIR loss可以有效的藉助海量無標籤的人臉數據,優化人臉識別模型性能,提升模型泛化能力。這一研究成果已經應用到了愛奇藝諸多產品中,在提高用戶體驗、提高視頻內容的創作效率等都發揮了極大作用。愛奇藝APP的「只看Ta」功能,可以實現只看某個演員或者某對CP的功能,不僅滿足用戶追星或只看某些人物片段的需求,還有助於演員回顧自己演戲的內容,甚至幫助導演挑選自己需要的演員。其實,幫助導演選擇演員,愛奇藝還專門有個APP叫「藝匯」,藝匯裡通過AI收集了大量的知名或不知名的演員,藉助強大的人臉識別模型,不僅可以在海量視頻中定位到只屬於該演員的CUT片段,還會根據演員的顏值、臉型、氣質類型精確搜索心意角色。人臉識別的另一大特色應用,就是用戶所熟知的AI雷達功能,在愛奇藝APP中點擊畫面左側的「掃一掃」按鈕,就可以隨時看到畫面中的演員角色信息,同時在電視端遙控器輕輕按「上鍵」,就可以在電視畫面上展現明星的「這是誰」信息。在專業的視頻內容製作方面,愛奇藝的愛創媒資系統可以支持人物搜索、特定人物的表情搜索、聲紋識別等,大大提高了製作人員的效率。

愛奇藝藉助其強大的技術實力和前沿的AI研發能力,不斷的創新突破,走在視頻行業的最前面。當然,技術創新永無止境,人臉識別雖然有諸多成熟的應用,但在某些較為極端的情況下,如人臉過於模糊、遮擋過多、側臉角度過大,甚至只出現背影等情況,單純依靠人臉識別無法解決,這需要藉助多模態來解決。愛奇藝發布的iQIYI-VID數據集是目前業界數據最大的多模態人物識別視頻數據集,有效的推進了多模態技術的發展,引起了行內人士的廣泛關注。

數據集詳情:

http://challenge.ai.iqiyi.com/data-cluster

論文連結:

https://128.84.21.199/abs/1910.10896

相關焦點

  • 多模態人物識別技術及其在愛奇藝視頻場景中的應用|公開課筆記
    我們可以針對模型定型、數據定型,包括GPO、進程的通訊,都進做了優化處理;在識別的精度方面,我們在自己的數據集上進行了評測:第一個數據集是中學生庫,數據分布主要集中在證件照或證件照相匹配的實際應用場景;二是愛奇藝員工資料庫,是我們內部員工的資料庫,裡面包含了大量的人臉、姿態、表情等變化;三是愛奇藝在多模態人物識別競賽中發布的數據集,裡面主要是針對明星的視頻數據進行身份識別
  • 愛奇藝論文入選ACM MM會議 提出全球最大卡通人物數據集
    近日,愛奇藝關於卡通人物識別與檢測技術的論文《Cartoon Face Recognition: A Benchmark Dataset》被國際頂級學術會議——國際計算機學會多媒體會議(ACM Multimedia)接收,進一步獲得國際頂級學術組織認 近日,愛奇藝關於卡通人物識別與檢測技術的論文
  • 論文推薦|[ICCV 2019]一種無需原始訓練數據的Teacher-Student模型壓縮方法
    因此,作者提出了一種無需原始訓練數據的模型壓縮方法。Fig.1. Overall architectureFig. 1是論文提出的整體結構。通過給定的待壓縮網絡(教師網絡),作者訓練了一個生成器來生成與原始訓練集具有相似分布的數據。然後利用生成數據,基於知識蒸餾算法對學生網絡進行訓練,從而實現了無數據情況下的模型壓縮。
  • ECCV 2020|清華提出基於循環關聯的自監督行人再識別,無標籤ReID僅...
    本文提出了CycAs,一種簡單、有效的自監督行人再識別解決方案,僅需兩個攝像頭拍攝到的行人視頻作為輸入,通過數據關聯的循環一致性即可學習到有鑑別力的行人再識別特徵。這是自監督學習在行人再識別領域的一次早期嘗試,CycAs的良好性能告訴我們針對任務設計的自監督學習大有可為。
  • 騰訊優圖 11 篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    本次AAAI騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。騰訊優圖的優化目標是在隱空間在拉近正樣本和原始視頻的同時,推遠負樣本。用這種方式,場景帶來的負面影響被削弱掉了,而模型對時序也變得更加敏感。騰訊優圖在兩個任務上,用不同的網絡結構、不同的預訓練數據集進行了實驗驗證,發現騰訊優圖方法在動作識別任務上,在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    本次AAAI 騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。騰訊優圖的優化目標是在隱空間在拉近正樣本和原始視頻的同時, 推遠負樣本。用這種方式, 場景帶來的負面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優圖在兩個任務上, 用不同的網絡結構、不同的預訓練數據集進行了實驗驗證, 發現騰訊優圖方法在動作識別任務上, 在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域
    本次AAAI 騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。騰訊優圖的優化目標是在隱空間在拉近正樣本和原始視頻的同時, 推遠負樣本。用這種方式, 場景帶來的負面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優圖在兩個任務上, 用不同的網絡結構、不同的預訓練數據集進行了實驗驗證, 發現騰訊優圖方法在動作識別任務上, 在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。
  • 【人臉表情識別】基於圖片的人臉表情識別,基本概念和數據集
    按照數據格式劃分,可分為基於圖片的人臉表情識別以及基於(音)視頻的人臉表情識別;按照表情定義類型的不同,可劃分為基於離散標籤的人臉表情識別,基於連續模型的人臉表情識別以及基於人臉活動單元系統(Facial Action Coding System, FACS)的人臉表情識別。
  • ICCV 引用量最高的10篇論文!何愷明兩篇一作論文:Mask R-CNN和PReLU,Facebook佔據四席!
    這個排名是依據過去五年發表研究的數據(覆蓋2015-2019年發表的文章),並包括截止2020年6月在谷歌學術中被索引的所有文章的引用量。眾所周知,CV領域的三大頂會就是:CVPR、ICCV和ECCV。
  • 分享幾個業界新出人臉識別數據集
    分享幾個WACV會議論文公布的人臉數據集,從目前人臉識別的難點出發,它們研究更加公平、適用場景更廣的人臉識別或活體檢測。定義了 7 個種族組:白人、黑人、印度人、東亞人、東南亞人、中東人和拉丁人,圖像是從YFCC-100M Flickr數據集中收集的,並標註了種族、性別和年齡組。FairFace 數據集訓練出來的模型在新的數據集上的準確率大大提高,重要的是在不同種族和性別組之間的準確率是一致的。
  • 疫情加速百度人臉識別變革:戴口罩也能準確識別,迅速上線
    為了達到業內SOTA水平,百度視覺技術部在人臉檢測問題上產出了一系列的研究,從多個角度進行優化。上圖便是人臉檢測器設計的幾個優化思路,包括特徵融合、上下文信息、錨點設計、額外監督、數據擴充、網絡結構等。黃色標註部分為百度視覺發表的論文。
  • 使用Python+PCA+SVM算法實現人臉識別模型
    支持向量機支持向量機(SVM)是一種用於兩組分類問題的有監督機器學習模型,在為每個類別提供一組帶標籤的訓練數據後,他們能夠對新的測試數據進行分類。支持向量機基於最大化間隔的平面對數據進行分類,決策邊界是直的。支持向量機是一種很好的圖像分類算法,實驗結果表明,支持向量機在經過3-4輪相關優化後,其搜索精度明顯高於傳統的查詢優化方案,這對於圖像分割來說也是如此,包括那些使用改進的支持向量機。
  • 愛奇藝攜手ACM MM舉辦2019"多模態人物識別競賽"
    作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • CVPR 2020 | 打破傳統的無監督人臉旋轉方案:Rotate-and-Render
    在本文中,我們提出一種新穎的無監督框架,利用三維人臉建模,通過反覆的旋轉和渲染操作構建自監督,並用一個普通的Pix2Pix生成最終圖像。該框架不依賴於同一人的多視角圖像,就可以生成其他視角的高質量圖像,並且框架適用於各個非限定的場景。我們做了大量的實驗來驗證我們的方法的性能。此外,我們發現將生成的數據用於人臉識別模型的訓練,對於人臉識別的性能也有顯著提升。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、人臉識別等領域
    在競爭越來越激烈的情況下,本次ECCV 騰訊優圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態估計、動作識別、物體檢測等熱門及前沿領域,再次展示了騰訊在計算機視覺領域的科研及創新實力。
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    相比於以往的實例分割數據集,LVIS最大的特點在於超過1000多類的類別和更加接近於自然存在的數據長尾分布。這些特點對現有的實例分割算法提出了非常大的挑戰。商湯研究團隊從原有模型訓練的監督方式進行分析,針對長尾問題提出了一種新的損失函數,能夠有效的緩解頻率高的類別對小樣本類別的影響,從而大大提升了處於長尾分布中小樣本的性能。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    目前市面上有很多關於人臉美化的應用,如騰訊天天P圖等。由於這些應用的流行,網絡上的人像很多與真人不符。本文提出一種圖像盲復原的算法,用於將美化過的人像復原為真實的人像。為了簡化問題,本文著重闡述如何解決全局美化操作的復原問題,例如膚色美白,去皺,磨皮等。由於這些操作是在圖像的不同尺度上完成的,而我們又無法得到人臉美化應用中所使用的操作類型和參數,直接使用現有的模型並無法解決這個問題。
  • 處理表情識別中的壞數據:一篇CVPR 2020及兩篇TIP的解讀
    對比性的解讀這三篇論文,也許能對研究者們自己的工作有所啟發。真實場景下的表情識別一直是令眾多研究者十分頭疼的課題。這個任務中,尤為令人抓狂的是表情數據集中普遍存在著許多壞的數據(例如被遮擋的人臉,錯誤的標籤或者是模糊不清的圖像)。這些數據不僅使得模型難以擬合,還嚴重拉低了最後的精度。
  • Hinton、Bengio、何愷明等經典論文貢獻:機器學習必讀TOP100論文
    http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf這篇論文是來自MSRA的何愷明的論文,論文首次公開宣布圖像的識別率超越人類水平。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    調整過的特徵圖更好地編碼區域信息,類似點雲分割和分類的點雲識別任務,將從中受益。實驗結果表明我們的模型在語義分割和形狀分類數據集上,超出當前最優的算法。代碼和訓練好的模型將同論文一起發布。15.本文提出了一個用於進行無約束三維人臉重建的多度量回歸網絡。其核心思想是利用一個體素回歸子網絡從輸入圖像生成一個人臉幾何結構的中間表達,再從該中間表達回歸出對應的三維人臉形變模型參數。