研究背景
愛奇藝擁有海量優質的視頻資源,對這些視頻資源的結構化分析,尤其是分析視頻中出現的人物尤為重要。目前,人臉識別技術已經應用到愛奇藝多個產品中,如「AI雷達」和「只看TA」。 「AI雷達」分析當前視頻畫面中出現的人物,「只看TA」分析整個視頻中人物出現的所有場景片段。這兩個產品底層都依賴人臉識別技術。
訓練一個高性能的人臉識別模型,採用監督學習的方式,需要大量的帶標籤的人臉數據,通常數據量越大,訓練的模型性能越好;人物越多,識別性能越好。目前公開庫中較大的人臉數據集MS-Celeb-1M包括約10萬個人物的1000萬張圖片;iQIYI-VID包括約1萬個人物的64萬個視頻片段,其中iQIYI-VID-FACE包含約1萬個人物600萬張人臉圖像。
然而,獲取某個人的多張圖片是比較困難的,需要人工標註。這在一定程度上阻礙了模型性能的提升。同時,人臉識別是個open-set問題,有標籤數據中的幾萬個人物只是地球上幾十億人的極小一部分,訓練出來的模型泛化能力可能不足。
為了解決上述問題,我們提出用無標籤數據優化人臉識別模型。區別於其他半監督學習方法,我們的方法對無標籤數據沒有過多限制,只需基本保證這人不出現在有標籤數據中。無標籤數據的加入,可以輕易擴大訓練人物數量,提升模型泛化能力。
Unknown Identity Rejection(UIR)Loss
為了利用無標籤數據,我們設計了半監督損失函數,Unknown Identity Rejection(UIR)Loss。人臉識別是open-set問題,將開放環境中的人物類別分為兩類:有標籤類(S)和無標籤類(U),
。訓練過程中,對於有標籤類,每個樣本特徵需要逼近分類層對應類別的類心向量;對於無標籤類,它不屬於分類層的任何一個類,模型需要「拒絕」它們,即特徵與每個分類層類心距離都足夠遠。如下圖(a),w1w1和w2表示兩個分類層類心向量,圓點表示樣本特徵。圖(b)中,加入無標籤類wu後,為了wu距離w1和w2、足夠遠,會使得有標籤類別在特徵空間上更稀疏,類間距離更大。
對於CNN分類模型,全連接分類層的輸出經過softmax後得到p1,p2…pn,表示屬於各個類別的概率值。然而無標籤類別並不屬於任何一類,理想情況下p1,p2…pn應該都足夠小,可以通過設置閾值將其過濾,提升庫外拒絕率。基於這個想法,問題可以轉化成:
minimize
上式是多目標最小化問題,可以轉化成:
maximize
因此得到UIR loss,即:
模型總的loss是有標籤類別的loss加上無標籤類別的UIR loss,
模型框圖如下,無標籤數據和有標籤數據一起作為輸入,經過骨幹網絡得到特徵,全連接層得到輸出概率值,根據概率值分別計算 Lsup和Luir。
實驗結果
我們採用MS-Celeb-1M清洗過後的MS1MV2數據集作為有標籤數據,包括9萬人物類別的5百萬圖片數據。從網上爬取數據,經過清洗,基本保證與有標籤數據較低的重合率,得到約4.9百萬張無標籤數據。
分別在iQIYI-VID和Trillion-Pairs和IJB-C三個測試集上驗證了方法的有效性。測試了四種骨幹網絡,實驗結果說明,加入無標籤數據的UIR loss後,模型性能有所提升。由於篇幅原因,IJB-C測試結果只貼了ResNet100部分,其他結果可參照論文。
進一步分析
UIR Loss使得特徵分布更稀疏
從實驗結果來看,加入無標籤數據的UIR loss後,UIR Loss能使模型學習到更具區分性的特徵。下面從模型分類層類心間距離這一角度來驗證特徵分布的稀疏性。我們計算了分類層類心兩兩間的cos距離,距離越大,類心分布更稀疏。結果如下表:
隨著骨幹網絡性能提升,baseline和ours的平均距離逐漸增大。同時,ours的平均距離大於baseline。這說明了UIR Loss使得特徵分布更稀疏。
UIR Loss提升庫外拒絕率
我們找了一批新的無標籤數據,統計了它們模型最後輸出的最大概率值,值越小,代表性能越好。
總結與展望
半監督損失函數UIR loss可以有效的藉助海量無標籤的人臉數據,優化人臉識別模型性能,提升模型泛化能力。這一研究成果已經應用到了愛奇藝諸多產品中,在提高用戶體驗、提高視頻內容的創作效率等都發揮了極大作用。愛奇藝APP的「只看Ta」功能,可以實現只看某個演員或者某對CP的功能,不僅滿足用戶追星或只看某些人物片段的需求,還有助於演員回顧自己演戲的內容,甚至幫助導演挑選自己需要的演員。其實,幫助導演選擇演員,愛奇藝還專門有個APP叫「藝匯」,藝匯裡通過AI收集了大量的知名或不知名的演員,藉助強大的人臉識別模型,不僅可以在海量視頻中定位到只屬於該演員的CUT片段,還會根據演員的顏值、臉型、氣質類型精確搜索心意角色。人臉識別的另一大特色應用,就是用戶所熟知的AI雷達功能,在愛奇藝APP中點擊畫面左側的「掃一掃」按鈕,就可以隨時看到畫面中的演員角色信息,同時在電視端遙控器輕輕按「上鍵」,就可以在電視畫面上展現明星的「這是誰」信息。在專業的視頻內容製作方面,愛奇藝的愛創媒資系統可以支持人物搜索、特定人物的表情搜索、聲紋識別等,大大提高了製作人員的效率。
愛奇藝藉助其強大的技術實力和前沿的AI研發能力,不斷的創新突破,走在視頻行業的最前面。當然,技術創新永無止境,人臉識別雖然有諸多成熟的應用,但在某些較為極端的情況下,如人臉過於模糊、遮擋過多、側臉角度過大,甚至只出現背影等情況,單純依靠人臉識別無法解決,這需要藉助多模態來解決。愛奇藝發布的iQIYI-VID數據集是目前業界數據最大的多模態人物識別視頻數據集,有效的推進了多模態技術的發展,引起了行內人士的廣泛關注。
數據集詳情:
http://challenge.ai.iqiyi.com/data-cluster
論文連結:
https://128.84.21.199/abs/1910.10896