多模態人物識別技術及其在愛奇藝視頻場景中的應用|公開課筆記

2020-12-20 AI科技大本營

【12月公開課預告】,入群直接獲取報名地址12月11日晚8點直播主題:人工智慧消化道病理輔助診斷平臺——從方法到落地12月12日晚8點直播:利用容器技術打造AI公司技術中臺12月17日晚8點直播主題:可重構計算:能效比、通用性,一個都不能少

嘉賓 | 愛奇藝

編輯 | Jane

出品 | AI科技大本營(ID:rgznai100)

在本期 CSDN 技術公開課Plus:《多模態人物識別技術及其在視頻場景中的應用》中,愛奇藝科學家路香菊博士將為大家介紹了多模態人物識別技術及在視頻場景中的應用。大家可以學習到愛奇藝在多模態技術領域的三項主要研究工作,並且在愛奇藝視頻中是如何應用這些技術的。

講師介紹:路香菊,愛奇藝科學家,身份識別(PersonAI)團隊負責人,專注於人物識別、AI等技術,負責愛奇藝多模態人物識別、智能創作等相關業務。組織創辦「愛奇藝多模態視頻人物識別賽」,開放全球首個影視視頻人物數庫iQIYI-VID,創建百萬人物庫及四萬卡通角色庫,相關技術應用到愛奇藝APP「掃一掃」及AI雷達等產品中。

一、多模態技術基礎介紹

首先,請大家思考一個問題:人物識別只是等同於人臉識別嗎?其實,人物識別我們現在的工作中不僅僅是人臉識別,為什麼是這樣呢?因為在視頻中,特別是在一些綜藝節目、或者動作片中,完全通過個人的人臉是無法滿足所有情況的,知道一個人的身份還需要其他屬性,像下圖中右邊這個圖人物,大家一看就知道他是郭德綱,但是如我我們用人臉識別絕對是沒有辦法識別出來的,因為他的人臉沒有露出來,只有一個後腦勺,所以,我們現在基於人物識別的技術還涉及人體的識別,也就是我們監控上的 RE-ID。除此之外,在視頻中,還需要識別服飾、髮型、聲紋和指紋、虹膜等生物特徵。所以,現在基於視頻場景中的人物識別已經成為一個綜合需求的識別。

第二,如何識別虛擬人物?我們之所以叫虛擬人物,是因為它不是真實的一個人物,它包括卡通人物、二次元、動漫以及與遊戲人物等形象,現在這部分角色也越來越多,已經成為娛樂行業一個非常重要的需求。在這些現實需求下,我們的研究工作也基本上在實際中落地應用。基於這些實際應用,接下來就與大家分享我們在人物識別與虛擬人物識別工作中的主要算法。

二、多模態技術解讀(一):人物識別(IQFace)

這部分內容將主要為大家介紹真人人物識別的多模態基礎技術。基於愛奇藝視頻內容的需求,我們不僅要做人臉識別,在人臉信息不足或不清晰的情況下,還需要其他信息來輔助進行人物定位,在所有的信息中,我們首先想到的是聲音信息;其次,在無聲情境中,我們需要結合場景(如打鬥、行走中、監控)利用人物的一些動作信息、背影等姿態信息以及服飾等信息來進行人物身份判斷。如下圖所示,是我們在業務中需要處理的主要信息類別。

通過人臉檢測與五官定位進行人臉識別及年齡、性別、表情姿態等屬性分析,得到更好的認識;此外,根據實際業務需求,如視頻中一些藝人本身獨有的氣質,得到一些特殊的屬性,這部分的處理方法是我們根據實際業務場景進行「量身訂作」的。除了人臉信息外,還會用到人體信息,如人體姿態的估計(體型、服飾)、行為數據(手勢、動作)、人體RE-ID特徵提取、從人物的聲音提取聲紋特徵,這這些都有助於我們對人物進行屬性分析與人物身份判斷,我們也在實際工程中用到人臉,人體,聲紋這三種信息組成多模態信息識別。

有了多模態識別的基礎數據信息,接下來就是多模態技術的算法,如圖所呈現的是我們整體算法框架及工程邏輯。

目前,我們人臉別相關算法使用的人臉資料庫 ID數達到了550萬,可直接識別名字的名人數量達到30萬左右,為了支持這麼大規模的人物數據訓練,我們自研一個定製化分布式框架,雖然也有一些開源的框架,不過更多情況下適合一些簡單任務,針對有定製化需求的任務難以滿足,所以我們自研的框架無論是整體訓練的精度還是訓練速度,都可以取得非常大的提升。

我們可以針對模型定型、數據定型,包括GPO、進程的通訊,都進做了優化處理;在識別的精度方面,我們在自己的數據集上進行了評測:第一個數據集是中學生庫,數據分布主要集中在證件照或證件照相匹配的實際應用場景;二是愛奇藝員工資料庫,是我們內部員工的資料庫,裡面包含了大量的人臉、姿態、表情等變化;三是愛奇藝在多模態人物識別競賽中發布的數據集,裡面主要是針對明星的視頻數據進行身份識別。

實際業務場景中面臨非常多人臉屬性的相關需求,現在人臉屬性已支持到27個,包含常見屬性(表情、男女、年齡)和獨有的人臉屬性,比如說氣質、微表情屬性。(微表情指的是人臉基本活動單元的一個激活狀態,也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理)微表情指的是人臉基本活動單元的一個激活狀態,也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理;在這方面,我們提出了一個創新性工作:利用微表情和資料庫中的表情包來自動生成視頻中的微表情包數據,具體做法是將庫中微表情的一個表情包數據來分別提取人臉的微表情特徵與表情包文案同時與長視頻中取到的人物微表情素材進行匹配,最後再進行文案遷移,來實現表情包的自動生成,這個方法不僅可用於人臉微表情生成,也已經實際用於卡通人物的微表情生成。

面對這麼多人臉數據,如何處理噪聲是一項非常艱巨的一個任務。圖中是我們有一系列噪聲的處理流程,以算法為主,人工為輔,將人臉數據集的噪聲比例降到了非常低,使模型精度有較大提升。通過模型量化、剪枝、蒸餾等處理優化模型速度,同時對CPU版本進行定製優化,節省了大量資源。

另外,除了已知ID信息,還要充分利用愛奇藝站內視頻資來源獲取無標籤數據輔助人臉模型訓練,下面主要講一下我們如何利用這些無標籤數據進行訓練,這個相關工作的論文《利用無標籤數據優化人臉識別模型》今年發表於被 ICCV 2019 Workshop大會收錄。

如果想要所有數據都是已知ID是比較困難的,需要大量人工標註工作,但是獲取無標籤數據是非常容易的,我們可以獲取海量的無標籤數據來輔助人臉識別模型訓練,主要的一個思路是利用無標籤數據填充有標籤數據分布的未知區域,使有標籤數據分布變得更緊,即有標籤數據的分類間隔更大,分類內間隔變緊緻,最終獲得更好的分類效果,具體做法如下圖,令無標籤數據得到一個額外的Loss,疊加到之前訓練的Loss 中,輔助最終的模型訓練。

具體模型與算法解讀:Unknown Identity Rejection(UIR)Loss

為了利用無標籤數據,我們設計了半監督損失函數,Unknown Identity Rejection(UIR)Loss。人臉識別是open-set問題,將開放環境中的人物類別分為兩類:有標籤類

和無標籤類

。訓練過程中,對於有標籤類,每個樣本特徵需要逼近分類層對應類別的類心向量;對於無標籤類,它不屬於分類層的任何一個類,模型需要「拒絕」它們,即特徵與每個分類層類心距離都足夠遠。如下圖(a),

表示兩個分類層類心向量,圓點表示樣本特徵。圖(b)中,加入無標籤類

後,為了 距離 足夠遠,會使得有標籤類別在特徵空間上更稀疏,類間距離更大。

對於 CNN 分類模型,全連接分類層的輸出經過 softmax 後得到

,表示屬於各個類別的概率值。然而無標籤類別並不屬於任何一類,理想情況下應該都足夠小,可以通過設置閾值將其過濾,提升庫外拒絕率。基於這個想法,問題可以轉化成:

上式是多目標最小化問題,可以轉化成:

因此得到UIR loss,即:

模型總的loss是有標籤類別的loss加上無標籤類別的UIR loss:

模型框圖如下,無標籤數據和有標籤數據一起作為輸入,經過骨幹網絡得到特徵,全連接層得到輸出概率值,根據概率值分別計算

實驗結果

我們採用MS-Celeb-1M清洗過後的MS1MV2數據集作為有標籤數據,包括9萬人物類別的5百萬圖片數據。從網上爬取數據,經過清洗,基本保證與有標籤數據較低的重合率,得到約4.9百萬張無標籤數據。

分別在iQIYI-VID和Trillion-Pairs和IJB-C三個測試集上驗證了方法的有效性。測試了四種骨幹網絡,實驗結果說明,加入無標籤數據的UIR loss後,模型性能有所提升。由於篇幅原因,IJB-C測試結果只貼了ResNet100部分,其他結果可參照論文。

二、多模態技術解讀(二):虛擬人物識別(iCartoonFace)

基於對真實人物識別的多模態技術的初步認識,接下來介紹在虛擬人物識別的技術與經驗。虛擬人物識別包含什麼?概括來說虛擬人物識別包含卡通、動漫、遊戲人物等所有創作出來的虛擬形象。

虛擬人物識別技術遇到的第一個挑戰就是數據源問題,無論是圖片數量還是人物身份信息數量,對應用到實際業務中來說都是遠遠不夠的,同時這些數據的標註信息質量也不高,需要我們在前期工作中花費大量的時間進行數據清洗與標註工作。目前我們已經積累了大約四萬多個角色,近50萬張訓練圖片,標註精度打98%,標註信息包括位置檢測框、姿態、性別、顏色等。

數據整理後進行模型訓練,訓練過程中有一類數據需要特別關注,如下圖所示,模型很難識別差異很小的不同人物與差異很大的同一人物,這種現象在實際的視頻中是很常見的一種情況,如何解決這一難點?在實際工程中,我們可以有針對性在模型本身或測試標準上進行特殊處理。

這裡借鑑了上述真人識別方法中的一些損失函數,如 Softmax、SphereFace、CasFace、ARCFace等,不斷使類內分布更緊密,類間分布差異更大,提高實踐應用中判別的準確性。

此外,利用真人數據與卡通數據進行融合來彌補虛擬人物數據不足的現狀。如下圖中A表示融合之前,B表示與真人人臉融合之後使卡通人物的分布更緊密,同時拉開類間距離,實驗數據上也證明了方法的有效性。

相關論文暫未發表,請大家後續繼續關注我們的消息。

三、多模態資料庫與多模態算法

通過兩年的積累,目前愛奇藝基於真實場景中視頻任務的多模態資料庫已經成為業內首個多模態數據,並且標籤清晰,規模最大,致力於給大家的研究工作提供更多的幫助。

基於多模態資料庫,利用人臉、人頭、人體與聲紋四中特徵,我們設計了一種多模態識別算法架構,在模型中提出多模型注意力模型,將這四種特種進行融合。

http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7.

文章中主要是描述了數據集的收集與標註過程,暫時未涉及到具體的多模態算法,愛奇藝多模態算法的更多信息請持續關注我們的消息,發表後會為大家做詳細解讀。

有很多研究團隊基於此在數據增強、交叉驗證和使用無噪聲樣本進行訓練等方面進行了工作的改進。也有工作針對模型架構進行了改進,提出了開放性網絡架構,如下圖所示,模型主體為全連接層網絡,能接收深層次與淺層次間的信息,在兩個 dense 層之間加入跳躍連接,將不同層信息進行融合,同時根據 residual block 思路進行改進,加入dropout和batch norm防止過擬合。

四、多模態技術在視頻場景中的應用與實踐案例:只看TA與AI 雷達

大家在使用愛奇藝APP過程中可能已經體驗過「只看TA」功能了,其次還有 TV端的 AI 雷達功能等,這些大家日常使用的應用背後都離不開多模態資料庫與多模態技術算法的支撐。針對大家都很關注的多模態算法問題上, 主要和大家分享以下幾點:

1、大家都很關注算法中多模態是如何加權、聯合與統一的,而多模態算法是一個非常複雜的問題,而且數據噪聲很大,某一機器學習模型可能無法識別所有特徵,也不是多有特徵都能起到正面作用,因此我們不能只依靠調整權重解決,要從模型學習過程入手,用算法提煉在什麼情況什麼特徵起到關鍵作用。

2、微表情特徵的匹配一個環節是根據人臉的相似度和每個AU的相似度進行匹配;文案匹配是通過網上下載了很多帶有文案的表情包,再與視頻中提取的表情包進行匹配,如果匹配效果較好,再將文案遷移。

愛奇藝「只看TA 」功能展示

對於上面提到的多項研究論文與資料庫感興趣,大家可以查閱:

論文與論文地址:

《Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition》https://arxiv.org/pdf/1910.10896v1.pdf

《iCartoonFace: A Benchmark of Cartoon Person Recognition》https://arxiv.org/pdf/1907.13394v1.pdf

《iQIYI-VID: A Large Dataset for Multi-modal Person Identification》https://arxiv.org/abs/1811.07548

本期公開課回顧學習:

https://edu.csdn.net/huiyiCourse/detail/1075

技術公開課專題頁:

https://bss.csdn.net/m/topic/ai_edu

12月公開課,精彩預告

12月11日晚8點:人工智慧消化道病理輔助診斷平臺——從方法到落地報名地址:https://edu.csdn.net/huiyiCourse/detail/111112月12日晚8點:公司要不要做 AI 中臺?開發者要了解的技術報名地址:https://edu.csdn.net/huiyiCourse/detail/111712月17日晚8點:如何設計基於可重構計算的AI晶片,效比與通用性皆有報名地址:https://edu.csdn.net/huiyiCourse/detail/1112加入公開課「交流群」獲取更多課程、學習資料、崗位招聘等信息

相關焦點

  • 愛奇藝攜手ACM MM舉辦2019"多模態人物識別競賽"
    作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • 愛奇藝論文入選ACM MM會議 提出全球最大卡通人物數據集
    目前,針對真人人臉識別的技術算法和應用日趨成熟,而卡通人物識別領域尚處於起步階段,同時卡通識別技術的需求場景正隨著動漫產業的發展迅速增長。除了面向視頻的結構化分析,卡通人物識別技術也在圖片搜索、廣告識別等場景有著大量使用需求。
  • IBM美國研究院首席研究員淦創:多模態視頻理解的研究與應用:公開課...
    「CV前沿講座」,是智東西公開課針對計算機視覺推出的一檔講座,聚焦於計算機視覺前沿領域研究成果與進展。我們將持續邀請研究者、專家與資深開發者,為大家帶來直播講解。視頻理解是目前計算機領域中非常熱門、且極具挑戰力的一個方向。視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。
  • 2019ICCV論文愛奇藝提出:利用無標籤數據優化人臉識別模型
    研究背景愛奇藝擁有海量優質的視頻資源,對這些視頻資源的結構化分析,尤其是分析視頻中出現的人物尤為重要。目前,人臉識別技術已經應用到愛奇藝多個產品中,如「AI雷達」和「只看TA」。 「AI雷達」分析當前視頻畫面中出現的人物,「只看TA」分析整個視頻中人物出現的所有場景片段。這兩個產品底層都依賴人臉識別技術。
  • 愛奇藝推出Figure out智能識別技術「刷臉」裡的視頻商機
    5月8日,全球首個刷臉看廣告的高顏值廣告技術「Figure out」正式發布,該技術能夠自動識別視頻中人臉和身體特徵,並進行實時追蹤廣告投放。這是愛奇藝投入商用的又一智能視頻技術。目前,「Figure out」明星版已經能夠識別數十萬明星臉部特徵,並實現結合明星臉的廣告投放。
  • 生物識別技術在金融上可以如何應用
    近日,在大型科技綜藝節目《智造將來》中,支付寶研發的刷臉神器首次亮相,在500位蒙面觀眾中成功找出目標任務。據悉,該神器在人臉識別的基礎上,結合多模態識別,可以分辨同卵雙胞胎等普通生物識別技術很難分辨的案例,更有效地避免人臉偽造帶來的身份冒用情況。 其實,以人臉識別為代表的生物技術早已成為金融行業的寵兒。
  • 愛奇藝推出Figure out智能識別技術
    5月8日,愛奇藝推出全球首個刷臉看廣告技術「Figure out」正式發布,該技術能夠自動識別視頻中人臉和身體特徵,並進行實時追蹤廣告投放。「Figure out」明星版已經能夠識別數十萬明星臉部特徵,並實現結合明星臉的廣告投放。
  • 客服機器人中的深度語義技術與應用探索附視頻+PPT|硬創公開課
    雷鋒網「新智造」按:幾年之間,蘋果、微軟、Google、百度、阿里等巨頭都推出了以聊天為形式的機器人,應用在情感陪護、虛擬助理、客服、售後等場景中,同時也有諸多初創公司、投資機構殺入這一行業。但在實際使用中,用戶經常發現,機器人並沒有想像中那麼智能,它能識別文字和語音,但卻「不懂你」。這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    ,應用在情感陪護、虛擬助理、客服、售後等場景中,同時也有諸多初創公司、投資機構殺入這一行業。但在實際使用中,用戶經常發現,機器人並沒有想像中那麼智能,它能識別文字和語音,但卻「不懂你」。這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 中國銀聯「刷臉付」發布,百度人臉多模態3D識別算法提供技術支持
    據悉,在人臉識別領域,百度已經擁有超過1000+合作夥伴,落地項目超過10萬個。百度大腦人臉識別公有雲服務日均調用量超過1億,已穩居業界第一。此次「刷臉付」中廣泛應用了百度大腦人臉多模態3D活體算法,可確保業務流程體驗,並有效防禦二維靜態紙質圖像、二維靜態電子圖像、二維動態圖像、三維高仿面具、三維高仿頭模等不同方式的作弊攻擊。
  • 模式識別學科發展報告丨三、模式識別應用技術重要研究進展
    傳統的虹膜識別算法多採用人工設計邏輯規則和算法參數,導致算法泛化性能欠佳,不能滿足大規模應用場景。數據驅動的機器學習方法從大量訓練樣本中自動學習最優參數,可以顯著提高虹膜識別算法精度、魯棒性和泛化性能。大規模虹膜識別應用帶來了許多新的挑戰,虹膜特徵的快速檢索、多源異質虹膜圖像的魯棒識別成為當前虹膜識別的研究難度和熱點問題。
  • 生物特徵識別技術在生活中應用廣泛,數據安全怎麼保障?
    人臉識別、指紋識別、聲音識別……如今,生物特徵識別技術在生活中應用廣泛。數據安全怎麼保障?識別精度如何更高?近日,由我國企業牽頭制定的生物特徵識別多模態融合國際標準正式立項,為今後解決這些問題帶來希望。參與制定國際標準,既體現對我國技術能力的肯定,也為技術全球推廣打下基礎。使用人臉識別時,你是否曾因光線不好而被自家門禁拒之門外?又是否曾擔心有人盜刷你的照片取走快遞?
  • 愛奇藝的答案:AI任你橫豎
    點擊之後,我看到的橫屏短視頻即刻轉換為聚焦視頻關鍵人物和場景區域的豎屏沉浸式短視頻。在左下側則還能看到一個小視頻框,呈現由AI控制的豎屏畫面在原全橫屏區域中所處的位置,並支持用戶手指滑動切換,小小的手機屏上640P的畫面瞬間切換得像4K畫面一樣,人物更近了,這是一個用AI技術解決「橫豎矛盾」的新思路。據了解,這一功能實現原理是AI視頻分析技術。
  • 百度發布小度智能屏X10,支持聲紋識別!小度耳機上線語音筆記功能
    目前,小度在家庭、酒店/地產、車載和隨身等場景中,已成為全國最大的對話式AI作業系統。▲百度副總裁兼SLG總經理景鯤一、小度智能屏X10:支持聲紋識別,提升個性化智能體驗「繼開創智能屏品類後,小度智能屏隨即引爆市場。」景鯤提到,小度智能屏系列產品連續在2019、2020年穩居全球智能屏出貨量第一。
  • 模式識別學科發展報告(4)丨模式識別應用技術未來重要研究問題
    以模式識別為代表的人工智慧技術已成為21世紀最偉大的科技進展之一。模式識別研究與應用近年來取得了很多令人矚目的成就,在社會經濟發展和國家公共安全等領域應用日益廣泛。比如,語音識別、圖像識別、視頻理解、生物特徵識別、多媒體信息分析、智能醫療、機器翻譯、遙感圖像處理等都是目前發展較快的模式識別應用技術領域。
  • 亞略特AI多模態生物識別技術解決方案助力高考全流程
    據悉,今年高考期間,亞略特攜手各位合作夥伴,用技術為高考全流程全行業賦能,護航350多萬高考考生順利開考。亞略特推出的涵蓋事前辦證,考試報名,考場現場和事後入學全流程的AI多模態生物識別技術解決方案,在公安戶政,教育考試,信息安全,智慧校園多個環節,提供了一系列相互關聯可落地的創新應用。
  • 人機互動新突破:百度發布主動多模態交互技術
    為了使得機器人能夠更加理解場景的細節,帶來更加智能、友好、和自然化的交互體驗,百度提出了全新的「基於視覺記號和Transformer模型的人機主動交互系統」(TransFormer with Visual Tokens for Human-Robot Interaction,簡稱TFVT-HRI).這套系統不僅能觀察場景主動發起交互和引導,其交互的動作更是包含千餘種多模態動作,使其能夠像人類一樣表現出自然的主動問候
  • 愛奇藝謝丹銘:用AI讓創作者提升效率,讓消費者簡單快樂
    這是視頻行業面對AI浪潮,交出的一份答卷:素材智能檢索、老電影修復、音色克隆、虛擬動漫偶像……愛奇藝將最前沿的AI技術,落地到視頻創作、內容分發中去,真正讓創作者提升效率、讓消費者簡單快樂。只需要用AI對動漫人物進行面部識別,再做唇形驅動,就能讓人物的嘴巴動起來,接近人工製作的效果。此外,愛奇藝今年還推出了跨次元新星的虛偶選秀節目。其中,左邊的「小滿」是虛擬手語主播,右邊的「小又」,則是虛擬節目主持。
  • 愛奇藝會員破億了,視頻網站的下一步呢?
    這給楊向華留下了不小的心理陰影,以至於在談到技術方面的會員權益時特地強調:「首先就不能再出現《盜墓筆記》播出宕機的現象。」《盜墓筆記》VIP會員全集上線當晚,巨大流量導致愛奇藝系統宕機第三階段是2017年至今,原創內容成為主要驅動力。
  • 體態識別中存在技術難題及應用困難
    在當前「人臉識別」逐步實現落地應用,以人的形體、體態為特徵的體態識別技術開始不斷突破,準確率不斷提升,並展現出巨大的應用前景。在這其中步態識別、人體行為識別等技術表現的尤為突出。 另外,目前行業中發展速度較快的行人重識別中也涉及到體態識別技術。