【12月公開課預告】,入群直接獲取報名地址12月11日晚8點直播主題:人工智慧消化道病理輔助診斷平臺——從方法到落地12月12日晚8點直播:利用容器技術打造AI公司技術中臺12月17日晚8點直播主題:可重構計算:能效比、通用性,一個都不能少
嘉賓 | 愛奇藝
編輯 | Jane
出品 | AI科技大本營(ID:rgznai100)
在本期 CSDN 技術公開課Plus:《多模態人物識別技術及其在視頻場景中的應用》中,愛奇藝科學家路香菊博士將為大家介紹了多模態人物識別技術及在視頻場景中的應用。大家可以學習到愛奇藝在多模態技術領域的三項主要研究工作,並且在愛奇藝視頻中是如何應用這些技術的。
講師介紹:路香菊,愛奇藝科學家,身份識別(PersonAI)團隊負責人,專注於人物識別、AI等技術,負責愛奇藝多模態人物識別、智能創作等相關業務。組織創辦「愛奇藝多模態視頻人物識別賽」,開放全球首個影視視頻人物數庫iQIYI-VID,創建百萬人物庫及四萬卡通角色庫,相關技術應用到愛奇藝APP「掃一掃」及AI雷達等產品中。
一、多模態技術基礎介紹
首先,請大家思考一個問題:人物識別只是等同於人臉識別嗎?其實,人物識別我們現在的工作中不僅僅是人臉識別,為什麼是這樣呢?因為在視頻中,特別是在一些綜藝節目、或者動作片中,完全通過個人的人臉是無法滿足所有情況的,知道一個人的身份還需要其他屬性,像下圖中右邊這個圖人物,大家一看就知道他是郭德綱,但是如我我們用人臉識別絕對是沒有辦法識別出來的,因為他的人臉沒有露出來,只有一個後腦勺,所以,我們現在基於人物識別的技術還涉及人體的識別,也就是我們監控上的 RE-ID。除此之外,在視頻中,還需要識別服飾、髮型、聲紋和指紋、虹膜等生物特徵。所以,現在基於視頻場景中的人物識別已經成為一個綜合需求的識別。
第二,如何識別虛擬人物?我們之所以叫虛擬人物,是因為它不是真實的一個人物,它包括卡通人物、二次元、動漫以及與遊戲人物等形象,現在這部分角色也越來越多,已經成為娛樂行業一個非常重要的需求。在這些現實需求下,我們的研究工作也基本上在實際中落地應用。基於這些實際應用,接下來就與大家分享我們在人物識別與虛擬人物識別工作中的主要算法。
二、多模態技術解讀(一):人物識別(IQFace)
這部分內容將主要為大家介紹真人人物識別的多模態基礎技術。基於愛奇藝視頻內容的需求,我們不僅要做人臉識別,在人臉信息不足或不清晰的情況下,還需要其他信息來輔助進行人物定位,在所有的信息中,我們首先想到的是聲音信息;其次,在無聲情境中,我們需要結合場景(如打鬥、行走中、監控)利用人物的一些動作信息、背影等姿態信息以及服飾等信息來進行人物身份判斷。如下圖所示,是我們在業務中需要處理的主要信息類別。
通過人臉檢測與五官定位進行人臉識別及年齡、性別、表情姿態等屬性分析,得到更好的認識;此外,根據實際業務需求,如視頻中一些藝人本身獨有的氣質,得到一些特殊的屬性,這部分的處理方法是我們根據實際業務場景進行「量身訂作」的。除了人臉信息外,還會用到人體信息,如人體姿態的估計(體型、服飾)、行為數據(手勢、動作)、人體RE-ID特徵提取、從人物的聲音提取聲紋特徵,這這些都有助於我們對人物進行屬性分析與人物身份判斷,我們也在實際工程中用到人臉,人體,聲紋這三種信息組成多模態信息識別。
有了多模態識別的基礎數據信息,接下來就是多模態技術的算法,如圖所呈現的是我們整體算法框架及工程邏輯。
目前,我們人臉別相關算法使用的人臉資料庫 ID數達到了550萬,可直接識別名字的名人數量達到30萬左右,為了支持這麼大規模的人物數據訓練,我們自研一個定製化分布式框架,雖然也有一些開源的框架,不過更多情況下適合一些簡單任務,針對有定製化需求的任務難以滿足,所以我們自研的框架無論是整體訓練的精度還是訓練速度,都可以取得非常大的提升。
我們可以針對模型定型、數據定型,包括GPO、進程的通訊,都進做了優化處理;在識別的精度方面,我們在自己的數據集上進行了評測:第一個數據集是中學生庫,數據分布主要集中在證件照或證件照相匹配的實際應用場景;二是愛奇藝員工資料庫,是我們內部員工的資料庫,裡面包含了大量的人臉、姿態、表情等變化;三是愛奇藝在多模態人物識別競賽中發布的數據集,裡面主要是針對明星的視頻數據進行身份識別。
實際業務場景中面臨非常多人臉屬性的相關需求,現在人臉屬性已支持到27個,包含常見屬性(表情、男女、年齡)和獨有的人臉屬性,比如說氣質、微表情屬性。(微表情指的是人臉基本活動單元的一個激活狀態,也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理)微表情指的是人臉基本活動單元的一個激活狀態,也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理;在這方面,我們提出了一個創新性工作:利用微表情和資料庫中的表情包來自動生成視頻中的微表情包數據,具體做法是將庫中微表情的一個表情包數據來分別提取人臉的微表情特徵與表情包文案同時與長視頻中取到的人物微表情素材進行匹配,最後再進行文案遷移,來實現表情包的自動生成,這個方法不僅可用於人臉微表情生成,也已經實際用於卡通人物的微表情生成。
面對這麼多人臉數據,如何處理噪聲是一項非常艱巨的一個任務。圖中是我們有一系列噪聲的處理流程,以算法為主,人工為輔,將人臉數據集的噪聲比例降到了非常低,使模型精度有較大提升。通過模型量化、剪枝、蒸餾等處理優化模型速度,同時對CPU版本進行定製優化,節省了大量資源。
另外,除了已知ID信息,還要充分利用愛奇藝站內視頻資來源獲取無標籤數據輔助人臉模型訓練,下面主要講一下我們如何利用這些無標籤數據進行訓練,這個相關工作的論文《利用無標籤數據優化人臉識別模型》今年發表於被 ICCV 2019 Workshop大會收錄。
如果想要所有數據都是已知ID是比較困難的,需要大量人工標註工作,但是獲取無標籤數據是非常容易的,我們可以獲取海量的無標籤數據來輔助人臉識別模型訓練,主要的一個思路是利用無標籤數據填充有標籤數據分布的未知區域,使有標籤數據分布變得更緊,即有標籤數據的分類間隔更大,分類內間隔變緊緻,最終獲得更好的分類效果,具體做法如下圖,令無標籤數據得到一個額外的Loss,疊加到之前訓練的Loss 中,輔助最終的模型訓練。
具體模型與算法解讀:Unknown Identity Rejection(UIR)Loss
為了利用無標籤數據,我們設計了半監督損失函數,Unknown Identity Rejection(UIR)Loss。人臉識別是open-set問題,將開放環境中的人物類別分為兩類:有標籤類
和無標籤類
,
。訓練過程中,對於有標籤類,每個樣本特徵需要逼近分類層對應類別的類心向量;對於無標籤類,它不屬於分類層的任何一個類,模型需要「拒絕」它們,即特徵與每個分類層類心距離都足夠遠。如下圖(a),
表示兩個分類層類心向量,圓點表示樣本特徵。圖(b)中,加入無標籤類
後,為了 距離 足夠遠,會使得有標籤類別在特徵空間上更稀疏,類間距離更大。
對於 CNN 分類模型,全連接分類層的輸出經過 softmax 後得到
,表示屬於各個類別的概率值。然而無標籤類別並不屬於任何一類,理想情況下應該都足夠小,可以通過設置閾值將其過濾,提升庫外拒絕率。基於這個想法,問題可以轉化成:
上式是多目標最小化問題,可以轉化成:
因此得到UIR loss,即:
模型總的loss是有標籤類別的loss加上無標籤類別的UIR loss:
模型框圖如下,無標籤數據和有標籤數據一起作為輸入,經過骨幹網絡得到特徵,全連接層得到輸出概率值,根據概率值分別計算
。
實驗結果
我們採用MS-Celeb-1M清洗過後的MS1MV2數據集作為有標籤數據,包括9萬人物類別的5百萬圖片數據。從網上爬取數據,經過清洗,基本保證與有標籤數據較低的重合率,得到約4.9百萬張無標籤數據。
分別在iQIYI-VID和Trillion-Pairs和IJB-C三個測試集上驗證了方法的有效性。測試了四種骨幹網絡,實驗結果說明,加入無標籤數據的UIR loss後,模型性能有所提升。由於篇幅原因,IJB-C測試結果只貼了ResNet100部分,其他結果可參照論文。
二、多模態技術解讀(二):虛擬人物識別(iCartoonFace)
基於對真實人物識別的多模態技術的初步認識,接下來介紹在虛擬人物識別的技術與經驗。虛擬人物識別包含什麼?概括來說虛擬人物識別包含卡通、動漫、遊戲人物等所有創作出來的虛擬形象。
虛擬人物識別技術遇到的第一個挑戰就是數據源問題,無論是圖片數量還是人物身份信息數量,對應用到實際業務中來說都是遠遠不夠的,同時這些數據的標註信息質量也不高,需要我們在前期工作中花費大量的時間進行數據清洗與標註工作。目前我們已經積累了大約四萬多個角色,近50萬張訓練圖片,標註精度打98%,標註信息包括位置檢測框、姿態、性別、顏色等。
數據整理後進行模型訓練,訓練過程中有一類數據需要特別關注,如下圖所示,模型很難識別差異很小的不同人物與差異很大的同一人物,這種現象在實際的視頻中是很常見的一種情況,如何解決這一難點?在實際工程中,我們可以有針對性在模型本身或測試標準上進行特殊處理。
這裡借鑑了上述真人識別方法中的一些損失函數,如 Softmax、SphereFace、CasFace、ARCFace等,不斷使類內分布更緊密,類間分布差異更大,提高實踐應用中判別的準確性。
此外,利用真人數據與卡通數據進行融合來彌補虛擬人物數據不足的現狀。如下圖中A表示融合之前,B表示與真人人臉融合之後使卡通人物的分布更緊密,同時拉開類間距離,實驗數據上也證明了方法的有效性。
相關論文暫未發表,請大家後續繼續關注我們的消息。
三、多模態資料庫與多模態算法
通過兩年的積累,目前愛奇藝基於真實場景中視頻任務的多模態資料庫已經成為業內首個多模態數據,並且標籤清晰,規模最大,致力於給大家的研究工作提供更多的幫助。
基於多模態資料庫,利用人臉、人頭、人體與聲紋四中特徵,我們設計了一種多模態識別算法架構,在模型中提出多模型注意力模型,將這四種特種進行融合。
http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7.
文章中主要是描述了數據集的收集與標註過程,暫時未涉及到具體的多模態算法,愛奇藝多模態算法的更多信息請持續關注我們的消息,發表後會為大家做詳細解讀。
有很多研究團隊基於此在數據增強、交叉驗證和使用無噪聲樣本進行訓練等方面進行了工作的改進。也有工作針對模型架構進行了改進,提出了開放性網絡架構,如下圖所示,模型主體為全連接層網絡,能接收深層次與淺層次間的信息,在兩個 dense 層之間加入跳躍連接,將不同層信息進行融合,同時根據 residual block 思路進行改進,加入dropout和batch norm防止過擬合。
四、多模態技術在視頻場景中的應用與實踐案例:只看TA與AI 雷達
大家在使用愛奇藝APP過程中可能已經體驗過「只看TA」功能了,其次還有 TV端的 AI 雷達功能等,這些大家日常使用的應用背後都離不開多模態資料庫與多模態技術算法的支撐。針對大家都很關注的多模態算法問題上, 主要和大家分享以下幾點:
1、大家都很關注算法中多模態是如何加權、聯合與統一的,而多模態算法是一個非常複雜的問題,而且數據噪聲很大,某一機器學習模型可能無法識別所有特徵,也不是多有特徵都能起到正面作用,因此我們不能只依靠調整權重解決,要從模型學習過程入手,用算法提煉在什麼情況什麼特徵起到關鍵作用。
2、微表情特徵的匹配一個環節是根據人臉的相似度和每個AU的相似度進行匹配;文案匹配是通過網上下載了很多帶有文案的表情包,再與視頻中提取的表情包進行匹配,如果匹配效果較好,再將文案遷移。
愛奇藝「只看TA 」功能展示
對於上面提到的多項研究論文與資料庫感興趣,大家可以查閱:
論文與論文地址:
《Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition》https://arxiv.org/pdf/1910.10896v1.pdf
《iCartoonFace: A Benchmark of Cartoon Person Recognition》https://arxiv.org/pdf/1907.13394v1.pdf
《iQIYI-VID: A Large Dataset for Multi-modal Person Identification》https://arxiv.org/abs/1811.07548
本期公開課回顧學習:
https://edu.csdn.net/huiyiCourse/detail/1075
技術公開課專題頁:
https://bss.csdn.net/m/topic/ai_edu
12月公開課,精彩預告
12月11日晚8點:人工智慧消化道病理輔助診斷平臺——從方法到落地報名地址:https://edu.csdn.net/huiyiCourse/detail/111112月12日晚8點:公司要不要做 AI 中臺?開發者要了解的技術報名地址:https://edu.csdn.net/huiyiCourse/detail/111712月17日晚8點:如何設計基於可重構計算的AI晶片,效比與通用性皆有報名地址:https://edu.csdn.net/huiyiCourse/detail/1112加入公開課「交流群」獲取更多課程、學習資料、崗位招聘等信息