機器之心報導
作者:小舟
用人臉識別找到你「老婆」。
自七十年代以來,人臉識別已經成為了計算機視覺和生物識別領域研究最多的主題之一。近年來,傳統的人臉識別方法已經被基於卷積神經網絡(CNN)的深度學習方法代替。目前,人臉識別技術廣泛應用於安防、商業、金融、智慧自助終端、娛樂等各個領域。而在行業應用強烈需求的推動下,動漫媒體越來越受到關注,動漫人物的人臉識別也成為一個新的研究領域。
動漫形象雖然相對具有標誌性,但也不乏相似的動漫形象和場景,畢竟 B 站知名 up 主涼風「一眼識動漫」的技能不常有。
人工不可,那麼將人臉識別用於動漫角色識別呢?
近日,來自愛奇藝的一項新研究提出了一個新的基準數據集,名為 iCartoonFace。該數據集由 5013 個動漫角色的 389678 張圖像組成,並帶有 ID、邊界框、姿勢和其他輔助屬性。iCartoonFace 是目前圖像識別領域規模最大的卡通媒體數據集,而且質量高、注釋豐富、內容全面,其中包含相似圖像、有遮擋的圖像以及外觀有變化的圖像。
論文地址:https://arxiv.org/pdf/1907.13394.pdf
藉助半自動標記算法,研究者為動漫媒體提供了兩種類型的注釋,即面部識別和面部檢測。為了進一步研究這個具有挑戰性的數據集,研究者提出了一種多任務域適應方法,該方法將人類和動漫域知識與三種判別性正則化結合起來。此外,研究者還對提出的數據集進行了基準分析,並驗證了提出的方法在動漫人物人臉識別任務中的優越性。
圖 1:iCartoonFace 嵌入示意圖。
類似於人臉識別,動漫角色人臉識別中也有一些經典的問題需要處理。
如下圖所示,利用 iCartoonFace 數據集可以將相似的動漫臉區分開,識別出是不同的動漫角色:
同一動漫人物,不同視角,能夠識別出是同一動漫角色:
即使圖片中存在重度遮擋,也能夠識別出動漫角色:
此外,兩張圖片亮度不同,也能夠識別出是同一動漫角色:
接下來我們就來看一下這項研究的方法細節。
數據集的構建與分析
半自動整合過程
為了減輕標籤負擔,研究者開發了一個半自動算法來收集 iCartoonFace 數據集並添加注釋。該研究的框架能夠分成三個階段:
分層數據收集
數據過濾過程
Q/A 手動注釋
1. 分層數據收集
iCartoonFace 數據集是通過分層的方式收集的(從動漫劇集名稱到動漫人物名稱,最後到動漫人物圖像)。該研究首先形成一個面向排行榜的動漫劇集名單。然後根據該名單從網際網路上獲取主要角色,進而獲得動漫人物和相應動漫劇集的列表。下一步從多媒體下載可公開獲得的圖像,包括圖像、漫畫書和視頻源。研究者以這種方式獲得了帶有噪聲標籤的數百萬個圖像,用於後續的數據過濾過程。
2. 數據過濾
實際上,下載的圖像中有大量不相關或重複的數據,這給選擇有效數據帶來巨大的挑戰,尤其是在沒有任何先驗知識的情況下。因此,該研究藉助手動標記的人臉,對無用的樣本進行粗略的過濾。換句話說,借用兩個已有的人類知識來幫助數據過濾過程,即面部檢測過濾和面部識別過濾。
3.Q/A 手動注釋
該研究開發了一個 Q/A 系統來手動注釋動漫臉的身份信息。如圖 2 所示,在注釋頁面中,一個部分顯示參考圖像,另一部分顯示要標記的圖像。注釋者需要確定每個新圖像是否與參考圖像共享相同的標識。參考圖像是專家基於動漫人物所屬的動漫劇集名稱和動漫人物名稱提供的身份圖片。在該數據集中,包含了 5013 張圖片,這意味著每種身份都有一個 probe。
數據集概況
1. 大規模
iCartoonFace 數據集包含了來自 1302 個動漫專輯的 5013 個動漫人物的 389678 張圖像。這是目前規模最大的用於動漫人臉識別的手動注釋圖像數據集。如圖 4(a) 所示,該數據集中的動漫人物包括來自日本、中國、歐洲和美國四個國家的動漫人物。
2. 圖片數量不均
數據集是自然創建的。50% 的動漫人物只有不到 30 張圖片,而有些動漫人物卻有大約 500 張圖片。
3. 高質量
數據集經過手動標記之後,執行交叉檢查方法,二次檢查的錯誤率確保低於 5%。圖 4(c) 顯示圖像的解析度大於 100 × 100,其中 65% 的圖像解析度超過了 200 × 200。圖像的清晰度是通過拉普拉斯度量標準計算的。大多數樣本的值如圖 4(e) 所示,為了確保圖像邊界的清晰度和銳度,需要大於 100。
4. 豐富的屬性
每個圖像都提供了人臉邊界框、身份、區域、姿勢和性別之類的信息。關於姿勢和性別的統計信息如圖 4(b) 和圖 4(d) 所示。選擇隨機的 10000 個樣本,並用 3D 姿態信息注釋。
基於動漫和真人的多人物訓練框架
圖 5 展示了該研究團隊提出的基於動漫和真人的多人物訓練框架。該框架主要包括:分類損失、未知身份拒絕損失和域遷移損失。
其中,為了獲得分類特徵提取器,研究者採用分類損失正則化動漫臉和真人臉分類器,對動漫臉和真人臉進行分類。未知身份拒絕損失旨在找到在不同域之間具有無監督正則化的特徵重投影。域適應損失則是為了減小動漫人臉和真人臉之間的域間隙。
實驗
在實驗部分,研究者提出了 3 個問題並對其進行了解答。
1. 對於動漫臉來說,那種算法是最佳的?
研究者對幾種常用算法進行了評估,包括 softmax、SphereFace、CosFace、ArcFace 和 Focal loss,並在下圖中可視化了相應的 CMC 曲線。可以看到,ArcFace+FL 在 5 種算法中表現最優。
5 種算法的 CMC 曲線圖。
2. 上下文對於動漫臉識別有用嗎?
動漫臉是識別動漫角色的主要部分。那如果「臉盲」怎麼辦?在有些情況下,僅僅依靠動漫角色的人臉不足以區分不同的動漫人物。研究者在動漫臉的基礎上進行了不同比例的擴充,下圖表明,含有更多的上下文信息能夠實現更好的性能。
3. 將人臉識別的知識遷移至動漫臉識別是否有所增益?
第一個經過訓練的動漫臉模型的準確率是 91.0%,如下圖所示,加入人臉識別的數據後,性能提升至 92.4%,並且對注釋過程有所幫助。
如何根據任務需求搭配恰當類型的資料庫?
在AWS推出的白皮書《進入專用資料庫時代》中,介紹了8種資料庫類型:關係、鍵值、文檔、內存中、關係圖、時間序列、分類帳、領域寬列,並逐一分析了每種類型的優勢、挑戰與主要使用案例。
原標題:《追番必備,動漫角色也可以用人臉識別了》
閱讀原文