論文標題:Explainable Face Recognition
論文連結:https://arxiv.org/abs/2008.00916
論文代碼:https://github.com/stresearch/xfr
論文發表:ECCV2020
合作單位:劍橋Visym實驗室
眾所周知,理解和解釋深度學習模型是一個比較有挑戰的事情,因為大規模訓練的深度卷積網絡被認為是黑盒系統,也許我們可以對訓練的數據集和損失函數有一定的了解,但是對深度模型的學習過程以及生成的預測的理解確實很有限。自然深度學習中的很重要領域人臉識別的可解釋性也是一個很大的挑戰,當前在這方面探索的方法有網絡注意力、網絡解剖或綜合語言解釋,然而,缺乏網絡比較和量化可解釋結果的真相,尤其是在人臉識別中近親或近親之間的差異很微妙,解釋並不明顯。在該論文中作者定義了一種新的評估方案,稱為「修復遊戲」,其任務是生成一個網絡注意力圖,最好地解釋圖像中的哪些區域與匹配的圖像匹配,這為量化哪些圖像區域有助於人臉匹配提供了基本事實。
論文貢獻該論文的貢獻可以歸結為如下三點,分別如下所示
XFRbaseline:作者基於五種網絡注意力算法為XFR(人臉識別的可解釋性)提供了baseline,並在三個用於人臉識別的公開深度卷積網絡上進行了評估:LightCNN、VGGPFACE2和SNET-101。
圖像修復遊戲協議和數據集:作者提供標準化評估協議和數據集,用於細粒度的人臉識別可視化。這為客觀地比較XFR系統提供了一個量化指標。
XFR評估:作者首次對圖像修復協議的baseline算法進行了全面的評估,從而得出關於這些方法在真實圖像上解釋的實用性的結論。
模型介紹人臉識別的可解釋性(XFR)
該論文的創新點可能是從Facenet中得到一定的靈感。XFR的目的是解釋人臉圖像之間的匹配的內在關係。如下圖所示,給定一個三元組(probe,mate,nonmate),XFR算法的任務是生成一個顯著圖(最大化probe圖像與mate圖像相似性和最小化probe圖像與nonmate圖像相似性)。先前的工作表明,面部之間的成對相似性主要受眼周區域和鼻子的影響。眼周區域和鼻子幾乎總是用於面部分類,但這對於解釋更精細的辨別水平沒有太大幫助。作者的目標是突出probe中與假定mate更相似,同時與nonmate不太相似的區域。這個三元組(probe,mate,nonmate)為面部區域的相對重要性提供了一個比面部類別激活圖更深層次的解釋。
激勵反向傳播(EBP)
激勵反向傳播(EBP)將網絡注意力建模為一個概率贏家通吃的傳播過程。EBP計算穿越到卷積網絡中給定節點的概率,概率是由正權重和非負權重激活得來。EBP的輸出是一個顯著圖,它定位了圖像中對於給定類別的區域。EBP的原始公式考慮了交叉熵損失,以優化訓練集中的最大分類。在該論文中在作者提出了一個新的公式,給定一個mate(m)、nonmate(n)和probe(p)的三個編碼向量,其中損失函數如下所示:
這裡使用編碼向量之間的歐幾裡德距離的平方來捕獲相似性,使得當從probe到mate的距離小(相似性高)並且從probe到nonmate的距離大(相似性低)時,損失最小化,其中公式中具有餘量項
子樹EBP
在該論文中作者介紹了子樹EBP算法,這是一種新的白盒的XFR方法。給定一個三元組(probe,mate,nonmate)圖像,計算損失函數
其中權重由損失
DISE
基於密度的解釋輸入採樣(DISE)是該文介紹的第二種新的白盒XFR方法。DISE是隨機輸入抽樣的一種擴展,使用先驗密度來輔助抽樣。先前的工作已經構建了與特定類別相關聯的顯著圖,方法是通過掩模來隨機擾動輸入圖像,然後使用黑盒系統對其進行評估。但是這些方法生成的掩模會均勻地遮擋輸入圖像,像這種採樣過程是低效的。在該論文中作者通過引入先驗分布來指導採樣並進行改進,輸入採樣的先驗密度是從具有三重損失的白盒EBP得到的,如下圖所示顯示了論文中該方法的概述,該方法利用灰色(即屏蔽像素)來遮擋probe圖像中的小區域,利用EBP得到的先驗密度並進行採樣,並為給定(probe,mate,nonmate)計算三重損失的數值梯度,可以發現具有大數值梯度的掩模在累積顯著性圖中權重更大。
非均勻先驗掩模
先前對面部識別的辨別特徵的研究表明,面部最重要的區域通常位於眼睛和鼻子內和周圍。如上圖所示使用VGG-16網絡作為白盒面部分類器為泰勒·斯威夫特的probe圖像計算的該顯著圖的示例。使用這個顯著圖作為生成隨機掩模的先驗概率,允許對最顯著的空間進行採樣比在整個圖像上假設均勻概率更有效地影響損失的掩模,這可以進一步有效地消除了掩模不重要的背景元素的可能性。
Numerical gradient
給定已經用從非均勻先驗採樣的稀疏掩模的probe圖像,可以計算三重損失的數值梯度。設
數值梯度是真實損失梯度的近似值,該損失梯度是通過用像素掩模來擾動輸入,並計算三重損失的相應變化。當probe和nonmate之間相似性減少時,數值梯度會變大,顯著性特徵會得到累積。
實驗結果在該論文中,論文的目標是突出給定一個人臉圖像相對於一個相似身份進行匹配的區域,作者把定量評估的整體策略稱為圖像修復遊戲。
圖像修復遊戲
圖像修復遊戲評估的概述如下圖所示。圖像修復遊戲使用四個(或更多)圖像進行每次評估:probe圖像、mate圖像、修復的probe圖像和修復的nonmate圖像,其中面部固定區域(如眼睛、鼻子或嘴)的probe會有細微的不同。類似地,修復後的nonmate或mate形象有細微的不同。修復的probe和修復的nonmate被約束為相同的新身份。對於每個三元組,XFR算法的任務是估計每個像素屬於一個區域的可能性,該區域對於將probe匹配到mate身份是有區別的,這些有區別的像素估計最終形成了顯著圖。通過應用閾值將每個像素分類,這就形成了二進位顯著圖。
人臉識別的修複數據集
構建圖像修複數據集的一個關鍵挑戰是要確修復後的圖片與原圖片表示的是不同的身份。大多數修復的圖像在相似性上與特定網絡的原始配對身份沒有足夠的差異。實驗中需要能夠使用最近匹配協議和驗證協議來區分這些身份,以便將目標網絡的驗證匹配閾值校準在一個較低誤報率中。每個三元組必須滿足以下標準,才能包含在給定網絡的數據集中:原始probe需要更類似於原始配對身份,並且在校準驗證閾值處被正確驗證為原始配對身份。如上所述為每個目標網絡過濾修複數據集,產生特定於該目標網絡的數據集。在該論文的實驗中,對於基於ResNet-101的網絡,最終過濾的數據集包括84個身份和543個三元組,這是從95個身份和3648個三元組中過濾下來。性能較低的網絡通常比性能較高的網絡具有更少的滿足選擇要求的三元組,因為它們不能辨別修復probe圖像中的許多細微變化。
評估指標
XFR算法估計每一個像素屬於一個區域的可能性,該區域對於將probe圖像與mate的身份相匹配。這些有區別的像素估計形成顯著圖,其中最亮的像素被估計最有可能屬於有區別的區域。下圖顯示出了兩個閾值處的示例和顯著性預測,其中顯著性預測作為二進位掩模在不同的閾值處展示出來。在該論文中作者使用經典的ROC曲線來評估圖像修復遊戲。如下圖所示,通過掃描像素顯著性估計的閾值,並通過使用修復區域作為正/顯著區域和未修復區域作為負/不顯著區域來計算真實接受率和誤報率,可以生成ROC曲線。另外在該論文中,作者使用平均非狀態分類率來代替顯著性分類的真陽性率。通過掃描顯著性閾值被分類為顯著的像素被來自「修復探針」的像素替換,該「修復探針」不被提供給顯著性算法。然後,這些「混合探針」可以讓被測試的網絡分類為原始身份或修復的非原始身份。高性能的XFR算法將正確地為修補區域分配更多的顯著性,這將改變混合探針的身份,而不會增加像素顯著性分類的誤報率。假陽性率是根據所有三元組的顯著像素分類計算的,使用混合探針的基本真值掩碼。平均非移動分類率由每個組中的三元組數量加權過濾數據集的面部區域,以避免子協議的偏差。度量的輸出曲線示例如下圖所示。
實驗數據
作者使用三個目標網絡在修複數據集上運行修復遊戲評估協議分別是LightCNN,VGGFace2。
ResNet-50和一個定製訓練的ResNet-101。評估結果如下表所示:顯示了網絡和XFR算法的每種組合,整個協議和三個子協議(僅眼睛、鼻子和眉毛)的兩種誤報率。顯示了網絡和XFR算法的每種組合,整個協議和三個子協議(僅眼睛、鼻子和眉毛)的兩種誤報率。論文中的補充材料中的附加結果顯示了各個面部區域的結果。總的來說,結果顯示對於更深的網絡(ResNet-101,ResNet-50),性能最好的XFR算法是DISE。然而,對於較淺的網絡,表現最好的算法是子樹EBP算法。這兩種新的方法都遠遠超過了最先進的方法。所以可知DISE的表現優於子樹EBP,因為子樹EBP不能定位圖像區域比底層網絡更好地代表面部。考慮補充材料中的眉毛子協議結果,這表明子樹EBP不能獨立於眼睛表示眉毛。DISE可以獨立於底層目標網絡掩蔽圖像區域,並正確定位眉毛效果。
論文PDF下載
上述論文已打包上,在CVer公眾號後臺回覆:人臉識別解釋性,即可下載原論文PDF,推薦學習!
下載2:CVPR / ECCV 2020開原始碼
後臺回覆:CVPR2020,即可下載代碼開源的論文
後臺回覆:ECCV2020,即可下載代碼開源的論文
重磅!CVer-論文寫作與投稿交流群成立
掃碼添加CVer助手,可申請加入CVer-論文寫作與投稿 微信交流群,目前已滿2400+人,旨在交流頂會(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、頂刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等寫作與投稿事宜。
同時也可申請加入CVer大群和細分方向技術群,細分方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。
一定要備註:研究方向+地點+學校/公司+暱稱(如論文寫作+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群
▲長按加微信群
▲長按關注CVer公眾號
整理不易,請給CVer點讚和在看!