Occlusion-guided compact template learning for ensembledeep network-based pose-invariant face recognition
本文貢獻
本文的研究方向是基於視頻或者基於集合的人臉識別任務。首先,作者指出基於模板的學習當前主要關注點在於提高模板的辨識能力,忽略了模板的數量問題,當圖庫包含數百萬張圖像時,模板的大小對於大規模面部檢索變得非常重要。因此,本文聚焦與學習一個緊湊的浮點模板,其向量長度儘可能的小同時保留了辨識能力。因此,論文做出如下貢獻:
提出了一種由遮擋引導的神經網絡結構,用於從集合模型中生成的面部表示和遮擋掩模中學習緊湊的面部模板;從不同數量的可見面部區域中生成緊湊模板是可行的。本文方法
模板和遮擋掩模
本文作者提出的方法其實是受DPRFS方法的啟發,DPRFS算法如下圖所示。
在DPRFS中,如果可視化像素的數量小於閾值,整個patch就認為是遮擋,DPRFS的輸出是與遮擋向量所對應的聚合人臉表示向量。
由遮擋引導的緊湊模板學習
為了從面部表示中獲得緊湊模板,需要找到從面部表示到低維模板空間的映射,之前的研究也有圍繞這個低維映射開展的,但是作者所做的實驗表明,從這些研究提出的體系結構中生成的緊湊模板對於大頭部姿態變化下的面部識別來說並不是最優的。而本文方法從下面幾個方面來考慮對DPRFS的優化改進。
遮擋掩模的作用:沿用DPRFS中遮擋掩模的思路,不過作者分析了DPRFS的兩個挑戰,一是速度,二是難以匹配。為了從這兩個方面對DPRFS進行改進提升,作者提出將遮擋掩模與學習緊湊模板相結合的思路。模板學習中共現信息:為了學習用於目標識別的具有辨識度並且魯棒的特徵表達,在特徵之間進行空間共現的編碼是可以增加最終特徵表達辨識能力的方法。本文作者提出使用來自可見patches的人臉表示對特徵空間中的辨識共現信息進行編碼,其結構如下圖所示。
由遮擋掩模控制的局部到全局的映射:將局部表示映射到全局表示的目的在於使其可以與其他全局表示聚合在一起。幅值不變的損失函數:文章選擇近期表現比較好的A-Softmax損失函數來學習嵌入模板,這樣A-Softmax損失的決策邊界不再對幅值敏感。總之,A-Softmax損失函數強調來自相同類別,使它們具有小角度距離的模板,同時,不同類別具有大的角度距離。實驗
稍顯不足的在於,本文提出的方法只是在UHDB31和IJB-C兩個數據集上進行了評估,並不是太有說服力。作者給出的解釋是這兩個數據集包含了大量頭部姿態變化。
人臉識別中的模板大小
這個實驗是設計用於測試輸出不同尺度模板時本文方法的性能。這裡選擇了DPRFS、Arch.1(AS)、Arch.1(S)、Arch.2(AS)和Arch.3(AS)等五個其他算法進行對比,主要對比rank-1的識別性能,結果如下圖所示。
如上圖所示,當模板達到1KB(128維浮點)後,其性能飽和,因此OGCTL後面實驗的標準輸出設為0.5KB模板。
姿態和光照變化下的測試
這組實驗是評估姿態和光照變化下算法的性能。實驗方法是將UHDB31數據集分為I03,I01和I05三個子集劃分,每個劃分區域又被分為兩個子劃分C15和S6,在每個子劃分上分別報告不同姿態的rank-1識別率,如下圖所示。
從上圖可以看出,DPRFS和Arcface的性能相對來說更好一些,因此作者將DPRFS和Arcface的模板融合到了OGCTL中,生成了一個OGCTL(M)的方法,它的性能達到了最優。該實驗表明,OGCTL能夠利用其他集成網絡或者單個網絡的模板來生成用於無約束人臉識別任務的緊湊模板。
基於集合的人臉識別
第三個實驗是直接在IJB-C資料庫中評估所提出方法的性能,結果如下表所示。
如果只是看AUC的話,OGCTL(M)可以達到SOT的水平,但是從千分之一或者萬分之一誤識率來看,還是和Arcface有差距,畢竟特徵大小僅0.5KB。
消融實驗
最後,作者對OGCTL中每個提出的模塊進行了消融實驗和分析,討論了OGCTL所生成模板的獨特屬性。選擇驗證集中偏航角變化為90度的人臉圖像,結果如下表所示。
總體來看,這篇文章只是對DPRFS提出了一些改進的思路,灌水傾向還比較重,不過基於視頻或者基於集合的人臉識別任務應該還是比較重要的,有空的時候寫一篇這方面的綜述好了