本文為電子科技大學未來媒體研究中心的高聯麗等在國際計算機視覺領域頂級會議ECCV發表的題為"Patch-wise Attack for Fooling Deep Neural Network"一篇原創性對抗樣本研究論文。論文由電子科技大學高聯麗研究員、碩士研究生章琪瀧、宋井寬教授、申恆濤教授、北京航空航天大學劉祥龍副教授共同完成。ECCV是當前計算機視覺三大頂級會議之一(另外兩個是ICCV和CVPR),專注於收錄世界最前沿的原創性成果,為探索新的領域尤其是涉及計算機視覺的相關課題有著十分重要的參考價值。
雖然現有的一些深度學習模型已經表現出了超越人類的表現,但是隨著對抗機器學習(Adversarial machine learning)近幾年來逐漸進入人們的視野,各種場景下的對抗樣本(Adversarial example)的出現也引起人們對於AI智能的擔憂。通常,添加人類無法感知或者自然的圖形噪聲後,深度模型往往會預測出一個毫無相關的結果,這讓研究人員們不得不重新考慮模型的魯棒性以及它們的識別邏輯。
該成果通過分析不同模型的類激活映射(Class Activation Mapping)以及單步與多步迭代攻擊算法產生的噪聲斑點圖案(Patch map)特徵,結合最優化理論分析,借鑑Rosen梯度投影法提出了一種新穎的啟發式高效投影算法(Patch-wise iterative attack algorithm)。該方法再次提升了基於本地已知替代模型產生遷移性對抗樣本的能力,並且可以輕鬆與當前已公開的優秀的攻擊算法結合,產生更加強大的攻擊效果。
1.直接進行clip操作對多餘噪聲移除存在一定的估計損失。我們以簡單的點乘函數為例
如果我們在添加擾動後,進行直接裁剪就會得到如下結果
如上圖所示,我們測試了現有主流的比較知名的FGSM-based算法以及我們自己的算法PI-FGSM,可以發現在不同的目標模型上,增大步長往往能增加生成的對抗樣本的遷移能力。從定性角度進行分析,這是因為增大每步的步長就會使得每次更新的量級更大,而我們知道梯度是通過求極限來獲得的,也就是只能反應很小一部分區域的梯度信息,但我們放大了步長,就會在更新後並不是那麼準確,換句話說就是會有一定的欠擬合現象的發生,但是對於遷移性而言,他就變相地提高了泛化性。從定量角度進行分析,結合Goodfellow提出的線性假設,我們對產生的擾動大小進行分析,我們發現更大的迭代步長結合約束往往會在不改變無窮範數約束的情況下增大最終的擾動均值,這可能就是為什麼遷移性增強的原因。
3. 如何產生更加好的遷移性擾動分析
我們首先在這裡提出了一個patch map的概念,主要是用於分析最終的擾動,其表達式為
其中=就是最終產生的擾動,在這邊需要注意的是我們在右邊乘了256而非255,這是因為如果乘以255則達到的noise在最終顯示是白色(255),但是這樣最終的可視化結果對比度不夠高,所以為了解決這個問題,我們乘以256,因為在保存為"uint8"類型時,像素值為256的地方會被修改成0(最終顯示為黑色),從而獲得更好地展示效果。
這裡我們對比了I-FGSM和FGSM,我們可以發現遷移性更強的FGSM算法在Patch map的可視化結果上存在一定的聚集特點,比如可以明顯看到綠色或者黑色區域存在一定的聚集性。但是我們發現,FGSM雖然體現出了一定的聚集性,但是依舊存在稀疏的特點。
於是我們繼續分析,我們觀察到左邊的兩個模型的CAM可視化結果,發現高亮的區域(紅色)也是存在一定的聚集性,並且是完整的一塊區域並無零碎的特性。此外,卷積神經網絡通過卷積核來提取特徵,所以很多時候在提取特徵的時候往往是某一塊區域的特徵。而且,"Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations Against Defenses"這篇論文發現具有Regional Homogeneity性質的噪聲往往遷移到防禦模型上會更加容易。
在優化理論中,有一個算法叫做Rosen投影梯度法,其主要思想就是把更新方向中超過可行區域的那部分投影到可行區域內,從而滿足函數約束也能夠利用這部分超過的信息來更好地接近最優解。然後這個方法實現起來比較複雜,計算量也比較大。於是,為了使得算法效率更高,我們結合前面動機部分的觀察,提出了一個啟發式算法。其基本思想很簡單,既然我們的目的是為了產生具有聚集特性的擾動,那我們就可以把那些因為放大步長而導致超過閾值的噪聲投影到周圍區域!
當然這邊也基於一個假設,我們是認為那些更容易超過閾值的pixel會有更大的概率處在CAM可視化區域的高亮區域,那我們通過這個投影方法就自然擴大了在這些區域的擾動聚集性。相比於Regional Homogeneity(前面提到得論文),我們的regional擾動更加多樣,即不容易受限於某些特定的regional split方法。
算法流程如上圖,其中用橘色框框出的部分就是我們的啟發式投影算法實現。相比於I-FGSM,藍色框框出的部分就是我們與I-FGSM的區別即改進。
下圖是用普通模型作為替代模型(即對抗樣本通過這些替代模型進行訓練產生)再遷移到3個防禦模型的結果圖,可以發現相比於TI-FGSM,我們的方法可以最多提升10.5%,此外結合版本DTPI-FGSM(-FGSM+TI-FGSM+PI-FGSM)也能總體上比DTMI-FGSM強。這裡需要注意的是,我們的方法在攻擊防禦模型時,與MI-FGSM的結合效果一般,所以我們最終沒有把Momentum項結合到DTPI-FGSM中。
下圖的替代模型是4個普通模型,即集成模型攻擊。可以發現在這個條件下,我們的PI-FGSM也能超過最佳的MI-FGSM最多18.4%
最後是攻擊三個來自於Cihang Xie等人的論文"Feature Denoising for Improving Adversarial Robustness"中提出的目前防禦效果特別強的模型。我們在這裡發現了一個特別神奇的現象,如果用論文中提到的這些防禦模型作為替代模型去攻擊其餘防禦模型,之前提出來的方法如MI-FGSM,TI-FGSM以及-FGSM的效果甚至還不如I-FGSM。但是我們的PI-FGSM還是表現出彩。這也進一步證明了我們提出的PI-FGSM的效果。
高聯麗研究員目前已累計發表論文100餘篇(一作/通訊53篇),Google Scholar引用2229次。在國際頂級期刊和會議(如CCF A類會議、IEEE/ACM彙刊等)上發表論文共計50餘篇,如IEEE T-PAMI、IJCV、 IEEE T-IP、 IEEE T-MM、CVPR、ACM Multimedia、AAAI/IJCAI等。其中有ESI高被引論文4篇(一作/通信),並獲得國際會議ADC最佳學生論文獎(2S)。主持多項國家級和省部級項目(如主持國家自然科學基金委面上項目和青年項目各一項、軍委科技委項目一項、霍英東青年項目一項),主研國家科技部重點項目一項,自然科學面上項目一項等。曾擔任CCF-B會議的ISWC研討會的程序委員會主席,SCI期刊JCVIR特刊的客座編委,APWEB-WAIM會議研討會(workshop)主席(chair)等學術兼職,以及擔任CCF推薦的多個會議和期刊的審稿人。在2019年獲阿里巴巴「達摩院青橙獎」,並在2020獲IEEE TCMC學術新星獎(「Rising Star Award」)。