文章連結:https://papers.nips.cc/paper/2020/file/90599c8fdd2f6e7a03ad173e2f535751-Paper.pdf
代碼連結:https://github.com/TrustworthyDL/LeBA
Slides連結:https://jiancheng-yang.com/assets/materials/LeBA%20NeurIPS20%20long_slides.pdf
TL;DR:在本文中,通過利用替代模型,我們提供了一種結合可遷移性和黑盒查詢的黑盒對抗攻擊方法。通過交替基於可遷移性的黑盒攻擊和基於查詢的黑盒攻擊,我們提出的強基線方法SimBA++顯著超越了此前的黑盒攻擊方法。
此外,基於查詢的反饋結果,我們提出了一種高階梯度逼近的方法來高效更新替代模型,從而提出了可學習的黑盒攻擊LeBA,並進一步提升了SimBA++的攻擊性能。
在ImageNet上的大量實驗驗證了我們方法的有效性,在保持接近100%黑盒攻擊成功率的基礎上,大幅提升了黑盒攻擊的查詢效率。我們的對抗攻擊實驗代碼開源在GitHub。
1引言
近來,深度學習技術在許多領域都展現了卓越的性能。但與此同時AI的安全性問題也廣受關注。研究發現,向輸入樣本添加少量不易察覺的噪聲就i可能騙過深度模型,使模型產生錯誤的輸出。如圖一所示,一張熊貓圖片添加少量噪聲後被深度模型誤識別為了長臂猿。
圖一 對抗攻擊示例
對抗攻擊問題可以用數學形式表達為:對於目標深度圖像模型
, 給定輸入圖片, 對抗攻擊的目標是在 上添加少量噪聲來生成對抗樣本,使能夠騙過目標模型 ,
其中
表示 的真實標籤,
表示 在
norm下的最大擾動限制。本文主要專注於
norm限制下的無目標攻擊問題。(有目標攻擊要求對抗樣本被識別為給定目標類)
對抗攻擊問題可以分為白盒攻擊和黑盒攻擊。白盒攻擊指目標模型信息是完全可獲得的,而黑盒攻擊指目標模型是不可見的。基本的白盒攻擊方法利用梯度上升法,直接更新輸入樣本,使其向著目標模型決策邊界移動,直到變為對抗樣本,例如FGSM, PGD attack [6][7]等。
對於黑盒攻擊問題,一些方法 [1]利用對抗樣本在模型之間的遷移性來攻擊目標黑盒模型。這種遷移性指的是利用一個模型的梯度生成的對抗樣本很可能也可以欺騙過另一個相似的模型。在另一種黑盒攻擊的設置中,攻擊者可以通過詢問目標模型的輸出反饋來生成對抗樣本。我們專注於這種可以通過詢問目標模型獲取輸出分數的黑盒攻擊問題。
圖二 不同模型的梯度相似性
現有的基於query的黑盒攻擊方法大都沒有利用到對抗樣本的遷移性質。然而如圖二所示,模型Inception-V3和ResNet-152生成的梯度顯著圖是很相似的,說明替代模型的梯度可以作為先驗提高黑盒攻擊的query效率。先前的一些工作利用替代模型梯度作為先驗減少梯度估計採樣空間 [2][4],取得了一些成效,但攻擊效率仍不夠高。他們在攻擊過程中固定替代模型,並且沒有考慮利用遷移攻擊直接提高攻擊效率。
為了提高黑盒攻擊的效率,充分利用模型的遷移性,我們提出了可學習的黑盒攻擊方法(Learnable Black-Box Attack,LeBA),該方法達到了目前最優(SOTA)的黑盒攻擊成功率和查詢效率。首先,通過簡單結合基於遷移的方法(TIMI [1])和基於查詢(query)的方法 (SimBA [3]), 我們提出了一個強黑盒攻擊基線方法:SimBA++。
出乎意料的是,儘管該方法非常簡單,但該方法已經超過了現有的黑盒攻擊方法。在SimBA++的基礎上,我們提出利用目標模型的反饋信息訓練替代模型,使替代模型的梯度構建高階梯度計算圖來逼近query反饋的估計梯度。ImageNet上的大量攻擊實驗證明在攻擊中學習替代模型不僅提高了攻擊效率與成功率,學習過的替代模型面對新的待攻擊樣本也有很好的適應性。
2方法
2.1 兩個強基線方法 SimBA+和SimBA++
首先介紹我們的強基線方法SimBA+和SimBA++。原始的SimBA在像素空間均勻地採樣攻擊擾動,並根據目標模型反饋選擇是否更新擾動。但從圖二我們可以看出圖像的不同區域的攻擊重要性是不同的。考慮到這種一致性,我們使用替代模型的梯度作為擾動採樣指導,而不是在像素空間均勻地採樣。
除此以外,考慮到圖像空間先驗,即圖片上的相鄰像素的擾動應該對模型有相似的影響,所以對抗樣本中的相鄰像素點傾向於有相同的擾動方向。這種空間先驗在TIMI [1], Bandit-td [8], P-RGF_D [2] 均有運用。結合這兩點先驗,採樣的擾動
可表示為:
,其中q為根據替代模型梯度絕對值圖
採樣的one-hot向量,
為高斯卷積核。
這個方法被稱為SimBA+,完整的算法流程如圖三所示。該基線方法只針對SimBA做了非常小的修改,但實驗表明SimBA+已經超過了現有的很多黑盒攻擊方法。當然,它的攻擊效率依然有大幅的提升空間。
圖三 SimBA+ 算法流程
我們觀察到,基於對抗遷移性的方法通常已經具有較強的攻擊成功率,而基於查詢的方法儘管可以做到高成功率卻往往需要較多的查詢。然而,基於對抗遷移性的方法和基於查詢的方法是獨立發展的,目前並沒有研究探索如何結合兩者的攻擊有效性。我們嘗試利用基於遷移的方法進一步提高攻擊算法的查詢效率, 其中基於遷移性的方法我們選用了帶動量的遷移不變性攻擊(TIMI),它通過在攻擊迭代中加入梯度動量和高斯模糊提高攻擊的遷移性,但它的攻擊成功率還是不夠高。基於SimBA+和TIMI, 我們進一步提出SimBA++, 在攻擊迭代過程中交替地運行基於遷移性的方法(TIMI)和基於query的方法 (SimBA+), 大大降低了攻擊的查詢次數。
SimBA++顯著減輕了攻擊的冷啟動問題,即攻擊樣本需要較多query才能使對抗擾動量增加到能夠攻擊成功的閾值,而SimBA++由遷移性攻擊得到的初始擾動已經有一定擾動量,從而顯著減輕了這個問題。
另一方面,周期性插入的基於遷移性的攻擊能夠幫助基於query的攻擊逃離局部最優點。SimBA++算法如圖四。值得一提的是,SimBA++只是簡單交替進行基於遷移和基於查詢的黑盒攻擊,但這一簡單的方法卻能顯著超越此前的黑盒攻擊方法。我們認為SimBA++可以作為未來的黑盒攻擊研究的基線方法。
圖四 SimBA++算法流程和簡圖
2.2 可學習的黑盒攻擊方法(Learnable Black-Box Attack,LeBA)
基於遷移性的方法的攻擊效果很大程度上依賴於替代模型於目標模型的相似度,而理論上說來自目標模型的攻擊反饋洩露了目標模型的信息。基於這一觀察,我們提出了可學習的黑盒攻擊方法(Learnable Black-Box Attack,LeBA)。目前,鮮有使用查詢反饋來更新替代模型的研究。在SimBA++的基礎上,LeBA利用query反饋更新替代模型使之逼近目標模型。LeBA的完整算法如圖五:
圖五 LeBA算法流程和簡圖
為了利用有限的query反饋訓練替代模型,我們提出了一個高效的學習方法:高階梯度逼近(High-order gradient approximation,HOGA),直接更新替代模型,使其前傳和反傳的結果逼近目標模型。該方法和gradient penalty(GP)相似,通過構建替代模型反向傳播時的高階梯度計算圖,從而直接時查詢獲得的近似梯度逼近替代模型反向傳播的梯度。
具體地,給定替代模型
,和元組
,其中 和
分別為擾動前的樣本和對應目標模型輸出的概率值,
和
分別為添加擾動後的樣本和對應目標模型輸出的概率值。根據query反饋信息,根據一階泰勒展開可以得到:
其中
為目標模型在輸入樣本上的梯度。而替代模型 在輸入樣本上的梯度 可以直接由模型反向傳播得到:
為了使替代模型梯度逼近目標模型,我們希望用 替代式(2)中的 ,即:
事實上,我們並不需要替代模型與目標模型梯度完全一致,只需要替代模型梯度的方向與目標模型一致,而且替代模型可能與目標模型梯度的整體大小相差很大。因此,為了避免因為scale不一致的問題,破壞替代模型的良好梯度初始化,我們希望
, 其中 稱為梯度補償因子. 對梯度補償因子 ,我們在攻擊中動態調整。根據query歷史,估計 的值為:
初始化
,我們使用動量利用式(18)動態更新 值。綜上,我們設計了反傳損失(Backward Loss(BL)):
其中MSE代表均方誤差,反傳損失中包含梯度 ,可以利用二階梯度優化訓練。
除了反向梯度,我們考慮通過前向傳播信息輔助替代模型訓練。即希望替代模型前向傳播輸出的目標類概率接近目標模型前傳輸出的目標類概率。計算前傳損失(Forward Loss (FL))為:
其中
和 分別代表當前(對抗)樣本在目標模型與替代模型的目標類概率。在第四章的消融實驗中我們發現前傳損失與反傳損失都能幫助替代模型學習,但反傳損失貢獻更大,更加有效。結合反傳損失BL和前傳損失FL, LeBA算法的學習部分的總的損失函數為:
其中
為損失平衡因子。我們使用隨機梯度下降(SGD)優化器訓練替代模型,由於訓練需要批數據,我們將數據對(
)保存至緩衝區, 然後將緩衝區中累計了一個batch的數據用於訓練。綜上,通過讓替代模型在前向傳播和反向傳播中都逼近黑盒模型,HOGA使LeBA即使使用有限的查詢反饋也能較快的更新替代模型。
3實驗
我們從ImageNet驗證集中選取了1000張圖片作為測試圖片集S1, 來進行攻擊實驗。選用的替代模型為ResNet_v2_152,最大擾動量被限制為
, 最大query次數為10000次,這些設置均與文 [2]保持一致。ImageNet上的攻擊結果如圖六,可以看出相比其他方法,SimBA++和LeBA顯著降低了攻擊query次數,並實現了更高的成功率。儘管SimBA++已經顯著超越此前的最佳方法(包括最近ECCV『20的Square Attack [5]),LeBA仍能進一步提升SimBA++的攻擊性能。
圖六 ImageNet上的黑盒攻擊實驗
為了驗證替代模型學習算法的有效性,我們從額外ImageNet驗證集選取了1000圖片,稱為S2。我們先在S1上運行LeBA (training),然後固定替代模型權重,在S2上運行LeBA (test),攻擊結果如圖七所示。結果說明LeBA算法的確使替代模型學到了如何逼近目標模型,從而在面對新的圖片時也能保持好的攻擊效果。
圖七 學習替代模型的有效性
除此以外,我們三個防禦模型上也進行了黑盒攻擊實驗,結果同樣表明了SimBA++和LeBA算法的攻擊高效性,結果如圖八所示。
圖八 防禦模型的黑盒攻擊實驗
4總結
利用可學習的替代模型將基於遷移性和基於query的攻擊方法相結合,我們提出了強基線方法SimBA++和可學習的黑盒攻擊(Learnable Black-Box Attack,LeBA),顯著地降低了攻擊的攻擊次數,提高了攻擊成功率,顯著超越了之前的方法。通過交替運行基於遷移的攻擊和基於query的攻擊,我們的方法克服了冷啟動和局部最優問題,顯著提高了攻擊效率。加上高階梯度逼近方法(HOGA)利用有限的query反饋更新替代模型,進一步提高了攻擊效率。LeBA的成功還說明攻擊者可能在不斷攻擊中自我進化,為黑盒攻擊的安全性問題帶來了新的挑戰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.