可學習的黑盒對抗攻擊:SOTA的攻擊成功率和查詢效率

2021-01-11 網易

  

  

  文章連結:https://papers.nips.cc/paper/2020/file/90599c8fdd2f6e7a03ad173e2f535751-Paper.pdf

  代碼連結:https://github.com/TrustworthyDL/LeBA

  Slides連結:https://jiancheng-yang.com/assets/materials/LeBA%20NeurIPS20%20long_slides.pdf

  TL;DR:在本文中,通過利用替代模型,我們提供了一種結合可遷移性和黑盒查詢的黑盒對抗攻擊方法。通過交替基於可遷移性的黑盒攻擊和基於查詢的黑盒攻擊,我們提出的強基線方法SimBA++顯著超越了此前的黑盒攻擊方法。

  此外,基於查詢的反饋結果,我們提出了一種高階梯度逼近的方法來高效更新替代模型,從而提出了可學習的黑盒攻擊LeBA,並進一步提升了SimBA++的攻擊性能。

  在ImageNet上的大量實驗驗證了我們方法的有效性,在保持接近100%黑盒攻擊成功率的基礎上,大幅提升了黑盒攻擊的查詢效率。我們的對抗攻擊實驗代碼開源在GitHub。

  1引言

  近來,深度學習技術在許多領域都展現了卓越的性能。但與此同時AI的安全性問題也廣受關注。研究發現,向輸入樣本添加少量不易察覺的噪聲就i可能騙過深度模型,使模型產生錯誤的輸出。如圖一所示,一張熊貓圖片添加少量噪聲後被深度模型誤識別為了長臂猿。

  圖一 對抗攻擊示例

  對抗攻擊問題可以用數學形式表達為:對於目標深度圖像模型

  , 給定輸入圖片, 對抗攻擊的目標是在 上添加少量噪聲來生成對抗樣本,使能夠騙過目標模型 ,

  其中

  表示 的真實標籤,

  表示 在

  norm下的最大擾動限制。本文主要專注於

  norm限制下的無目標攻擊問題。(有目標攻擊要求對抗樣本被識別為給定目標類)

  對抗攻擊問題可以分為白盒攻擊和黑盒攻擊。白盒攻擊指目標模型信息是完全可獲得的,而黑盒攻擊指目標模型是不可見的。基本的白盒攻擊方法利用梯度上升法,直接更新輸入樣本,使其向著目標模型決策邊界移動,直到變為對抗樣本,例如FGSM, PGD attack [6][7]等。

  對於黑盒攻擊問題,一些方法 [1]利用對抗樣本在模型之間的遷移性來攻擊目標黑盒模型。這種遷移性指的是利用一個模型的梯度生成的對抗樣本很可能也可以欺騙過另一個相似的模型。在另一種黑盒攻擊的設置中,攻擊者可以通過詢問目標模型的輸出反饋來生成對抗樣本。我們專注於這種可以通過詢問目標模型獲取輸出分數的黑盒攻擊問題。

  

  圖二 不同模型的梯度相似性

  現有的基於query的黑盒攻擊方法大都沒有利用到對抗樣本的遷移性質。然而如圖二所示,模型Inception-V3和ResNet-152生成的梯度顯著圖是很相似的,說明替代模型的梯度可以作為先驗提高黑盒攻擊的query效率。先前的一些工作利用替代模型梯度作為先驗減少梯度估計採樣空間 [2][4],取得了一些成效,但攻擊效率仍不夠高。他們在攻擊過程中固定替代模型,並且沒有考慮利用遷移攻擊直接提高攻擊效率。

  為了提高黑盒攻擊的效率,充分利用模型的遷移性,我們提出了可學習的黑盒攻擊方法(Learnable Black-Box Attack,LeBA),該方法達到了目前最優(SOTA)的黑盒攻擊成功率和查詢效率。首先,通過簡單結合基於遷移的方法(TIMI [1])和基於查詢(query)的方法 (SimBA [3]), 我們提出了一個強黑盒攻擊基線方法:SimBA++。

  出乎意料的是,儘管該方法非常簡單,但該方法已經超過了現有的黑盒攻擊方法。在SimBA++的基礎上,我們提出利用目標模型的反饋信息訓練替代模型,使替代模型的梯度構建高階梯度計算圖來逼近query反饋的估計梯度。ImageNet上的大量攻擊實驗證明在攻擊中學習替代模型不僅提高了攻擊效率與成功率,學習過的替代模型面對新的待攻擊樣本也有很好的適應性。

  2方法

  2.1 兩個強基線方法 SimBA+和SimBA++

  首先介紹我們的強基線方法SimBA+和SimBA++。原始的SimBA在像素空間均勻地採樣攻擊擾動,並根據目標模型反饋選擇是否更新擾動。但從圖二我們可以看出圖像的不同區域的攻擊重要性是不同的。考慮到這種一致性,我們使用替代模型的梯度作為擾動採樣指導,而不是在像素空間均勻地採樣。

  除此以外,考慮到圖像空間先驗,即圖片上的相鄰像素的擾動應該對模型有相似的影響,所以對抗樣本中的相鄰像素點傾向於有相同的擾動方向。這種空間先驗在TIMI [1], Bandit-td [8], P-RGF_D [2] 均有運用。結合這兩點先驗,採樣的擾動

  可表示為:

  ,其中q為根據替代模型梯度絕對值圖

  採樣的one-hot向量,

  為高斯卷積核。

  這個方法被稱為SimBA+,完整的算法流程如圖三所示。該基線方法只針對SimBA做了非常小的修改,但實驗表明SimBA+已經超過了現有的很多黑盒攻擊方法。當然,它的攻擊效率依然有大幅的提升空間。

  

  圖三 SimBA+ 算法流程

  我們觀察到,基於對抗遷移性的方法通常已經具有較強的攻擊成功率,而基於查詢的方法儘管可以做到高成功率卻往往需要較多的查詢。然而,基於對抗遷移性的方法和基於查詢的方法是獨立發展的,目前並沒有研究探索如何結合兩者的攻擊有效性。我們嘗試利用基於遷移的方法進一步提高攻擊算法的查詢效率, 其中基於遷移性的方法我們選用了帶動量的遷移不變性攻擊(TIMI),它通過在攻擊迭代中加入梯度動量和高斯模糊提高攻擊的遷移性,但它的攻擊成功率還是不夠高。基於SimBA+和TIMI, 我們進一步提出SimBA++, 在攻擊迭代過程中交替地運行基於遷移性的方法(TIMI)和基於query的方法 (SimBA+), 大大降低了攻擊的查詢次數。

  SimBA++顯著減輕了攻擊的冷啟動問題,即攻擊樣本需要較多query才能使對抗擾動量增加到能夠攻擊成功的閾值,而SimBA++由遷移性攻擊得到的初始擾動已經有一定擾動量,從而顯著減輕了這個問題。

  另一方面,周期性插入的基於遷移性的攻擊能夠幫助基於query的攻擊逃離局部最優點。SimBA++算法如圖四。值得一提的是,SimBA++只是簡單交替進行基於遷移和基於查詢的黑盒攻擊,但這一簡單的方法卻能顯著超越此前的黑盒攻擊方法。我們認為SimBA++可以作為未來的黑盒攻擊研究的基線方法。

  

  

  圖四 SimBA++算法流程和簡圖

  2.2 可學習的黑盒攻擊方法(Learnable Black-Box Attack,LeBA)

  基於遷移性的方法的攻擊效果很大程度上依賴於替代模型於目標模型的相似度,而理論上說來自目標模型的攻擊反饋洩露了目標模型的信息。基於這一觀察,我們提出了可學習的黑盒攻擊方法(Learnable Black-Box Attack,LeBA)。目前,鮮有使用查詢反饋來更新替代模型的研究。在SimBA++的基礎上,LeBA利用query反饋更新替代模型使之逼近目標模型。LeBA的完整算法如圖五:

  

  

  圖五 LeBA算法流程和簡圖

  為了利用有限的query反饋訓練替代模型,我們提出了一個高效的學習方法:高階梯度逼近(High-order gradient approximation,HOGA),直接更新替代模型,使其前傳和反傳的結果逼近目標模型。該方法和gradient penalty(GP)相似,通過構建替代模型反向傳播時的高階梯度計算圖,從而直接時查詢獲得的近似梯度逼近替代模型反向傳播的梯度。

  具體地,給定替代模型

  ,和元組

  ,其中 和

  分別為擾動前的樣本和對應目標模型輸出的概率值,

  和

  分別為添加擾動後的樣本和對應目標模型輸出的概率值。根據query反饋信息,根據一階泰勒展開可以得到:

  其中

  為目標模型在輸入樣本上的梯度。而替代模型 在輸入樣本上的梯度 可以直接由模型反向傳播得到:

  為了使替代模型梯度逼近目標模型,我們希望用 替代式(2)中的 ,即:

  事實上,我們並不需要替代模型與目標模型梯度完全一致,只需要替代模型梯度的方向與目標模型一致,而且替代模型可能與目標模型梯度的整體大小相差很大。因此,為了避免因為scale不一致的問題,破壞替代模型的良好梯度初始化,我們希望

  , 其中 稱為梯度補償因子. 對梯度補償因子 ,我們在攻擊中動態調整。根據query歷史,估計 的值為:

  初始化

  ,我們使用動量利用式(18)動態更新 值。綜上,我們設計了反傳損失(Backward Loss(BL)):

  其中MSE代表均方誤差,反傳損失中包含梯度 ,可以利用二階梯度優化訓練。

  除了反向梯度,我們考慮通過前向傳播信息輔助替代模型訓練。即希望替代模型前向傳播輸出的目標類概率接近目標模型前傳輸出的目標類概率。計算前傳損失(Forward Loss (FL))為:

  其中

  和 分別代表當前(對抗)樣本在目標模型與替代模型的目標類概率。在第四章的消融實驗中我們發現前傳損失與反傳損失都能幫助替代模型學習,但反傳損失貢獻更大,更加有效。結合反傳損失BL和前傳損失FL, LeBA算法的學習部分的總的損失函數為:

  其中

  為損失平衡因子。我們使用隨機梯度下降(SGD)優化器訓練替代模型,由於訓練需要批數據,我們將數據對(

  )保存至緩衝區, 然後將緩衝區中累計了一個batch的數據用於訓練。綜上,通過讓替代模型在前向傳播和反向傳播中都逼近黑盒模型,HOGA使LeBA即使使用有限的查詢反饋也能較快的更新替代模型。

  3實驗

  我們從ImageNet驗證集中選取了1000張圖片作為測試圖片集S1, 來進行攻擊實驗。選用的替代模型為ResNet_v2_152,最大擾動量被限制為

  , 最大query次數為10000次,這些設置均與文 [2]保持一致。ImageNet上的攻擊結果如圖六,可以看出相比其他方法,SimBA++和LeBA顯著降低了攻擊query次數,並實現了更高的成功率。儘管SimBA++已經顯著超越此前的最佳方法(包括最近ECCV『20的Square Attack [5]),LeBA仍能進一步提升SimBA++的攻擊性能。

  

  圖六 ImageNet上的黑盒攻擊實驗

  為了驗證替代模型學習算法的有效性,我們從額外ImageNet驗證集選取了1000圖片,稱為S2。我們先在S1上運行LeBA (training),然後固定替代模型權重,在S2上運行LeBA (test),攻擊結果如圖七所示。結果說明LeBA算法的確使替代模型學到了如何逼近目標模型,從而在面對新的圖片時也能保持好的攻擊效果。

  

  圖七 學習替代模型的有效性

  除此以外,我們三個防禦模型上也進行了黑盒攻擊實驗,結果同樣表明了SimBA++和LeBA算法的攻擊高效性,結果如圖八所示。

  

  圖八 防禦模型的黑盒攻擊實驗

  4總結

  利用可學習的替代模型將基於遷移性和基於query的攻擊方法相結合,我們提出了強基線方法SimBA++和可學習的黑盒攻擊(Learnable Black-Box Attack,LeBA),顯著地降低了攻擊的攻擊次數,提高了攻擊成功率,顯著超越了之前的方法。通過交替運行基於遷移的攻擊和基於query的攻擊,我們的方法克服了冷啟動和局部最優問題,顯著提高了攻擊效率。加上高階梯度逼近方法(HOGA)利用有限的query反饋更新替代模型,進一步提高了攻擊效率。LeBA的成功還說明攻擊者可能在不斷攻擊中自我進化,為黑盒攻擊的安全性問題帶來了新的挑戰。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 機器不學習:生成對抗網絡-NIPS 2017對抗樣本攻防賽冠軍算法分享
    對抗樣本是一類被惡意設計來攻擊機器學習模型的樣本。它們與真實樣本的區別幾乎無法用肉眼分辨,但是卻會導致模型進行錯誤的判斷。對抗樣本的存在會使得深度學習在安全敏感性領域的應用收到威脅,如何對其進行有效的防禦是重要的研究課題。我們提出了動量迭代快速符號化梯度法和高層引導去躁算法,分別應用於對抗樣本的攻擊和防禦,取得了NIPS 2017對抗樣本比賽的冠軍。
  • 清華朱軍團隊包攬三項冠軍 | NIPS 2017對抗樣本攻防競賽總結(附學習資料)
    白盒攻擊。攻擊者擁有模型的全部知識,包括模型的類型,模型結構,所有參數和可訓練權重的值。有探針的黑盒攻擊。攻擊者對模型所知道的並不多,但是可以探測或者查詢模型,比如使用一些輸入,觀察模型的輸出結果。無探針的黑盒攻擊。在沒有探針的黑盒攻擊中,攻擊者只擁有關於模型有限的信息或者根本沒有信息,同時不允許使用探測或者查詢的方法來構建對抗樣本。在這種情況下,攻擊者必須構建出能夠欺騙大多數機器學習模型的對抗樣本。再次,可以通過攻擊者給模型輸入對抗樣本的方法進行分類。
  • 對抗深度學習:魚(模型準確性)與熊掌(模型魯棒性)能否兼得?
    在對抗樣本的黑盒轉移攻擊方面,研究者們對於 18 個 ImageNet 的模型之間的每一對模型(共計 306 對)都進行了在 FGSM, I-FGSM, C&W 和 EAD-L1 攻擊下的黑盒轉移攻擊的實驗。這是迄今為止在黑盒轉移攻擊上最大規模的實驗。
  • 清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結
    首先,可以通過攻擊的目標或者期望進行分類。其次,可以通過攻擊者對模型的了解程度進行分類。白盒攻擊。攻擊者擁有模型的全部知識,包括模型的類型,模型結構,所有參數和可訓練權重的值。有探針的黑盒攻擊。攻擊者對模型所知道的並不多,但是可以探測或者查詢模型,比如使用一些輸入,觀察模型的輸出結果。
  • 深度| 機器學習對抗性攻擊報告,如何欺騙人工智慧?
    本文基於這個特定的場景,首先簡單介紹下白盒黑盒攻擊模型,然後結合專家們的研究成果,進一步介紹攻擊場景,對抗數據構造攻擊手段,以及攻擊效果。1.1 攻擊模型和其他攻擊不同,對抗性攻擊主要發生在構造對抗性數據的時候,之後該對抗性數據就如正常數據一樣輸入機器學習模型並得到欺騙的識別結果。
  • 學界 | 綜述論文:對抗攻擊的12種攻擊方法和15種防禦方法
    這類現象的深遠意義吸引了好多研究員在對抗攻擊和深度學習安全性領域的研究。自從有了 Szegedy 的發現,機器視覺領域中陸續出現了好幾個有意思的受對抗攻擊影響的結果。考慮到深度學習研究在計算機視覺的重要性和在真實生活中的潛在應用,這篇文章首次展示了在對抗攻擊領域的綜合考察。這篇文章是為了比機器視覺更廣泛的社區而寫的,假設了讀者只有基本的深度學習和圖像處理知識。不管怎樣,這裡也為感興趣的讀者討論了有重要貢獻的技術細節。圖 1:三種網絡的對抗樣本和原始樣本的對比,以及錯誤分類結果。
  • CVPR 2020 Oral|將SOTA行人再識別系統精度降至1.4%
    由於跨數據集的可遷移性在 re-ID 域中至關重要,因此作者還通過構建新穎的多級網絡體系結構進行半黑盒式攻擊,該體系結構將不同級別的特徵金字塔化,以提取對抗性擾動的一般和可遷移特徵。該體系可以通過使用可微分的採樣來控制待攻擊像素的數量。為了保證攻擊的不顯眼性,作者還提出了一種新的感知損失,以實現更好的視覺質量。
  • 將SOTA行人再識別系統精度降至1.4%,中大、暗物智能等向視覺模式...
    由於跨數據集的可遷移性在 re-ID 域中至關重要,因此作者還通過構建新穎的多級網絡體系結構進行半黑盒式攻擊,該體系結構將不同級別的特徵金字塔化,以提取對抗性擾動的一般和可遷移特徵。該體系可以通過使用可微分的採樣來控制待攻擊像素的數量。為了保證攻擊的不顯眼性,作者還提出了一種新的感知損失,以實現更好的視覺質量。
  • 專訪| 對抗樣本攻防戰,清華大學TSAIL團隊再獲CAAD攻防賽第一
    其中白盒攻擊是指攻擊者能完全訪問到被攻擊模型,也就是說攻擊者在知道模型架構和參數的情況下製造能欺騙它的對抗樣本。而黑盒攻擊則表明攻擊者只能觀察到被攻擊模型的輸入與輸出,例如通過 API 攻擊機器學習模型可以視為一個黑盒攻擊,因為攻擊者只能通過觀察輸入輸出對來構造對抗樣本。在 CAAD CTF 競賽中,選手所需要採用的是定向的通用攻擊。
  • 攻擊AI模型之FGSM算法
    概述在前面文章《對抗樣本的基本原理》中,我們介紹了生成對抗樣本的基本思路,其中大體思路分為白盒攻擊和黑盒攻擊,區別在於黑盒測試把模型當做黑盒,只能輸入樣本獲得預測結果,白盒在黑盒的基礎上還可以獲取模型的參數、梯度等信息。本文將介紹白盒攻擊中鼎鼎大名的FGSM(Fast Gradient Sign Method)算法。
  • 預防AI 被誤導,IBM 開源檢測模型及對抗攻擊工具箱
    IBM 研究團隊近日開源了檢測模型及對抗攻擊的工具箱 Adversarial Robustness Toolbox,來協助開發人員加強針對深度神經網路攻擊的防禦性,讓 AI 系統變得更加安全。不過,深度學習網絡若受到設計過的幹擾訊號影響,很容易產生錯誤的判斷,而這類型的幹擾是人類難以察覺的,有心人可能會利用這樣的弱點,誤導 AI 模型的判斷,用於不當的行為。
  • 模型攻擊:魯棒性聯邦學習研究的最新進展
    在一些應用場景下,這些後門攻擊導致的問題比針對全局模型直接對抗式破壞的方式更加嚴重。後門與對抗樣本。對抗性轉換利用模型對不同類的表示方式之間的界限,來產生被模型錯誤分類的輸入。相比之下,後門攻擊則故意改變這些邊界,使某些輸入被錯誤分類。像素模式後門攻擊嚴格來說比對抗性轉換要弱:攻擊者必須在訓練時對模型攻擊,而在測試時修改輸入。
  • 一文讀懂對抗機器學習Universal adversarial perturbations|CSDN...
    可以看出當X包含4000個樣本時,每個類平均4個樣本,攻擊成功率可以達到70%左右。而x包含500個樣本,平均每個類0.5個樣本,對抗成功率也有30%。作者提取n個樣本處的這種法向量,並對它們進行單位化,形成正規矩陣N:通過對N進行SVG分解,作者發現N的奇異值有一些特別大,而另外一些特別小:這種現象意味著,這些法向量其實可以存在冗餘的,換句話說這些法向量所在決策界存在著冗餘性和相關性。基於SVG分解的前100 100100個向量張成的對抗擾動,也能取得38%的對抗準確性。
  • 楊強:應對對抗攻擊、結合AutoML,是聯邦學習接下來的研究重點 |...
    楊強教授表示,我們建立的 AI 離不開人,保護人的隱私是當下AI 發展中特別重要的一點,這也是從政府到個人、企業以及社會的要求;另外,AI也要保護模型的安全,防止惡意或非惡意的攻擊;最後,AI 需要人類夥伴的理解,如何實現聯邦學習系統的透明性和可解釋性,也是研究者接下來需要重點研究的方向。
  • 對抗樣本研究新進展:區域攻擊比像素攻擊更有效(電子科技大學未來媒體研究中心ECCV'20系列論文介紹)
    雖然現有的一些深度學習模型已經表現出了超越人類的表現,但是隨著對抗機器學習(Adversarial machine learning)近幾年來逐漸進入人們的視野,各種場景下的對抗樣本(Adversarial example)的出現也引起人們對於AI智能的擔憂。
  • 楊強:應對對抗攻擊、結合AutoML,是聯邦學習接下來的研究重點|CCF...
    楊強教授表示,我們建立的 AI 離不開人,保護人的隱私是當下AI 發展中特別重要的一點,這也是從政府到個人、企業以及社會的要求;另外,AI也要保護模型的安全,防止惡意或非惡意的攻擊;最後,AI 需要人類夥伴的理解,如何實現聯邦學習系統的透明性和可解釋性,也是研究者接下來需要重點研究的方向。
  • 文本也有攻防戰:清華大學開源對抗樣本必讀論文列表
    因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。使用對抗樣本生成和防禦的自然語言處理研究可以基本概括為以下三種:1. 用未察覺的擾動迷惑模型,並評價模型在這種情況下的表現;2. 有意的改變深度神經網絡的輸出;3. 檢測深度神經網絡是否過於敏感或過於穩定,並尋找防禦攻擊的方法。
  • 特斯拉 Model X 遭遇黑客中繼攻擊,3分鐘可開走汽車
    這支部隊由政府的網絡黑客組成,負責發動進攻性網絡戰,打擊英國的敵對國家、恐怖組織和犯罪集團。 這支精兵隊伍來自英國政府通信總部、國防部、軍情六處、國防科技實驗室,集情報能力和國防能力於一身,大大提高了英國在網絡空間中對抗對手的能力。