出品 | AI科技大本營(ID:rgznai100)
安全人員曾為某車企自動駕駛系統做過一次安全測試,用物理對抗攻擊欺騙Autopilot車道檢測系統,導致汽車在Autopilot不發出警告的情況下駛入錯誤車道。假如這是一場真實的攻擊,後果不堪設想。
事實上,AI系統如果沒有足夠的「免疫力」,甚至會被一張圖片欺騙,如將停車標誌識別為通行,在醫療應用中將有問題的醫療影像識別為正常圖像等。
為幫助AI應用從源頭構建安全性,阿里安全圖靈實驗室整理歸納了學界針對AI模型提出的32種攻擊方法,以此為基礎搭建了一個自動化AI對抗攻擊平臺CAA,幫助檢測AI系統存在的安全漏洞。
經CAA「體檢」後,AI安全專家可針對被檢測AI的薄弱地帶提出安全建議,助力AI魯棒性(穩定性)檢測,以此增強AI系統的安全性。
近日,該研究成果《Composite Adversarial Attacks》被人工智慧頂會AAAI2021接收。AAAI2021從7911篇有效投稿中錄取了1692篇論文,錄取率約為21%。
自動化搜索技術合成多個攻擊算法的組合
阿里安全圖靈實驗室整理歸納了學界針對AI模型提出的32種攻擊方法,以此為基礎搭建了一個自動化對抗攻擊平臺CAA。
橫向對比業界的其他工具箱,圖靈實驗室的自動化對抗攻擊平臺首度實現對抗攻擊的「工具化」。它讓攻擊者在沒有任何專業領域知識的情況下,也可以進行AI模型的對抗攻擊和魯棒性測試。
除此之外,阿里對抗攻擊平臺通過自動化搜索技術來合成多個攻擊算法的組合,該特性提升了現有模型攻擊方法的性能和效率。
該論文通過實驗表明,CAA超越了最新提出的攻擊方法,是威脅當前AI系統安全的最強攻擊。
對抗攻擊是當下AI系統的新威脅,它使得很多在現實世界中應用的AI系統存在的安全漏洞極大地暴露了出來,例如特斯拉汽車自動駕駛Autopilot的車道檢測系統被來國內安全研究人員通過物理對抗攻擊所欺騙,導致汽車在Autopilot在不發出警告的情況下駛入錯誤車道。
除了自動駕駛,在每天信息爆炸增長的網際網路上,一些暴力色情的信息也需要AI模型去自動過濾,但是經過對抗攻擊處理的信息可以輕易的繞過識別模型,影響清朗的網絡空間。
近年來,學界提出了多種實現對抗攻擊的方法,他們都被集成在各大工具箱中。如圖1所示,研究者通常利用這些工具箱實現的攻擊算法,在原圖上添加肉眼不可感知的對抗擾動,從而欺騙目標模型使得一張色情圖片被錯誤判斷為正常。
圖1:通過對抗攻擊繞過色情識別系統的簡單圖例
圖2:左圖為合成對抗攻擊示意圖,右圖是CAA和現有方法的對比
算法自動選擇最優攻擊組合和參數
在不知道目標模型的防禦細節的情況下,研究者很難根據經驗選擇到對當前模型最優的攻擊算法。
例如,對抗訓練的模型對PGD,FGSM等梯度優化攻擊很魯棒,但是對圖片的Spatial transform很脆弱,反之經過圖像平移旋轉數據增強的模型對Spatial transform魯棒,而PGD,FGSM則很容易攻擊成功。
這個現象說明利用現有工具箱實現的攻擊方法去盲目嘗試和微調是低效的,因此,為了更精準的檢查目標模型的漏洞,獲得全面的魯棒性報告,通常需要合成多個對抗攻擊。
其次,在實際中,完成對抗攻擊有很高的門檻,研究者需要從多個工具箱集成的多個攻擊算法不斷的嘗試,調整參數,這一步要求攻擊者具備一定的領域知識和經驗,並且具備一定規模的計算資源。
以事前「攻擊演練」檢測AI系統的安全性,是當前提升安全AI的有效方法,也是阿里提出新一代安全架構,從源頭構建安全的核心理念。
但如果不知道目標模型的防禦細節,研究者通常很難根據經驗選擇到對當前模型最優的攻擊算法,從而難以驗證「體檢」的真實效果。
為了解決這個問題,阿里安全圖靈實驗室的專家首次提出將自動化技術引入到對抗攻擊中,使得所有攻擊對抗細節和參數作為一個黑箱,而研究者只需要提供目標模型和數據,算法就會自動選擇最優的攻擊組合和參數。
基於以上分析,該論文提出了兩點改進。
首先文章探究了如何更高效的合成多個對抗算法,如圖2左所示,通過對比單攻擊、多攻擊並行合成、多攻擊串行合成三種方式,文章發現多攻擊串行進行攻擊合成的形式更加通用且具備更強的攻擊效果。
通過引入恆等變換操作,即不進行任何處理的IdentityAttack、單攻擊、多攻擊並行合成可以看作多攻擊串行合成的特例,因此文章採用後者作為多攻擊合成的方式。在圖2左的例子中,相比前兩者,CAA的攻擊合成機制可以造成目標模型更大的分類錯誤率。
其次,阿里安全圖靈實驗室首次研究了在自動化技術輔助下的對抗攻擊,CAA實現了32種常用的攻擊算法作為攻擊的候選池,並且使用搜索算法從候選池中選擇最優的組合和每個算法的超參數,而目標函數則是最小化目標模型的分類準確率和計算複雜度(在攻擊中量化為需要後向計算目標模型梯度的次數)。
文章對比分析了三種在自動機器學習中常用的技術:貝葉斯優化、強化學習、遺傳算法。
在該問題下,基於全局優化的遺傳算法取得了更好的效果和收斂速度,論文最終採用NSGA-II非支配排序遺傳算法進行攻擊算法和超參數的搜索。
在實驗中,研究人員把攻擊場景分為兩種:擾動受限和擾動不受限,如圖3左上所示,CAA在linf攻擊設定下實現了7種攻擊進行搜索,而在l2攻擊和擾動不受限攻擊設定下分別實現了7種和20種。圖3展示了這兩種場景下的對抗樣本。
通過在3個數據集(Cifar10,ImageNet,Bird&Bicycle)和11種不同防禦上的測試,實驗表明CAA在擾動受限和擾動不受限兩種攻擊模式下均超越了現有模型,尤其是在擾動不受限攻擊上,幾乎使得現有防禦模型的分類準確率降低至0%。
圖3:左上為本文實現的32種基礎攻擊算法,
左下是不同攻擊策略生成的對抗樣本示例,右圖為擾動不受限對抗樣本示例
對於暴恐、色情識別等安全防控AI,模型可靠性和魯棒性顯得尤為重要,而阿里安全圖靈實驗室提出的自動化對抗攻擊平臺現已經在內部場景進行使用,對業務場景的識別模型進行更加可信的魯棒性評估。
同時,算法開發人員可以根據魯棒性評估結果檢查模型的安全漏洞。以AI體檢AI,以AI訓練AI。
阿里安全圖靈實驗室算法專家蕭瘋認為,對識別黃、賭、毒等不良內容的安全檢測AI而言,模型可靠性和魯棒性顯得尤為重要。
目前,在鑑黃算法上,圖靈實驗室正在藉此技術方法提升曝光、模糊、低畫質等極端分類場景下的模型識別能力,並且逐漸提升模型在極端場景下的魯棒性,為業界提供更安全可靠的AI算法能力。
論文地址:
https://arxiv.org/pdf/2012.05434.pdf