專訪| 對抗樣本攻防戰,清華大學TSAIL團隊再獲CAAD攻防賽第一

2021-01-10 機器之心Pro

機器之心原創

作者:思源

最近,在全球安全領域的殿堂級盛會 DEF CON 2018 上,GeekPwn 拉斯維加斯站舉行了 CAAD CTF 邀請賽,六支由國內外頂級 AI 學者與研究院組成的隊伍共同探討以對抗訓練為攻防手段的 CTF。TSAIL 團隊的龐天宇、杜超作為代表獲得該項比賽的冠軍,參加比賽的骨幹成員還包括董胤蓬、韋星星等,TSAIL 團隊來自於清華大學人工智慧研究院,主要研究領域為機器學習。

同樣在去年,該團隊在 NIPS 2017 AI 對抗性攻防競賽的三項比賽任務中(有/無特定目標攻擊;攻擊檢測),全部獲得冠軍,戰勝了包括斯坦福、約翰霍普金斯大學等世界著名高校在內的 100 多支代表隊,在人工智慧模型的魯棒性和安全性應用方面邁出了重要一步。

在今年的 CADD CTF 攻防賽中,選手需要根據隨機匹配戰隊的指定圖像,對其他戰隊發動「定向對抗樣本」攻擊,同時還要防禦來自其他團隊的「對抗樣本」。這種對抗攻擊是完全黑盒的,各戰隊無法獲取任何關於對方模型的信息,例如損失函數、模型架構、輸入-輸出樣本對等等。

對抗攻擊

對抗樣本是指攻擊者通過向真實樣本中添加人眼不可見的噪聲,導致深度學習模型發生預測錯誤的樣本,如下圖所示給定一張熊貓的圖像,攻擊方給圖片添加了微小的噪聲擾亂,儘管人眼是很難區分的,但是模型卻以非常高的概率將其誤分類為長臂猿。隨著機器學習的大規模應用,這類誤差對於系統安全顯得尤為重要,CAAD 競賽正是希望能探討如何加強系統對於這類對抗樣本的魯棒性。

上圖為 Ian Goodfellow 在 14 年展示的對抗樣本,這種對抗樣本是通過一種名為 FGSM 的算法得出。

一般而言,對抗攻擊可以分為白盒攻擊、黑盒攻擊、定向攻擊,以及通用攻擊。其中白盒攻擊是指攻擊者能完全訪問到被攻擊模型,也就是說攻擊者在知道模型架構和參數的情況下製造能欺騙它的對抗樣本。而黑盒攻擊則表明攻擊者只能觀察到被攻擊模型的輸入與輸出,例如通過 API 攻擊機器學習模型可以視為一個黑盒攻擊,因為攻擊者只能通過觀察輸入輸出對來構造對抗樣本。

在 CAAD CTF 競賽中,選手所需要採用的是定向的通用攻擊。其中對於定向攻擊,攻擊者希望能夠造出對抗樣本來欺騙目標系統誤分類為特定的類別,例如我們可能希望構建一個對抗樣本,它能令圖像識別系統將其誤分類為「小狗」等特定的類別。對於通用攻擊而言,攻擊者嘗試設計一種圖像擾動轉換,它能在不知道被攻擊系統任何信息的情況下欺騙它。因此在 CAAD CTF 競賽中,選手不僅不能訪問到對方的模型架構與參數,同時也不能訪問到被攻擊系統的輸入與輸出樣本對。

目前比較流行的攻擊方法主要是基於梯度和迭代的方法,其它很多優秀與先進的攻擊方法都基於它們的主要思想。這一類方法的主要思想即希望找到能最大化損失函數變化的微小擾動,這樣通過給原始輸入加上這一微小擾動,模型就會誤分類為其它類別。通常簡單的做法是沿反向傳播計算損失函數對輸入的導數,並根據該導數最大化損失函數,這樣攻擊者就能找到最優的擾動方向,並構造對抗樣本欺騙該深度網絡。

例如 Goodfellow 在 2014 年提出的 Fast Gradient Sign Method(FGSM),如果我們令θ表示模型的參數、x 和 y 表示輸入與輸出、J(θ, x, y) 為訓練神經網絡的損失函數,那麼我們可以在當前θ值的鄰域線性逼近損失函數,並獲得最優的最大範數約束擾動:

如上圖所示將最優的擾動加入原輸入「熊貓」,就能令系統將其誤分類為「長臂猿」。FGSM 能通過反向傳播快速計算梯度,並找到令模型損失增加最多的微小擾動η。其它如基本迭代方法(BIM)會使用較小的步長迭代多次 FGSM,從而獲得效果更好的對抗樣本。

當然,僅僅是白盒攻擊的話還不會引起較大的影響,可怕的是對抗樣本具有遷移性,這也是令 CAAD CTF 這種定向通用攻擊可行的原因。可遷移的攻擊指的是我們不知道攻擊目標使用什麼樣的機器學習模型、具體參數和訓練集等,但我們可以通過類似數據集訓練自己的模型並構建對抗樣本,這些對抗樣本因為可遷移性很可能可以欺騙未知的目標模型。

隨後在 2016 年,Yanpei Liu 等研究者提出一種基於模型集成的攻擊方法,他們表示當對抗樣本能欺騙集成的多個已知模型時,它有非常大的可能性能欺騙未知的模型。TSAIL 團隊同樣表示集成方法在實際比賽中非常重要,他們集成多個常見的卷積神經網絡以構建對抗樣本,如 Inception v4、ResNet 和 DenceNet 等。正因為集成能顯著提升對抗樣本的可遷移性,他們才能在不獲取任何目標系統的信息下完成攻擊。

除此之外,TSAIL 團隊表示他們會通過動量提升對抗性攻擊力。他們表示部署深度學習模型之前,對抗性攻擊是評估其穩健性的重要替代物之一。然而,大多數現有的對抗性攻擊能夠成功迷惑黑盒模型的概率很低。為了解決這一問題,他們提出了一種以動量為基礎的具有廣泛級別的迭代算法增強對抗攻擊能力。通過將動量項集成到攻擊迭代過程,模型可以獲得更穩定的更新方向,避免在迭代過程中出現劣質的局部最大值,並且同時產生更多的可遷移對抗樣本。為進一步提高黑盒攻擊的成功率,他們將動量迭代算法應用到一個模型集合中,從而表明這種受訓模型即便有很強的防禦能力,在他們的黑盒攻擊面前仍然束手無助。

對抗防守

清華大學 TSAIL 團隊同樣還重點關注於構建更魯棒的對抗樣本防禦模型,在這次競賽中,TSAIL 團隊在定向攻擊其它模型的同時,還需要防禦其它參賽者的對抗樣本攻擊。TSAIL 實驗室前面曾提出兩種防禦對抗樣本的方法,它們都是嘗試修正損失函數以獲得更好的穩定性。

在論文 Towards Robust Detection of Adversarial Examples 中,龐天宇等研究者表示可以強制令 DNN 分類器將所有正常樣本映射到低維流形中相近的地方,因此當模型接收到對抗樣本時,它就能輕鬆將其與正常樣本區分開來。在這一篇論文中,他們提出一種名為反交叉熵(reverse cross-entropy,RCE)的損失函數,並表明在訓練中最小化 RCE 損失函數將會鼓勵深度神經網絡學習能區分對抗樣本和正常樣本的隱藏空間。

研究者在論文中使用下圖展示了為什麼將正常樣本映射到低維流形中的近鄰能抵抗對抗樣本。其中 non-ME 為歸一化的非最大值信息熵,它計算的是除去最可能的預測後,其它類別預測概率的信息熵,這種度量相對於使用 Softmax 更能區分對抗樣本。如下圖 1 a 所示為神經網絡最後一層隱藏空間的分類邊界,non-ME 會將正常樣本約束到一起。

圖 1:a 中三條黑色實線為分類器的決策邊界,藍色虛線為 non-ME = t 的等值線。b 和 c 為最後隱藏層向量的 t-SNE 可視化,模型都是在 CIFAR-10 上訓練的 ResNet-32,只不過 b 使用的是一般的交叉熵損失函數,c 使用的是 RCE。

如上所示,z_0 為原始正常樣本,它被映射為反向延長線的近鄰,即藍色的等值線之間。當我們不使用對抗樣本檢測度量時,z_1 相對於 z_0 位於決策邊界的附近,它可能是非常成功的對抗樣本。但是當我們使用 non-ME 作為對抗樣本檢測度量時,z_1 可以很容易被過濾掉,因為它不在真實樣本的近鄰。在這種情況下,成功的對抗樣本會出現在 z_2 的位置,其中分類邊界與近鄰邊界出現重合。

研究者們表示,如果想要在最後一層的隱藏空間達到這種效果,我們就需要在訓練中使用 REC 損失函數。如下展示了 REC 損失函數,其中 R_y 表示反標籤向量,即第 y 個標註值設置為零、其它類別值為 1/(L-1)。此外,F(x) 為模型的預測值,因此 RCE 度量的是反標籤向量與預測值之間的交叉熵。

通過在訓練過程中最小化 RCE 損失函數,該網絡鼓勵分類器在正確的類別上返回較高的置信度,而在錯誤類別上返回均勻分布。且還會進一步令分類器將同一類別的正常樣本在低維流形上聚在一起,即在神經網絡最後一層的隱藏空間上分離正常樣本與對抗樣本。此外,這一新型損失函數可以在理論上證明其收斂性,同時它如同交叉熵損失函數一樣使用一般的 SGD 進行訓練。

在另一篇論文 Max-Mahalanobis Linear Discriminant Analysis Networks 中,清華大學 TSAIL 團隊的研究者探討了另外一種抵禦對抗樣本的方法。具體而言,他們定義了一種特殊的高斯混合分布 Max-Mahalanobis,並且理論性地證明了如果輸入分布是 MMD,那麼線性判別分析(LDA)對於對抗樣本有非常好的魯棒性。

基於這一發現,他們提出了 MM-LDA 網絡。簡單而言,該網絡將複雜的輸入數據分布映射到服從 Max-Mahalanobis 分布的隱藏特徵空間,並使用 LDA 做最後的預測。因此該網絡重要的是理解 Max-Mahalanobis 分布,以及為什麼它能防禦對抗樣本。

如上展示了根據不同類別數 L 所構建的 Max-Mahalanobis 分布,其中μ為不同高斯分布的均值,且它們分別為圖形的頂點。MMD 中高斯分布的方差固定為單位方差,且沒有其它特殊的要求。但 MMD 中均值μ的分布需要滿足一些條件,即要求相距最近的兩個μ之間的距離最大,這樣不同的類別就要求分布地最開。

如上當類別 L 為 3 的時候,我們希望約束神經網絡的最後一層將屬於類別 i 的正常樣本都映射到分布 N(z|μ_i, I) 內,其中μ_1、μ_2 和μ_3 需要儘可能布散開以逼近等邊三角形。形式化而言,我們需要最大化 μ 之間的最小距離,即 max{min(D_12, D_13, D_23)},其中 D_12 表示μ_1 和μ_2 之間的距離。

因為 MMD 令各類別均值的間隔近似最大,因此神經網絡將每一個類別都映射到相互遠離的高斯分布內,這樣再通過線性判別分析就能快速作出最後的預測。整體而言,研究者們提出的 MM-LDA 網絡首先會有一個深度網絡將輸入數據 x 映射到隱藏特徵表徵 z,並迫使 z 的分布 P(z) 服從於 MMD,然後再在 z 上使用 LDA 做預測。

為了迫使神經網絡最後一層隱向量 z 服從 Max-Mahalanobis 分布,我們需要限制標籤的分布為:

其中每個類別的先驗概率 π 與均值 μ* 都是根據 MMD 預定義的,再根據上式而不是常用的 Softmax 函數來預測類別就相當於引入了 Max-Mahalanobis 分布。最後在訓練過程中,只要最小化標註樣本與模型預測 P(y|z(x; θ)) 之間的交叉熵損失函數就能令 z 近似服從於 MMD。此外,由於整個網絡同樣僅需要修改損失函數,它可以直接應用於不同的深度模型來獲得更好的魯棒性。

清華大學人工智慧研究院 TSAIL 團隊

除了這兩份關於魯棒性機器學習系統的研究,實驗室在對抗攻擊與防守等 AI 安全領域還有非常多的研究。例如在針對圖像識別的對抗攻防外,AI 安全還包括圖像場景分割、視頻分類、文本和圖數據上的攻防,這一次比賽只是 AI 安全領域中比較小的一部分。除此之外,實驗室還做了大量關於概率機器學習方面的研究,例如貝葉斯機器學習等,這一方面的研究成果很多都體現在「珠算(ZhuSuan)」這一開源庫上。

團隊在可理解的人工智慧領域擁有先進技術積累,針對 AI 決策、AI 理解、AI 安全等領域技術領先。2017 年間,團隊成員獲得 Google 主辦的 NIPS 人工智慧安全攻防競賽全部三個項目世界第一;獲得 Kaggle 數據科學碗 2017 第一名(50 萬美元獎金);獲得創新工場 AI Challenge 2017 圖像中文描述項目第一名;2018 年獲得 VizDoom 機器人槍戰比賽第一名。課題組所開發的「珠算(ZhuSuan)」貝葉斯深度學習平臺在國際人工智慧和機器學習領域產生廣泛影響。

本文為機器之心原創,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 文本也有攻防戰:清華大學開源對抗樣本必讀論文列表
    在自然語言處理領域,對抗樣本的攻擊與防禦近來受到很多研究者的關注,我們希望構建更穩健的 NLP 模型。在本文中,我們簡要討論了攻防的概念,並介紹了清華大學近日開源的 NLP 對抗樣本攻防必讀論文列表。自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網絡模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文本的多樣特徵。
  • 機器不學習:生成對抗網絡-NIPS 2017對抗樣本攻防賽冠軍算法分享
    再看下圖的第一行,它表示的是識別不同鳥類的網絡,高亮的部分是網絡中神經元有響應的部位,可以看出響應基本集中在鳥的頭部,即網絡通過識別鳥的頭部特徵來給出預測的鳥類結果。下圖第二行是一些對抗樣本在該網絡上的表現,可以看到網絡在這些圖像的響應部位與鳥的頭部非常相似,此時網絡會以較高的概率將這些圖像錯誤地識別成某些鳥類。
  • NIPS 2017 | 清華大學人工智慧創新團隊在AI對抗性攻防競賽中獲得冠軍
    清華大學張鈸院士帶領的人工智慧創新團隊在 NIPS 2017 AI 對抗性攻防競賽中獲得冠軍(指導教師:朱軍、胡曉林、李建民、蘇航
  • 清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結
    NIPS 2017 上 Ian Goodfellow 也牽頭組織了 Adversarial Attacks and Defences(對抗攻擊防禦)競賽,供研究人員、開發人員們在實際的攻防比拼中加深對對抗性樣本現象和相關技術手段的理解。在比賽結束後,參與此次比賽的谷歌大腦、清華大學以及其它參與的企業和學校的研究人員們聯合撰寫了一篇對於本次比賽的總結。其中
  • 清華朱軍團隊包攬三項冠軍 | NIPS 2017對抗樣本攻防競賽總結(附學習資料)
    本次比賽總結由谷歌大腦、清華大學以及其它參與研究人員們聯合撰寫,為你介紹NIPS 2017 對抗樣本攻防比賽的情況。自 Ian Goodfellow 等研究者發現了可以讓圖像分類器給出異常結果的"對抗性樣本"(adversarial sample)以來,關於對抗性樣本的研究越來越多。
  • 「全球最大網絡攻防戰」練什麼
    「鎖盾」:不是一面盾牌,而是針對俄的網絡戰尖刀俄羅斯衛星新聞網8日報導稱,位於愛沙尼亞首都塔林的北約合作網絡防禦中心新聞處發布消息稱,世界最大規模的網絡安全演習「鎖盾-2019」(Locked Shields 2019)8日在愛沙尼亞展開,並持續到12日。該演習目的是為信息系統和關鍵基礎設施領域防網絡攻擊的專業人員提供訓練機會。
  • 聚焦流量分析 騰訊雲打造網絡攻防縱深防禦體系
    會上,騰訊雲DDoS防護團隊分享了將流量分析應用於攻防對抗的騰訊內部實戰案例,並介紹了騰訊內部工程化的縱深防禦體系。通過挖掘流量的安全能力,將各個安全系統有效串聯,構建多層防線的縱深防禦體系,騰訊雲搭建了面向未來的安全防禦「堡壘」,形成「團戰」的力量。安全攻防進入深水區,縱深防禦是基礎隨著5G時代的到來,網絡環境正在經歷巨變,企業也在面向數位化雲化轉型。
  • 《流浪地球》豆瓣攻防戰
    二、豆瓣攻防戰《流浪地球》這個IP在中國是有相當量粉絲的,這要歸功於劉慈欣的《三體》,《三體》在拿雨果獎之前,在網民中就有相當大的影響力。所以,針對《流浪地球》的攻擊,直接得罪了大量網民,於是一場攻防戰開始了。對網民來說,豆瓣這個平臺,零散的粉絲無法與資本抗衡。但是網民找到了另外的反制途徑。
  • 對抗中的主動防禦——攻防演練及小規模網絡對抗的戰術
    二、對抗,對抗,對抗實際的小規模網絡攻防中,面對的攻擊對象,主要包括國內外敵對勢力、商業和民間黑客以及執行攻防演練行動中進行安全性檢測的攻擊隊等。攻擊對象不乏有使用1day,甚至是0day的攻擊手段,在某些特定對象和場景中,也可能會遇到APT攻擊。面對這些攻擊時,一味地進行被動防禦,即使不斷提高防禦手段,往往只是增加資源投入和成本,並不能起到更好的效果。
  • LOL樞紐攻防戰什麼英雄厲害 哪些英雄好玩
    LOL樞紐攻防戰哪些英雄好玩呢,英雄新模式樞紐攻防戰加入了輪換隊列,那麼在本次的模式中,LOL樞紐攻防戰什麼英雄厲害,有沒有什麼英雄好玩,下面小編就來帶大家進行一下盤點吧!LOL樞紐攻防戰哪些英雄好玩  這個模式是類似塔防的遊戲,在遊戲中可以通過道具裝備增強防禦塔,小兵以及治療隊友與自己的功能,所以就要選擇一些自我保護能力了強的英雄,可以騷擾對手的,手長的英雄一直是佔據優勢的,毋庸置疑的!根據這個小編為大家推薦了10個好玩的英雄,來一起看看吧!
  • AISecOps:從DARPA TC項目看終端攻防
    站在巨人的肩膀上,從該項目的一系列攻防對抗模擬實戰中,能夠一窺美國頂級終端攻防能力的交鋒。左右互搏,攻防相長,是AISecOps智能安全運營技術迭代的必由之路。本文將概括DAPRA TC項目的基本情況,分析總結其紅藍對抗演練的技術能力特點。期望能夠為讀者帶來全新的視角與思考。
  • ISC 2020 ATT&CK安全能力衡量論壇:基於網絡空間安全攻防全景知識...
    在網絡安全領域,隨著攻擊工具、方法的逐漸升級和複雜化,安全數據的大規模融合,攻防對抗愈加激烈。安全團隊正在從浩瀚數據中發現高級威脅的蛛絲馬跡,把網絡安全專家的經驗、知識有效轉化為可複製可擴展的數據分析能力。
  • CF手遊戰術攻防中,這幾種攻防武器,牆都快被它們玩壞了!
    CF手遊戰術攻防是一種利用戰術武器,進行團隊合作,並取得最後的勝利的一種玩法。這是一種比較考驗團隊配合的玩法,當然了,如果基礎槍法不佳,再好的戰術也是白搭。而在這些攻防武器中,有這幾種攻防武器,牆都快被它們玩壞了!
  • 圖解DeFi 閃電貸攻防:以 bZx 事件為例
    小編:記得關注哦來源:慢霧科技原文標題:圖解 DeFi 閃電貸攻防:以 bZx 事件為例慢霧科技高級安全工程師 yudan 和 Kong 認為,DeFi 安全形勢嚴峻,安全審計是目前保護項目安全最高性價比的方式。
  • 攻防箭!讓你射個不停!爽翻天!
    攻防箭適合八歲以上人士參加,不論男女,即使你沒有射箭經驗,亦能快速掌握,體驗射箭的樂趣。攻防箭還原射箭的技擊意味,為這傳統項目賦予新意。參加者猶如置身古戰場上,透過良好的合作和溝通,完成任務,擊敗對手,發揮團隊精神!
  • 剛剛,首飛成功,仍需警惕美重大動向,啟動空天網絡電磁攻防工程
    作為空天網絡電磁空間攻防能力高質量發展的基礎依託,建立極限測試的網絡電磁空間攻防環境,對現有設備進行常態化攻防測試。可在已有網絡空間攻防和電磁空間對抗獨立測試的基礎上,探索網電一體的融合測試方式,逐漸形成網絡信息系統、空中目標,太空目標一體化的極限測試環境。
  • 歐羅巴:AC米蘭復仇大戰,格拉斯流浪蘇超獨秀,莫陸軍攻防兼備
    或者晚一點我再多看一看評論交流。不喜勿噴,也是感謝大家的觀看!!(一定留意上邊句話!!)歐羅巴 裡爾 VS AC米蘭裡爾 近況:裡爾上輪聯賽主場大勝洛裡昂,近10場正賽僅有1場失利,球隊近期狀態正佳。
  • 宏觀角度討論守望先鋒中的攻防戰略
    「夫未戰而廟算勝者,得算多也;未戰而廟算不勝者,得算少也。多算勝,少算不勝,而況於無算乎?吾以此觀之,勝負見矣。」所謂戰略,是指在戰鬥真正開始之前,分析敵我優劣、部署己方力量、謀劃作戰策略等一系列活動。不同於其他《守望先鋒》英雄戰鬥技巧、戰術搭配等文章,在這裡我借用「戰略」這一概念,試圖對守望先鋒的進攻、防守作一個整體、宏觀的分析。
  • 香港一社區淪為「老鼠樂園」常演「人鼠攻防戰」
    中新網4月11日電 據香港大公報報導,鼠患問題近日成為香港熱點話題,香港一社區黃埔花園淪為「老鼠樂園」,「人鼠攻防戰」經常上演,居民在同一範圍月捉30隻老鼠。香港特區政府食物環境衛生署證實,去年收到28宗屋苑範圍內鼠患的投訴,按年飆升一倍,屋苑雖屬私人管理,但該署接獲投訴後,仍會調查及提供協助。