OpenAI最新研究:「對抗樣本」能輕易黑掉AI系統,如何抵禦?

2021-01-11 雷鋒網


雷鋒網按:近日,OpenAI發表最新研究,論述了AI安全領域的一大隱憂:「對抗樣本」,它可以輕易地讓機器學習系統產生誤判,這會對AI的應用實踐產生影響。在這篇由「GANs」之父Ian Goodfellow領銜撰寫的文章裡,OpenAI針對「對抗樣本」進行了防禦策略的實驗,其中有兩種方法效果顯著,但也並不能解決根本問題。OpenAI表示設計出抵抗強大、具有適應性攻擊者的防禦策略,是非常重要的研究領域。本文原載於OpenAI Blog,由雷鋒網編譯整理。

「對抗樣本」是攻擊者故意設計的,被用來輸入到機器學習模型裡,引發模型出錯的值,它就像是讓機器在視覺上產生幻覺一樣。在這篇文章裡,我們將會展現「對抗樣本」是如何通過不同的媒介工作的,並且將會討論為什麼針對「對抗樣本」的安全防禦很困難。

在OpenAI,我們認為「對抗樣本」是安全方面非常好的一個議題,因為它代表了AI安全領域裡的一種具體的問題,我們可以在較短期裡去關注和解決,而且這個問題的難度也是足夠的,需要進行一些重要的研究工作(儘管我們需要探索機器學習安全的很多方面,以達到我們建造安全、廣泛應用AI的目標)。

什麼是「對抗樣本」?

這篇論文裡「Explaining and Harnessing Adversarial Examples」有一個例子:這是一隻熊貓的圖片,攻擊者加入了一個小幹擾到計算裡,導致系統將其誤認為是長臂猿的照片。

一個對抗輸入值,覆蓋了一個典型的圖片,分類器將一隻「熊貓」誤分類為一隻「長臂猿」

這個方法是十分有效的,最近的一項研究(論文「Adversarial examples in the physical world」)顯示,把「對抗樣本」用標準的紙張列印出來,然後用普通的手機對其拍照製成的圖片,仍然能夠影響到系統。

「對抗樣本」可以在普通紙張上列印出來,再讓帶有標準解析度的智慧型手機拍攝,仍然可以引發分類器產生錯誤。在上圖例子裡,系統錯把「洗衣機」標籤為「保險箱」。

「對抗樣本」很有可能變得危險。比如,攻擊者可以用貼紙或一幅畫製成一個「停止」指示牌的「對抗樣本」,以此來攻擊汽車,讓汽車將原本的「停止」指示牌誤理解「讓行」或其它指示牌,就像論文「Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples」討論的那樣。

增強學習智能體也可以被「對抗樣本」所操縱,根據 UC伯克利大學、OpenAI和賓夕法尼亞大學的一項最新研究(論文「Adversarial Attacks on Neural Network Policies"),以及內華達大學(論文「Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks」)的一項研究顯示,廣泛使用的增強學習算法,比如DQN、TRPO和A3C,在「對抗樣本」面前都十分脆弱。即便是人類難以觀察出來的微妙的幹擾因素,也能導致系統性能減弱。比如引發一個智能體讓桌球拍在本該下降時反而上升,或者幹擾鎖定敵人的能力。

如果你想要做一個擊潰自己模型的實驗,可以使用cleverhans,這是一個由Ian Goodfellow和Nicolas Papernot聯合開發的開源庫,可以用它來測試你的模型在面對「對抗樣本」時的脆弱性。

「對抗樣本」是AI安全的隱憂

當我們思考AI安全問題時,往往總是去思考最困難的問題:如何確保成熟的增強學習智能體能夠按照設計者的意圖行事,比人類還要更加智能?

「對抗樣本」展示出,就算是簡單的現代算法,不論是監督學習還是增強學習,就已經可以不以設計者的意願行事了,且是以令人驚訝的方式。

抵禦「對抗樣本」的一些嘗試

讓機器學習模型更穩定的傳統技術,比如與權重衰減(weight decay)和dropout,通常不會對「對抗樣本」造成實際的防禦。到目前,只有兩種方法有明顯防禦效果。

這是一個暴力解決方法,我們自己生成許多「對抗樣本」,讓後用這些樣本來訓練我們的模型,讓它不被其中任何一個矇騙。cleverhans庫已經有開源的對抗訓練機制,這裡面(https://github.com/openai/cleverhans/blob/master/tutorials/mnist_tutorial_tf.md)有使用方法詳解。

這個策略,是讓訓練模型輸出分類概率,而不是直接輸出最終的某個類別。概率由早期的一個模型提供,在同樣的任務上進行訓練,使用hard類別標籤。這種方法會創建方向平滑的模型,攻擊者由此難以找到「對抗樣本」產生的關鍵點。(「淨化」最初源於Distilling the Knowledge in a Neural Network這篇論文,為了節省計算量,「淨化」作為一種模型壓縮的方法,把小模型進行訓練來模仿大模型)。

然而,如果攻擊者獲得更多的計算力,那麼即使是這些特定算法,也會很容易就被攻克。

失敗的抵禦:「梯度隱藏」(gradient masking)

「梯度隱藏」這種失敗的抵禦方法,可以讓我們好好思考一下,簡單的抵禦方法是如何失敗的。

「梯度隱藏」這個術語最初出現在「Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples」這篇論文裡,用來描述一大類失敗的防禦方法,這類方法會拒絕攻擊者進入一個有用梯度。

大部分的「對抗樣本」構建技術都是利用模型梯度來進行攻擊的。比如說,他們觀察一張飛機的圖片,反覆測試圖片空間的哪一個方向上,「貓」的概率會增加,然後它們就在這個方向上「推波助瀾」一下(換句話說,他們擾亂輸入值)。那麼這張經過修改的新圖片就會被錯誤識別為「貓」了。

但是,如果沒有梯度呢--如果照片上一個極小的修改對模型輸出不會造成任何影響呢?這看起來是可以進行一些防禦,因為這種情況下,攻擊者無法得知應該在圖片哪個方向上「推波助瀾」。

我們可以很容易想到一些微小的方法來擺脫梯度。比如,大部分圖片分類模型是以兩種模式運行的:一種是直接輸出「最可能類別」;另一種模式,就是輸出「概率」。如果模型輸出的是「99.9%飛機、0.1% 貓」,那麼輸入值的微小變化,也會對輸出值的產生微小影響。但如果我們的模型直接採用第一種運行模式,直接輸出「飛機」,那麼輸入值的微小變化,將對最終輸出結果沒有影響,而梯度也不會告訴透露任何信息。

如果我們使用「最可能類別」模式,而不是「概率」模式,那麼讓我們來思考一下,這種方法抵抗對「抗樣本」的表現如何。在「最可能類別」模式下,攻擊者不知道到哪裡去找能被歸類為「貓」的輸入值,以此我們能夠有一些防禦力。很不幸,之前每張被分類為「貓」的圖片,現在依然會被分類為「貓」。但是,如果攻擊者能夠猜測到防禦弱點,由此製作「對抗樣本」,那麼圖片仍然會被錯誤歸類。我們目前還沒讓模型更加穩定,我們只是讓攻擊者弄清楚模型防禦的弱點的線索變更少。

更不幸的是, 攻擊者可以有非常好的策略,來猜測防禦弱點在哪。攻擊者可以自己訓練一個模型,一個擁有梯度的光滑模型,製作「對抗樣本」,然後將這些「對抗樣本」放進我們防禦的非平滑模型裡。而我們的防禦模型,往往也會把這些「對抗樣本」錯誤分類。最終,這個思考結果暴露出,把梯度藏起來解決不了問題。

執行梯度隱藏的防禦策略,會造成一個在特定方向和訓練點周圍非常平滑的模型,這使得攻擊者很難找到暗示模型弱點的梯度。然而,攻擊者可以訓練一個替代模型:攻擊者會構建一個防禦模型的複製品,方法是觀察防禦模型輸入值的標籤,然後小心選擇輸入值。

進行這樣的一個模型抽取攻擊(model extraction attack)的流程,最早是在黑箱攻擊論文裡介紹的。攻擊者可以使用替代模型的梯度,來找到「對抗樣本」,以此來讓防禦模型發生誤判。上圖來自於「Towards the Science of Security and Privacy in Machine Learning」這篇論文對梯度隱藏的發現,這個例子裡我們將這種攻擊策略看做是一維的機器學習問題。梯度隱藏現象在面臨更高維度的問題時,會變得更加嚴重,但是更難以描述出來。

我們發現,對抗訓練和防禦淨化都會偶然產生梯度隱藏。這兩種算法都顯然不是為執行梯度隱藏而特意設計的,但是當機器學習算法訓練保護自己而沒有被給予特定方法指導時,梯度隱藏很顯然是算法自身相對比較容易產生的一種防禦方法。如果將「對抗樣本」從一個模型轉移至第二個模型,就算第二個模型用對抗訓練或防禦淨化訓練過,攻擊往往會勝利,雖然「對抗樣本」直接攻擊第二個模型會失敗。這說明,對抗訓練和防禦淨化這兩種技術能使模型更加平坦,移走梯度,而不能保證讓分類更加正確。

為什麼抵禦「對抗樣本」如此之難?

「對抗樣本」很難抵禦,因為很難為「對抗樣本」的製作過程構建一個理論模型。「對抗樣本」是很多機器學習模型非線性和非凸最優化問題的解決方法,包括神經網絡。因為我們沒有好的理論工具,來描述這些複雜優化問題的方法,很難有理論論據表明某一種防禦方法能阻止一系列「對抗樣本」。

「對抗樣本」很難抵禦,也是因為它們要求機器學習模型為每一個可能的輸入值產生好的輸出結果。大多數情況下,對於遇到的所有可能的輸入值,機器學習模型只能夠對其中少量運行地比較好。

到目前為止,我們測試的每一種防禦策略都失敗了,因為策略不具有適應性:一種策略或許能抵禦一種攻擊,但是會對熟知它的攻擊者暴露出弱點。設計出抵抗強大、具有適應性攻擊者的防禦策略,是非常重要的研究領域。

總結

「對抗樣本」顯示出,很多現代機器學習算法都能被擊潰,且是以令人驚訝的方式。這些機器學習的失敗證明,即使是簡單的算法,也會違背其設計者的意圖。我們鼓勵機器學習研究者投身其中,找出阻止「對抗樣本」的方法,以此減小設計者意圖和算法運行之間的鴻溝。如果你對於「對抗樣本」方面的工作感興趣,可以考慮加入我們OpenAI。

更多雷鋒網(公眾號:雷鋒網)相關文章:

深度卷積網絡的BUG一例:騰訊AI「絕藝」最近被人類棋手找到了一個有趣的缺陷

Google AI 邀你合奏一曲鋼琴曲

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 實驗者穿著基於對抗樣本的T恤可以騙過AI眼睛達到「隱身」的效果
    近日,美國東北大學和麻省理工學院等研究機構,共同研製出了基於對抗樣本的T恤衫。這件T恤衫是全球首個在非剛性的物體上進行物理對抗實驗的實例。利用AI進行檢測時無法檢測出行人,即使T恤產生褶皺或變形的情況,都能夠達到「隱身」的效果。這項技術的原理是科研人員針對T恤上的原圖案進行了修改,通過了一定的技術手段將圖案生成了有較強幹擾性的圖案,以此來替換原有圖案,改變T恤的視覺效果。
  • 你真的懂對抗樣本嗎?一文重新思考對抗樣本背後的含義
    怎樣才能確保生成的對抗樣本符合這樣的定義?本文深入解析了對抗樣本背後的數學定義,並幫助讀者重新理解對抗樣本的定義。對抗樣本是各種機器學習系統需要克服的一大障礙。對抗樣本的存在表明模型傾向於依賴不可靠的特徵來最大化性能,如果特徵受到幹擾,那麼將造成模型誤分類,可能導致災難性的後果。
  • 機器不學習:生成對抗網絡-NIPS 2017對抗樣本攻防賽冠軍算法分享
    對抗樣本是一類被惡意設計來攻擊機器學習模型的樣本。它們與真實樣本的區別幾乎無法用肉眼分辨,但是卻會導致模型進行錯誤的判斷。對抗樣本的存在會使得深度學習在安全敏感性領域的應用收到威脅,如何對其進行有效的防禦是重要的研究課題。我們提出了動量迭代快速符號化梯度法和高層引導去躁算法,分別應用於對抗樣本的攻擊和防禦,取得了NIPS 2017對抗樣本比賽的冠軍。
  • 文本也有攻防戰:清華大學開源對抗樣本必讀論文列表
    在自然語言處理領域,對抗樣本的攻擊與防禦近來受到很多研究者的關注,我們希望構建更穩健的 NLP 模型。在本文中,我們簡要討論了攻防的概念,並介紹了清華大學近日開源的 NLP 對抗樣本攻防必讀論文列表。自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網絡模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文本的多樣特徵。
  • 專訪| 對抗樣本攻防戰,清華大學TSAIL團隊再獲CAAD攻防賽第一
    隨著機器學習的大規模應用,這類誤差對於系統安全顯得尤為重要,CAAD 競賽正是希望能探討如何加強系統對於這類對抗樣本的魯棒性。上圖為 Ian Goodfellow 在 14 年展示的對抗樣本,這種對抗樣本是通過一種名為 FGSM 的算法得出。一般而言,對抗攻擊可以分為白盒攻擊、黑盒攻擊、定向攻擊,以及通用攻擊。
  • 通過對抗損失函數來降低對抗損失函數的效用
    不僅能提高對抗的能力,也是取之不盡的想法。文章摘要已有應用實驗證明,gan的預測精度明顯超過單純的深度卷積網絡,這說明深度卷積網絡在ai領域的應用前景廣闊。由於隨著深度卷積網絡越來越深,對抗輸入的維度也越來越高,網絡預測精度相對於一般卷積網絡進步了一個層次。
  • AI被T恤蒙蔽「雙眼」見識不夠是根本原因
    科技日報 記者謝開飛 許曉鳳 王憶希只要穿上一件印有特殊圖案的T恤,就能騙過AI人體檢測系統,從而達到「隱身」效果?近日,這一場景真實上演。美國東北大學和麻省理工學院等研究機構,共同設計了基於對抗樣本技術的T恤。
  • AI被一件T恤蒙蔽「雙眼」見識不夠是根本原因
    來源:科技日報只要穿上一件印有特殊圖案的T恤,就能騙過AI人體檢測系統,從而達到「隱身」效果? 近日,這一場景真實上演。美國東北大學和麻省理工學院等研究機構,共同設計了基於對抗樣本技術的T恤。據研究人員介紹,這是全球首個在非剛性物體(如T恤)上,進行的物理對抗性實驗。AI人體檢測攝像頭無法準確地檢測出穿著該T恤的行人,無論衣服發生怎樣的褶皺或變形,都能達到「隱身」效果。 這件能讓人在AI人體檢測系統下「隱身」的T恤,其背後的原理是什麼?這種缺陷會不會導致安全問題,要如何解決?科技日報記者就此採訪了有關專家。
  • 一件T恤就可以完美「隱身」,AI「眼睛」竟會如此脆弱?
    近日,美國東北大學和麻省理工學院等研究機構,共同提出了基於對抗樣本的T恤衫。據研究人員介紹,這是全球首個在非剛性物體(如T恤)上,進行的物理對抗性實例。在AI人體檢測攝像頭下,無法準確地檢測出穿著該T恤的行人,同時無論衣服發生任何褶皺或變形,都能達到「隱身」效果。
  • 生成對抗網絡的最新研究進展
    它們基本上是由兩個神經網絡組成的系統——生成器和判別器,這兩個網絡相互制約。計算機視覺和人工智慧的愛好者 Bharath Raj 近日發布以一篇博文,總結了生成對抗網絡的原理、缺點和為了克服這些缺點所做的研究的最新進展。雷鋒網 AI 科技評論編譯整理如下:
  • OpenAI開源機器人仿真軟體Roboschool:已整合OpenAI Gym
    Roboschool 項目地址:https://github.com/openai/roboschoolOpenAI Gym 項目地址:https://github.com/openai/gymRoboschool 提供了模擬控制機器人的 OpenAI Gym 新環境。這些環境中的 8 個作為 MuJoCo 預存而實現自由替換,再調試就可以生成更多的逼真動作。
  • 鳥叫就能黑掉AI系統,而且你根本察覺不到
    先騙AI再騙人如何迷惑神經網絡?機器學習裡有個冉冉升起的研究領域,叫對抗性攻擊(Adversarial Attacks) 。這種對深度神經網絡的誤導,在視覺上比較常見。大家可能還記得,MIT團隊曾經騙過谷歌AI,讓它把一隻3D列印的烏龜認成了步槍。
  • 多篇文章解析NK細胞在抵禦多種疾病中扮演的關鍵角色!
    ,相關研究對於開發抵禦癌症的新型免疫療法至關重要。在機體免疫系統中,NK細胞是機體防禦機能的前線細胞,其能夠識別並且殺死癌細胞及被病毒所感染的細胞;由於其具有重要的功能,目前很多研究都重點調查如何利用NK細胞來開發抵禦癌症的新型免疫療法;機體免疫系統中的兩個主要角色:T淋巴細胞和B淋巴細胞都來自造血幹細胞,而且科學家們對其也進行了大量研究,而對於NK細胞的成熟過程卻研究甚少。
  • 手把手 | OpenAI開發可拓展元學習算法Reptile,能快速學習
    MAML元學習算法:http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/元學習是學習如何學習的過程。此算法接受大量各種的任務進行訓練,每項任務都是一個學習問題,然後產生一個快速的學習器,並且能夠通過少量的樣本進行泛化。
  • 模仿人腦視覺處理,助力神經網絡應對對抗性樣本
    這些情況,通常被稱為對抗性樣本,以令人困惑的方式改變了人工智慧模型的行為。對抗性的機器學習是當前人工智慧系統的最大挑戰之一。它們可能導致機器學習模型以不可預知的方式失敗,或者變得容易受到網絡攻擊。對抗性樣本的例子: 在這張熊貓照片中加入一層難以察覺的噪音,會讓卷積神經網絡誤以為它是長臂猿。
  • AI計算量每年增長10倍,摩爾定律也頂不住|OpenAI最新報告
    報告地址:https://openai.com/blog/ai-and-compute/
  • 清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結
    所謂對抗樣本,就是對輸入數據進行略微修改,以使得機器學習算法對該輸入給出錯誤的分類結果。在很多情況下,這些修改非常細微,人類觀察者甚至根本不會注意到這些修改,但是分類器卻會因此犯錯誤。對抗樣本攻擊對目前的機器學習系統提出了挑戰,因為即使攻擊者無法訪問基礎模型,也能對機器學習系統發起攻擊。
  • 研究發現脂肪不僅能儲存能量還能幫助人類對抗細菌
    據外媒報導,眾所周知,脂肪是一種能量儲存系統,但現在研究人員發現,它在抵禦感染方面也發揮著以前未知的作用。來自昆士蘭大學和巴塞隆納大學的一個研究小組發現,細胞可以利用脂肪來對抗細菌。線粒體是細胞內部的結構,可以將氧氣轉化為可用的化學能。當其他營養物質消耗不足時,線粒體就會轉化為脂質作為替代燃料來源。但現在一項新的研究發現了一個令人驚訝的新機制。當細胞被細菌入侵時,脂質從線粒體轉移到細胞中細菌存在的部位。攻擊者通常會吃富含能量的脂質--現在發現細胞可能會利用這一優勢在將脂質提供給細菌之前先「中毒」。
  • 對抗樣本的基本原理
    概述對抗樣本是機器學習模型的一個有趣現象,攻擊者通過在源數據上增加人類難以通過感官辨識到的細微改變,但是卻可以讓機器學習模型接受並做出錯誤的分類決定。一個典型的場景就是圖像分類模型的對抗樣本,通過在圖片上疊加精心構造的變化量,在肉眼難以察覺的情況下,讓分類模型產生誤判。
  • 脂肪也能對抗細菌?研究發現:細胞內的脂肪滴是細胞的「兵工廠」
    在最近發表於《科學》(Science)雜誌上的一項新研究中,來自昆士蘭大學的研究人員發現,細胞內的脂肪滴,能夠協助人體自身的防禦系統抵禦細菌的感染。脂肪滴的作用,不只是「炊事班」,而是一座「兵工廠」。美國昆士蘭大學分子生物科學研究所的羅伯特·帕頓教授(Robert Parton)和馬特·斯威特教授(Matt Sweet),以及巴塞隆納大學的阿爾伯特·波爾教授(Albert Pol)的國際合作發現,這些脂肪滴既是食物來源,也是對抗細菌入侵的武器。