最先進分類器也可能誤判!科學家設計攻擊實驗,分類準確率下降到0.1...

2020-12-09 深圳熱線

原標題:最先進分類器也可能誤判!科學家設計攻擊實驗,分類準確率下降到0.1以下

智東西(公眾號:zhidxcom)

編|董溫淑

備選標題:

1、AI分類器可能誤判!科學家設計攻擊實驗,讓Deepfake以假亂真

2、指望AI鑑別Deepfake?最新研究顯示可靠性較低

智東西4月9日消息,谷歌公司和加州大學伯克利分校的研究人員最近的一項研究顯示,現有的鑑定分類器在一些情況下不能有效甄別出Deepfake作品。

用人工智慧手段進行人體圖像合成被稱為Deepfake。簡單來說,Deepfake技術可以給圖片、視頻中的人物「換臉」。網絡上流行的換臉app、一鍵脫衣app均是基於Deepfake技術實現功能。

提起Deepfake,就不能不提到濫用這種技術會造成嚴重惡性後果。例如此前曝出的新聞:網絡IP偽造名人色情影片、犯罪分子冒充英國能源公司CEO挪用公司資金、別有用心者在大選期間傳播對競選者不利的虛假材料等等。

為了避免這種情況,許多網站引入了能夠區分真假內容的AI鑑定分類系統。

然而,谷歌公司和加州大學伯克利分校的研究表明,即使是最先進的分類器也很容易被攻擊影響。

無獨有偶,另一個由加州大學聖地牙哥分校主導的研究也表明,只要在虛假視頻中添加一些信息,分類器就無法把它辨別出來。

這些研究結果為我們敲響了警鐘:目前的分類器並不是100%可靠,仍需警惕Deepfake製作的虛假信息。

目前谷歌和加州大學伯克利分校的研究已經發表在學術網站arXiv上,論文標題為《用白盒、黑盒攻擊繞過Deepfake圖像鑑別工具(EvadingDeepfake-ImageDetectorswithWhite-andBlack-BoxAttacks)》

論文連結:https://arxiv.org/pdf/2004.00622.pdf

實驗中用到的假圖像基於生成對抗網絡(generativeadversarialnetworks,GAN)來合成。GAN由一個生成網絡和一個判別網絡組成。

GAN模型的學習過程就是生成網絡和判別網絡的相互博弈的過程:生成網絡從潛在空間中隨機取樣作為輸入,目標是輸出與訓練集中樣本一致的圖像。判別網絡的目標則是判定生成網絡的輸出是否屬於訓練集。

經過一段時間的學習,生成網絡輸出的圖像將與訓練集中的十分相似,不能被判別網絡識別出來。

研究人員共對3個分類器做了測試,其中兩個為第三方分類器,一個為研究人員訓練出的用於對照的分類器。

研究人員選用了兩種不同訓練方式的第三方分類器。

第一個的分類器模型基於深度殘差網絡ResNet-50(Deepresidualnetwork)。

研究人員預先用大型視覺資料庫ImageNet對ResNet-50進行了訓練。訓練集中包括720000個訓練圖像和4000個驗證圖像,其中一半為真實圖像,另一半是用ProGAN生成的合成圖像。訓練集中的圖像採用空間模糊和JEPG壓縮方法增強。

經過訓練後,這個分類器能準確識別出ProGAN生成的圖像,而且還能分類其他未被發現的圖像。

第二個鑑定分類器採用的是基於相似性學習(similarlearning-based)的方法。經過訓練後這款分類器可以準確辨認出由不同生成器合成的圖像。

研究團隊還自己搭建了一個鑑定分類器模型,作為前述兩個鑑定分類器的對照示例。這個分類器採用一百萬個ProGAN生成的圖像進行訓練,其中真假圖像各佔一半。論文中指出,這個分類器的訓練管道比前述兩種簡單很多,因此錯誤率是前面兩個模型的3倍。

研究人員根據分類器是否開放了訪問權限,選用了不同的攻擊方式。對開發訪問權限的分類器採用白盒攻擊;對不開放訪問權限的分類器採用黑盒攻擊。

另外,研究人員用接收者操作特徵曲線(ROC曲線)評估分類器的正確率。評估標準是曲線下面積(AUC)的大小。AUC的取值範圍為0~1,一般來說AUC>0.5即代表分類器有預測價值,AUC值越大代表分類器準確率越高。

一、白盒攻擊

對於開放了訪問權限的分類器,研究人員用白盒攻擊評估其穩健性。

白盒攻擊即攻擊者能夠獲知分類器所使用的算法以及算法使用的參數。在產生對抗性攻擊數據的過程中,攻擊者能夠與分類器系統產生交互。

攻擊過程中用到的所有圖像都來自一個包含94036張圖像的視覺資料庫。

開始白盒攻擊之前,基於這個資料庫的分類器得到了0.97的AUC數值。即使在執行典型的清洗策略隱藏圖像合成痕跡後,分類器的AUC數值仍保持在0.94以上。

接下來研究人員使用了4種白盒攻擊方法。這4種攻擊在之前的對抗性示例中已有過研究。攻擊的具體方式是對圖像進行修改,使分類器誤認為它們是真實的。

▲四種攻擊前後,分類器的ROC曲線圖。藍色實線代表JPEG格式的合成圖像,藍色虛線代表PNG格式的合成圖像

1、失真最小化攻擊(Distortion-minimizingAttack)

失真最小化攻擊即對合成圖像添加一個較小的加法擾動δ。假設一個合成圖像x先被分類器判定為假,施加擾動後,(x+δ)就會被判定為真。

▲a:分類器把假圖像識別為真;b:分類器把真圖像識別為假。把像素翻轉1%,就會有一半的假圖像被判定為真;把像素翻轉7%,就會有一半的真圖像被判定為假。

2、損失最大化攻擊(Loss-MaximizingAttack)

損失最大化攻擊即定義一個更簡單的目標函數,更大限度地提升合成圖像被判定為真的概率。

3、通用對抗性補丁攻擊(UniversalAdversarial-PatchAttack)

失真最小化攻擊方法有有一個局限性:攻擊者需要花費0.1秒為每個圖像定製攻擊方式。

為了彌補這一局限性,研究人員創建了一個單一的可視噪聲模板補丁。這個補丁可以疊加在任何假圖像上,有效增加了假圖像的迷惑性。

4、通用潛空間攻擊(UniversalLatent-SpaceAttack)

不同於之前三種方法通過對假圖像施加擾動來影響分類結果,第四種攻擊方法是對圖像的潛在空間進行攻擊。

▲a為通用對抗性補丁攻擊效果,b~d為通用潛空間攻擊效果。圖中所有假圖像都被分類器誤判為真

經過白盒攻擊,分類器的AUC數值下降到了0.1以下。

二、黑盒攻擊

論文指出,現實中的社交網站、約會網站等,並不會公開其鑑定分類器的算法,因此很難進行前面所說的白箱攻擊。

面對這種情況,研究人員進行了黑盒攻擊。黑盒攻擊假設對方知道攻擊的存在,並且掌握了一般的防禦策略。

研究結果顯示,即使在這種限制性較強的黑盒攻擊條件下,鑑定分類器也很容易受到對抗性因素影響。經過黑盒攻擊,分類器的AUC數值下降到0.22以下。

結語:現有分類器有局限性,仍需深入研究

谷歌公司和加州大學伯克利分校研究團隊證明,只要對虛假圖片適當加以處理,就能使其「騙」過分類器。

這種現象令人擔憂,論文中寫道:「部署這樣的分類器會比不部署還糟糕,不僅虛假圖像本身顯得十分真實,分類器的誤判還會賦予它額外的可信度」。

因此,研究人員建議開創新的檢測方法,研究出可以識別經過再壓縮、調整大小、降低解析度等擾動手段處理的假圖像。

據悉,目前有許多機構正在從事這一工作,如臉書、亞馬遜網絡服務及其他機構聯合發起了「Deepfake鑑別挑戰」,期待能探索出更好的解決方案。

文章來源:VentureBeat,arXiv

來源:搜狐

相關焦點

  • ICLR2020|分類器其實是基於能量的模型?判別式分類器設計新思路
    目前,在相關下遊任務的最強大生成建模方法以及為每個特定問題人工設計的解決方案之間還存在較大的性能差距。一個可能的原因是大多數下遊任務本質上是判別式的,而當前最佳的生成模型與當前最佳的判別架構之間的差異也還很大。因此,即使僅以分類器為目標而訓練時,生成模型的表現也遠遜於最佳判別模型的表現。因此,判別性能的下降就會遠遠超過來自模型中生成組件的好處。
  • [實驗] 日語動詞分類
    1. 寫在前面的小結日語動詞分類規則非常簡單,傳統的 rectangular cuts 就能做好。那麼對於初次學習分類算法和 TMVA 而言,應該是個不錯的練習對象。一開始打算藉助這個小實驗體會「調參」,實踐之後發現這個任務似乎沒什麼這方面的價值,可能因為動詞分類實在太簡單,也可能由於我有的數據太少。
  • 伯克利與MIT最新研究:「CIFAR-10分類器」能否泛化到CIFAR-10中?
    畢竟,學習算法的目標是生成一個能夠很好地泛化到不可見數據中的模型。因此,為了理解當前機器學習進展的可靠性如何,加州大學伯克利分校(UC Berkeley)和麻省理工學院(MIT)的科學家們設計並開展了一種新的再現性研究。其主要目標是衡量當代分類器從相同分布中泛化到新的、真正不可見數據中的程度如何。可以這樣說,機器學習目前主要是由聚焦於一些關鍵任務的改進上的實驗性研究所主導的。
  • CS231N 01: 圖像分類器
    最近鄰分類器將取一張測試圖像,與每一張訓練圖像進行比較,並預測最接近訓練圖像的標籤(算法訓練和預測的時間複雜度分別為: Train O(1),predict O(N))。在上圖和右邊的圖片中,你可以看到這樣一個過程對10張測試圖像的示例結果。請注意,在10個例子中,只有3個例子檢索到了同一類的圖像,而在其他7個例子中,情況並非如此。
  • 機器學習小白看過來,帶你全面了解分類器評價指標
    近日,towardsdatascience 上的一篇文章就深入介紹了分類器的評價指標,以及應該在什麼場景下使用,雷鋒網 AI 研習社將內容編譯整理如下:在本文中,你將了解到為什麼評價分類器比較困難;為什麼在大多數情況下,一個看起來分類準確率很高的分類器性能卻沒有那麼理想;什麼是正確的分類器評價指標;你應該在何時使用這些評價指標;如何創造一個你期望的高準確率的分類器。
  • Stata:機器學習分類器大全
    2.1 支持向量機2.1.1 支持向量與間隔支持向量機是一種二分類器,它的基本思想是基於訓練集 2.3 神經網絡2.3.1 神經元神經網絡是現在比較流行的機器學習算法,可以處理回歸、分類等多種問題。神經網絡中最基本的結構是神經元 (neuron) ,其結構見下圖。
  • 實戰|樸素貝葉斯分類對文檔進行分類
    :高斯樸素貝葉斯:特徵變量是連續變量,符合高斯分布,比如人的身高和體重等多項式樸素貝葉斯:特徵變量是離線變量,符合多項分布,在文檔分類中特徵向量體現在一個單詞出現的次數或者是單詞的TF-IDF值等伯努利樸素貝葉斯:特徵變量是布爾變量,符合0/1分布,在文檔分類中特徵是單詞是否出現
  • 教程 | 利用AllenNLP,百行Python代碼訓練情感分類器
    在本文中,我們將使用斯坦福的情感分析樹庫(或稱 SST),這可能是最廣為使用的情感分析數據集之一。SST 與其它數據集最大的不同之處是,在 SST 中情感標籤不僅被分配到句子上,句子中的每個短語和單詞也會帶有情感標籤。這使我們能夠研究單詞和短語之間複雜的語義交互。
  • 從垃圾分類準確率看「湖裡實力」
    臺海網1月7日訊 據廈門日報報導 近年來,湖裡區在廈門市垃圾分類工作3.0版中引領潮流,紮實推進生活垃圾分類投放、分類收運、分類利用和分類處置,促進垃圾減量化、資源化和無害化,為優化垃圾分類工作做出了諸多努力。
  • 【Geometric GAN】引入線性分類器SVM的Geometric GAN
    有學者用最小化IPM的思想將W-GAN推廣為Mean feature matching GAN/covariance feature matching(McGAN)。McGAN在訓練過程中,特徵空間包括三種幾何操作:(1)分類超平面搜索:尋找線性分類器的分類超平面。
  • 基於Adaboost算法的人臉檢測分類器!
    本文主要基於統計的方法,通過Adaboost算法和Haar特徵來構建Haar分類器,對人臉和非人臉進行分類。本文目錄    1. 算法要點        1.1. Haar分類器訓練步驟        1.2. Haar的局限性    2. Haar原理解析        2.1.
  • 重磅|拓普基因在線發表結合機器學習和功能實驗數據的變異分類工具
    目前公認的變異分類的金標準是2015年更新的ACMG指南,但該指南的完整評分細則有數十條,其中有些細則對變異的已知信息要求很高,使得不同的實驗室/專家可能產生不同的判讀結果,並使得ACMG指南只能被部分地移植到自動化地計算機軟體當中來實現大批量分類處理。
  • 使用K-近鄰算法構建鳶尾屬分類器
    鳶尾屬是一種草本植物,約有300多種分類。現在需要建立一個分類器,對鳶尾屬進行自動分類。有兩種自動分類方式:一種方式是提供一些已經分類完成的樣本,樣本包括鳶尾屬的一組特徵和類別標識,將待分類的鳶尾屬特徵與所有樣本的特徵進行比較,與待分類鳶尾屬特徵最接近的樣本所屬的類別,就是待分類鳶尾屬的類別;另外一種方式是沒有分類完成的樣本,程序需要自動對待分類的鳶尾屬進行歸類,即該分類方法沒有正確的答案供分類算法參考,算法需要按照開發者設定的參數對鳶尾屬進行分類。
  • 用100元的支票騙到100萬:看看對抗性攻擊是怎麼為非作歹的
    對抗性攻擊的類型下面是我們將要重點分析的主要攻擊類型:1.無目標的對抗性攻擊: 這是最普遍的攻擊類型,其目標是使分類器輸出錯誤的結果2.有目標的對抗性攻擊: 這種攻擊稍微困難一些,其目標是使分類器針對你的輸入輸出一個特定的類。
  • Softmax分類器
    ,對於多分類任務,我們需要用一種新的softmax回歸模型來對數據進行分類。當k=2時,也就是分類數只有兩個時,其實並不需要計算兩個的softmax值,只需要計算其中一個,因為兩種分類的預測概率和必定為1,接下來的另一個只需用1減去第一個softmax值即可。這時softmax的假設函數為:
  • 基於 Python 實踐感知器分類算法
    Perceptron是用於二進位分類任務的線性機器學習算法。它可以被認為是人工神經網絡的第一種和最簡單的類型之一。絕對不是「深度」學習,而是重要的組成部分。與邏輯回歸相似,它可以快速學習兩類分類任務在特徵空間中的線性分離,儘管與邏輯回歸不同,它使用隨機梯度下降優化算法學習並且不預測校準概率。在本教程中,您將發現Perceptron分類機器學習算法。
  • 文本分類在內容安全應用中的數據不平衡問題
    經過幾十年的發展,文本分類在學術界已經是一個比較成熟的技術,目前自然語言處理(NLP)的研究熱點已經不在文本分類上面。然而,作為內容安全檢測的一個重要技術手段,文本分類在實際業務中還是有不少的挑戰。首先,內容安全場景對分類的準確度要求極高,不但要求較低的誤判率,任何一個漏判都有可能給產品方帶來嚴重的後果。
  • 使用sklearn-svm進行多分類
    實際上,svm經過合適的設計也可以運用於多分類問題,sklearn中的svm模塊封裝了libsvm和liblinear,本節我們利用它進行多分類。SVM回顧SVM算法最初是為二值分類問題設計的,當處理多類問題時,就需要構造合適的多類分類器。
  • 基於多個特徵分塊貝葉斯分類器融合策略的人臉識別方法
    通過對人臉圖像樣本進行幾何歸一化和灰度均衡化後,結合分塊與加權,運用奇異值分解,分別獲得特徵臉和標準臉,然後採用多個基於特徵分塊的貝葉斯分類器(FBBC)的融合策略進行分類識別。實驗驗證了該方法的有效性,具有良好的精煉和實時性品質指標。
  • BRAIN:機器學習:基於EEG的跨中心、跨方案的意識狀態分類器
    我們的研究第一次表明,基於非參數分類器的決策樹提供了魯棒的樣本外表現,預測的曲線下的面積(AUC)為0.77,但當使用不同的EEG配置(不同數量和位置的電極、分段數量,平均AUC = 0.750 ± 0.014)時,這一預測只達到邊緣顯著。在第二步中,我們觀測了基於多個和單個EEG特徵的分類器泛華到來自不同病人群、EEG實驗類型和不同中心的記錄數據。