原標題:最先進分類器也可能誤判!科學家設計攻擊實驗,分類準確率下降到0.1以下
智東西(公眾號:zhidxcom)
編|董溫淑
備選標題:
1、AI分類器可能誤判!科學家設計攻擊實驗,讓Deepfake以假亂真
2、指望AI鑑別Deepfake?最新研究顯示可靠性較低
智東西4月9日消息,谷歌公司和加州大學伯克利分校的研究人員最近的一項研究顯示,現有的鑑定分類器在一些情況下不能有效甄別出Deepfake作品。
用人工智慧手段進行人體圖像合成被稱為Deepfake。簡單來說,Deepfake技術可以給圖片、視頻中的人物「換臉」。網絡上流行的換臉app、一鍵脫衣app均是基於Deepfake技術實現功能。
提起Deepfake,就不能不提到濫用這種技術會造成嚴重惡性後果。例如此前曝出的新聞:網絡IP偽造名人色情影片、犯罪分子冒充英國能源公司CEO挪用公司資金、別有用心者在大選期間傳播對競選者不利的虛假材料等等。
為了避免這種情況,許多網站引入了能夠區分真假內容的AI鑑定分類系統。
然而,谷歌公司和加州大學伯克利分校的研究表明,即使是最先進的分類器也很容易被攻擊影響。
無獨有偶,另一個由加州大學聖地牙哥分校主導的研究也表明,只要在虛假視頻中添加一些信息,分類器就無法把它辨別出來。
這些研究結果為我們敲響了警鐘:目前的分類器並不是100%可靠,仍需警惕Deepfake製作的虛假信息。
目前谷歌和加州大學伯克利分校的研究已經發表在學術網站arXiv上,論文標題為《用白盒、黑盒攻擊繞過Deepfake圖像鑑別工具(EvadingDeepfake-ImageDetectorswithWhite-andBlack-BoxAttacks)》
論文連結:https://arxiv.org/pdf/2004.00622.pdf
實驗中用到的假圖像基於生成對抗網絡(generativeadversarialnetworks,GAN)來合成。GAN由一個生成網絡和一個判別網絡組成。
GAN模型的學習過程就是生成網絡和判別網絡的相互博弈的過程:生成網絡從潛在空間中隨機取樣作為輸入,目標是輸出與訓練集中樣本一致的圖像。判別網絡的目標則是判定生成網絡的輸出是否屬於訓練集。
經過一段時間的學習,生成網絡輸出的圖像將與訓練集中的十分相似,不能被判別網絡識別出來。
研究人員共對3個分類器做了測試,其中兩個為第三方分類器,一個為研究人員訓練出的用於對照的分類器。
研究人員選用了兩種不同訓練方式的第三方分類器。
第一個的分類器模型基於深度殘差網絡ResNet-50(Deepresidualnetwork)。
研究人員預先用大型視覺資料庫ImageNet對ResNet-50進行了訓練。訓練集中包括720000個訓練圖像和4000個驗證圖像,其中一半為真實圖像,另一半是用ProGAN生成的合成圖像。訓練集中的圖像採用空間模糊和JEPG壓縮方法增強。
經過訓練後,這個分類器能準確識別出ProGAN生成的圖像,而且還能分類其他未被發現的圖像。
第二個鑑定分類器採用的是基於相似性學習(similarlearning-based)的方法。經過訓練後這款分類器可以準確辨認出由不同生成器合成的圖像。
研究團隊還自己搭建了一個鑑定分類器模型,作為前述兩個鑑定分類器的對照示例。這個分類器採用一百萬個ProGAN生成的圖像進行訓練,其中真假圖像各佔一半。論文中指出,這個分類器的訓練管道比前述兩種簡單很多,因此錯誤率是前面兩個模型的3倍。
研究人員根據分類器是否開放了訪問權限,選用了不同的攻擊方式。對開發訪問權限的分類器採用白盒攻擊;對不開放訪問權限的分類器採用黑盒攻擊。
另外,研究人員用接收者操作特徵曲線(ROC曲線)評估分類器的正確率。評估標準是曲線下面積(AUC)的大小。AUC的取值範圍為0~1,一般來說AUC>0.5即代表分類器有預測價值,AUC值越大代表分類器準確率越高。
一、白盒攻擊
對於開放了訪問權限的分類器,研究人員用白盒攻擊評估其穩健性。
白盒攻擊即攻擊者能夠獲知分類器所使用的算法以及算法使用的參數。在產生對抗性攻擊數據的過程中,攻擊者能夠與分類器系統產生交互。
攻擊過程中用到的所有圖像都來自一個包含94036張圖像的視覺資料庫。
開始白盒攻擊之前,基於這個資料庫的分類器得到了0.97的AUC數值。即使在執行典型的清洗策略隱藏圖像合成痕跡後,分類器的AUC數值仍保持在0.94以上。
接下來研究人員使用了4種白盒攻擊方法。這4種攻擊在之前的對抗性示例中已有過研究。攻擊的具體方式是對圖像進行修改,使分類器誤認為它們是真實的。
▲四種攻擊前後,分類器的ROC曲線圖。藍色實線代表JPEG格式的合成圖像,藍色虛線代表PNG格式的合成圖像
1、失真最小化攻擊(Distortion-minimizingAttack)
失真最小化攻擊即對合成圖像添加一個較小的加法擾動δ。假設一個合成圖像x先被分類器判定為假,施加擾動後,(x+δ)就會被判定為真。
▲a:分類器把假圖像識別為真;b:分類器把真圖像識別為假。把像素翻轉1%,就會有一半的假圖像被判定為真;把像素翻轉7%,就會有一半的真圖像被判定為假。
2、損失最大化攻擊(Loss-MaximizingAttack)
損失最大化攻擊即定義一個更簡單的目標函數,更大限度地提升合成圖像被判定為真的概率。
3、通用對抗性補丁攻擊(UniversalAdversarial-PatchAttack)
失真最小化攻擊方法有有一個局限性:攻擊者需要花費0.1秒為每個圖像定製攻擊方式。
為了彌補這一局限性,研究人員創建了一個單一的可視噪聲模板補丁。這個補丁可以疊加在任何假圖像上,有效增加了假圖像的迷惑性。
4、通用潛空間攻擊(UniversalLatent-SpaceAttack)
不同於之前三種方法通過對假圖像施加擾動來影響分類結果,第四種攻擊方法是對圖像的潛在空間進行攻擊。
▲a為通用對抗性補丁攻擊效果,b~d為通用潛空間攻擊效果。圖中所有假圖像都被分類器誤判為真
經過白盒攻擊,分類器的AUC數值下降到了0.1以下。
二、黑盒攻擊
論文指出,現實中的社交網站、約會網站等,並不會公開其鑑定分類器的算法,因此很難進行前面所說的白箱攻擊。
面對這種情況,研究人員進行了黑盒攻擊。黑盒攻擊假設對方知道攻擊的存在,並且掌握了一般的防禦策略。
研究結果顯示,即使在這種限制性較強的黑盒攻擊條件下,鑑定分類器也很容易受到對抗性因素影響。經過黑盒攻擊,分類器的AUC數值下降到0.22以下。
結語:現有分類器有局限性,仍需深入研究
谷歌公司和加州大學伯克利分校研究團隊證明,只要對虛假圖片適當加以處理,就能使其「騙」過分類器。
這種現象令人擔憂,論文中寫道:「部署這樣的分類器會比不部署還糟糕,不僅虛假圖像本身顯得十分真實,分類器的誤判還會賦予它額外的可信度」。
因此,研究人員建議開創新的檢測方法,研究出可以識別經過再壓縮、調整大小、降低解析度等擾動手段處理的假圖像。
據悉,目前有許多機構正在從事這一工作,如臉書、亞馬遜網絡服務及其他機構聯合發起了「Deepfake鑑別挑戰」,期待能探索出更好的解決方案。
文章來源:VentureBeat,arXiv
來源:搜狐