文本也有攻防戰:清華大學開源對抗樣本必讀論文列表

2021-01-11 機器之心Pro

在自然語言處理領域,對抗樣本的攻擊與防禦近來受到很多研究者的關注,我們希望構建更穩健的 NLP 模型。在本文中,我們簡要討論了攻防的概念,並介紹了清華大學近日開源的 NLP 對抗樣本攻防必讀論文列表。

自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網絡模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文本的多樣特徵。因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。

使用對抗樣本生成和防禦的自然語言處理研究可以基本概括為以下三種:1. 用未察覺的擾動迷惑模型,並評價模型在這種情況下的表現;2. 有意的改變深度神經網絡的輸出;3. 檢測深度神經網絡是否過於敏感或過於穩定,並尋找防禦攻擊的方法。

Jia 和 Liang 首先考慮在深度神經網絡中採用對抗樣本生成(或者「對抗攻擊」,兩者皆可)方法完成文本處理相關任務。他們的研究在自然語言處理社區很快獲得了研究方面的關注。

然而,由於圖片和文本數據內在的不同,用於圖像的對抗攻擊方法無法直接應用與文本數據上。首先,圖像數據(例如像素值)是連續的,但文本數據是離散的。其次,僅僅對像素值進行微小的改變就可以造成圖像數據的擾動,而且這種擾動是很難被人眼差距的。但是對於文本的對抗攻擊中,小的擾動很容易被察覺,但人類同樣能「猜出」本來表達的意義。因此 NLP 模型需要對可辨識的特徵魯棒,而不像視覺只需要對「不太重要」的特徵魯棒。

DeepWordBug 的深度網絡攻擊示例。選自 arXiv:1902.07285

與圖像領域一樣,有進攻就會有防禦,目前也有很多研究嘗試構建更魯棒的自然語言處理模型。例如在 CMU 的一篇對抗性拼寫錯誤論文(arXiv:1905.11268)中,研究者通過移除、添加或調序單詞內部的字符,以構建更穩健的文本分類模型。這些增減或調序都是一種擾動,就像人類也很可能出現這些筆誤一樣。通過這些擾動,模型能學會如何處理錯別字,從而不至於對分類結果產生影響。

對抗性拼寫錯誤導致的情感誤分類,與通過字識別防禦手段獲得的更穩健模型。選自 arXiv:1905.11268

除了文本分類,也有很多研究者通過對抗訓練構建更穩健的翻譯系統。清華大學劉洋老師表示,如果我們修改原文的某個字,那麼很可能譯文就完全變了,目前的 NMT 系統並不是太穩健。

劉洋老師表示,目前比較多的方法是在訓練中加入噪聲而讓 NMT 模型學會抵禦隨機擾動。如下圖所示,X 是正確的輸入,會加一些噪聲以形成 X'。當我們用神經網絡進行學習的時候,會生成兩種內部表示 H_x 和 H_x'。我們希望這兩種內部表示對於判別器 Discriminator 是不可區分的,如果不可區分,就說明噪聲不會對預測做出更大的影響。

其中噪聲可以是從真實數據獲取的人類誤差,也可以是隨機生成的噪聲。當機器翻譯模型能抵禦這些噪聲,那麼它就非常魯棒了。

NLP 對抗樣本攻防戰必讀論文

雖然,自然語言領域的對抗攻防仍然有很多困難,但目前已經有一批優秀的論文。最近清華大學楊承昊、豈凡超和臧原同學整理了一份必讀論文,其從整體的綜述論文到攻擊、防禦方法介紹了該領域的前沿研究工作。如下僅展示了論文名,具體的論文地址可查看原 GitHub 項目。

項目地址:https://github.com/thunlp/TAADpapers

綜述論文

文本攻擊與防禦的論文概述:

Analysis Methods in Neural Language Processing: A Survey. Yonatan Belinkov, James Glass. TACL 2019.Towards a Robust Deep Neural Network in Text Domain A Survey. Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye. 2019.Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey. Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li. 2019.黑盒攻擊

PAWS: Paraphrase Adversaries from Word Scrambling. Yuan Zhang, Jason Baldridge, Luheng He. NAACL-HLT 2019.Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems. Steffen Eger, Gzde Gül Sahin, Andreas Rücklé, Ji-Ung Lee, Claudia Schulz, Mohsen Mesgar, Krishnkant Swarnkar, Edwin Simpson, Iryna Gurevych.NAACL-HLT 2019.Adversarial Over-Sensitivity and Over-Stability Strategies for Dialogue Models. Tong Niu, Mohit Bansal. CoNLL 2018.Generating Natural Language Adversarial Examples. Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang. EMNLP 2018.Breaking NLI Systems with Sentences that Require Simple Lexical Inferences. Max Glockner, Vered Shwartz, Yoav Goldberg ACL 2018.AdvEntuRe: Adversarial Training for Textual Entailment with Knowledge-Guided Examples. Dongyeop Kang, Tushar Khot, Ashish Sabharwal, Eduard Hovy. ACL 2018.Semantically Equivalent Adversarial Rules for Debugging NLP Models. Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin ACL 2018.Robust Machine Comprehension Models via Adversarial Training. Yicheng Wang, Mohit Bansal. NAACL-HLT 2018.Adversarial Example Generation with Syntactically Controlled Paraphrase Networks. Mohit Iyyer, John Wieting, Kevin Gimpel, Luke Zettlemoyer. NAACL-HLT 2018.Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers. Ji Gao, Jack Lanchantin, Mary Lou Soffa, Yanjun Qi. IEEE SPW 2018.Synthetic and Natural Noise Both Break Neural Machine Translation. Yonatan Belinkov, Yonatan Bisk. ICLR 2018.Generating Natural Adversarial Examples. Zhengli Zhao, Dheeru Dua, Sameer Singh. ICLR 2018.Adversarial Examples for Evaluating Reading Comprehension Systems. Robin Jia, and Percy Liang. EMNLP 2017.白盒攻擊

On Adversarial Examples for Character-Level Neural Machine Translation. Javid Ebrahimi, Daniel Lowd, Dejing Dou. COLING 2018.HotFlip: White-Box Adversarial Examples for Text Classification. Javid Ebrahimi, Anyi Rao, Daniel Lowd, Dejing Dou. ACL 2018.Towards Crafting Text Adversarial Samples. Suranjana Samanta, Sameep Mehta. ECIR 2018.同時探討了黑盒和白盒攻擊

TEXTBUGGER: Generating Adversarial Text Against Real-world Applications. Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, Ting Wang. NDSS 2019.Comparing Attention-based Convolutional and Recurrent Neural Networks: Success and Limitations in Machine Reading Comprehension. Matthias Blohm, Glorianna Jagfeld, Ekta Sood, Xiang Yu, Ngoc Thang Vu. CoNLL 2018.Deep Text Classification Can be Fooled. Bin Liang, Hongcheng Li, Miaoqiang Su, Pan Bian, Xirong Li, Wenchang Shi.IJCAI 2018.對抗防禦

Combating Adversarial Misspellings with Robust Word Recognition. Danish Pruthi, Bhuwan Dhingra, Zachary C. Lipton. ACL 2019.評估

對文本攻擊和防禦研究提出新的評價方法:

On Evaluation of Adversarial Perturbations for Sequence-to-Sequence Models. Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino. NAACL-HLT 2019

相關焦點

  • 專訪| 對抗樣本攻防戰,清華大學TSAIL團隊再獲CAAD攻防賽第一
    在今年的 CADD CTF 攻防賽中,選手需要根據隨機匹配戰隊的指定圖像,對其他戰隊發動「定向對抗樣本」攻擊,同時還要防禦來自其他團隊的「對抗樣本」。這種對抗攻擊是完全黑盒的,各戰隊無法獲取任何關於對方模型的信息,例如損失函數、模型架構、輸入-輸出樣本對等等。
  • 清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結
    NIPS 2017 上 Ian Goodfellow 也牽頭組織了 Adversarial Attacks and Defences(對抗攻擊防禦)競賽,供研究人員、開發人員們在實際的攻防比拼中加深對對抗性樣本現象和相關技術手段的理解。在比賽結束後,參與此次比賽的谷歌大腦、清華大學以及其它參與的企業和學校的研究人員們聯合撰寫了一篇對於本次比賽的總結。其中
  • 清華朱軍團隊包攬三項冠軍 | NIPS 2017對抗樣本攻防競賽總結(附學習資料)
    本次比賽總結由谷歌大腦、清華大學以及其它參與研究人員們聯合撰寫,為你介紹NIPS 2017 對抗樣本攻防比賽的情況。自 Ian Goodfellow 等研究者發現了可以讓圖像分類器給出異常結果的"對抗性樣本"(adversarial sample)以來,關於對抗性樣本的研究越來越多。
  • NIPS 2017 | 清華大學人工智慧創新團隊在AI對抗性攻防競賽中獲得冠軍
    清華大學張鈸院士帶領的人工智慧創新團隊在 NIPS 2017 AI 對抗性攻防競賽中獲得冠軍(指導教師:朱軍、胡曉林、李建民、蘇航
  • 機器不學習:生成對抗網絡-NIPS 2017對抗樣本攻防賽冠軍算法分享
    對抗樣本是一類被惡意設計來攻擊機器學習模型的樣本。它們與真實樣本的區別幾乎無法用肉眼分辨,但是卻會導致模型進行錯誤的判斷。對抗樣本的存在會使得深度學習在安全敏感性領域的應用收到威脅,如何對其進行有效的防禦是重要的研究課題。我們提出了動量迭代快速符號化梯度法和高層引導去躁算法,分別應用於對抗樣本的攻擊和防禦,取得了NIPS 2017對抗樣本比賽的冠軍。
  • 機器之心年度盤點:2018年重大研究與開源項目
    很快大家就選定了語言模型,首先它是一種無監督方式,所以訓練樣本很容易獲取。其次語言模型能預測一個詞序列是人類話語的概率,因此某種意義上它包含了通用的語言知識。因此在 2018 年中,使用預訓練語言模型可能是 NLP 領域最顯著的趨勢,它可以利用從無監督文本中學習到的「語言知識」,並遷移到各種 NLP 任務中。
  • 對抗樣本的基本原理
    概述對抗樣本是機器學習模型的一個有趣現象,攻擊者通過在源數據上增加人類難以通過感官辨識到的細微改變,但是卻可以讓機器學習模型接受並做出錯誤的分類決定。一個典型的場景就是圖像分類模型的對抗樣本,通過在圖片上疊加精心構造的變化量,在肉眼難以察覺的情況下,讓分類模型產生誤判。
  • "妙筆"生花:一個易用、高效的文本生成開源庫
    文本生成作為近年來自然語言處理中的熱門領域,受到了學界和工業界的廣泛關注。隨著研究的不斷深入,文本生成領域下的子任務和相應的模型越來越豐富,一些優秀的開源框架也紛紛湧現。
  • 「全球最大網絡攻防戰」練什麼
    「鎖盾」:不是一面盾牌,而是針對俄的網絡戰尖刀俄羅斯衛星新聞網8日報導稱,位於愛沙尼亞首都塔林的北約合作網絡防禦中心新聞處發布消息稱,世界最大規模的網絡安全演習「鎖盾-2019」(Locked Shields 2019)8日在愛沙尼亞展開,並持續到12日。該演習目的是為信息系統和關鍵基礎設施領域防網絡攻擊的專業人員提供訓練機會。
  • 比基線模型快100倍,Google開源文本生成「加速器」LaserTagger
    儘管最新的研究突得端到端的方法在文本生成上比之前更有優勢,但其本身存在的不可解釋性,一方面使得該模型需要大量的訓練數據才能達到可接受的性能水平,另一方面通常只能逐字生成文字,本質上是很慢的。近日,Google研究團隊開源了一款文本編輯模型LaserTagger,可推理出一系列編輯操作,以將源文本轉換為目標文本。
  • 年度必讀:2018最具突破性人工智慧論文Top 10
    當然,還有很多具有突破性的論文值得一讀,但本文作者認為這是一個很好的列表,你可以從它開始。當然,還有很多具有突破性的論文值得一讀,但本文作者認為這是一個很好的列表,你可以從它開始。 我們的方法在六個文本分類任務上顯著優於最先進的技術,在大多數數據集上將錯誤率降低了18-24%。此外,僅使用100個標記示例,它的性能不比在100倍以上的數據上從零開始訓練的模型的性能差。我們將開源預訓練模型和代碼。
  • 對抗中的主動防禦——攻防演練及小規模網絡對抗的戰術
    二、對抗,對抗,對抗實際的小規模網絡攻防中,面對的攻擊對象,主要包括國內外敵對勢力、商業和民間黑客以及執行攻防演練行動中進行安全性檢測的攻擊隊等。攻擊對象不乏有使用1day,甚至是0day的攻擊手段,在某些特定對象和場景中,也可能會遇到APT攻擊。面對這些攻擊時,一味地進行被動防禦,即使不斷提高防禦手段,往往只是增加資源投入和成本,並不能起到更好的效果。
  • OpenAI最新研究:「對抗樣本」能輕易黑掉AI系統,如何抵禦?
    在OpenAI,我們認為「對抗樣本」是安全方面非常好的一個議題,因為它代表了AI安全領域裡的一種具體的問題,我們可以在較短期裡去關注和解決,而且這個問題的難度也是足夠的,需要進行一些重要的研究工作(儘管我們需要探索機器學習安全的很多方面,以達到我們建造安全、廣泛應用AI的目標)。什麼是「對抗樣本」?
  • 推斷速度達seq2seq模型的100倍,谷歌開源文本生成新方法LaserTagger
    谷歌研究人員在近期論文《Encode, Tag, Realize: High-Precision Text Editing》中提出一種新型文本生成方法,旨在解決上述三種缺陷。該方法速度快、精確度高,因而得名 LaserTagger。
  • 創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...
    《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》這篇論文的主要貢獻,就是提出了高效生成對抗訓練數據的最先進方法之一—— DeepConfuse,通過劫持神經網絡的訓練過程,教會噪聲生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力儘可能地差
  • (附開源平臺地址)| 盤點
    而在其中,1. 生成式對抗網絡(GANs)最近一種基於生成模型的新方法出現了,名為「生成式對抗網絡」(GANs),它能夠使用模型來處理無監督學習問題。GANs 將是一場真正的革命,在相關的技術演講中,Yann LeCun(深度學習創始人之一)說 GANs 是過去 20 年裡機器學習最重要的想法。
  • 清華大學董胤蓬:Adversarial Robustness of Deep Learning
    清華大學董胤蓬為大家帶來報告《Adversarial Robustness of Deep Learning》。董胤蓬,清華大學計算機系人工智慧研究院三年級博士生,導師為朱軍教授。主要研究方向為機器學習與計算機視覺,聚焦深度學習在對抗環境中的魯棒性的研究。
  • 7篇必讀ACM MM 2019論文:圖神經網絡+多媒體
    圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。來新智元 AI 朋友圈和AI大咖們一起討論吧。
  • ACL 2020 清華大學 THUNLP 系列解讀
    AI 科技評論更進一步聯合清華大學計算機系THUNLP團隊,將推出第四期實驗室系列解讀直播活動 ——「ACL 2020 清華大學 THUNLP 系列解讀」。我們將在5月13日-18日,連續6天進行 6 場直播,全面覆蓋清華大學 THUNLP 課題組在 ACL 上相關的全部工作。THUNLP 團隊在本屆 ACL 會議上共有 7 篇文章入選,內容覆蓋 NLP 研究的多個方面。