復旦大學李林陽:應用預訓練模型實現對抗樣本生成的高效方法

2021-02-19 AI TIME 論道

針對離散數據(例如文本)的對抗攻擊比連續數據(例如圖像)更具挑戰性,因為很難使用基於梯度的方法生成對抗樣本。當前成功的文本攻擊方法通常在字符或單詞級別上採用啟發式替換策略,替換時難以保持語義一致性和語言流暢性。在本文中,作者提出了BERT-Attack,這是一種高質量且有效的方法,可以使用以BERT為例的MLM預訓練語言模型來生成對抗性樣本。作者使用BERT對抗其微調模型和其他預訓練模型,以誤導目標模型,使其預測錯誤。作者的方法在成功率和擾動百分比方面均優於最新的攻擊策略,並且生成的對抗性樣本很流利,並且在語義一致。而且作者的方法計算成本低,可以大規模生成。

本期AI TIME PhD直播間,我們有幸邀請到了復旦大學  NLP group2019級研究生李林陽分享他的觀點。

李林陽:復旦大學  NLP group2019級研究生;導師為邱錫鵬教授;

儘管深度學習取得了成功,但最近的研究發現神經網絡容易受到對抗樣本的攻擊,這些對抗樣本是對原始輸入進行細微擾動而製成的。儘管對抗性樣本對於人而言幾乎不可察覺,但是它們會誤導神經網絡進行錯誤的預測。針對對抗性攻擊的學習可以提升神經網絡的可靠性和健壯性,在計算機視覺領域,攻擊策略及其防禦措施都得到了很好的探索,但由於語言的離散性,對文本的對抗性攻擊較為困難,難以保證語法流利且語義一致。

當前對文本的成功攻擊通常採用啟發式規則來修改單詞的字符,並用同義詞替換單詞。

之前的研究包括使用word embedding生成替換詞;對原有句子的短語進行添加或刪除;使用人工構建的規則進行詞語替換。儘管上述方法取得了良好的效果,但在攻擊成功率,語法正確性和語義一致性等方面,仍有很大的改進空間。此外,這些方法的替換策略通常很簡單,受限於特定任務。

本文提出了一種有效且高質量的對抗樣本生成方法:BERT-Attack,使用BERT作為生成器生成對抗樣本。BERT-Attack的核心算法包括兩個階段:在給定輸入序列中查找易受攻擊的單詞,然後用如BERT的生成器來生成易受攻擊單詞的替代詞。BERT能夠捕捉文本的上下文語義,因此生成的樣本更為流暢且合理。作者將BERT這樣的MLM語言模型用作生成器,並找到讓BERT模型得到最大錯誤預測風險的擾動。另外,本文的方法只需要一次生成器前向,而且無需反覆使用語言模型對對抗樣本進行評分,速度有一定改進。表1展示了該攻擊方法在幾個數據集上的生成文本樣例。

本文提出BERT-Attack,它使用原始BERT模型製作對抗性樣本以對抗微調的BERT模型。對抗樣本的生成包括兩個步驟:(1)找出針對目標模型的易受攻擊的單詞,(2)用語義相似且語法正確的單詞替換它們,直到成功攻擊為止。具體而言:


1.尋找易受攻擊詞(Vulnerable Words)

作者給句子中的每一個詞一個評分,得分與易受攻擊程度呈正比,該評分按照去掉該詞的句子在判別器上的輸出結果的擾動程度給出。作者使用目標模型(微調的BERT或其他神經模型)的logit輸出作為判別器。易受攻擊詞定義為序列中對最終輸出logit有重要影響的單詞。令表示輸入語句,表示目標模型輸出的正確標籤y的logit,重要性得分定義為

就是將該詞替換成「[MASK]」。然後,對降序排名,獲取其中的前百分之的詞組成可替換詞表,記為L。

2.BERT生成器的優點

找到易受攻擊的單詞後,將列表L中的單詞一一替換,以尋找可能誤導目標模型的幹擾。以前的替換方法包括同義詞詞典,POS檢查器,語義相似性檢查器等。但是因為替換的時候只有詞表,不考慮上下文,因此需要用傳統語言模型給替換單詞的句子打分。由於換一個詞就得評價一次,時間成本比較高。

作者利用BERT進行單詞替換,可確保所生成的句子相對流利且語法正確,還保留了大多數語義信息。此外,掩碼語言模型的預測是上下文感知的,因此可以動態搜索擾動,而不是簡單的同義詞替換。而且針對一個詞而言,僅通過一個前向即可產生候選文本,無需再用語言模型來對句子評分,提升了效率。

3.替換策略


如圖1所示,作者輸入原句子給BERT,並根據BERT輸出生成候選詞。注意這裡不用[MSAK]替換被攻擊詞語,其原因作者給出了如下解釋:1. 有些詞語替換後,和原句子幾乎一樣流暢但是語義可能變更。例如給定一個序列「I like the cat」,如果遮蓋cat這個詞,那麼MLM模型很難預測原始單詞cat,因為如「I like the dog」一樣很流暢。2. MASK掉給定的單詞後,每個候選詞都需要運行一遍BERT前向,時間成本太高。

令M代表BERT模型,為原序列,是利用BERT的分詞器分完詞的序列,將H輸入BERT中得到輸出預測。使用top-K策略選擇可能的替換詞預測,其中K是超參數。作者遍歷所有候選易攻擊詞表L生成替換詞表。

由於BERT使用字節對編碼(BPE)分詞,候選詞可能會被分開,因此還需要將所選單詞與BERT中相應的子單詞對齊。

針對未被分開的單個單詞,作者使用相應的前K個預測候選逐一嘗試替換,並使用NLTK過濾其中的停用詞,另外對於情感分類任務候選詞可能包括同義詞和反義詞,作者使用同義詞詞典過濾反義詞。然後將替換完成的句子重新輸入判別器,如果判別器給出與原label相反的判斷那麼輸出該句子作為攻擊句;否則,從篩選出的候選詞中選擇一個對logit影響最大的。

針對字詞組(sub-word 應該不能翻譯為字詞組),由於無法直接獲取其替代詞,作者使用子詞組合中所有詞的預測中找到合適的詞替代。作者首先使用MLM模型分析整個詞組的易攻擊程度,然後再選出詞組的top-k組合。剩餘過程與單個單詞一致。

為了衡量所生成樣本的質量,作者設計了幾種評估指標:

●成功率(success rate):攻擊樣本的判別器準確率。

●擾動百分比(perturbed percentage)更改文本的佔比。

●每個樣本的查詢數量(query number per sample)一個樣本生成對抗樣本的需要訪問判別器的次數。

●語義相似度(semantic similarity)使用通用句子編碼器(Universal Sentence Encoder)評價的句子相似度。

如表2所示,BERT-Attack方法成功欺騙了其下遊的微調模型。在文本分類和自然語言推斷任務中,經過微調的BERT均無法正確地對生成的對抗樣本進行分類,攻擊後的平均準確度低於10%。同時,擾動百分比小於10%,明顯小於以前的工作,BERT-Attack方法更有效且更不易察覺。查詢數量也要少得多。

另外可以觀察到,由於擾動百分比非常低,因此通常更容易攻擊評論分類任務。BERT-Attack僅替換少數幾個單詞就可能誤導判別器。由於平均序列長度相對較長,因此判別器傾向於僅按序列中的幾個詞進行判斷,這不是人類預測的自然方式。因此,這些關鍵字的幹擾將導致目標模型的預測不正確,從而揭示了該模型的脆弱性。

為了進一步評估生成的對抗性樣本,作者人工評估了流利性,語法以及語義保留方面生成的樣本的質量。

作者要求三名標註人員對生成的對抗性樣本和原始序列的混合句子的語法正確性進行評分(1-5分),然後將原始文本和對抗文本混在一起進行人工預測。在IMDB和MNLI數據集中,作者分別選擇100個原始樣本和對抗樣本驗證。對於IMDB,將多數類作為人類預測標籤,對於MNLI,則使用標註人員之間的平均分數。從表2中可以看出,對抗性樣本的語義分數和語法分數接近原始樣本。MNLI任務數據長且更加複雜(存在句子對(sentence pair)之間,重複出現的詞彙較多,而基於替換的對抗樣本則破壞了這種相同詞彙的對應關係),使標註人員難以正確預測,因此其準確性要比簡單的句子分類任務低。作者同樣做了大量消融實驗,實驗結果表明該對抗方法生成的樣本遷徙性強,生成速度快。

在這項工作中,作者提出了一種高質量有效的BERT-Attack方法,以使用BERT掩蔽語言模型(masked-LM)生成對抗性樣本。實驗結果表明,該方法在保持最小擾動的同時,取得了較高的成功率。然而,從屏蔽語言模型生成的候選者有時可能是反義詞或與原始單詞無關,從而導致語義損失。因此,增強語言模型以生成更多與語義相關的擾動可能是將來完善BERT-Attack的一種可能解決方案。

AI TIME歡迎AI領域學者投稿,期待大家剖析學科歷史發展和前沿技術。針對熱門話題,我們將邀請專家一起論道。同時,我們也長期招募優質的撰稿人,頂級的平臺需要頂級的你,請將簡歷等信息發至yun.he@aminer.cn!

微信聯繫:AITIME_HY

AI TIME是清華大學計算機系一群關注人工智慧發展,並有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智慧理論、算法、場景、應用的本質問題進行探索,加強思想碰撞,打造一個知識分享的聚集地。

(直播回放:https://b23.tv/WJcJaw)

(點擊「閱讀原文」下載本次報告ppt)

相關焦點

  • 復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡
    但近日復旦大學邱錫鵬等研究者發了一篇論文,它以兩張圖詳細展示了預訓練語言模型的現狀與分類。 復旦的這篇綜述性論文非常豐富,它以 25 頁的篇幅展示了預訓練語言模型的方方面面,不論是新奇的預訓練任務,還是各種模型針對領域知識的擴展,我們都能快速 Get 到。
  • 要讓GAN生成想要的樣本,可控生成對抗網絡可能會成為你的好幫手
    雷鋒網 AI 科技評論按:如何讓GAN生成帶有指定特徵的圖像?這是一個極有潛力、極有應用前景的問題,然而目前都沒有理想的方法。比如,沿用已知的模型,用於臉部圖像生成的發生器就無法專注於兩個目標中的某一個,即根據標籤產生人臉的真實圖像,或是產生有差異的人臉圖像。這篇文章則介紹了一種新的方法,即可控生成對抗網絡(Controllable GAN, CGAN)。CGAN在控制生成樣本上有很強的表現,同時,它還能控制發生器專注於單個目標(生成真實的圖像或產生不同的圖像)。文章最後使用CelebA的資料庫對CGAN進行評估。
  • 原創對抗樣本與生成式對抗網絡
    對抗樣本與生成式對抗網絡對抗樣本和對抗性網絡,從最開始YannLeCun在Quora上直播時表示生成對抗性網絡近期人工智慧最值得期待的算法之一
  • 【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻
    】預訓練語言模型Pre-trained Models是當前自然語言處理以及其他應用的研究熱點,在眾多任務中取得SOTA性能。近近日,復旦大學邱錫鵬等學者發布了自然語言處理處理中預訓練模型PTMs的綜述大全,共25頁pdf205篇參考文獻,從背景知識到當前代表性PTM模型和應用研究挑戰等,是絕好的預訓練語言模型的文獻。
  • ACL2020|使用強化學習為機器翻譯生成對抗樣本
    不同於圖像處理(computer vision, CV)的對抗樣本由直接使用梯度優化的方法得到,文本由於其表示的離散性質無法直接套用。當前生產文本對抗樣本的模式分為兩大類:對圖像對抗樣本生成方法的離散化改進。
  • 阿里達摩院自動駕駛新成果;邱錫鵬預訓練模型論文綜述
    機器之心&ArXiv Weekly Radiostation 參與:杜偉,楚航,羅若天 本周的重要論文有阿里達摩院在自動駕駛領域的新成果,以及復旦大學邱錫鵬教授發表的預訓練模型綜述論文
  • 7 Papers & Radios | 阿里達摩院自動駕駛新成果;邱錫鵬預訓練模型...
    機器之心機器之心&ArXiv Weekly Radiostation參與:杜偉,楚航,羅若天本周的重要論文有阿里達摩院在自動駕駛領域的新成果,以及復旦大學邱錫鵬教授發表的預訓練模型綜述論文。
  • ACL 2018 俄勒岡大學:HotFlip:文本分類的白盒對抗樣本
    of Oregon本文是美國俄勒岡大學發表於 ACL 2018 的工作,文章提出了一個有效的方法來生成白盒對抗樣本,欺騙字符級神經網絡分類器。此方法依賴於原子翻轉操作,它基於one-hot輸入向量的梯度將一個token交換為另一個。由於該方法效率較高,我們可以在測試時執行對抗訓練,使模型在應對攻擊時更加穩定。通過證明,使用一些語義保存限制條件,HotFlip也可以用於攻擊詞語級分類器。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    2.4.2 跨語言或語言特定的預訓練模型這個方向主要包括了跨語言理解和跨語言生成這兩個方向。對於「跨語言理解」,傳統的方法主要是學習到多種語言通用的表徵,使得同一個表徵能夠融入多種語言的相同語義,但是通常需要對齊的弱監督信息。
  • 26億參數,智源、清華開源中文大規模預訓練模型
    近日,北京智源人工智慧研究院和清華大學研究團隊合作開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規模預訓練模型開源計劃,旨在構建以中文為核心的大規模預訓練模型。首期開源內容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用於中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產業界開放下載,供研究使用。
  • 登頂GLUE百度ERNIE再突破:語言生成預訓練模型ERNIE-GEN刷新SOTA
    機器之心報導機器之心編輯部還記得去年登頂 GLUE 的 ERNIE 預訓練語言模型嗎?時隔半年,ERNIE 功力大增。不過,這次它挑戰的是自然語言生成:在摘要生成、問題生成、多輪問答等五個語言生成任務上刷新了最優效果,並應用到了真實業務場景中。
  • WWW2021–OntoZSL:利用本體知識和生成模型增強零樣本學習
    在這篇工作中,我們提出了在訓練樣本存在缺失的條件下,利用知識本體(Ontology)及生成對抗網絡解決零樣本學習問題的模型框架,該框架在零樣本圖像分類及零樣本知識圖譜補全等任務中均取得了顯著效果。近年來,深度學習技術依託強大的計算資源、複雜的神經網絡和大規模的標註數據集在視覺、語言、醫學、金融等廣泛的研究領域取得了顯著的成就。
  • 國產超大規模AI預訓練模型發布,可實現「用圖生文」等任務
    以上詩句題為《詠智利日全食》,來自人工智慧模型「文匯」的手筆。人工智慧模型「文匯」是北京智源人工智慧研究院近日發布的一款面向認知的超大規模新型預訓練模型。它旨在探索解決當前大規模自監督預訓練模型不具有認知能力的問題,參數規模達113億,僅次於OpenAI1月初發布的DALL·E模型的120億參數量,是目前中國規模最大的預訓練模型。
  • 譯文 | 讓深度卷積網絡對抗:DCGAN——深度卷積生成對抗網絡
    我們提出了一種叫做深度卷積生成對抗網絡的CNN,它具有一定的結構約束,展示了其在非監督學習方向上強有力的候選方案。通過在各種各樣的圖像數據集的訓練,我們展示了令人信服的證據,我們的深度卷積對抗對(adversarial pair)從對象到場景在生成模型和判別模型上都能夠學習到層級的表示。此外,我們在一些的新的任務上使用學習到的特徵表明它們一般的圖像表示上具有通用性。
  • 神經網絡中的對抗攻擊與對抗樣本
    ,同時在這個假設前提下提出了一種更高效製造對抗樣本的方法,並通過實驗加以驗證,實驗結論表明:一個測試效果良好的分類器,其實並不像人類一樣學習到了所分類樣本的真正底層意義,只不過剛好構建了一個在訓練數據上運行相當良好的模型,而這個模型實際上就像是一個富麗堂皇的假象,當遇到一些空間中不太可能出現的點時,模型能力的有限性就會隨之暴露出來。
  • 國產超大規模AI預訓練模型發布 可實現「用圖生文」等任務
    原標題:國產超大規模AI預訓練模型發布,可實現「用圖生文」等任務   六出奇光動地來,西方海國見旌旗。   水心惟有終無底,火內曾無徹上灰。
  • 香港中文大學博士沈宇軍:生成對抗網絡的可解釋性研究及其應用
    神經網絡由於網絡特徵或決策邏輯在語義層面難以理解,同時也缺少數學工具去診斷與評測網絡的特徵表達能力,進而解釋目前不同神經網絡模型的信息處理特點,一直被大家稱為是一種「黑箱」。而如何對神經網絡進行「解釋」,稱為近年來的熱門研究方向。生成對抗網絡近年來隨著其不斷的發展,生成圖片的質量以及模型的訓練穩定性不斷提高。
  • 劉鐵巖:如何四兩撥千斤,高效地預訓練NLP模型?
    NLP模型預訓練」的主題演講。目前,GPT-3 等模型的預訓練任務需要使用大量的計算資源,計算效率低下。在本次演講中,劉鐵巖博士從數據處理、模型結構、損失函數、優化算法等多個維度介紹了微軟亞洲研究院(MSRA)的研究者們針對高效 NLP 模型訓練的研究。
  • 如何用 Caffe 生成對抗樣本?這篇文章告訴你一個更高效的算法
    ,本文作為其延續,將討論如何用Fast Gradient Sign方法在Caffe中生成對抗樣本。Fast Gradient Sign方法先回顧一下《雜談CNN:如何通過優化求解輸入圖像》中通過加噪音生成對抗樣本的方法,出自Christian Szegedy的論文《Intriguing properties of neural networks》: