【微軟】大型神經語言模型的對抗性訓練,Adversarial Training

2021-01-14 專知

題目: Adversarial Training for Large Neural Language Models

簡介: 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利於推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM(大型神經語言模型的專家訓練),該算法通過在嵌入空間中應用擾動來最大化訓練目標,從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究,包括從頭開始進行預訓練,在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中,在各種NLP任務上,ALUM都比BERT獲得了可觀的收益。即使對於已經在超大型文本語料庫上進行過良好訓練的模型(例如RoBERTa),ALUM仍可以通過連續的預訓練獲得可觀的收益,而傳統的非對抗方法則不能。可以將ALUM與特定於任務的微調進一步結合以獲取更多收益。


https://arxiv.org/pdf/2004.08994.pdf


專知便捷查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

專知,專業可信的人工智慧知識分發,讓認知協作更快更好!歡迎註冊登錄專知www.zhuanzhi.ai,獲取5000+AI主題乾貨知識資料!歡迎微信掃一掃加入專知人工智慧知識星球群,獲取最新AI專業乾貨知識教程資料和與專家交流諮詢!點擊「閱讀原文」,了解使用專知,查看獲取5000+AI主題知識資源

相關焦點

  • 微軟亞研院提出通用預訓練模型MASS
    5月10日消息,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS(Masked Sequence to Sequence Pre-training),在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。
  • 模仿人腦視覺處理,助力神經網絡應對對抗性樣本
    今天,深度神經網絡已經成為許多計算機視覺應用的關鍵組成部分,從照片和視頻編輯器到醫療軟體和自動駕駛汽車。神經網絡大致模仿了大腦的結構,已經更接近於像人類一樣看待世界。但是它們還有很長的路要走,而且它們在人類永遠不會犯錯的情況下也會犯錯。這些情況,通常被稱為對抗性樣本,以令人困惑的方式改變了人工智慧模型的行為。對抗性的機器學習是當前人工智慧系統的最大挑戰之一。
  • NLP領域預訓練模型的現狀及分析
    這種做法的好處是訓練代價很小,預訓練的模型參數可以讓新的模型達到更快的收斂速度,並且能夠有效地提高模型性能,尤其是對一些訓練數據比較稀缺的任務,在神經網絡參數十分龐大的情況下,僅僅依靠任務自身的訓練數據可能無法訓練充分,預訓練方法可以認為是讓模型基於一個更好的初始狀態進行學習,從而能夠達到更好的性能。
  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    2018年開始,預訓練(pre-train) 毫無疑問成為NLP領域最熱的研究方向。藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。
  • 微軟發布史上最大AI模型:170億參數,將用於Office套件
    170億參數量,是此前最大的語言模型英偉達「威震天」(Megatron)的兩倍,是OpenAI模型GPT-2的10多倍。「隨著更大的自然語言模型導致更好結果的趨勢,微軟引入了Turing-NLG,」微軟在研究博客中寫道。
  • 微軟RobustFill:無需程式語言,讓神經網絡自動生成程序
    在過去幾十年中,計算機科學有了長足的發展,但人們編寫計算機軟體的過程卻沒有發生根本的改變——程式設計師必須使用特定的程序語言一步步手工編寫程序的精確算法邏輯。儘管程式語言近年來正在變得越來越友好,但這項工作仍然是絕大多數計算機用戶未曾接觸的事物。在最近的一項研究中,微軟發布了自己的深度學習程序生成研究。在該研究中,深度神經網絡學會了遵從用戶的意圖來生成電腦程式。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    數百萬人使用在線翻譯系統和移動應用進行跨越語言障礙的交流。在近幾年深度學習的浪潮中,機器翻譯取得了快速進步。微軟研究院近期實現了機器翻譯的歷史性裡程碑——新聞文章中英翻譯達到人類水平。這一當前最優方法是一個神經機器翻譯(NMT)系統,該系統使用了數千萬新聞領域的平行句子作為訓練數據。
  • 用100元的支票騙到100萬:看看對抗性攻擊是怎麼為非作歹的
    什麼是對抗性攻擊(Adversarial Attacks)機器學習算法的輸入形式為數值型向量(numeric vectors)。通過設計一種特別的輸入以使模型輸出錯誤的結果,這便被稱為對抗性攻擊。這怎麼可能呢?沒有一種機器學習算法是完美的,正如人類會犯錯誤一樣,機器智能自然也會出錯——雖然這很罕見。
  • 如何加速神經語言模型訓練?東北大學小牛翻譯團隊有妙招
    那要如何知道每個詞出現時的概率呢?在神經語言模型中,其整體結構如上圖所示(圖為循環神經語言模型[1]),輸入層將離散表示的詞彙轉化成連續空間上的詞向量,不同詞彙之間的向量距離能夠反映詞語之間的相似性。二、更快地訓練神經語言模型隨著在語音識別、機器翻譯等領域對語言模型性能需求的日益增長,我們迫切地希望能夠進一步改善神經語言模型的性能。一般來說使用更大量的訓練數據來訓練更複雜的模型結構將會獲得更優的模型性能,但與此同時帶來的問題在於其訓練所花費的時間消耗也相應地變長了。面對這種情況,如何有效地減少訓練神經語言模型佔用的時間成為了亟待解決的問題。
  • AI資訊|分析現階段最有效的NLP預訓練模型!
    最新語言預訓練可以說是在自然語言處理領域帶來了很可觀的收益,其中包括最先進的模型如BERT,RoBERTa,XLNet,ALBERT和T5等。可以在幾天內在單個GPU上進行訓練,其準確性要高於GPT(該模型使用30倍以上的計算能力)。ELECTRA已作為TensorFlow之上的開源模型發布,其中包括許多易於使用的預訓練語言表示模型。
  • PTMs|2020最新NLP預訓練模型綜述
    (2) 「GPT」[8](Generative Pre-training) :使用「單向的Transformer」預訓練「單向語言模型」。「UniLM」[19]:微軟提出的方法。UniLM拓展mask prediction任務到三種語言模型任務中,單向預測、雙向預測、「seq2seq預測。」
  • 深度| 機器學習對抗性攻擊報告,如何欺騙人工智慧?
    之前關於機器學習模型攻擊的探討常常局限於對訓練數據的汙染。由於其模型經常趨向於封閉式的部署,該手段在真實的情況中並不實際可行。在通常情況下,攻擊者並不知道目標模型使用了什麼算法已經相關的參數。這時候攻擊者只能使用黑盒模型攻擊。過程如下所示:攻擊者在目標機器學習模型未知的情況下,通過詢問黑盒子系統所得結果,得到一系列訓練樣本。攻擊者任意選取了某機器學習算法並使用訓練樣本訓練得到已知機器學習模型。攻擊者針對訓練出來的已知機器學習模型構建對抗數據。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    為什麼要給 LM 加上神經網絡?然而,N 元語言模型有一個明顯的缺點。為了解決這個問題,我們在將神經網絡(NN)引入到了連續空間的語言建模中。NN 包括前饋神經網絡(FFNN)、循環神經網絡(RNN),可以自動學習特徵和連續的表徵。
  • ACL 2018|西北大學:RNN語言模型的重要訓練數據抽樣
    >本文是西北大學發表於 ACL 2018 的工作,在這項工作中,針對遞歸神經網絡(RNN)語言模型訓練數據的選擇,我們提出了一種無監督重要性抽樣方法。引言統計語言建模的任務是學習自然語言單詞序列上的聯合概率分布。近年來,遞歸神經網絡(RNN)語言模型在句子級語言建模中產生了很多困惑度(perplexity),遠遠低於傳統的n-gram模型。在大型、多樣化的基準語料庫上訓練的模型,如Billion Word Corpus和Wikitext-103,困惑度分別低至23.7和37.2。
  • 7天8卡訓練32種語言,字節跳動推出多語言預訓練新範式mRASP
    神經網絡翻譯能否成為「機器翻譯界的趙元任」呢?即創造一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。Substitution Pre-training (mRASP) [1],其核心思想是打造「機器翻譯界的趙元任模型」,通過預訓練技術再在具體語種上微調即可達到領先的翻譯效果,其在 32 個語種上預訓練出的統一模型在 47 個翻譯測試集上取得了全面顯著地提升。
  • NLU新裡程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類
    去年 6 月,來自微軟的研究者提出一種新型預訓練語言模型 DeBERTa,該模型使用兩種新技術改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,並提供預訓練模型下載。最近這項研究又取得了新的進展。
  • 深度| Facebook官方詳解:使用Apache Spark進行大型語言模型訓練
    今天,Facebook 團隊也展示了他們使用 Apache Spark 進行大型語言模型訓練的方法。如何處理大規模數據是 Facebook 基礎設施團隊面臨的核心問題。隨著軟體技術的發展,我們面臨著越來越高的硬體需求,為了滿足需要,我們必須在開源架構上設計並構建新的系統。
  • 對抗魯棒性使得神經網絡又強又慫——華南理工溫馨宇
    作者:AITimer-閆昊 公眾號:AI TIME 論道 對抗樣本的存在表明現代神經網絡是相當脆弱的。為解決這一問題,研究者相繼提出了許多方法,其中使用對抗樣本進行訓練被認為是至今最有效的方法之一。為了使得模型具有魯棒性,一個最直接的方式就是將對抗樣本用數據增集的方式加到原函數當中進行對抗訓練。除此之外,還能夠通過對輸入圖像進行預處理以消除對抗樣本的影響、調節網絡參數使其偏向某類特定解使輸出平滑,或者改變網絡結構以獲得避免噪聲的能力。在以下的內容中,模型獲得的對抗魯棒性均通過對抗訓練獲得。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例
    但這種方法會有一個很大的問題,那就是前面提到的維度災難,而這裡要實現的神經網絡語言模型(Neural Network Language Model),便是用神經網絡構建語言模型,通過學習分布式詞表示(即詞向量)的方式解決了這個問題。
  • 教程| 如何使用TensorFlow構建、訓練和改進循環神經網絡
    (Phonetics)的方法,它們通常包含拼寫、聲學和語言模型等單獨組件。神經網絡使用目標函數來最大化字符序列的概率(即選擇最可能的轉錄),隨後把預測結果與實際進行比較,計算預測結果的誤差,以在訓練中不斷更新網絡權重。值得注意的是,CTC 損失函數中的字符級錯誤與通常被用於常規語音識別模型的萊文斯坦錯詞距離。