本文為大家介紹的是微軟亞洲研究院入選 ICLR 2020的 4 篇精選論文,研究主題分別為BERT 在機器翻譯中的應用,有理論保障的對抗樣本防禦模型 MACER,一種新的基於自我博弈的文本生成對抗網絡(GAN)訓練算法,以及可廣泛應用於視覺-語言任務的預訓練通用特徵表示 VL-BERT。
作者 | 微軟亞院
編輯 | 叢 末
1、BERT 在神經機器翻譯中的應用
論文連結:https://arxiv.org/pdf/2002.06823.pdf
BERT 在自然語言理解任務如文本分類、閱讀理解上取得了巨大的成功,然而在機器翻譯等文本生成任務上的應用仍缺乏足夠的探索。本篇論文研究了如何有效地將 BERT 應用到神經機器翻譯(NMT)中。
在文本分類任務中, 通常有兩種方法利用預訓練模型;一種是利用 BERT 初始化下遊任務的模型權重;另一種是讓預訓練模型給下遊任務模型提供 contextual embedding。在初步嘗試中,我們發現:(1)用 BERT 初始化 NMT 模型不能給機器翻譯帶來顯著提升;(2)利用 BERT 提供 contextual embedding,在機器翻譯上這個任務上更加有效。結果見表1。因此,本文將探索重點放在第二類方法上。
表1:利用預訓練的不同方式在 IWSTL14 英德翻譯的結果
我們提出的模型如下:
先將源語言句子輸入 BERT 模型進行編碼,得到輸入序列的 BERT 模型特徵。Transformer 的編碼器和解碼器的每一層都引入一個額外的注意力機制,讓編碼器和解碼器去主動地去選取 BERT 模型特徵中有用的信息。這種處理方式有效地解決了BERT 模型和機器翻譯模型的分詞方式不同產生的矛盾,也讓 BERT 提取的特徵更加有效、完全地融合到機器翻譯這個任務中去。另外,我們還提出了 drop-net 的 trick,隨機丟棄 Transformer 中原有的注意力分支或引入的額外注意力分支,能夠有效地提高模型的泛化能力,提升機器翻譯的效果。模型框架如圖1所示。
圖1:模型框架
我們將該方法作用到有監督翻譯(句子級別翻譯和文檔翻譯)、半監督機器翻譯、無監督機器翻譯中,都得到了顯著的結果提升,在多個任務上都取得了 SOTA 的結果,說明了該方法的有效性。我們的算法在 WMT14 英德翻譯和英法翻譯的結果見表2。
表2:我們的算法在 WMT14 英德和英法翻譯任務的結果。
2、有理論保障的對抗樣本防禦模型
論文連結:https://openreview.net/pdf?id=rJx1Na4Fwr
深度神經網絡在很多領域都取得了成功,但它有一個致命的弱點:無法承受對抗樣本的攻擊。例如給定一張狗的圖片,一個神經網絡可以準確地將其分類為狗。但攻擊者可以給這張圖片加一個人類難以察覺的特殊噪音,使得神經網絡把它分類成貓、樹、車及任何其它物體。這樣加過噪音的圖片被稱為對抗樣本。這個弱點使得神經網絡難以被應用到注重安全的領域,例如自動駕駛中。
如何防禦對抗樣本一直是研究人員關心的話題。目前最主流的防禦方法是對抗訓練,即在訓練的每一次迭代中,先在線地生成對抗樣本,再在這些對抗樣本上訓練神經網絡。這樣訓練出來的網絡可以一定程度地防禦對抗樣本的攻擊。然而,對抗訓練有兩個缺點:一,這種防禦是沒有理論保證的,即我們不知道攻擊者能否設計更聰明的攻擊方法繞開這種防禦;二,因為生成對抗樣本很慢,所以對抗訓練非常慢。
本文設計了一種算法去訓練有理論保證的防禦模型,能保證任何攻擊都無法繞開這種防禦。我們首先引入防禦半徑的概念。一個圖片的可防禦半徑指的是半徑內任何一個圖片的預測都不發生變化。對於光滑模型,我們可以用高效的計算方法得到該半徑的一個下界。而我們提出的算法 MACER(MAximize the Certified Radius)正是通過最大化該半徑來學習有理論保證的防禦模型。
圖2:樣本的可防禦半徑
MACER 算法的思路非常簡單,設計卻相當具有挑戰性。第一個挑戰是設計優化目標函數。我們通過數學推導將目標函數定為模型準確度和模型防禦成功率的結合,並證明它是防禦效果的上界;第二,我們提出了梯度軟隨機光滑化,這個變體可以提供可導的損失函數;第三,我們通過巧妙地設計損失函數,避免梯度爆炸問題。實驗表明 MACER 可以取得比目前主流可驗證防禦算法更大的平均驗證半徑,且訓練速度有數倍的提升。
表3:實驗結果對比
MACER 算法主要帶給我們兩個啟發:一是 MACER 完全與攻擊無關,這不僅使得 MACER 運行相當快,而且可以讓模型有效地防禦任何攻擊;二是 MACER 是一個有理論保證的防禦算法,能夠讓實際應用有可靠的保障。
3、基於 Self-Play 的文本生成對抗網絡(GAN)模型
論文連結:https://openreview.net/pdf?id=B1l8L6EtDS
本文介紹了一種新的基於自我博弈的文本生成對抗網絡(GAN)訓練算法。目前大多數文本生成任務,如機器翻譯、文本摘要、對話系統等,都採用序列到序列模型(seq2seq),並通過最大似然估計(MLE)進行模型訓練。這種訓練方式存在 exposure bias 的問題,使得模型在訓練和推斷時單詞的分布不一致,因此會影響生成質量。此前的工作如 SeqGAN 等,嘗試通過 GAN 來訓練文本生成模型。
GAN 在文本生成中的應用主要受限於兩個問題,一是獎勵稀疏(reward sparsity),即訓練中判別器往往遠強於生成器,因此生成器在訓練過程中得到的獎勵信號通常很低;二是模式崩潰(mode collapse),即生成的文本通常較為單一。本文中我們借鑑深度強化學習中常用的自我博弈(self-play)機制,提出了自對抗學習(SAL)範式來改進文本 GAN 的訓練。
圖3:自對抗學習中基於比較的判別器訓練示意圖
與傳統的 GAN 中判別器對於給定樣本輸出其真/假標籤不同,自對抗學習中採用一種新的基於比較的判別器,其輸入是兩個樣本 A 和 B,輸出標籤包含三類,分別對應樣本 A 的質量比 B 優(>),差(<),和無法區分(~=)。基於比較的判別器的訓練過程如圖3所示。
和 SeqGAN、LeakGAN 等文本 GAN 模型一樣,SAL 通過 REINFORCE 算法對生成器進行訓練。在訓練期間,SAL 通過比較判別器,將生成器當前生成的樣本與其自身先前生成的樣本進行比較。當發現其當前生成的樣本比其先前的樣本質量更高時,賦予生成器正獎勵,反之則獎勵為負,兩者質量無法區分時獎勵為0。獎勵的具體計算公式如圖4公式所示。
圖4:自對抗學習獎勵計算公式
在文本生成 GAN 的早期訓練階段,當生成的樣本質量遠遠低於真實樣本的質量時,SAL 的自我對抗機制使得生成器不需要成功欺騙判別器、使其誤將生成樣本判斷為真實樣本才能獲得獎勵。相反的,SAL 會在生成器成功生成比之前更好的樣本時就賦予其獎勵信號,這種自我對抗的獎勵機制使生成器更易於接收非稀疏獎勵,從而有效緩解了獎勵稀疏性問題。而在訓練後期,SAL 可以防止開始高頻出現的模式繼續獲得較高的獎勵,因為包含這些經常出現的模式的句子經常會和相似的句子進行比較,因此在自我對抗中取勝也將變得越來越困難,從而防止生成器塌縮到有限的模式中。自對抗學習的示意和算法流程分別如圖5和表4所示:
圖5 : 自對抗學習(SAL)與傳統 GAN 的對比
表4:自對抗學習(SAL)算法流程
本文在模擬數據集(Synthetic Dataset)和真實數據集(COCO & EMNLP WMT17)上進行了文本生成的實驗,並與之前的文本生成 GAN 模型的效果進行比較,結果如表5、6所示。可以看到,本文提出的 SAL 算法在反應生成文本的質量和多樣性的眾多指標上比此前的文本 GAN 模型都有顯著的提升。在未來,我們希望探索 SAL 訓練機制在圖像生成 GAN 領域的應用。
表5:不同文本 GAN 模型在模擬數據集上的表現比較
表6:不同文本 GAN 模型在真實數據集上的表現比較
4、VL-BERT:通用的視覺-語言預訓練模型
論文地址:https://openreview.net/forum?id=SygXPaEYvH
適用於下遊任務的通用特徵表示預訓練是深度網絡成功的標誌之一。在計算機視覺領域,深度網絡在 ImageNet 數據集進行圖像分類的預訓練過程,被發現可廣泛提高多種圖像識別任務的效果。在自然語言處理領域中,Transformer 模型在大規模語料庫中使用語言模型進行預訓練的過程,也被證明可廣泛提高多種自然語言處理任務的效果。
但對於計算機視覺和自然語言處理領域交叉的任務,例如圖像標題生成、視覺問答、視覺常識推理等,缺少這種預訓練的通用多模態特徵表示。一般來說,此前的視覺-語言模型分別使用計算機視覺或自然語言處理領域中的預訓練模型進行初始化,但如果目標任務數據量不足,模型容易過擬合從而損失性能。並且對於不同的視覺-語言任務,其網絡架構一般是經過特殊設計的,因此很難通過視覺-語言聯合預訓練的過程幫助下遊任務。
本文提出了一種可廣泛應用於視覺-語言任務的預訓練通用特徵表示,稱為 Visual-Linguistic BERT,簡稱 VL-BERT,其架構如下圖所示:
圖6:VL-BERT 模型架構
VL-BERT 的主幹網絡使用 Transformer Attention 模塊,並將視覺與語言嵌入特徵作為輸入,其中輸入的每個元素是來自句中單詞或圖像中的感興趣區域(Region of Interests,簡稱 RoIs)。在模型訓練的過程中,每個元素均可以根據其內容、位置、類別等信息自適應地聚合來自所有其他元素的信息。在堆疊多層 Transformer Attention 模塊後,其特徵表示即具有更為豐富的聚合、對齊視覺和語言線索的能力。
為了更好地建模通用的視覺-語言表示,本文在大規模視覺-語言語料庫中對 VL-BERT進行了預訓練。採用的預訓練數據集為圖像標題生成數據集 Conceptual Captions,其中包含了大約330萬個圖像-標題對。在預訓練結束後,使用微調來進行下遊任務的訓練。實驗證明此預訓練過程可以顯著提高下遊的視覺-語言任務的效果,包括視覺常識推理(Visual Commonsense Reasoning)、視覺問答(Visual Question Answering)與引用表達式理解(Referring Expression Comprehension)。
ICLR 2020 系列論文解讀
0、ICLR 2020 會議動態報導
疫情嚴重,ICLR2020 將舉辦虛擬會議,非洲首次 AI 國際頂會就此泡湯
疫情影響,ICLR 突然改為線上模式,2020年將成為頂會變革之年嗎?
火爆的圖機器學習,ICLR 2020上有哪些研究趨勢?
1、直播
回放 | 華為諾亞方舟ICLR滿分論文:基於強化學習的因果發現
2、論文解讀
01. 一種鏡像生成式機器翻譯模型:MGNMT
02. 額外高斯先驗目標,緩解負多樣性無知
03. 引入額外門控運算,LSTM稍做修改,性能便堪比Transformer-XL
04. 並行蒙卡樹搜索,性能無損,線性加速,勇闖「消消樂」1000關!
05. 元強化學習迎來一盆冷水:不比元Q學習好多少
06. 用群卷積建立深度、等變的膠囊網絡
07. | 谷歌推出分布式強化學習框架SEED,性能「完爆」IMPALA,可擴展數千臺機器,還很便宜
08. Reformer ,一種高效的Transformer
09. 基於值函數的規劃和強化學習的控制架構(視頻直播)
10. 北大圖靈班滿分論文:基於計算約束下有用信息的資訊理論
11. 使用GAN進行高保真語音合成
12. 模型參數這麼多,泛化能力為什麼還能這麼強?
13. 公平與精確同樣重要!CMU提出學習公平表徵方法,實現算法公平
14. 組合泛化能力太差?用深度學習融合組合求解器試試
15. 加速NAS,僅用0.1秒完成搜索
16. 華盛頓大學:圖像分類中對可實現攻擊的防禦(視頻解讀)
17. 超越傳統,基於圖神經網絡的歸納矩陣補全
18. 受啟諾獎研究,利用格網細胞學習多尺度表達(視頻解讀)
19. 神經正切,5行代碼打造無限寬的神經網絡模型
20. 華為諾亞:巧妙思想,NAS與「對抗」結合,速率提高11倍
21. 拋開卷積,多頭自注意力能夠表達任何卷積操作
22. NAS 太難了,搜索結果堪比隨機採樣!華為給出 6 條建議
23. 清華提 NExT 框架,用「神經元執行樹」學習可解釋性
24. 谷歌最新研究:用「複合散度」量化模型合成泛化能力
25. 完勝 BERT,谷歌最佳 NLP 預訓練模型開源,單卡訓練僅需 4 天
26. FSNet:利用卷積核概要進行深度卷積神經網絡的壓縮
27. "同步平均教學"框架為無監督學習提供更魯棒的偽標籤
28. 快速神經網絡自適應技術
28. 引入隨機擾動,提高智能體泛化能力
30. Deformable Kernels,創意滿滿的可變形卷積核
AI 科技評論系列直播
1、ACL 2020 - 復旦大學系列解讀
直播主題:不同粒度的抽取式文本摘要系統
主講人:王丹青、鐘鳴
直播時間:4月 25 日,(周一晚) 20:00整。
直播主題:結合詞典的中文命名實體識別【ACL 2020 - 復旦大學系列解讀之(二)】
主講人:馬若恬, 李孝男
直播時間:4月 26 日,(周一晚) 20:00整。
直播主題:ACL 2020 | 基於對抗樣本的依存句法模型魯棒性分析
【ACL 2020 - 復旦大學系列解讀之(三)】
主講人:曾捷航
直播時間:4月 27 日,(周一晚) 20:00整。
2、ICLR 2020 系列直播
直播主題:ICLR 2020丨Action Semantics Network: Considering the Effects of Actions in Multiagent Systems
主講人:王維壎
回放連結:http://mooc.yanxishe.com/open/course/793
直播主題:ICLR 2020丨通過負採樣從專家數據中學習自我糾正的策略和價值函數
主講人:羅雨屏
回放連結:http://mooc.yanxishe.com/open/course/802(回放時間:4月25日上午10點)
直播主題:ICLR 2020丨分段線性激活函數塑造了神經網絡損失曲面
主講人:何鳳翔
直播時間:4月24日 (周五晚) 20:00整
如何加入?