超越BERT 和 GPT,微軟亞洲研究院開源新模型 MASS!

2020-12-05 雷鋒網

雷鋒網 AI 科技評論按:自 2018 年以來,預訓練無疑是自然語言處理(NLP)領域中最熱門的研究課題之一。通過利用 BERT、GPT 和 XLNet 等通用語言模型,該領域的研究者們在自然語言理解方面已經取得了許多重大的突破。然而,對於序列到序列的自然語言生成任務,這些主流的預訓練方法並沒有帶來顯著的改進,對此,微軟亞洲研究院提出了一個全新的通用預訓練方法——MASS,在該任務中可以得到比 BERT 和 GPT 更好的效果。

前言

BERT 和 XLNet 在自然語言理解任務(例如:情感分類、自然語言推理和 SQuAD 閱讀理解)方面取得了巨大成功。然而, NLP 領域除了自然語言理解任務之外,還存在很多序列到序列的語言生成任務,例如機器翻譯、文本摘要生成、對話生成、問答、文本風格轉換等。對於這些任務,使用編碼器-注意力-解碼器框架是主流方法。

圖 1 編碼器 - 注意力 - 解碼器框架

如圖 1 所示,編碼器將源序列 X 作為輸入並將其轉換為隱藏表示的序列,然後解碼器通過注意力機制從編碼器中抽象出隱藏表示的序列信息,並自動生成目標序列文本 Y。

BERT 和 XLnet 通常是對一個編碼器進行自然語言理解的預訓練;而 GPT 則是對一個解碼器進行語言建模的預訓練。當利用 BERT 和 GPT 進行序列到序列的語言生成任務時,我們通常需要對編碼器和解碼器分別進行預訓練。在這種情況下,編碼器 - 注意力 - 解碼器框架和注意力機制並沒有得到聯合訓練。然而,注意力機制在這類任務中極為重要,一旦缺失便會導致 BERT 和 GPT 無法達到最佳性能。

一種新的預訓練方法

針對序列到序列的自然語言生成任務,微軟亞洲研究院的機器學習小組提出了一種新的預訓練方法,即掩蔽的序列到序列預訓練(MASS:Masked Sequence to Sequence Pre-Training)。MASS 隨機掩蔽一個長度為 k 的句子片段,並通過編碼器 - 注意力 - 解碼器框架預測這一被掩蔽的片段。

圖 2 MASS 框架

如圖 2 所示,編碼器端的第 3-6 個標記被掩蔽,而在解碼器端,僅有被掩蔽的標記被預測出來,而其他標記則被掩蔽。

MASS 預訓練具有以下優勢:

解碼器端的其他標記(在編碼器端未被掩蔽的標記)被掩蔽,從而推動解碼器提取更多信息以幫助預測連續句子片段,促進編碼器-注意力-解碼器結構的聯合訓練;為了給解碼器提供更多有用的信息,編碼器被強制提取未被掩蔽的標記的含義,這可以提高編碼器理解源序列文本的能力;解碼器被設計用以預測連續的標記(句子片段),這可以提升解碼器的語言建模能力。統一的預訓練框架

MASS 有一個重要的超參數 k(被掩蔽的片段的長度)。通過調整 k 值,MASS 可以將 BERT 中掩蔽的語言建模和 GPT 中的標準語言建模結合起來,從而將 MASS 擴展成一個通用的預訓練框架。

當 k = 1 時,根據 MASS 的設計,編碼器端的一個標記被掩蔽,而解碼器端則會預測出該掩蔽的標記,如圖 3 所示。解碼器端沒有輸入信息,因而 MASS 等同於 BERT 中掩蔽的語言模型。

圖 3 k = 1時,編碼器端一個標記被掩蔽,而解碼器端則會預測出該掩蔽的標記

當 k = m(m 是序列的長度)時,在 MASS 中,編碼器端的所有標記都被掩蔽,而解碼器端會預測所有的標記,如圖 4 所示。解碼器端無法從編碼器端提取任何信息,MASS 等同於 GPT 中的標準語言模型。

圖 4 k = m 時,編碼器端的所有詞都被掩蔽,而解碼器端會預測所有的標記,等同於 GPT 中的標準語言模型

不同 k 值下 MASS 的概率公式如表 1 所示,其中 m 是序列的長度,u 和 v 分別是掩蔽片段的起始和終止位置,

代表從位置 u 到 v 的標記都被掩蔽的序列。可以看出,當 k = 1 或 m 時,MASS 的概率公式等同於 BERT 中的被掩蔽的語言模型和 GPT 中的標準語言模型。

表 1 在不同 k 值下 MASS 的概率公式

研究人員通過實驗來分析了在不同 k 值下的 MASS 性能,如圖 5 所示:

圖 5 在訓練前和微調階段的各種掩蔽長度 k 下 MASS 的表現,其中包括 a) 英語句子預訓練模型的PPL b) WMT13 英語-法語翻譯的法語句子 c) WMT13 無監督英語-法語翻譯的 BLEU 值 d) 文本摘要生成的 ROUGE 值 e) 對話生成的PPL

當 k 等於句子長度的一半時,下遊任務可以達到其最佳性能。掩蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預訓練部分。如果預訓練更偏向編碼器端(k = 1,即 BERT)或更偏向解碼器端(k = m,LM / GPT),則無法實現最優的性能,這也表現出了 MASS 在序列到序列的語言生成任務中的優勢。

序列到序列的語言生成任務測試

預訓練值得注意的是,MASS 僅需要無監督的單語數據進行預訓練(例如 WMT News Crawl Data、Wikipedia Data 等)。MASS 支持跨語言任務(例如機器翻譯)和單語任務(例如文本摘要生成、對話生成)。在對英語-法語翻譯等跨語言任務進行預訓練時,研究人員可以在一個模型中同時進行英語-英語和法語-法語的預訓練,並使用附加的語言嵌入向量來區分語言。在無監督的機器翻譯、低資源機器翻譯、文本摘要生成和對話生成四個領域,研究人員對 MASS 進行了微調,以驗證其有效性。

無監督機器翻譯關於無監督機器翻譯任務,研究人員將 MASS 與之前的方法進行了比較,包括以前最先進的方法 Facebook XLM。XLM 使用了由 BERT 創建的掩蔽預訓練語言模型,以及標準語言模型來分別預訓練編碼器和解碼器。

結果如表 2 所示,MASS 在 WMT14 英語-法語、WMT16 英語-德語和英語-羅馬尼亞語的六個翻譯方向上的表現都優於 XLM,並取得了最新的最優結果。

表 2 MASS 與之前關於無監督機器翻譯方法之間的比較;英語-法語翻譯報導在 newstest2014 上,其它的在 newstest2016 可以找到;由於 XLM 在編碼器和解碼器中使用 MLM 和 CLM 的不同組合,因此報告上顯示的是每個語言對上 XLM 的最高 BLEU 值

低資源機器翻譯低資源機器翻譯是指使用有限的雙語訓練數據來進行機器翻譯。研究人員模擬了 WMT14 英語-法語,WMT16 英語-德語和英語-羅馬尼亞語翻譯(分別為 10K,100K 和 1M 雙語數據)的低資源情景。

圖 6 MASS 與低資源機器翻譯方法之間的比較

圖 6 顯示 MASS 在不同數據規模上的表現,均比不用預訓練的基線模型有不同程度的提升,並隨著監督數據越少,提升效果越顯著。

文本摘要生成研究人員將 MASS 與 BERT+LM(編碼器用 BERT 預訓練,解碼器用標準語言模型 LM 預訓練)、DAE(去噪自編碼器)進行了比較。從表 3 中可以看出,MASS 的表現都優於 BERT+LM 和 DAE。

表 3 文本摘要生成任務中,MASS 和兩種預訓練方法之間的比較

對話生成研究人員將 MASS 和 BERT+LM 進行了比較。表 4 顯示 MASS 實現了比 BERT+LM 更低的 PPL。

表 4 MASS 與 BERT+LM 之間的比較數據

MASS 連續在序列到序列的語言生成任務上實現顯著增益,Facebook 的研究者表示,期待今後在自然語言理解任務中測試 MASS 的性能,並希望在未來的工作中,將 MASS 的應用領域擴展到包含語音、視頻等其它序列到序列的生成任務中。

相關連結

原文地址https://www.microsoft.com/en-us/research/blog/introducing-mass-a-pre-training-method-that-outperforms-bert-and-gpt-in-sequence-to-sequence-language-generation-tasks/

MASS 論文https://www.microsoft.com/en-us/research/publication/mass-masked-sequence-to-sequence-pre-training-for-language-generation/

GitHub 開源地址https://github.com/microsoft/MASS

雷鋒網 AI 科技評論 雷鋒網

相關焦點

  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。為此,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS,在序列到序列的自然語言生成任務中全面超越BERT和GPT。
  • 微軟亞洲研究院發布「微礦Qlib」:AI量化投資開源平臺
    【環球網科技綜合報導】12月11日報導,近日,微軟亞洲研究院正式發布了業內首個 AI 量化投資開源平臺「微礦 Qlib」。據了解,與傳統量化投資工具不同,Qlib 涵蓋了量化投資的全過程,而且從底層構造開始就專為 AI 而打造。
  • 微軟亞洲研究院訪問西安交大
    5月13日,微軟亞洲研究院常務副院長趙峰、副院長宋羅蘭一行訪問西安交大。鄭南寧校長在科學館107會見來賓。鄭南寧校長介紹了學校國際合作交流、網絡公開課、書院等相關情況。雙方就信息技術發展、人文教育、本科生培養、國際交流等問題進行討論和交流,並暢想了未來合作發展模式及內容。
  • 微軟研究院開源天文望遠鏡程序WWT
    網易科技訊 1月9日消息,據國外媒體報導,微軟研究院日前將自家的全球望遠鏡網絡計算程序
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    模型使用了中文維基百科(包括簡體和繁體)進行訓練,並且使用了哈工大語言技術平臺 LTP(http://ltp.ai)作為分詞工具。和原版 BERT 中文模型,以及百度開源中文預訓練模型 ERNIE 相比,全詞覆蓋的中文 BERT 預訓練模型 BERT-wwm 在多個中文任務中取得了較好的表現。
  • 微軟亞洲研究院/工程院 交大訪問日程
    出訪人員: 沈向洋 博士 微軟亞洲研究院院長 首席科學家 張益肇 博士 微軟亞洲工程院 副院長 李航   博士 微軟亞洲研究院自然語言組 研究員 校友 鄭海濤 博士 微軟亞洲研究院無線網絡組 研究員 校友 黨映農 博士 微軟亞洲研究院多通道用戶界面組 副研究員 校友 鄒靜   碩士 微軟亞洲研究院高校關係部 高校合作專員
  • 微軟亞洲研究院在西安交大設立「微軟小學者」獎學金
    日前,微軟亞洲研究院與西安交大籤署合作協議,面向學校基礎學科拔尖人才培養試驗班、錢學森實驗班和少年班學生設立「微軟小學者」獎學金項目,獲獎者除獲5000元獎學金外,還將參加當年的微軟暑期夏令營。首批「微軟小學者」獎學金評選近日揭曉,曹彬、竇竟銘、馬賢忠3位同學獲獎,同時,韓思陽等5名同學獲得參加2013年微軟暑期夏令營的機會。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    根據微軟亞洲研究院劉鐵巖教授的現場精華整理,全部內容已經經由劉教授確認。在本報告中,我將會介紹微軟研究院的最新成果,展示如何通過「對偶通信博弈技術」有效利用無標籤訓練數據、如何利用「殘差學習技術」解決深層神經網絡的優化問題、如何藉助「二維映射技術」縮小模型規模、以及如何使用「高階泰勒補償技術」解決通信延時問題。這些前沿技術將會陸續通過微軟的開源項目CNTK和DMTK分享給業界,以期和大家一起推動人工智慧技術的進一步發展。
  • 微軟亞洲研究院獲計算機學會首個傑出貢獻獎
    【搜狐IT消息】 中國計算機學會近日向微軟亞洲研究院頒發了首度設立的「傑出貢獻獎」,以表彰和感謝其長期以來對中國計算機人才培養及中國計算機產業發展所做出的不懈努力和卓越貢獻。同時獲此殊榮的還有方正集團。
  • 微軟亞研院提出通用預訓練模型MASS
    5月10日消息,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS(Masked Sequence to Sequence Pre-training),在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。
  • 微軟亞洲研究院(MSRA)研究員林欽佑博士來訪
    2017年10月20日,應哈爾濱工業大學社會計算與信息檢索研究中心邀請,微軟亞洲研究院(MSRA)知識計算(Knowledge Computing
  • 二十一世紀的計算 | 微軟亞洲研究院洪小文54頁PPT講述人工智慧和...
    近日,「二十一世紀的計算」學術研討會在韓國首爾舉行。它是微軟亞洲研究院自成立之初便開始舉辦的年度學術盛會。作為中國及亞太地區規模最大、最具影響力的計算機科學教育與研究盛會之一,迄今為止該大會已在中國、日本、韓國、新加坡等多個國家和地區成功舉辦了17屆,參會人數累計超過40000人。
  • 微軟亞洲研究院常務副院長郭百寧:計算機視覺的黃金時代到了
    「1998 年微軟亞洲研究院建院的時候我們第一個成立的組就是視覺計算組,那時候計算機視覺應用非常少,很冷門」,微軟亞洲研究院常務副院長郭百寧博士對極客公園說道,他同時也是計算機視覺領域的頂尖科學家,「當時圖形學火了很多年,現在輪到計算機視覺火了。」
  • 北大、微軟亞洲研究院:高效的大規模圖神經網絡計算
    北京大學、微軟亞洲研究院的研究人員近日發表論文,提出NGra,這是第一個支持大規模GNN的系統。GNN(圖神經網絡)代表了一種新興的計算模型,這自然地產生了對在大型graph上應用神經網絡模型的需求。但是,由於GNN固有的複雜性,這些模型超出了現有深度學習框架的設計範圍。此外,這些模型不容易在並行硬體(如GPU)上有效地加速。
  • AI大咖說|微軟亞洲研究院院長洪小文:人工智慧創新還有很長路要走
    圖說:微軟亞洲研究院院長洪小文今天,2020世界人工智慧大會在上海開幕,作為三屆參會「元老」,微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文接受本報記者採訪時說,短短3年間,AI確實了有了超乎人們想像的發展。「它會和任何行業結合落地,但距離這一天還有距離。」
  • 微軟亞洲研究院梅濤:計算機視覺發展仍有巨大空間,視頻理解難於...
    為此健一會專門請到了微軟亞洲研究院資深研究員梅濤,請他向大家介紹目前計算機視覺的發展水平與實際應用情況。本篇實錄系根據健一會(ID:jianyihui2011)沙龍第197位主講人梅濤在健一會與艾瑞投資研究院聯合主辦的「人工智慧的商業化變現」專題沙龍上的精彩分享整理而成。原標題為《深度視覺理解》,現標題為健一君所加。
  • 乾貨| BERT fine-tune 終極實踐教程
    google此次開源的BERT是通過tensorflow高級API—— tf.estimator進行封裝(wrapper)的。因此對於不同數據集的適配,只需要修改代碼中的processor部分,就能進行代碼的訓練、交叉驗證和測試。以下是奇點機智技術團隊對BERT在中文數據集上的fine tune終極實踐教程。
  • 快看|微軟現任全球執行副總裁沈向洋即將離開微軟
    沈向洋於1996年11月4日加入微軟研究院,1998年參與創建微軟亞洲研究院,2004年升任微軟亞洲研究院院長,2007年升任微軟全球資深副總裁,2013年正式被任命為微軟全球執行副總裁。2017年,沈向洋當選美國工程院院士。沈向洋是目前在美科技巨頭公司中職位最高的華人高管,也是微軟鮑爾默時期的最後一位執行副總裁。