170 億參數加持,微軟發布史上最大 Transformer 模型 T-NLG!

2020-12-06 CSDN

【CSDN編者按】Turing Natural Language Generation(T-NLG)是微軟提供的一個有170億參數的語言模型,在許多NLP任務上均優於目前的SOTA技術。那麼,它就有哪些優勢?在誕生過程中,又有哪些突破?趕快往下看!

作者 | Corby Rosset

譯者 | 劉暢 責編 | Just

BERT和GPT-2之類的深度學習語言模型(language model, LM)有數十億的參數,網際網路上幾乎所有的文本都已經參與了該模型的訓練,它們提升了幾乎所有自然語言處理(NLP)任務的技術水平,包括問題解答、對話機器人和文檔理解等。

更好的自然語言生成模型可以在多種應用程式中實現自如的轉化,例如協助作者撰寫內容,匯總一長段文本來節省時間,或改善自動客服助理的用戶體驗。

基於使用更大自然語言模型可以帶來更好結果的趨勢,微軟推出了Turing自然語言生成(T-NLG)模型,這是有史以來規模最大的模型,其參數有170億,在各種語言模型任務的基準上均優於最新技術,並且在應用於許多實際任務(包括概括和問題解答)時也很出色。

這項工作得益於在DeepSpeed庫(與PyTorch兼容)的ZeRO優化器方面的突破。

我們正在向學術界的一小部分用戶發布T-NLG的演示視頻,包括生成自由格式,問題解答和概要功能,以進行初步測試和反饋。

T-NLG:大型生成語言模型的優勢

T-NLG是一個基於Transformer的生成語言模型,這意味著它可以生成單詞來完成開放式的文本任務。除了補充未完成的句子外,它還可以生成問題的答案和文檔的摘要。

T-NLG之類的生成模型對於NLP任務很重要,因為我們的目標是在任何情況下都儘可能與人類直接,準確和流暢地問答。以前,問題解答和概要系統是依賴於從文檔中提取現有內容,把這些內容用作備用答案或摘要,但它們通常看起來不自然或不連貫。藉助T-NLG模型,就可以很自然的總結或回答有關個人文檔或電子郵件主題的問題。

我們已經觀察到,模型越大,預訓練數據需要越多樣化和全面,在泛華到其它任務時也會表現得更好。因此,我們認為訓練大型集中式多任務模型並在眾多任務中共享其功能比單獨為每個任務訓練新模型更為有效。

訓練T-NLG:硬體和軟體的突破

任何超過13億參數的模型都無法裝入單張GPU(甚至一個具有32GB內存的電腦),因此該模型本身必須在多個GPU之間並行化或分解。我們利用了幾項硬體和軟體的突破來訓練T-NLG:

1.我們利用NVIDIADGX-2硬體設置和InfiniBand連接,使GPU之間的通信比以前更快。

2. 在NVIDIAMegatron-LM框架上,我們使用張量切片技術在四張NVIDIAV100 GPU上分割模型。

3. DeepSpeed with ZeRO庫使我們可以降低模型並行度(從16降低到4),將每個節點的批處理大小增加4倍,並將訓練時間減少3倍。DeepSpeed可以使用更少的GPU訓練更大的模型,從而提高效率,並且僅使用256個NVIDIA GPU就可以實現512 batchsize的訓練,而單獨使用Megatron-LM則需要1024個NVIDIA GPU。DeepSpeed與PyTorch兼容。

最終的T-NLG模型具有78個Transformer層,其隱藏層的節點大小為4256,並包含28個注意力頭。為了使結果可與Megatron-LM相媲美,我們使用了與Megatron-LM相同的超參數對模型進行了預訓練,

我們還比較了預訓練T-NLG模型在標準語言任務(例如WikiText-103(越低越好)和LAMBADA下一個單詞預測準確性(越高越好))上的性能。下表顯示,我們在LAMBADA和WikiText-103上都達到了最新的技術水平。Megatron-LM是NVIDIA Megatron模型公開發布的結果。

Open AI使用了額外的處理(停用詞過濾)以實現比單獨實現模型更高的數量。Megatron和T-NLG均未使用這種停用詞過濾技術。

下面圖1顯示了與Megatron-LM相比,T-NLG在驗證perplexity方面的表現。

訓練期間Megatron-8B參數模型(橙色線)與T-NLG 17B模型在驗證困惑度方面的比較(藍線和綠線)。虛線表示當前SOTA技術模型達到的最低驗證損失。圖中從藍色到綠色的過渡表示T-NLG在性能上超過了SOTA水平。

直接問答和Zero-shot提問功能

許多網絡搜索用戶習慣於在問問題時看到答案直接顯示在頁面的頂部。這些頁面大多數會在其所屬段落的上下文中顯示一個答案句子。我們的目標是通過直接回答他們的問題來更明確地滿足用戶的信息需求。例如,大多數搜尋引擎在顯示全文時會突出顯示名稱,如「Tristan Prettyman」(請參見下面的示例)

相反,T-NLG將直接用完整的句子回答問題。在Web搜索之外,此功能更為重要,例如,當用戶詢問有關個人數據的問題(例如電子郵件或Word文檔)時,此功能可使AI助手智能響應。

該模型還能夠實現「zeroshot」問題解答,這意味著無需上下文即可進行回答。對於下面的示例,沒有給出模型的段落,僅給出了問題。在這些情況下,模型依賴於在預訓練過程中獲得的知識來生成答案。

由於ROUGE分數與真實答案相符,無法反映其他方面,如事實正確性和語法正確性,因此我們要求人工標註者為我們之前的基準系統(類似於CopyNet的LSTM模型)和當前的T NLG模型進行評判。

我們還注意到,較大的預訓練模型僅需要較少的其它任務樣本就可以很好地學好。

我們最多只有100,000個問題-消息-答案三元組的樣本,即使僅進行了數千次訓練,我們的模型仍優於訓練了多次的LSTM基準模型。

由於收集帶標註的監督數據非常昂貴,因此這種觀察到的現象會產生實際的業務影響。

不需監督的摘要總結

NLP文獻中的摘要有兩種類型:提取-從文檔中獲取少量句子作為摘要的代名詞,抽象-用NLG模型像人類一樣生成摘要。

T-NLG的目標不是複製現有內容,而是為各種文本文檔(如電子郵件,博客文章,Word文檔,Excel工作表和PowerPoint演示文稿)編寫類似於人類的抽象摘要。

這其中主要的挑戰之一是在所有這些情況下都缺乏監督訓練數據:因為人類並不總是會明確地總結每種文檔類型。T-NLG的強大功能在於,它已經非常了解文本,因此無需太多的監督即可勝過我們之前使用的所有技術。

為了使T-NLG儘可能通用,以匯總不同類型的文本,我們在幾乎所有公開可用的匯總數據集中以多任務方式微調了T-NLG模型,總計約有400萬個訓練樣本。我們給出了ROUGE分數,以便與另一種最新的基於Transformer的語言模型(稱為PEGASUS)和以前的最新模型進行比較。

以多任務方式訓練T-NLG,同時使用所有數據集對其進行訓練。眾所周知,由於ROUGE評估在匯總任務方面存在缺陷,因此我們在下面提供了一些公開可用文章的輸出摘要,以供比較。

T-NLG未來的應用

T-NLG在自然語言生成方面已經取得了優勢,為微軟和客戶提供了新的機會。

除了通過匯總文檔和電子郵件來節省用戶時間之外,T-NLG還可以通過為作者提供寫作幫助並回答讀者可能對文檔提出的問題來增強MicrosoftOffice套件的體驗。

此外,它為更流暢的聊天機器人和數字助理鋪平了道路,因為自然語言生成可以通過與客戶交談來幫助企業進行客戶關係管理和銷售。

原文:https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

本文為 CSDN 翻譯,轉載請註明來源出處。

【End】

相關焦點

  • 微軟發布史上最大AI模型:170億參數,將用於Office套件
    乾明 發自 凹非寺量子位 報導 | 公眾號 QbitAI今天(2月11日),微軟發布史上最大語言模型,名為Turing-NLG。170億參數量,是此前最大的語言模型英偉達「威震天」(Megatron)的兩倍,是OpenAI模型GPT-2的10多倍。「隨著更大的自然語言模型導致更好結果的趨勢,微軟引入了Turing-NLG,」微軟在研究博客中寫道。
  • 科技巨頭微軟推出Turing-NLG,目前規模最龐大的AI語言模型
    微軟這個科技界巨頭目前正在研發一個新的AI語言模型,而這個模型的規模比目前其他公司所研發出的都要大。這個新的AI語言模型名為「圖靈自然語言生成(Turing Natural language Generation)」,也即Turing-NLG。為什麼說它的規模比其他同類型的模型都要大呢?
  • 網際網路原子彈,算力吞噬者:1750 億參數的 AI 模型 GPT-3 引爆矽谷
    1750 億參數組成的訓練模型言歸正傳,OpenAI 的研究人員在上個月發表了一篇論文,描述了 GPT-3 的開發,正式發布了這個由 1750 億個參數組成的 AI 語言模型。沒想到如今真有人奔著這個目標去做了……在 GPT-3 之前,最大的 AI 語言模型是微軟在今年 2 月推出的 Turing NLG,當時擁有 170 億參數的 Turing NLG 已經標榜是第二名 Megatron-LM 的兩倍。沒錯,僅短短 5 個月的時間,GPT-3 就將頭號玩家的參數提高了 10 倍!Nivdia 的黃老闆看了看年初剛畫的產品算力曲線,發現事情並不簡單。
  • 深2.5至4倍,參數和計算量卻更少,DeLighT Transformer是怎麼做到的?
    DeLighT:網絡很深但參數較少的 TransformerDExTraDExTra 變換由五個配置參數控制:1)深度 N,2)寬度乘數 m_w,3)輸入維數 d_m,4)輸出維數 d_o,5)組線性變換中的最大組 g_max。
  • 1.6 萬億參數你怕了嗎?谷歌大腦語言模型速度是 T5 速度的 7 倍
    機器學習當中,參數越多,理論上的精度越高(也極易產生過擬合),當然需要的算力也更多,GPT-3 使用了驚人的 1750 億參數,堪稱史上最大 AI 模型,沒想到這才多久,Google Brain 團隊就搞了一個大新聞,他們使用了 1.6 萬億參數推出了語言模型 Switch Transformer,比 T5 模型當中的 T5-XXL 模型還要快4倍,比基本的 T5 模型快了 7 倍。
  • 解析Transformer模型
    在後續很多模型也基於Transformer進行改進,也得到了很多表現不錯的NLP模型,前段時間,相關工作也引申到了CV中的目標檢測,可參考FAIR的DETR模型引入問題常見的時間序列任務採用的模型通常都是RNN系列,然而RNN系列模型的順序計算方式帶來了兩個問題某個時間狀態
  • GPT-3:一個令人失望的語言模型
    然而當 GPT-3 的論文發布後,身為忠實用戶的他卻感覺到了一些失望,本文他將深扒 GPT-3 中那些令人失望的地方。另註:這篇文章是作者最近在 tumblr 上發表的兩篇文章的匯總。論文摘要就這一點講得很清楚:有一些工作主要是增加語言模型中的參數數量和 / 或計算量,以此作為改進生成或任務性能的手段。[……] 一項工作直接增加了 transformer 模型的大小,並按接近的比例增加了參數量和每個令牌的 FLOPS。
  • 中國最大AI預訓練模型發布:113億參數,北京智源研究院、阿里、清華...
    而近日,北京智源人工智慧研究院發布了與此類似的中國最大AI模型文匯,包含113億參數。據介紹,雖然GPT-3在多項任務中表現出色,但它最大的問題是沒有常識,不具有認知能力。例如,如果問GPT-3「長頸鹿有幾個眼睛」?GPT-3會回答「2個眼睛」。但若繼續追問「我的腳有幾個眼睛」?GPT-3的回答依舊是「2個眼睛」。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    -3 是 1750 億)。他們對 Switch-Base 模型進行蒸餾,由於專家數量的不同,其參數量在 11 億至 147 億之間。該研究可以將具備 11 億參數量的模型壓縮 82%,同時保留 37% 的性能提升。最極端的情況下,將模型壓縮了 99%,且維持了 28% 的性能提升。
  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    《Learning Texture Transformer Network for Image Super-Resolution》:來自上海交大的微軟研究院實習生發表的超解析度領域的圖像,使用 Transformer 來解決超解析度的問題。
  • 史上最大化工收購案完美落幕!默克170億美元成功收購西格瑪(Sigma...
    2015年11月20日訊 /生物谷BIOON/ --德國製藥與化工巨頭默克(Merck KGaA)近日宣布成功完成170億美元現金收購全球最大化工試劑生產商——美國西格瑪奧德裡奇(Sigma-Aldrich,以下簡稱Sigma
  • Transformer在CV領域有可能替代CNN嗎?
    此外,CNN還具有一個非常重要的特性,它是通過共享卷積核來提取特徵,這樣一方面可以極大的降低參數量來避免更多冗餘的計算從而提高網絡模型計算的效率,另一方面又結合結合卷積和池化使網絡具備一定的平移不變性(shift-invariant)和平移等變性(equivariance)。
  • 深2.5至4倍,參數和計算量更少,DeLighT怎麼做到的?
    的模型相比,它的參數更少,但性能相當甚至更好。模型壓縮:為了進一步提高序列模型的性能,該研究引入了逐塊縮放,允許每個塊有不同的尺寸,以及更高效地進行參數分配。改進序列模型:與 DeLighT 最接近的工作是 DeFINE 單元,它使用擴展 - 縮減策略學習模型表示。DeFINE 單元(圖 1a)和 DExTra(圖 1b)之間的關鍵區別是,DExTra 能更高效地在擴展 - 縮減層中分配參數。
  • 微軟發布計劃:馬斯克SpaceX星鏈加持,讓雲服務遍布全球
    這樣一張網,是微軟發展雲服務的理想合作夥伴。在發布 Azure Space 時微軟還表示,除了 SpaceX 以外利用來自衛星的光學和多譜段圖像的 AI 模型有助於判斷作物長勢、預測其產量等。亞馬遜表示將投資 100 億美元來打造這個星座,其中的衛星與星鏈相同,將在近地軌道(LEO)上運行。
  • Transformer生成論文摘要方法已出
    為了處理超過幾千詞的超長文檔,首先先使用兩個不同的分層式文檔模型執行句子抽取;其中一個模型基於指針網絡(pointer network),這類似於 Chen and Bansal 2018 提出的方法一種變體;另一個模型則基於句子分類器。這個抽取步驟能夠抽取出文檔中的重要句子,然後這些句子可用於更好地在相關信息上調節 transformer 語言模型,然後該模型可以執行摘要生成任務。
  • OLS估計Logit模型參數
    LDM 模型來源於 LPM 和 logit 模型的轉換。首先,LDM 可以轉換為一個 logit 模型,其次,線性概率模型 (LPM) 的參數估計能夠轉換為「第一步轉換後的 Logit 模型」參數的極大似然估計。
  • NLU新裡程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類
    去年 6 月,來自微軟的研究者提出一種新型預訓練語言模型 DeBERTa,該模型使用兩種新技術改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,並提供預訓練模型下載。最近這項研究又取得了新的進展。
  • OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • Transformer在CV領域有可能替代CNN嗎?|卷積|神經網絡|算子|上下文...
    此外,CNN還具有一個非常重要的特性,它是通過共享卷積核來提取特徵,這樣一方面可以極大的降低參數量來避免更多冗餘的計算從而提高網絡模型計算的效率,另一方面又結合結合卷積和池化使網絡具備一定的平移不變性(shift-invariant)和平移等變性(equivariance)。
  • 基於Transformer的高效、低延時、流式語音識別模型
    為了解決這個問題,微軟 Azure 語音團隊與微軟亞洲研究院的研究員們一起提出了一套結合 Transformer 家族的編碼器和流式 Transducer 框架的解決方案,並提出了 Mask is all you need 的方法對模型進行快速訓練以及解碼,讓 Transformer 模型能夠在普通的計算設備上進行快速的語音識別。