微軟發布史上最大AI模型:170億參數,將用於Office套件

2020-12-06 量子位

乾明 發自 凹非寺量子位 報導 | 公眾號 QbitAI

今天(2月11日),微軟發布史上最大語言模型,名為Turing-NLG

170億參數量,是此前最大的語言模型英偉達「威震天」(Megatron)的兩倍,是OpenAI模型GPT-2的10多倍。

「隨著更大的自然語言模型導致更好結果的趨勢,微軟引入了Turing-NLG,」微軟在研究博客中寫道。「它在各種語言建模基準方面的表現超過了最先進的水平,並且在許多實際任務的應用上,比如回答問題和摘要生成方面表現都十分優異。」

與此同時,微軟研究也發布了另一篇博客文章,介紹了用於分布式訓練大型模型的DeepSpeed深度學習庫和ZeRO優化技術,並表示如果沒有這些突破,Turing-NLG不可能完成。

史上最大語言模型

Turing-NLG,簡稱T-NLG,是一個基於Transformer的生成語言模型,可以生成單詞來完成開放式的文本任務,比如回答問題,提取文檔摘要等等。

微軟認為,想要在任何情況下,都能使機器像人類一樣直接、準確、流暢地做出反應,開發像T-NLG這樣的生成模型對解決NLP任務非常重要。

以前,回答問題和提取摘要的系統,主要依賴於從文檔中提取現有的內容。雖然可以作為替代答案或摘要,但常常顯得不自然或不連貫。

「有了T-NLG,我們可以自然地總結或回答有關個人文件或電子郵件線程的問題,」微軟表示。

這背後的邏輯在於:即使訓練樣本較少,但模型越大,預訓練的數據越多樣化和全面,它就越能更好地推廣到多個下遊任務。

所以,微軟也認為訓練一個大型的集中式多任務模型,並在眾多任務之間共享它的能力,比為每個任務單獨訓練一個新模型更有效。

T-NLG是怎麼訓練出來的?

訓練大型模型的一個常識是:任何超過13億參數的模型,單靠一個GPU(即使是一個有32GB內存的 GPU)也是不可能訓練出來的,因此必須在多個GPU之間並行訓練模型,或者將模型分解成多個部分。

微軟介紹稱,能夠訓練T-NLG,得益於硬體和軟體的突破,一共體現在三個方面:

第一,他們利用NVIDIA DGX-2硬體設置,使用InfiniBand連接,以便GPU之間實現比以前更快的通信。第二,使用四個英偉達V100 GPU,在英偉達 Megatron-LM框架中應用張量切片分割模型。第三,使用Deepspeed和ZeRO降低了模型的並行度(從16降低到4) ,將每個節點的批處理大小增加4倍,並且減少了三倍的訓練時間。Deepspeed使得使用更少的GPU訓練非常大的模型更有效率,並且它訓練的批量大小為512,使用256個 NVIDIA GPU。如果用Megatron-LM 需要1024個 NVIDIA GPU。此外,Deepspeed還與PyTorch兼容。

最終的T-NLG模型中,有78個Transformer層,隱藏大小為4256,有28個注意頭。

為了使模型的結果能與Megatron-LM媲美,他們使用了與其相同的超參數和學習時間表進行預訓練。與此同時,他們也使用與Megatron-LM相同類型的數據對模型進行訓練。

效果達到最先進水平,將用於Office套件

模型預訓練完成後,他們也在WikiText-103(越低越好)和LAMBADA(越高越好)數據集上,與英偉達Megatron-LM和OpenAI的GPT-2完整版進行了比較,都達到了最新的水平。

不僅僅是數據集上,微軟也公布了T-NLG在具體任務中的表現。

首先是回答問題。其不僅能夠使用一個完成的句子回答,還能夠在不需要上下文的情況下回答問題,比如下面的這個問題並沒有給出更多的信息。在這些情況下,T-NLG能基於預訓練中獲得的知識來生成一個答案。

其次是生成摘要。微軟表示,為了使 T-NLG 儘可能多用於總結不同類型的文本,他們幾乎在所有公開可用的摘要數據集上以多任務的方式完善了T-NLG模型,總計約400萬個訓練實例。

他們與另一個最新的基於Transformer的語言模型PEGASUS,以及先前最先進的模型進行了比較,ROUGE評分結果如下,基本上實現了超越。

實際效果怎樣?

為了秀這個模型的能力,微軟用T-NLG模型,給介紹T-NLG的博客文章寫了一份摘要:

Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

正如摘要中所說的,微軟的T-NLG目前並不對外公開。

對於T-NLG的應用潛力,微軟說它為其和客戶提供了新的機會。

除了通過總結文檔和電子郵件來節省用戶時間,還可以通過向作者提供寫作幫助和回答讀者可能提出的關於文檔的問題,來增強使用 Microsoft Office 套件的體驗,打造更強的聊天機器人等等。

微軟表示,他們對新的可能性感到興奮,將繼續提高語言模型的質量。

關於文章中提到的ZeRO & DeepSpeed,如果你有興趣,可以進一步閱讀下微軟的官方博客文章,其中DeepSpeed開源了, ZeRO的論文也已經發布:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

相關焦點

  • 170 億參數加持,微軟發布史上最大 Transformer 模型 T-NLG!
    【CSDN編者按】Turing Natural Language Generation(T-NLG)是微軟提供的一個有170億參數的語言模型,在許多NLP任務上均優於目前的SOTA技術。那麼,它就有哪些優勢?在誕生過程中,又有哪些突破?趕快往下看!
  • 科技巨頭微軟推出Turing-NLG,目前規模最龐大的AI語言模型
    微軟這個科技界巨頭目前正在研發一個新的AI語言模型,而這個模型的規模比目前其他公司所研發出的都要大。這個新的AI語言模型名為「圖靈自然語言生成(Turing Natural language Generation)」,也即Turing-NLG。為什麼說它的規模比其他同類型的模型都要大呢?
  • 網際網路原子彈,算力吞噬者:1750 億參數的 AI 模型 GPT-3 引爆矽谷
    1750 億參數組成的訓練模型言歸正傳,OpenAI 的研究人員在上個月發表了一篇論文,描述了 GPT-3 的開發,正式發布了這個由 1750 億個參數組成的 AI 語言模型。GPT 模型主要包含兩個階段。第一個階段,先利用大量未標註的語料預訓練一個語言模型,接著,在第二個階段對預訓練好的語言模型進行微改,將其遷移到各種有監督的 NLP 任務,並對參數進行 fine-tuning。簡而言之,在算法固定的情況下,預訓練模型使用的訓練材料越多,則訓練好的模型任務完成準確率也就越高。那麼 1750 億是什麼概念?
  • 中國最大AI預訓練模型發布:113億參數,北京智源研究院、阿里、清華...
    而近日,北京智源人工智慧研究院發布了與此類似的中國最大AI模型文匯,包含113億參數。據介紹,「文匯」的部分應用即將合作上線,目前已有四個樣例應用可用於展示效果:基於上傳圖片的開放域問答:可以支持用戶上傳圖片後,針對圖片內容進行提問或生成圖片的一句話描述。Talk to Data:只需要一句自然語言的話,就可以實現數據的可視化自動統計與查詢。
  • Office 365 官宣更名為 Microsoft 365,AI 雲新功能搶先預覽
    :微軟昨日宣布,4 月 21 日,Office 365 將升級為 Microsoft 365。除了「365」的名稱變化之外,微軟也推出新的 Office 功能,幫助用戶「成為更好的作家、演示者、設計師、財務經理,並加強與生活的聯繫。」微軟還計劃為之後新增消費者推出 Microsoft 家庭安全應用程式和 Microsoft Teams。下面是具體新增功能介紹。
  • 微軟推出TensorFlow擴展套件DirectML 支持DirectX 12
    近期,微軟發布了一款名為TensorFlow-DirectML的TensorFlow擴展套件,幫助開發者能夠在Windows平臺上通過支持DirectX 12的GPU來加速TensorFlow模型運算,並同樣適用Linux的Windows子系統(WSL)。
  • Office 365:最適合企業的辦公套件是什麼?
    選擇辦公套件在以往是一件很簡單的事情,但是谷歌公司推出的功能強大且功能豐富的辦公套件G Suite如今成為微軟公司Office的強勁對手。以下將詳細分析這兩個套件的優缺點,以幫助用戶確定哪個套件適合其業務。
  • 谷歌套件課使iOS用戶可免費編輯微軟Office文檔 還支持評論等協作...
    原標題:谷歌套件出手,iOS 用戶可免費編輯微軟 Office 文檔   11月27日消息 外媒ytechdecisions報導,現在你可以在iOS設備上免費查看Office文檔,但要想在iOS版Office上編輯文檔,你需要登錄微軟帳號,並訂閱Office 365以獲得更大的屏幕尺寸支持。
  • 與蘋果分羹:微軟將於11月推iPad版Office
    北京時間6月3日消息,據國外媒體報導,微軟公司計劃在今年11月為iPad推出Office套裝。iPad版Office用戶可本地或在線製作和編輯Word、Excel和PowerPoint文件。資深撰稿人 Dan Frommer 今年早些時候曾提出,如果微軟只是將Office應用在Windows個人電腦或Windows平板電腦中,希望以此來突出Windows的與眾不同,那麼微軟的發展將會出現問題。而在今年一月份,國外創業公司CloudOn發布了一款Office同名iPad應用,允許用戶通過iPad設備訪問和創建MS Office文檔。
  • 微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI
    【AI星球(微信ID:ai_xingqiu)】8月23日報導(編譯:福爾摩望)微軟今天推出了一款可以支持高速、低延遲機器學習模型的系統,也預示著微軟開始在專用AI硬體領域嶄露頭角。
  • 微軟面向 Windows Office Insider 推送 Office Build 12624.20086
    IT之家3月8日消息 微軟日前在Windows上發布了新的Office Build版本,版本號為Build 12624.20086,Office Insider用戶已可更新使用。
  • 史上最大化工收購案完美落幕!默克170億美元成功收購西格瑪(Sigma...
    2015年11月20日訊 /生物谷BIOON/ --德國製藥與化工巨頭默克(Merck KGaA)近日宣布成功完成170億美元現金收購全球最大化工試劑生產商——美國西格瑪奧德裡奇(Sigma-Aldrich,以下簡稱Sigma
  • 微軟最強大筆記應用onenote的強大之處!
    我們平常在安裝微軟office的時候是不是有時莫名其妙的安裝一個「未知軟體」——onenote,因為我們平常對於office用的比較多的是Word,Excel,Powerpoint等軟體,而對office套件中的onenote是什麼卻並不知曉。只是把它當做一個「累贅」沉睡在電腦的角落。
  • 《光環5:守護者》舉辦史上最大《光環》盛典 成Xbox One獨佔陣容最...
    《光環5:守護者》近日舉辦了史上最盛大的《光環》發布慶典,遊戲銷量也一路飆高,一舉成為Xbox One獨佔陣容中最暢銷的遊戲。日前,《光環5:守護者》遊戲和光碟在全球的銷售額已經超過4000萬美元。這也使得《光環》系列的的遊戲和硬體總銷售額突破50億美元大關。
  • ...10 用上最新通用版 Office 套件 | 極客早知道 2015 年 2 月 5 日
    Windows 10 技術預覽版已可用最新通用版 Office來源:cnbeta 微軟最新 Office 套件出現在 Windows 10 技術預覽版中。Word、Excel 和 PowerPoint 最新的通用版本,為臺式機、觸控螢幕和行動裝置等平臺進行了優化。
  • 微軟公布天蠍座主機參數:真 4K 畫質,還將支持 VR 頭盔
    去年 E3 期間,微軟公布代號為「天蠍計劃」(也被成為天蠍座)的加強版主機,該主機也被稱之為「史上性能最強的遊戲主機」。雷鋒網消息,北京時間 4 月 6 日晚 21 點,外媒 Eurogamer.net 獨家報導了該主機的具體參數及其他信息。據雷鋒網(公眾號:雷鋒網)了解,Eurogamer 旗下的遊戲硬體欄目 Digital Foundry 受邀提前前往微軟體驗了「天蠍計劃」,也得到了一些官方參數,但這些參數還不完全是最終銷售產品的參數。
  • Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計
    賽靈思公司宣布推出全功能醫療 X 射線分型深度學習模型和參考設計套件,這是賽靈思與 Spline.AI 及亞馬遜網絡服務(AWS)強強攜手共同取得的合作成果。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    OCR 相關的需求自然也少不了:卡證識別、票據識別、汽車場景、教育場景文字識別……那麼,這個模型大小僅 8.6M,沒有 GPU 也能跑得動,還提供自定義訓練到多硬體部署的全套開發套件的開源通用 OCR 項目,了解一下?
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    神經網絡的TTS是將合成流程簡化了,我們可以看到它基本就三段,有一個前端文本分析,一個聲學模型,一個Neural Vocoder聲碼器。神經網絡的聲碼器可以非常接近人的音質。採用最新的基於注意力的聲學模型去進行建模韻律,更加接近人聲的韻律。兩者疊加起來,就可以到更符合人的韻律和音質的高質量合成語音。當然,帶來的負作用是計算量非常大。
  • 天文學家發現質量是太陽170億倍的「黑洞」
    據國外媒體報導,哈勃空間望遠鏡拍攝一個酷似透鏡的星系,其被命名為NGC 1277星系,雖然該星系並不龐大,但其中卻隱藏著一個超大質量黑洞,是有史以來發現的最大黑洞之一,達到了170億個太陽質量,由黑洞統治的質量佔到星系總質量的14%。來自美國宇航局、歐空局等天文學家們正在使用德克薩斯大學麥克唐納天文臺對這個恐怖天體進行觀測。