谷歌發布最大語言模型:等於9個GPT-3,訓練成本卻低得多

2021-02-15 量子位
楊淨 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

今天,谷歌大腦聲稱,他們新技術能訓練萬億級參數的語言模型。

萬億級,什麼概念?

燒了微軟10000張顯卡的GPT-3,也不過1750億參數。

現在,他們將這參數量擴大到9倍——16000億參數

這一語言模型正是Switch Transformer,自稱是迄今為止最大的模型,其預訓練速度是谷歌以前開發的最大語言模型(T5-XXL)的4倍。

與此同時,此次也首次展現了大型稀疏模型(參數量驚人,但計算成本恆定)也可以用較低精度的格式進行訓練。

迄今最大語言模型

Switch Transformer的設計原則是,用一種簡單有效的稀疏性擴展Transformer模型的參數量。

它建立在專家混合的基礎上,這是90年代初首次提出的人工智慧模型範式。

簡單來說,就是在一個更大的模型內保留多個專家,或專門從事不同任務的模型,並由一個「門控網絡」為任何給定數據選擇諮詢哪些專家。

Switch Transformer的創新之處在於,它有效利用了一些硬體,比如GPU和谷歌的TPU等為稠密矩陣乘法設計的硬體。

在分布式訓練設置中,模型的稀疏激活層在不同設備上分配唯一的權重。所以,模型權重隨設備數量的增加而增加,同時在每個設備上保持可管理的內存和計算空間。

接著,研究人員使用了32個TPU內核在一個數據集上預訓練了幾個不同的Switch Transformer模型。

這一數據集叫做Colossal Clean Crawled Corpus,750GB大小,包含了從Reddit、維基百科和其他網絡資源中搜刮的文本。

研究人員給這些模型布置了任務,比如,在有15%單詞被掩蓋的段落中預測出缺失的單詞;檢索文本來回答問題。

研究人員表示,他們擁有2048個專家系統的1.6萬億參數模型(Switch-C)「完全沒有不穩定性」,其速度相比於T5-XXL模型提升了4倍。

此外,研究者還將模型與T5-Base和 T5-Large進行了對比,結果表明,在相同的計算資源下,新模型預訓練速度有最高7倍的提升。

研究人員表示,大型稀疏模型可用於創建較小的密集模型,在任務上進行微調,其質量增益為大型模型的30%。

從整體結果上看,Switch Transformer 模型在多項推理和知識任務中帶來了顯著性能提升。這說明該模型架構不只對預訓練有用,還可以通過微調將質量改進遷移至下遊任務中。

研究人員表示,

我們無法完全保留模型質量,但通過將我們的稀疏模型提煉成密集模型,可以實現10到100倍的壓縮率,同時實現約30%的專家模型的質量增益。

在未來的工作中,研究人員計劃將Switch Transformer應用於不同模態或多模態模型,包括圖像和文本。

參考連結:
論文地址:https://arxiv.org/abs/2101.03961
https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

量子位「AI社群」招募中!歡迎AI從業者、關注AI行業的小夥伴們掃碼加入,與50000+名好友共同關注人工智慧行業發展&技術進展

一鍵三連「分享」、「點讚」和「在看」

科技前沿進展日日相見~

相關焦點

  • 1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3
    谷歌首先構建了一個高質量的、具有 1.6 萬億 token 的數據集,該無標籤數據集很大一部分來自 Web 頁面,其範圍從專業寫作到低質量的評論和論壇頁面。此外,谷歌還開發了一個文本質量過濾器,該過濾器是在維基百科和書籍文本數據集上訓練而成,由於過濾器訓練的數據集質量很高,所以谷歌將其過濾 Web 網頁內容的質量。
  • 1.6萬億參數,秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍
    迄今為止,OpenAI 的 GPT-3是有史以來最大的語言模型之一,有1750億個參數。  現在,距離GPT-3問世不到一年的時間,更大更複雜的語言模型又來了—— 在對這種相關性進行最全面測試的基礎上,今日,谷歌的研究人員開發了一種能夠訓練包含超過一萬億參數的語言模型:Switch Transformer,並進行了基準測試。
  • XLNet訓練成本6萬美元,頂5個BERT,大模型「身價」驚人
    語言模型BERT:1.2 萬美元GPT-2:4.3 萬美元XLNet:6.1 萬美元2. 高解析度 GANBigGAN:2.5 萬美元StyleGAN:0.3 萬美元機器之心製圖這幾種都是比較有代表性的大模型,如果讀者也算過大模型訓練成本,歡迎留言對比呀。
  • OpenAI訓練語言模型GPT-2生成圖片
    OpenAI研究人員運用人工智慧語言模型來生成圖片,他們以像素序列來訓練GPT-2語言模型,使語言模型能夠生成連續相關的圖像,研究人員提到
  • 超越谷歌BERT!依圖推出預訓練語言理解模型ConvBERT,入選NeurIPS 2020
    在本文中,本土獨角獸依圖科技提出了一個小而美的方案——ConvBERT,通過全新的注意力模塊,僅用 1/10 的訓練時間和 1/6 的參數就獲得了跟 BERT 模型一樣的精度。相比費錢的 GPT-3,這項成果可讓更多學者用更少時間去探索語言模型的訓練,也降低了模型在預測時的計算成本。本文已被 NeurIPS 2020 接收。
  • 谷歌開源巨無霸語言模型Switch Transformer,1.6萬億參數!
    距GPT-3問世不到一年的時間,谷歌大腦團隊就重磅推出了超級語言模型Switch Transformer,有1.6萬億個參數。比之前由谷歌開發最大的語言模型T5-XXL足足快了4倍,比基本的T5模型快了7倍,簡直秒殺GPT-3!GPT-3使用了驚人的1750億參數,堪稱史上最大AI模型。
  • 不得已而為之---CPU下使用gpt2-large模型進行微調訓練
    GPT2系列共有 5個模型:distilgpt2-small,gpt2(gpt2-small),gpt2-medium,gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個模型。GPT2需要佔用500MB的存儲空間來存儲其所有參數,而GPT2-large是GPT2的13倍,佔用超過6.5GB的存儲空間。
  • 我用GPT-2創造了3000個寵物小精靈,完美復刻《神奇寶貝》!
    而這個AI正是自然語言模型GPT-2.提到NLP模型,我們印象最深的可能是GPT-3。今年該模型因1750億超大參數量和超強應用,在各大媒體平臺頻頻刷屏。GPT-2,與GPT-3師出同門,都是OpenAI研發的自然語言處理模型,兩個模型最大的不同是它的參數量,GPT-2僅為15億。但這並不影響它的應用範圍。與GPT-3類似,GPT-2也可以用來寫故事、畫圖表,或者玩西洋棋。
  • GPT「高仿」問世:GPT-Neo,最大可達GPT-3大小,已開源 | AI日報
    3大小,已開源近日,有個名叫 EleutherAI的團隊(創始成員為:Connor Leahy,Leo Gao和Sid Black),宣布推出GPT-Neo開源項目,可用於復現GPT系列的各種語言模型,也包括GPT-3。
  • 2019: 屬於BERT預訓練語言模型之年
    9月左右,一批專注於壓縮BERT模型大小的論文(青色)發布,比如DistilBERT、ALBERT和TinyBERT的論文。例如,來自HuggingFace的DistilBERT模型是BERT的壓縮版本,其參數數量只有BERT的一半(從1.1億個減少到6600萬個),但在重要的NLP任務上具有95%的性能(參見GLUE基準測試)。這份BERT論文清單很可能是不完整的。
  • 谷歌發布NLP最先進預訓練模型:開源BERT
    本文為你介紹谷歌最新發布的自然語言預訓練模型BERT。簡介自然語言處理(NLP)面臨的眾多挑戰之一是訓練數據的短缺。由於NLP是一個具有許多不同任務的多樣化領域,因此大多數針對特定任務的數據集僅包含了幾千到幾十萬個人為標記的訓練示例。
  • 微軟利用NV DGX-2訓練了世界上最大的轉換器語言模型
    微軟今天宣布了對話式人工智慧的突破,它使用NVIDIA DGX-2系統,基於170億個參數,訓練了最大的基於轉換器的語言生成模型。
  • 剛剛智源研究院發布了清源 CPM-中文GPT3-我魔改出了一個TF版本
    CPM和GPT3的介紹什麼是CPM?CPM是Chinese Pre-trained Model的簡寫,清源 CPM 計劃將依託智源研究院新建的人工智慧算力平臺,建立以中文為核心的超大規模預訓練模型,進行基於超大規模預訓練語言模型的少次學習能力以及多任務遷移能力研究,探索更具通用能力的語言深度理解技術。
  • 單一ViT模型執行多模態多任務,谷歌用協同訓練策略實現多個SOTA
    近日,谷歌研究院、劍橋大學和阿蘭 · 圖靈研究所的幾位研究者在其論文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提出了一種簡單高效的訓練單個統一模型的方法,他們將該模型命名為 PolyViT,它實現了有競爭力或 SOTA 的圖像、視頻和音頻分類結果。
  • 谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體
    最近Google Brain的首席Quoc發布了一個搜索框架,能夠自動搜索高效率的Transformer變體,並找到一些有效的模型Primer,其中ReLU加個平方竟然能提升最多性能!目前自然語言處理領域發展的紅利都來自於大型的、基於Transformer的語言模型,但這些語言模型的訓練成本、推理成本都高到勸退平民鍊金術師。
  • 玩不起1200萬美元砸出的GPT-3?百度EasyDL讓你玩得起超大規模預訓練
    最近大火的 GPT-3 參數量達到一千多億,訓練成本更是重新定義了什麼叫「壕無人性」:據海外媒體VB稱,預計GPT-3的存儲需求高達350GB、訓練成本超過1200萬美元。對於我們普通用戶來說,這樣的成本也就只能想想了。向 OpenAI 申請使用 GPT-3 API 之類的,基本也不會有回應。當然,我們還有很多已經開源的預訓練模型可以選擇,但這些模型總有各種局限,可用的「超大規模」預訓練就更少了。
  • 中文版GPT-3來了?智源研究院發布清源 CPM —— 以中文為核心的大規模預訓練模型
    首期開源內容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用於中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產業界開放下載,供研究使用。語言模型是指對自然語言文本進行概率建模的模型,它不僅可以估計任意一個給定文本序列的概率,也可以用來預測文本序列中某個位置上詞的出現概率,是自然語言處理中最基本的問題。
  • 谷歌發布人類歷史首個萬億級模型 Switch Transformer,中國還有機會趕超嗎?
    ,其速度是Google之前開發的最大語言模型(T5-XXL)的4倍,參數規模幾乎是1750億參數的GPT-3的十倍! 這應該是人類歷史上發布的第一個萬億級人工智慧模型。 研究人員在論文中指出,大規模訓練是通向強大模型的有效途徑,具有大量數據集和參數計數的簡單架構可以遠遠超越複雜的算法,但目前有效的大規模訓練主要使用稠密模型。
  • 8種優秀預訓練模型大盤點,NLP應用so easy!
    模型其他預訓練模型多用途NLP模型多用途模型在NLP領域裡一直為人們所關注。這些模型為提供了許多令人感興趣的NLP應用 - 機器翻譯、問答系統、聊天機器人、情感分析等。這些多用途NLP模型的核心是語言建模的理念。簡單來說,語言模型的目的是預測語句序列中的下一個單詞或字符,在我們了解各模型時就會明白這一點。 如果你是NLP愛好者,那麼一定會喜歡現在這部分,讓我們深入研究5個最先進的多用途NLP模型框架。
  • 聯手自然語言處理專委會:「預訓練語言模型」術語發布 | CCF術語快線
    開篇導語:此文為CCF術語工委聯合自然語言處理專委會推出的計算機行業術語介紹文章。本期所選熱詞為預訓練語言模型,是目前的熱門研究方向之一。以BERT、GPT為代表的預訓練模型已經成為自然語言處理(NLP)領域的主要模型。不管在富資源任務還是低資源任務上,預訓練都對模型性能有顯著的提升。