今天,谷歌大腦聲稱,他們新技術能訓練萬億級參數的語言模型。
萬億級,什麼概念?
燒了微軟10000張顯卡的GPT-3,也不過1750億參數。
現在,他們將這參數量擴大到9倍——16000億參數。
這一語言模型正是Switch Transformer,自稱是迄今為止最大的模型,其預訓練速度是谷歌以前開發的最大語言模型(T5-XXL)的4倍。
與此同時,此次也首次展現了大型稀疏模型(參數量驚人,但計算成本恆定)也可以用較低精度的格式進行訓練。
Switch Transformer的設計原則是,用一種簡單有效的稀疏性擴展Transformer模型的參數量。
它建立在專家混合的基礎上,這是90年代初首次提出的人工智慧模型範式。
簡單來說,就是在一個更大的模型內保留多個專家,或專門從事不同任務的模型,並由一個「門控網絡」為任何給定數據選擇諮詢哪些專家。
Switch Transformer的創新之處在於,它有效利用了一些硬體,比如GPU和谷歌的TPU等為稠密矩陣乘法設計的硬體。
在分布式訓練設置中,模型的稀疏激活層在不同設備上分配唯一的權重。所以,模型權重隨設備數量的增加而增加,同時在每個設備上保持可管理的內存和計算空間。
接著,研究人員使用了32個TPU內核在一個數據集上預訓練了幾個不同的Switch Transformer模型。
這一數據集叫做Colossal Clean Crawled Corpus,750GB大小,包含了從Reddit、維基百科和其他網絡資源中搜刮的文本。
研究人員給這些模型布置了任務,比如,在有15%單詞被掩蓋的段落中預測出缺失的單詞;檢索文本來回答問題。
研究人員表示,他們擁有2048個專家系統的1.6萬億參數模型(Switch-C)「完全沒有不穩定性」,其速度相比於T5-XXL模型提升了4倍。
此外,研究者還將模型與T5-Base和 T5-Large進行了對比,結果表明,在相同的計算資源下,新模型預訓練速度有最高7倍的提升。
研究人員表示,大型稀疏模型可用於創建較小的密集模型,在任務上進行微調,其質量增益為大型模型的30%。
從整體結果上看,Switch Transformer 模型在多項推理和知識任務中帶來了顯著性能提升。這說明該模型架構不只對預訓練有用,還可以通過微調將質量改進遷移至下遊任務中。
研究人員表示,
我們無法完全保留模型質量,但通過將我們的稀疏模型提煉成密集模型,可以實現10到100倍的壓縮率,同時實現約30%的專家模型的質量增益。
在未來的工作中,研究人員計劃將Switch Transformer應用於不同模態或多模態模型,包括圖像和文本。
參考連結:
論文地址:https://arxiv.org/abs/2101.03961
https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
量子位「AI社群」招募中!歡迎AI從業者、關注AI行業的小夥伴們掃碼加入,與50000+名好友共同關注人工智慧行業發展&技術進展:一鍵三連「分享」、「點讚」和「在看」
科技前沿進展日日相見~