GPT-3 1750億參數少樣本無需微調,網友:「調參俠」都沒的當了

2020-12-16 新智元

OpenAI最強預訓練語言模型GPT-3周四發表在預印本 arXiv 上,1750億參數!

GPT系列的預訓練語言模型一直是大力出奇蹟的典型代表,但是一代和二代在偏重理解的自然語言處理任務中表現欠佳,遜色於BERT家族。

GPT(Generative Pre-Training)是一個12層單向Transformer語言模型。語言模型訓練好後,可以用於其他的NLP任務。使用GPT首先要學習神經網絡的初始參數,然後,根據具體任務再進行微調。

GPT-2在GPT基礎上對模型做了調整,將Layer Normalization挪到了每個sub-block的輸入,另外有一個LN加到了自注意力block之後,GPT-2把輸入輸出全部轉化為了文本,訓練出15億參數的模型,在自然語言生成領域一時風頭無兩。

少樣本學習無需微調,以後都不能自黑「調參俠」了

GPT-3基於 CommonCrawl (從2016年到2019年收集了近1萬億個單詞)、網絡文本、書籍、維基百科等相關的數據集進行訓練。

GPT-3的參數量高達1750億,相比之下,GPT-2的最大版本也只有15億個參數,而微軟早前推出的全球最大的基於Transformer的語言模型有170億個參數。

GPT-3模型在一系列基準測試和特定領域的自然語言處理任務(從語言翻譯到生成新聞)中達到最新的SOTA結果。

GPT-3隻是參數量巨大嗎?

此次發布的GPT-3還是沿用了之前的單向transformer,我們看題目,這次的模型是少樣本學習語言模型,不管是Zero-shot、One-shot還是Few-shot都無需再進行微調,但推理速度還有待驗證。

實驗證明,1750億參數的GPT-3模型,在少樣本學習中取得了不錯的效果。「GPT-3在特定領域少樣本學習中取得了極大的性能提升,有些甚至超過了當前的SOTA效果」。

對於所有任務,GPT-3沒有進行任何微調,僅通過文本與模型進行交互。

知乎用戶李如總結了GPT-3相對BERT的優勢,BERT在特定領域的任務微調過分依賴標註數據、容易過擬合,而GPT-3隻需要少量標註數據,且無需微調。

前面我們說了GPT和GPT-2在自然語言理解方面還是遜色於BERT,那這次有沒有新進展呢?

在專門用於測試推理和其他高級 NLP 模型任務的 SuperGLUE 基準測試中,GPT-3在 COPA 和 ReCoRD 閱讀理解數據集中獲得了近乎最好的結果,但是與上下文詞彙分析(WiC)和 RACE (一組中學和高中考試問題)相比還是有所欠缺。

接下來作者們對下遊的各種NLP任務進行了實驗,想要了解更多細節的朋友可以去arXiv上查看原始論文。

https://arxiv.org/pdf/2005.14165.pdf

OpenAI這次不光拼參數量,還要拼作者數量?

這次的GPT-3論文作者足足有31位,現在語言模型不僅要拼參數量,還要拼作者數量嗎?

谷歌53頁的T5論文已經讓人驚掉下巴,GPT-3的竟然有72頁!知乎網友感嘆,現在PTM的工作是要開始pk論文頁數了嗎?

GPT-3直接被打上了炫富的標籤。

計算量是BERT的2000多倍,知乎網友Jsgfery表示,這麼大的模型跑一次就好,可千萬別出bug,地主家也沒有餘糧再訓練一次了。

GPT2生成的虛假文章已經讓人真假難辨,至少在語句的通順性上是這樣。GPT-3的效果將更勝GPT2,有網友也表示我們將會敗給GPT-3,如果以後網頁的內容都是自動生成的,那閱讀還有什麼意義?

OpenAI 去年發布了 GPT-2,因為擔心該模型可能被惡意使用,並沒有放出預訓練的模型。有些網友評論說應該改名Closeai,但是OpenAI這種審慎的做法也有不少人贊同。網友們也關心 GPT-3的完整版本是否會開源,或者是否會有7個規模從1.25億到130億不等的小版本時,OpenAI沒有給予明確答覆。

參考連結:

https://www.zhihu.com/question/398114261

https://arxiv.org/abs/2005.14165

相關焦點

  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文章、答題,還懂數學
    「我們訓練了 GPT-3,一種具有 1750 億參數的自回歸語言模型,這個數字比以往任何非稀疏語言模型都多 10 倍。我們在 few-shot 情況下測試了它的性能。」本周五,OpenAI 提出的 GPT-3 在社交網絡上掀起了新一陣風潮。
  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文,答題,還懂數學
    「我們訓練了 GPT-3,一種具有 1750 億參數的自回歸語言模型,這個數字比以往任何非稀疏語言模型都多 10 倍。我們在 few-shot 情況下測試了它的性能。」本周五,OpenAI 提出的 GPT-3 在社交網絡上掀起了新一陣風潮。
  • GPT-3的最強落地方式?陳丹琦提出小樣本微調方法,比普通微調提升11%
    GPT-3 僅僅通過一個自然語言提示(prompt)和 少量的任務示例就可以作出正確的預測,值得注意的是:這一過程不需要更新預訓練模型的參數權重。雖然GPT-3表現驚豔,但有一點很明顯:擁有1750億參數(如此重量)在真實世界也是很難應用!更何況,據說GPT-4會有上萬億參數?
  • 強大如GPT-3,1750億參數也搞不定中文?-虎嗅網
    2019 年,GPT-2 憑藉將近 30 億條參數的規模拿下來「最強 NLP 模型」的稱號;2020 年,1750 億條參數的 GPT-3 震撼發布,並同時在工業界與學術界掀起了各種爭論。註:OpenAI 已經於 2019 年發布了三種 GPT-2 模型:「小型的」1.24 億參數模型,「中型的」3.55 億參數模型,以及 7.74 億參數模型。
  • 剛剛,史上最大 AI 模型 GPT-3 終於上線了!訓練一次要花 1300 萬美元...
    「我們訓練了 GPT-3,一種具有 1750 億參數的自回歸語言模型,這個數字比以往任何非稀疏語言模型都多 10 倍。我們在 few-shot 情況下測試了它的性能。」本周五,OpenAI 提出的 GPT-3 在社交網絡上掀起了新一陣風潮。
  • OpenAI「假新聞」生成器GPT-2的最簡Python實現
    它看起來可以用來自動生成「假新聞」。然而這個 GPT-2 模型內含多達 15 億個參數,過高的算力要求讓大多數開發者望而卻步。而且 OpenAI 還曾「出於對模型可能遭惡意應用的擔憂,並不會立即發布所有預訓練權重。」一時引發機器學習社區的吐槽。近日,由 Buzzfeed 數據科學家 Max Woolf 開源的「GPT-2 精簡版」出現在 GitHub 上。
  • 對話出門問問李志飛:GPT-3 是「暴力美學」的一次勝利
    GPT-3 也許就可以給出「我真是 high 到爆了」。正是因為 GPT-3 不預設任務的無監督學習特性,當考試拓展到編程、繪畫、譜曲、翻譯、算數等超越一般語言模型任務的題目時,他只需要小樣本學習就能對答。這種對新任務舉一反三過程,和人的學習有相通之處。客觀地說,我們還從來沒見過這麼優秀的、才華橫溢的考生,而且他對自己幾乎沒有設限,無論輸入和輸出都是可以多模態的。
  • OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!
    其參數量達到1750億,相當於1600個它爺爺GPT1的大小特別GPT3主要在三個設定下進行的大量 NLP 實驗,其中包括Zero-Shot(沒有樣本,只是在上下文給出一段自然語言描述),One-shot(在上下文中給出一個樣本),還有Few-Shot(在上下文中給出一些樣本)。
  • 陳丹琦團隊最新論文:受GPT-3啟發,用小樣本學習給語言模型做微調...
    不僅講故事的本職工作做得風生水起,還跨界玩起了網頁設計、運維、下象棋……不過,儘管表現驚豔,GPT-3背後到底是實實在在的1750億參數,想要在實際應用場景中落地,難度著實不小。結果顯示:基於提示的微調在很大程度上優於標準微調;自動提示搜索能匹敵、甚至優於手動提示;加入示例對於微調而言很有效,並提高了少樣本學習的性能。
  • OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!
    大到什麼地步呢,相對於之前最大的T-NLG直接提高了一個量級,這是一個什麼概念,可以看看下圖👇其參數量達到1750億,相當於1600個它爺爺GPT1的大小,光把它用fp16半精度載入內存都得300GB,這還不包括實際訓練中需要存儲地梯度等中間變量。
  • 今日論文|GPT-3:少次學習演化方向,1750億參數可以抵達的地方&INTERSPEECH噪聲抑制賽&變分問答/翻譯&MORE
    與YOLOv3相比,Poly-YOLO只有60%的可訓練參數,但是相對提高了40%的mAP。文章還提供了參數更少、輸出解析度更低的Poly-YOLO lite。它具有與YOLOv3相同的精度,但比YOLOv3小三倍,快兩倍,因此適合於嵌入式設備。最後,Poly-YOLO使用包圍多邊形來執行實例分割。該網絡在經過訓練後,可以檢測在極性網格上定義的與大小無關的多邊形。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。NeurIPS 2020 最熱門的三個投稿方向和以往相比沒有太大變化,仍是「算法」、「深度學習」和「應用」,不過後兩個方向熱度有所降低。值得注意的是,今年的 NeurIPS 大會引入了「機器學習的社會影響」方向,探討的內容包括公平與隱私。
  • NeurIPS 2020 獎項出爐:GPT-3等三項研究獲最佳論文獎
    機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。
  • 一天star量破千,特斯拉AI總監寫了個GPT的Pytorch訓練庫
    最近,「史上最大 AI 模型」GPT-3 風靡全球。GPT 系列可以說是人工智慧領域「暴力美學」的代表作了。2018 誕生的 GPT,1.17 億參數;2019 年 GPT-2,15 億參數;2020 年 GPT-3,1750 億參數。短短一年時間,GPT 模型的參數量就呈指數級增長。
  • 五行代碼玩轉GPT-2,新加坡高中生開源輕量級GPT-2「客戶端」
    這就是這隻名叫gpt2-client的包裝器的突出特性。作者小哥 Rishabh Anand 表示,gpt2-client 簡化了整個文本生成過程,有了它,任何人都可以毫不費力地開始使用文本生成模型。Rishabh Anand 小哥來自新加坡國家初級學院,是的你沒看錯,這是一位高中生。
  • 必須要GPT-3嗎?不,BERT的MLM模型也能小樣本學習
    GPT-3 風頭正盛,然而,到處都是 GPT-3、GPT-3 地推,讀者是否記得 GPT-3 論文的名字呢?此外,GPT-3 的另一個特點就是大,最大的版本多達 1750 億參數,是 BERT Base 的一千多倍。
  • NeurIPS2020獎項出爐:GPT-3等三項研究獲最佳論文獎,華人一作論文...
    原創 Synced 機器之心機器之心報導機器之心編輯部一萬八千人參會的NeurIPS 2020 相比去年數量暴漲了三成,在大會上,1750 億參數模型 GPT-3 再次成為了人們熱議的話題。
  • 如何用 GPT2 和 BERT 建立一個可信的 reddit 自動回復機器人?
    步驟 0:從你最喜歡的 reddit 文章中獲取一些 reddit 評論數據,並將其格式化為類似「comment[SEP]reply」的字符串步驟 1:微調 GPT-2 以生成格式為「comment[SEP]reply」的 reddit 文本步驟 2:微調兩個 BERT 分類器:a: 區分真實回復和 GPT-2 生成的回覆b: 預測評論將獲得多少次支持
  • 只需單擊三次,讓中文GPT-2為你生成定製故事
    項目地址:https://github.com/imcaspar/gpt2-mlColab 演示地址:https://colab.research.google.com/github/imcaspar/gpt2-ml/blob/master/pretrained_model_demo.ipynb既然昨天才過完雙十一,那麼我們先看看這個預訓練模型能生成什麼樣的故事
  • 性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型
    在NLP領域,談到超大模型必然想到預訓練語言模型GPT-3,自今年3月份對外開放以來,其因超大模型和超強性能頻頻刷屏。GPT-3擁有1750億參數量,約有700G大小,一次訓練成本高達上百萬美元。1750億是什麼概念?去年2月份,OpenAI推出的GPT-2參數量為僅15億,是它的1\116。