OpenAI訓練語言模型GPT-2生成圖片

2021-03-06 易心Microbit編程

OpenAI研究人員運用人工智慧語言模型來生成圖片,他們以像素序列來訓練GPT-2語言模型,使語言模型能夠生成連續相關的圖像,研究人員提到,這項研究縮小了計算機視覺和語言理解技術間的差距,不過,因為訓練過程需要耗費大量的運算資源,且相關的算法效能也不斷進步,影響了這項研究實際用於圖像生成的價值。

不久前非監督式和自我監督學習技術,在語言處理上,都獲得極佳的成果,像是BERT、GPT-2、RoBERTa和T5等模型,在廣泛的語言任務上,都有出色的效能表現,不過,目前這些模型的應用都僅限於語言處理,在圖像分類上都還未有亮眼的成果。

研究人員提到,這些模型之所以在各種語言任務表現良好,其中一個重要原因,便是語言任務的實例,通常自然地出現在文字中,像是問題之後通常接著答案,或是有助於回答問題的文字,段落後通常會是摘要,或是有助於總結的文字,而相反地,像素序列中並不會明確包含所屬圖像的卷標。

而BERT和GPT-2這類的Transformer模型,都是無關領域的,也就是說,這些模型可以應用在任何形式的一維序列上,研究人員表示,近期也有相關的研究,證明規模足夠大的Transformer,在接受像素預測訓練,最終也可以生成可辨認的物體樣本。OpenAI研究人員在以長像素序列訓練GPT-2或稱為iGPT的模型,發現該模型似乎能夠理解二維圖像特徵,像是物體的外觀和類別,在沒有人工標籤的指引下,生成相關的圖像。

生成序列建模是一種非監督式學習算法,由於所有數據類型都能以位序列形式表達,因此可以直接將各種數據類型用在Transformer中,且不需要經過額外的處理工程。OpenAI研究人員便將用來訓練自然語言的GPT-2基礎架構,直接用於圖像生成上,以測試這種通用性。

不過,這需要經過大量的運算,才能在非監督的情況下,展現出良好地成果,研究人員分別以ImageNet,訓練了包含7,600萬、4億550萬與14億個參數的三個Transformer,模型分別為iGPT-S、iGPT-M以及iGPT-LM,並且還以ImageNet結合網絡上的圖像,訓練了具68億參數的iGPT-XL。

由於長序列建模的計算成本非常大,因此研究人員以32x32、48x48和64x64低解析度進行訓練,雖然他們試圖使用更低的解析度,但研究顯示,在這些解析度以下,效能將會大幅降低。研究人員還創建了特殊的調色盤,不只能忠實的呈現顏色,而且序列長度能比標準的RGB調色盤短3倍。

研究顯示,圖像特徵質量會隨深度急劇增加,但在之後又會些微下降,研究人員表示,這可能是因為Transformer模型分兩階段執行而導致,在第一階段時,模型從周圍的上下文收集信息,以建構基於上下文的圖像特徵,而在第二階段,模型會基於上下文的圖像特徵,來預測圖像中的下一個畫素。

研究人員提到,增加模型的規模和訓練的迭代次數,可以提高圖像質量,使用基準CIFAR-10、CIFAR-100和STL-10對結果進行評估,這些模型的表現比現存的所有監督式和非監督式算法還要好。不過,這個方法仍有其限制,iGPT模型只能處理低解析度的圖像,而且會因為訓練資料而產生偏差,像是建立性別和角色關聯,產生男性科學家這樣的結果,另外,iGPT模型訓練需要非常大量的時間,使用一張Nvidia V100顯示適配器來訓練iGPT-L,大約需要2,500天。

這項研究的主要目的,還是在於進行概念性驗證,研究人員表示,由於需要耗費大量的運算資源,而且現有方法的準確度也不斷進步,都是這項研究不會被實際用於計算機視覺應用中的原因,但是因為這種方法簡單且通用,在具有足夠運算能力的前提下,或許能改進其他領域學習特徵的效能。

======================

相關焦點

  • 我用GPT-2創造了3000個寵物小精靈,完美復刻《神奇寶貝》!
    Rayfield簡單介紹了他利用GPT-2創建這些精靈的實現過程。大致就是:搜尋了788張小精靈圖片(均為64x64像素)作為數據源,然後:將圖像轉換為基於文本的格式。用輸入文本訓練GPT-2模型。使用經過訓練的模型生成圖像。將基於文本的圖像格式轉換為PNG。在這個過程中也出現了一些問題。
  • 不得已而為之---CPU下使用gpt2-large模型進行微調訓練
    GPT2系列共有 5個模型:distilgpt2-small,gpt2(gpt2-small),gpt2-medium,gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個模型。GPT2需要佔用500MB的存儲空間來存儲其所有參數,而GPT2-large是GPT2的13倍,佔用超過6.5GB的存儲空間。
  • OpenAI又放大招—Dall---E模型可從文本直接生成圖像!
    OpenAI開發的GPT-3模型可用自然語言指導神經網絡完成各種文本生成任務,Image GPT模型則可用同類型神經網絡生成高質量的圖像。
  • 有人做出了中文版GPT-2,可用於寫小說、詩歌、新聞等;15億參數版GPT-2被兩名研究生復現
    問世之後橫掃各大語言建模任務,引發了大量關注以及研究者跟進研究。之後,圍繞著GPT-2產生了各種實用性應用:比如能夠自動補全代碼的Deep TabNine;高中生開源輕量級GPT-2「客戶端」等等。現在,又有兩個圍繞這一語言AI模型的成果出現。中文版GPT-2GPT-2發布以來,雖然關注甚多,但在中文語境中的應用非常少。
  • 圖解GPT-2(完整版)!
    OpenAI GPT-2(https://openai.com/blog/better-language-models/)表現出了令人印象深刻的能力,它能夠寫出連貫而充滿激情的文章,這超出了我們當前對語言模型的預期效果。GPT-2 不是一個特別新穎的架構,而是一種與 Transformer 解碼器非常類似的架構。
  • OpenAI魔改大模型,參數減少100倍!13億參數InstructGPT碾壓GPT-3
    2020年5月,OpenAI推出了參數量高達1750億的語言預訓練模型GPT-3。起手就把參數量拉到了千億級別,並且還順便刷新了一系列基準測試和NLP任務的SOTA。相比起來,當時最大的模型只有170億個參數。一經推出,可謂是「震驚」世界,頗有一種讓「調參俠」失業的節奏。但紅極一時的GPT-3很快就淪為了各路語言模型的baseline。不管參數多少,先拉來比一比再說。
  • GPT-3誕生,Finetune也不再必要了!NLP領域又一核彈!
    最初的GPT只是一個12層單向的Transformer,通過預訓練+精調的方式進行訓練,BERT一出來就被比下去了。之後2019年初的GPT-2提出了meta-learning,把所有NLP任務的輸入輸出進行了整合,全部用文字來表示,比如對於翻譯任務的輸入是「英翻法:This is life」,輸出是「C'est la vie」。
  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    論文二:iGPT 做圖像分類,實現 SOTA 性能在一篇被 ICML 2020 接收的論文中,OpenAI 推出了用於圖像分類的模型 iGPT,在圖像上訓練 GPT-2(這些圖像被分解為長像素序列),結果發現這種模型能夠理解物體外觀和類別等 2D 圖像特徵。
  • SFFAI分享 | 馬聰:NLP中的生成式預訓練模型【附PPT與視頻資料】
    通過分析GPT的兩個模型,重點探討基於單向語言模型的NLP預訓練過程對序列生成任務的作用以及利用預訓練模型進行NLP多種任務無監督測試的方式和效果。GPT-2.0在機器翻譯、問答系統、文本摘要等複雜任務上的性能展示出NLP預訓練模型的強大功能以及其在自然語言序列生成中性能。
  • 按照時間線幫你梳理10種預訓練模型
    用語言模型進行預訓練左邊的前向雙層LSTM是正方向編碼器,順序輸入待預測單詞w的上文;右邊則是反方向編碼器,逆序輸入w的下文訓練好之後,輸入一個新句子s,每個單詞都得到三個Embedding:①單詞的Word Embedding   ②第一層關於單詞位置的Embedding   ②第二層帶有語義信息的
  • 完全圖解GPT-2:看完這篇就夠了(一)
    它在文本生成上有著驚豔的表現,其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言,GPT-2 並沒有特別新穎的架構,它和只帶有解碼器的 transformer 模型很像。然而,GPT-2 有著超大的規模,它是一個在海量數據集上訓練的基於 transformer 的巨大模型。GPT-2 成功的背後究竟隱藏著什麼秘密?
  • 微軟統一預訓練語言模型UniLM 2.0解讀
    微軟研究院在2月底發布的UniLM 2.0(Unified Language Model \ 統一語言模型)文章,相比於19年上半年發布的UniLM 1.0,更加有效地整合了自然語言理解(NLU)與自然語言生成(NLG)這兩種不同目標下的訓練任務。
  • CodeBERT: 面向程式語言和自然語言的預訓練模型
    CodeBERT通過預訓練的方式學習一個通用表示來支持下遊和程式語言相關的應用,比如自然語言代碼檢索,代碼文檔生成等。CodeBERT使用Transformer作為基本的網絡結構,採用了混合目標函數:掩碼語言模型(MLM)和替換詞檢測(RTD)。實驗結果表明,CodeBERT在下遊的自然語言代碼檢索和代碼文檔生成任務上都取得了SOTA效果。
  • 1.2萬億參數:谷歌通用稀疏語言模型GLaM,小樣本學習打敗GPT-3
    大型語言模型雖然訓練昂貴,但也有其重要的一面,例如可以在各種任務中執行小樣本學習,包括閱讀理解、問答。雖然這些模型可以通過簡單地使用更多參數來獲得更好的性能。但是有沒有方法可以更有效地訓練和使用這些模型呢?
  • 學界 | 百度提出冷聚變方法:使用語言模型訓練Seq2Seq模型
    近日,百度研究院發表論文提出冷聚變(Cold Fusion)方法,即在 Seq2Seq 模型訓練過程中加入語言模型,實現更快地收斂
  • 剛剛智源研究院發布了清源 CPM-中文GPT3-我魔改出了一個TF版本
    CPM是Chinese Pre-trained Model的簡寫,清源 CPM 計劃將依託智源研究院新建的人工智慧算力平臺,建立以中文為核心的超大規模預訓練模型,進行基於超大規模預訓練語言模型的少次學習能力以及多任務遷移能力研究,探索更具通用能力的語言深度理解技術。項目官網為 https://cpm.baai.ac.cn/ 感謝智源研究院的相關工作和開源貢獻。
  • 8種優秀預訓練模型大盤點,NLP應用so easy!
    該方法對預訓練語言模型進行微調,將其在WikiText-103數據集(維基百科的長期依賴語言建模數據集Wikitext之一)上訓練,從而得到新數據集,通過這種方式使其不會忘記之前學過的內容。在發布時,谷歌稱BERT進行了11個自然語言處理(NLP)任務,並產生高水平的結果,這一壯舉意義深遠!你可以在短短幾個小時內(在單個GPU上)使用BERT訓練好自己的NLP模型(例如問答系統)。
  • 微軟利用NV DGX-2訓練了世界上最大的轉換器語言模型
    微軟今天宣布了對話式人工智慧的突破,它使用NVIDIA DGX-2系統,基於170億個參數,訓練了最大的基於轉換器的語言生成模型。
  • 詳解預訓練模型、信息抽取、文本生成、知識圖譜、對話系統技術
    貪心學院這次重磅推出了《自然語言處理高階研修》。01 課程大綱課程內容上做了大幅度的更新,課程覆蓋了從預訓練模型、對話系統、信息抽取、知識圖譜、文本生成所有必要的技術應用和學術前沿。第一章:預訓練模型基礎| 預訓練模型基礎、語言模型回顧| N-gram、Neural語言模型回顧| 預訓練方法的發展歷程| 預訓練和transfer learning| Pre-BERT時代的transfer learning| word2vec,
  • 動手做個DialoGPT:生成式多輪對話模型
    直接用Seq2Seq其實問題也不大,但標準的Seq2Seq一般用於形式比較固定的輸入輸出,比如輸入的文本長度應該是集中在某個範圍內,不宜變化太大,但考慮多輪對話的話,理論上我們也不知道前面有多少輪對話,因此原則上輸入文本長度是無限制的。用Seq2Seq的話,還有訓練效率低的問題,就是我們每輪對話每次我們只能訓練一句回復,如果一個多輪對話有n句回復,那麼就要拆分為n個樣本來訓練了。