OpenAI推出DALL-E模型,一句話即可生成對應圖像

2021-01-08 新智元

【新智元導讀】OpenAI又放大招了!今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。

比GPT-3更牛的東西,還真被Open AI 搞出來了。

最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。取名DALL-E,是為了向藝術家薩爾瓦多-達利(Salvador Dali )和皮克斯的機器人WALL-E致敬。

圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿蔔寶寶」生成的圖像示例

根據文字提示,DALL-E生成的圖像可以像在現實世界中拍攝的一樣。

同時測試表明,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,但也能創造出一些根本不存在的東西,比如一個鱷梨形狀的扶手椅:

又或者是「一個長頸鹿烏龜」:

GPT-3表明,語言可以用來指導大型神經網絡執行各種文本生成任務。而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現在已經觸手可及。

此外,它還展示了一些意想不到但有用的行為,包括使用直覺邏輯來理解請求,比如要求它為同一隻(不存在的)貓畫多幅草圖:

DALL·E:很強大,但仍有缺陷

和GPT-3一樣,DALL-E也是一個Transformer語言模型。它同時接收文本和圖像作為單一數據流,其中包含多達1280個token,並使用最大似然估計來進行訓練,以一個接一個地生成所有的token。這個訓練過程不僅允許DALL-E可以從頭開始生成圖像,而且還可以重新生成現有圖像的任何矩形區域,與文本提示內容基本一致。

研究人員測試了DALLe修改一個對象的幾個屬性的能力,以及它出現的次數。

例如,用豪豬做成的立方體vs有豪豬紋理的立方體:

有些也有語義上的歧義,比如:a collection of「glasses」sitting on the table

同時控制多個對象、它們的屬性以及它們的空間關係,對模型提出了新的挑戰。例如,考慮 "一隻刺蝟戴著紅色的帽子、黃色的手套、藍色的襯衫和綠色的褲子 "這句話,為了正確解釋這個句子,DALL-E不僅要正確地將每件衣服與動物結合起來,而且要形成(帽子,紅色)、(手套,黃色)、(襯衫,藍色)和(褲子,綠色)的關聯,不能將它們混為一談。

研究人員測試了DALLe在相對定位、堆疊對象和控制多個屬性方面的能力。例如:一個Emoji的小企鵝,帶著藍帽子,紅手套,穿著黃褲子。

雖然DALL-E確實在一定程度上提供了對少量物體屬性和位置的可控性,但成功率可能取決於文字的措辭。當引入更多的對象時,DALL-E容易混淆對象及其顏色之間的關聯,成功率會急劇下降。研究人員還注意到,在這些情況下,DALL-E對於文字的重新措辭是很脆弱的:替代的、語義等同的標題往往也不會產生正確的解釋.

而有趣的是,OpenAI 的另一個新系統 CLIP 可以與 DALL-E 聯合使用,以理解和排序問題中的圖像。

CLIP:減少對海量數據集的依賴

OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一個從網際網路上收集的4億對圖像和文本來進行訓練的多模態模型。

它可以從自然語言監督中有效地學習視覺概念,可以應用於任何視覺分類基準,只需提供要識別的視覺類別的名稱,類似於 GPT-2和GPT-3的」zero-shot learning」能力。

CLIP使用了豐富的網際網路上的與圖像配對的文本,這些數據被用來為CLIP創建一個訓練任務:通過預訓練圖像編碼器和文本編碼器來預測給定一張圖像與數據集中的一組32768個隨機採樣的文本片段中的哪些文本真正配對。然後使用結果將 CLIP 轉換為zero-shot分類器。最後,將一個數據集的所有類別轉換成文字 ,並預測文本的類別與給定圖像的最佳對應關係。

"我們發現,CLIP與GPT類似,在前期訓練中可以學習執行一系列廣泛的任務,包括物體字符識別(OCR)、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的zero-shot轉移性能進行基準測試來衡量,發現它可以與之前的特定任務監督模型相媲美。"12位OpenAI合作者關於該模型的論文中寫道。

雖然深度學習給計算機視覺帶來了革命性的變化,但目前的方法存在幾個主要問題:典型的視覺數據集的創建需要耗費大量的人力和成本,標準的視覺模型只擅長一種任務和一種任務,需要付出巨大的努力才能適應新的任務;在基準上表現良好的模型在壓力測試中的表現令人失望,這讓人們對整個計算機視覺的深度學習方法產生了懷疑。

設計 CLIP 就是為了解決計算機視覺深度學習方法中的一些主要問題:

1.昂貴的數據集:

深度學習需要大量的數據,而視覺模型傳統上採用人工標註的數據集進行訓練,這些數據集的構建成本很高,而且只能提供有限數量的預先確定的視覺概念。例如,ImageNet 數據集就需要超過25000名工作人員為22000個對象類別標註1400萬張圖像。

而相比之下,CLIP 可以從網際網路上已經公開可用的文本圖像對中學習。減少昂貴的大型標註數據集的需求已經被廣泛研究,尤其是自監督學習、對比方法、自訓練方法和生成式模型等。

2.範圍狹窄:

一個ImageNet模型擅長預測1000個ImageNet類別,但如果我們希望它執行其他的任務,就需要建立一個新的數據集,添加一個輸出,並對模型進行微調。

相比之下,CLIP可以適應執行各種各樣的視覺分類任務,而不需要額外的訓練樣本。為了將CLIP應用於一個新的任務,我們只需要將任務的視覺概念名稱 "告訴 "CLIP的文本編碼器,它就會輸出一個CLIP視覺表示的線性分類器。這個分類器的準確度通常可以和監督模型相媲美。

通過設計,該網絡可以用自然語言指導它執行大量的分類基準,而不直接優化基準的性能,類似於GPT-2和GPT-3的 "zero-shot "能力。

這是一個關鍵的變化:通過不直接優化基準,使得結果變得更有代表性:CLIP系統將這種 "robustness gap" 縮小了75%,同時在不使用任何原始的1.28M個已標註樣本的情況下,在ImageNet zero-shot上接近ResNet50的性能。

雖然測試發現 CLIP 精通多項任務,但測試也發現 CLIP 在諸如衛星地圖分類或淋巴結腫瘤檢測等專業任務上存在不足。

這一初步分析旨在說明通用計算機視覺模型所帶來的一些挑戰,並對其偏差和影響一窺究竟。研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表徵進行研究,以便加速這一領域的發展。

OpenAI首席科學家Ilya Sutskever是這篇詳細介紹CLIP的論文作者之一,他最近表示,多模態模型將在2021年成為機器學習的主要趨勢。

而谷歌AI負責人Jeff Dean也在2020年做出了類似的預測。

DALL-E和CLIP等類似的一系列生成模型,都具有模擬或扭曲現實來預測人們如何繪製風景和靜物藝術的能力。比如StyleGAN,就表現出了種族偏見的傾向。

而從事CLIP和DALL-E的OpenAI研究人員呼籲對這兩個系統的潛在社會影響進行更多的研究。GPT-3顯示出顯著的黑人偏見,因此同樣的缺點也可存在於DALL-E中。在CLIP論文中包含的偏見測試發現,該模型最有可能將20歲以下的人錯誤地歸類為罪犯或非人類,被歸類為男性的人相比女性更有可能被貼上罪犯的標籤,這表明數據集中包含的一些標籤數據存在嚴重的性別差異。

參考連結:

https://openai.com/blog/dall-e/

相關焦點

  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。
  • OpenAI發布120億參數圖像版GPT-3
    簡單來說,DALL·E 是一個有120億參數版本的GPT-3,利用文本-圖像對數據集進行訓練,輸入文本,生成相應圖像。在ICML 2020 上的一篇論文「Image GPT」中,作者表明相同類型的神經網絡也可以用於生成高保真度的圖像。作為對比,DALL·E 的研究說明了,通過自然語言便可以直接做各種圖像生成任務。
  • OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E
    Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!比如,在DALL·E模型中輸入「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:輸入「鱷梨形狀的扶手椅」,就是這樣:甚至輸入「含OpenAI字樣的店鋪」,它也能成生成多種設計圖DALL·E這項神技能衝上了各大社交平臺的熱搜。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。有意思的是,它還可以將動物和物體擬人化,將一些無關的概念以一種合理的方式組合起來。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • OpenAI 祭出 120 億參數魔法模型:從文本合成圖像栩栩如生,仿佛...
    那就來一個多模態『圖像版 GPT-3』。今天,OpenAI 重磅推出了最新語言模型—DALL·E,它是 GPT-3 的 120 億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!比如,在 DALL·E 模型中輸入 「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:
  • 從文本直接創建圖像!OpenAI發布新人工智慧系統
    1月5日,人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    △ Deep Dream模型利用普通照片生成的一張奇幻照片△ Deep Dream模型將塔樓、房屋和小鳥等對象融入圖像中的效果示例想要運行Deep Dream模型,你只需要輸入一張圖像,然後這個模型就開始窮盡所能,尋找被訓練識別的目標。在一張完全不相關的圖像中,神經網絡可能會發現一些與狗、房子、水母等物體的相似之處。
  • OpenAI發布「顯微鏡」,可視化神經網絡內部結構
    博客地址:https://openai.com/blog/microscope/說到底,這個顯微鏡更像是一個神經元可視化庫,裡面包含了歷史上重要且普遍研究的計算機視覺模型,如2012年ImageNet挑戰賽冠軍AlexNet,2014年的ImageNet冠軍GoogleNet(又名Inception V1)和ResNet v2。
  • 外國大學生發明AI模型 生成的中國山水畫真假難辨
    在畢業論文中,Alice Xue介紹了他開發的一款名為SAPGAN(Sketch-And-Paint GAN)的AI模型,利用這一模型,可快速生成人類難以分辨真假的中國山水畫。論文還提到,進行最後的測評時,在242名參與者中,有大約55%的人將SAPGAN AI模型生成的山水畫作誤認為是人類作品。
  • OpenAI開源機器人仿真軟體Roboschool:已整合OpenAI Gym
    我們推出了 Roboschool,一款用於機器人仿真的開源軟體,已與 OpenAI Gym 相整合。Roboschool 項目地址:https://github.com/openai/roboschoolOpenAI Gym 項目地址:https://github.com/openai/gymRoboschool 提供了模擬控制機器人的 OpenAI Gym 新環境。這些環境中的 8 個作為 MuJoCo 預存而實現自由替換,再調試就可以生成更多的逼真動作。
  • 用GAN來做圖像生成,這是最好的方法
    前言在我們之前的文章中,我們學習了如何構造一個簡單的 GAN 來生成 MNIST 手寫圖片。對於圖像問題,卷積神經網絡相比於簡單地全連接的神經網絡更具優勢,因此,我們這一節我們將繼續深入 GAN,通過融合卷積神經網絡來對我們的 GAN 進行改進,實現一個深度卷積 GAN。如果還沒有親手實踐過 GAN 的小夥伴可以先去學習一下上一篇專欄:生成對抗網絡(GAN)之 MNIST 數據生成。
  • 老外大學生發明AI模型:可快速生成中國山水畫 人眼難辨真假
    在畢業論文中,Alice Xue介紹了他開發的一款名為SAPGAN(Sketch-And-Paint GAN)的AI模型,利用這一模型,可快速生成人類難以分辨真假的中國山水畫。Alice Xue按照傳統中國山水畫的繪製過程,先勾勒出大致輪廓,再進行上色,將繪製山水畫的整個流程輸入到AI模型中,以此做出以假亂真的中國山水畫。論文還提到,進行最後的測評時,在242名參與者中,有大約55%的人將SAPGAN AI模型生成的山水畫作誤認為是人類作品。
  • GraphNVP | 用於分子圖生成的可逆流模型
    事實證明,深度學習的最新進展,尤其是深度生成模型在從頭藥物設計中具有不可估量的價值。將深度學習應用於分子生成的重要步驟是如何表示化合物。早期的模型依賴於SMILES的基於字符串的表示形式  。基於RNN的語言模型或變分自動編碼器(VAE)用於生成SMILES字符串,然後將其轉換為分子。
  • CVPR 2020 | 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
    意圖無關的圖像描述不能生成用戶想要描述的內容且缺乏多樣性,而所提出的細粒度可控圖像描述模型可根據用戶意圖生成可控的、多樣化的圖像內容描述。為了解決上述問題,少數工作提出了主動控制圖像描述生成,主要可以分為風格控制和內容控制兩類。