OpenAI推出DALL-E模型,一句話即可生成對應圖像

2021-01-07 新智元

【新智元導讀】OpenAI又放大招了!今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。

比GPT-3更牛的東西,還真被Open AI 搞出來了。

最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。取名DALL-E,是為了向藝術家薩爾瓦多-達利(Salvador Dali )和皮克斯的機器人WALL-E致敬。

圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿蔔寶寶」生成的圖像示例

根據文字提示,DALL-E生成的圖像可以像在現實世界中拍攝的一樣。

同時測試表明,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,但也能創造出一些根本不存在的東西,比如一個鱷梨形狀的扶手椅:

又或者是「一個長頸鹿烏龜」:

GPT-3表明,語言可以用來指導大型神經網絡執行各種文本生成任務。而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現在已經觸手可及。

此外,它還展示了一些意想不到但有用的行為,包括使用直覺邏輯來理解請求,比如要求它為同一隻(不存在的)貓畫多幅草圖:

DALL·E:很強大,但仍有缺陷

和GPT-3一樣,DALL-E也是一個Transformer語言模型。它同時接收文本和圖像作為單一數據流,其中包含多達1280個token,並使用最大似然估計來進行訓練,以一個接一個地生成所有的token。這個訓練過程不僅允許DALL-E可以從頭開始生成圖像,而且還可以重新生成現有圖像的任何矩形區域,與文本提示內容基本一致。

研究人員測試了DALLe修改一個對象的幾個屬性的能力,以及它出現的次數。

例如,用豪豬做成的立方體vs有豪豬紋理的立方體:

有些也有語義上的歧義,比如:a collection of「glasses」sitting on the table

同時控制多個對象、它們的屬性以及它們的空間關係,對模型提出了新的挑戰。例如,考慮 "一隻刺蝟戴著紅色的帽子、黃色的手套、藍色的襯衫和綠色的褲子 "這句話,為了正確解釋這個句子,DALL-E不僅要正確地將每件衣服與動物結合起來,而且要形成(帽子,紅色)、(手套,黃色)、(襯衫,藍色)和(褲子,綠色)的關聯,不能將它們混為一談。

研究人員測試了DALLe在相對定位、堆疊對象和控制多個屬性方面的能力。例如:一個Emoji的小企鵝,帶著藍帽子,紅手套,穿著黃褲子。

雖然DALL-E確實在一定程度上提供了對少量物體屬性和位置的可控性,但成功率可能取決於文字的措辭。當引入更多的對象時,DALL-E容易混淆對象及其顏色之間的關聯,成功率會急劇下降。研究人員還注意到,在這些情況下,DALL-E對於文字的重新措辭是很脆弱的:替代的、語義等同的標題往往也不會產生正確的解釋.

而有趣的是,OpenAI 的另一個新系統 CLIP 可以與 DALL-E 聯合使用,以理解和排序問題中的圖像。

CLIP:減少對海量數據集的依賴

OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一個從網際網路上收集的4億對圖像和文本來進行訓練的多模態模型。

它可以從自然語言監督中有效地學習視覺概念,可以應用於任何視覺分類基準,只需提供要識別的視覺類別的名稱,類似於 GPT-2和GPT-3的」zero-shot learning」能力。

CLIP使用了豐富的網際網路上的與圖像配對的文本,這些數據被用來為CLIP創建一個訓練任務:通過預訓練圖像編碼器和文本編碼器來預測給定一張圖像與數據集中的一組32768個隨機採樣的文本片段中的哪些文本真正配對。然後使用結果將 CLIP 轉換為zero-shot分類器。最後,將一個數據集的所有類別轉換成文字 ,並預測文本的類別與給定圖像的最佳對應關係。

"我們發現,CLIP與GPT類似,在前期訓練中可以學習執行一系列廣泛的任務,包括物體字符識別(OCR)、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的zero-shot轉移性能進行基準測試來衡量,發現它可以與之前的特定任務監督模型相媲美。"12位OpenAI合作者關於該模型的論文中寫道。

雖然深度學習給計算機視覺帶來了革命性的變化,但目前的方法存在幾個主要問題:典型的視覺數據集的創建需要耗費大量的人力和成本,標準的視覺模型只擅長一種任務和一種任務,需要付出巨大的努力才能適應新的任務;在基準上表現良好的模型在壓力測試中的表現令人失望,這讓人們對整個計算機視覺的深度學習方法產生了懷疑。

設計 CLIP 就是為了解決計算機視覺深度學習方法中的一些主要問題:

1.昂貴的數據集:

深度學習需要大量的數據,而視覺模型傳統上採用人工標註的數據集進行訓練,這些數據集的構建成本很高,而且只能提供有限數量的預先確定的視覺概念。例如,ImageNet 數據集就需要超過25000名工作人員為22000個對象類別標註1400萬張圖像。

而相比之下,CLIP 可以從網際網路上已經公開可用的文本圖像對中學習。減少昂貴的大型標註數據集的需求已經被廣泛研究,尤其是自監督學習、對比方法、自訓練方法和生成式模型等。

2.範圍狹窄:

一個ImageNet模型擅長預測1000個ImageNet類別,但如果我們希望它執行其他的任務,就需要建立一個新的數據集,添加一個輸出,並對模型進行微調。

相比之下,CLIP可以適應執行各種各樣的視覺分類任務,而不需要額外的訓練樣本。為了將CLIP應用於一個新的任務,我們只需要將任務的視覺概念名稱 "告訴 "CLIP的文本編碼器,它就會輸出一個CLIP視覺表示的線性分類器。這個分類器的準確度通常可以和監督模型相媲美。

通過設計,該網絡可以用自然語言指導它執行大量的分類基準,而不直接優化基準的性能,類似於GPT-2和GPT-3的 "zero-shot "能力。

這是一個關鍵的變化:通過不直接優化基準,使得結果變得更有代表性:CLIP系統將這種 "robustness gap" 縮小了75%,同時在不使用任何原始的1.28M個已標註樣本的情況下,在ImageNet zero-shot上接近ResNet50的性能。

雖然測試發現 CLIP 精通多項任務,但測試也發現 CLIP 在諸如衛星地圖分類或淋巴結腫瘤檢測等專業任務上存在不足。

這一初步分析旨在說明通用計算機視覺模型所帶來的一些挑戰,並對其偏差和影響一窺究竟。研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表徵進行研究,以便加速這一領域的發展。

OpenAI首席科學家Ilya Sutskever是這篇詳細介紹CLIP的論文作者之一,他最近表示,多模態模型將在2021年成為機器學習的主要趨勢。

而谷歌AI負責人Jeff Dean也在2020年做出了類似的預測。

DALL-E和CLIP等類似的一系列生成模型,都具有模擬或扭曲現實來預測人們如何繪製風景和靜物藝術的能力。比如StyleGAN,就表現出了種族偏見的傾向。

而從事CLIP和DALL-E的OpenAI研究人員呼籲對這兩個系統的潛在社會影響進行更多的研究。GPT-3顯示出顯著的黑人偏見,因此同樣的缺點也可存在於DALL-E中。在CLIP論文中包含的偏見測試發現,該模型最有可能將20歲以下的人錯誤地歸類為罪犯或非人類,被歸類為男性的人相比女性更有可能被貼上罪犯的標籤,這表明數據集中包含的一些標籤數據存在嚴重的性別差異。

參考連結:

https://openai.com/blog/dall-e/

相關焦點

  • 引燃AI社區,不用跨界也能從文本生成圖像,OpenAI新模型打破自然...
    在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。
  • OpenAI發布120億參數圖像版GPT-3
    簡單來說,DALL·E 是一個有120億參數版本的GPT-3,利用文本-圖像對數據集進行訓練,輸入文本,生成相應圖像。在ICML 2020 上的一篇論文「Image GPT」中,作者表明相同類型的神經網絡也可以用於生成高保真度的圖像。作為對比,DALL·E 的研究說明了,通過自然語言便可以直接做各種圖像生成任務。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    OpenAI最新發布了一個名叫 DALL·E 的神經網絡模型,它可以魔法一般按照自然語言文字描述直接生成對應圖片!效果如下所示:文本提示:鱷梨形狀的扶手椅。AI生成的圖像:這生產效果真是堪稱神奇!自然語言與視覺的壁壘正在被逐漸打通。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • OpenAI推DALL-E模型:能根據文字描述生成圖片
    DALL-E 能將計算機視覺和自然語言處理(NLP)結合起來,能夠從文本描述中生成圖片。例如,下面這張照片就是由「穿著芭蕾舞裙遛狗的小蘿蔔插圖」生成的。  在 OpenAI 今天分享的測試中,表明 Dall-E 有能力對生成的圖像中的物體進行操作和重新排列,也能夠創作出一些不存在的東西,例如豪豬的紋理或者雲朵的立方體 。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。有意思的是,它還可以將動物和物體擬人化,將一些無關的概念以一種合理的方式組合起來。
  • 文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚
    OpenAI稱其可以通過自然語言文本直接生成對應圖像,意味著「通過語言文字操縱視覺概念現在已經觸手可及。」OpenAI 的這項最新成果引來不少AI大牛的關注。Coursera 創始人、史丹福大學教授吳恩達就在社交媒體表示祝賀,還選出一則他認為「非常酷」的OpenAI文字生成圖像示例——由AI生成的藍色襯衫搭配黑色長褲圖像。吳恩達對OpenAI表示祝賀。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • OpenAI追蹤AI模型效率:每16個月翻一番!超越摩爾定律
    智東西5月6日消息,昨日,OpenAI宣布將開始追蹤效率最高的機器學習模型,該舉措推出了新的評價指標,可用以量化模型的擴展規模和整體性能,從而可實時公示效率最高的模型,為行業提供參考。測試工作不允許使用人為字幕、其他圖像或其他數據,但是對用於翻譯或增強的訓練數據沒有任何限制。OpenAI表示:「行業領袖、決策者、經濟學家和研究人員都在努力更好地了解AI的發展進步,並決定他們應該投入多少注意力,以及把注意力放在哪裡。測量工作可以幫助做出這樣的決定。」
  • AI Dota2雖完虐人類卻弱點頻現 | OpenAI Five親測報告
    當 AI 系統一次次在圍棋、電子遊戲、圖像識別、自然語言處理等多個應用領域追上、甚至超越人類後,很多人都在使用這些技術探索可以應用於多個領域的 AGI 的可能性。但是,這些技術都依賴於海量數據和計算資源,比如訓練 AI 識別醫療影像,進行中英翻譯或聽懂你說的話,均需要數十萬份訓練數據才能訓練出表現出色的模型。但它們也只能在特定場景下才能使用。
  • ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌
    在行業內,Facebook提出了使用神經網絡來生成英文韻律詩 [11],微軟開發了一個叫作「小冰」的系統,其最重要的功能之一正是生成詩歌。不過,以端對端的方式從圖像生成詩歌仍然是一個新的主題,面臨著巨大挑戰。 圖像標題技術和圖像生成短文的重點在於生成關於圖像的描述性語句,而詩歌語言的生成則是更具挑戰性的難題。視覺呈現與圖像可激發的、有助於更好地生成詩歌的詩歌象徵之間,距離更遠。
  • 雪梨科技大學在讀博士張睿恆深度講解生成對抗網絡在紅外圖像中的...
    同時由於紅外圖像數據本身存在噪聲大、對比度低、非均勻性大、空間分辨力差等問題,在進行圖像數據的分析上面臨著很大的挑戰。如何利用生成式對抗網絡生成紅外圖像數據?紅外圖像又如何進行處理與應用?他的主要研究方向為目標檢測,圖像分類,生成式模型,遙感圖像。其研究成果發表於多個國際期刊和會議中。
  • 英偉達發布最強圖像生成器StyleGAN2,生成圖像逼真到嚇人
    今天,英偉達的研究人員發布了升級版——StyleGAN2,重點修復特徵偽影問題,並進一步提高了生成圖像的質量。現在戳右邊連結上新智元小程序了解更多! StyleGAN是NVIDIA去年發布的一個新的圖像生成方法,並於今年2月開源。
  • 如何在Windows上安裝和渲染OpenAI-Gym
    就連我的戴爾XPS筆記本電腦在許多神經網絡模型上的運行速度也比免費的Colab電腦快兩倍。如果你已經有一臺不錯的機器,為什麼不使用它呢? 安裝本地驅動器不方便。每次你開始一個會話的時候都需要這樣做。 安裝Linux / Windows雙啟動是最乾淨的解決方案。
  • 今日Paper|人體圖像生成和衣服虛擬試穿;魯棒深度學習;圖像風格...
    from=leiphonecolumn_paperreview0113推薦理由:提出了一個基於外觀流的生成模型ClothFlow,該模型可以合成穿衣人,用於定位引導的人的圖像生成和虛擬試穿。ClothFlow通過估計源和目標服裝區域之間的密集流動,有效地模擬了幾何變化,自然地轉移了外觀,合成了新的圖像,如圖1所示。我們通過一個three-stage框架實現了這一點:1)以目標姿態為條件,我們首先估計一個人的語義布局,為生成過程提供更豐富的指導。2)級聯流量估計網絡建立在兩個特徵金字塔網絡的基礎上,準確地估計出對應服裝區域之間的外觀匹配。由此產生的稠密流扭曲源圖像,靈活地解釋變形。
  • 【通用人工智慧的新宇宙】OpenAI 重磅發布AGI測試訓練平臺Universe
    目前,Universe 已經有1000種訓練環境,由微軟、英偉達等公司參與建設。研究人員介紹說,Universe 從李飛飛等人創立的 ImageNet 上獲得啟發,希望把 ImageNet 在降低圖像識別錯誤率上的成功經驗引入到通用人工智慧的研究上來,取得實質進展。