OpenAI 祭出 120 億參數魔法模型:從文本合成圖像栩栩如生,仿佛...

2021-01-08 IT之家

2021 剛剛開啟,OpenAI 又來放大招了!

能寫小說、哲學語錄的 GPT-3 已經不足為奇?那就來一個多模態『圖像版 GPT-3』。

今天,OpenAI 重磅推出了最新語言模型—DALL·E,它是 GPT-3 的 120 億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!

比如,在 DALL·E 模型中輸入 「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:

輸入 「鱷梨形狀的扶手椅」,就是這樣:

甚至輸入 「含 OpenAI 字樣的店鋪」,它也能成生成多種設計圖

DALL·E 這項神技能衝上了各大社交平臺的熱搜。

Keras 創始人 François Chollet 特意發文稱:

這看起來非常酷,尤其是 「圖像生成」的部分。從原理上來看,它應該就是 GPT-3 在文本合成圖像方向上的擴展版本。

AI 大神吳恩達也第一時間轉推點讚,還順帶挑選了一張滿意的藍色襯衫 + 黑色長褲的 AI 生成圖。

OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表道:人工智慧的長期目標是構建多模態神經網絡,即 AI 能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近 「多模態 AI 系統」這一目標。

值得一提的是,DALL·E 的命名也很特別。這個善於繪畫創作的模型名稱來源於人類藝術家薩爾瓦多 · 達利(Salvador Dalí)和皮克斯(Pixar)機器人 WALL·E 名稱的結合。

接下來,我們來詳細介紹一下它還有哪些硬核能力。

DALL·E 的能力

DALL·E 能夠為多語言成分結構的各種句子創造似是而非的圖像。研究人員通過一些交互視覺效果舉例說明了這一點。在下面的案例中,每個視覺效果的文本提示都是通過 CLIP 重新排序後,從 512 個文本提示中的前 32 個獲得的,不採取任何手動選取(cherry-picking)。

控制屬性

研究人員測試了 DALL·E 修改目標物體的能力,包括修改相應的屬性以及出現的次數。

文本提示:五邊形的綠色鍾。

繪製多個目標

同時控制多個目標物體、以及它們的屬性、空間關係是一個全新的挑戰。

例如,「一隻戴著紅帽子、黃手套、藍襯衫和綠褲子的刺蝟」。要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且不能混淆它們。

文本提示:一堆三維立方體:紅色的立方體在綠色立方體的頂部;綠色立方體在中間;藍色立方體在底部。

雖然 DALL·E 確實為少量目標的屬性和位置提供了某種程度的可控性,但成功率取決於標題文本的語言措辭。

隨著目標的增多,DALL·E 容易混淆目標與顏色之間的關聯,成功率會急劇降低。研究人員注意到,在這些場景中,DALL·E 對於標題文本的重新表述是脆弱的、可替代的,語義上等價的標題文本通常不會產生正確的解釋。

可視化透視與三維

研究人員發現 DALL·E 還能夠控制場景的視點和渲染場景的 3D 樣式。

文本提示:坐在田野上的像素化模型水豚。

為了進一步驗證 DALL·E 的這個能力,研究人員測試了 DALL·E 在同等視角下重複繪製知名人物頭部的能力,並發現 DALL·E 可以成功恢復旋轉頭部的平滑動畫。

文本提示: 荷馬半身像。

DALL·E 能夠將某些類型的光學畸變(Optical Distortions)應用到具體場景中,正如我們在 「魚眼透鏡視圖(Fisheye Lens View)」和 「球形全景圖(Spherical Panorama.)」等場景中看到的那樣。它促使研究人員探索其產生光學反射的能力。

文本提示:一個白色的立方體看著自己在鏡子裡的倒影;一個白色的立方體看著鏡子裡的自己。

可視化內部和外部結構

「特寫鏡頭(Extreme Close-up View)」和 「x 射線(X-Ray)」風格的案例使研究人員進一步探索了 DALL·E 運用橫截面視角繪製內部結構和用宏觀圖像繪製外部結構的能力。

文本提示:核桃的橫截面圖。

推斷上下文細節

將文本翻譯成圖像的任務是不明確的:一個標題文本通常可以對應無限多種圖像,換句話說,圖像不是唯一確定的。例如,假如標題文本是 「日出時,坐在田野上的水豚的繪畫像。根據水豚的方位,可能需要畫一個陰影,但這個細節沒有被明確提及。

研究人員探討了 DALL·E 在以下三種情況下解決無規範標準問題的能力:改變風格、設置和時間;在各種不同的情況下繪製同一目標圖像;在生成目標圖像上書寫指定文本。

文本提示:帶有藍色草莓的彩色玻璃窗。

利用不同程度的可靠性,DALL·E 為通過自然語言實現 3D 渲染引擎功能提供了一種途徑。它可以獨立地控制少量目標的屬性,並在有限的範圍內控制目標的數量以及它們之間的排列方式。它還可以控制渲染場景的位置和角度,並且根據角度和照明條件生成精確且規範的已知目標。

與 3D 渲染引擎不同,3D 渲染引擎的輸入必須明確且完整,當標題文本暗示圖像必須包含未明確的特定細節時,DALL·E 通常能夠 「填補空白」。

應用案例

研究人員探討了上述功能在時尚設計和室內設計中的應用。

文本提示:一位穿著橘色和黑色相間襯衫的男性人體模特。

文本提示:客廳中有兩個白色的扶手椅和一幅鬥獸場的畫,這幅畫掛在現代樣式壁爐的上方。AI 生成的圖像:

組合不相關的概念

語言的構成本質使人們能夠將概念描述集成在一起,用以描述真實和虛構的事物。OpenAI 發現,DALL·E 還具有將完全不同的 idea 結合起來以合成物體的能力,其中有些物體不可能在現實世界中存在。

OpenA 在兩種情況下探索這種能力:將各種概念的特質傳遞給動物,以及從不相關的概念中汲取靈感來設計產品。

文本提示:豎琴狀的蝸牛。

在上一部分中探討了 DALL·E 在生成真實物體的圖像時結合無關概念的能力。接下來,OpenAI 通過在藝術的背景下的三種插圖探索這種能力:動物和物體的擬人化版本、動物嵌合體、表情符號。

文本提示:長頸鹿烏龜合體的專業高質量插圖,模仿烏龜的長頸鹿,由烏龜變成的長頸鹿。

零樣本視覺推理

可以僅根據說明和提示來指示 GPT-3 執行多種任務,而無需任何額外訓練。例如,當提示短語 「將『在公園裡遛狗的人』被翻譯成法語:」時,GPT-3 會回答 「un homme quipromèneson chien dans le parc。此功能稱為零樣本推理。

OpenAI 發現 DALL·E 將此功能擴展到了視覺領域,並且在以正確的方式提示時,能夠執行多種圖像到圖像的翻譯任務。

文本 + 圖像提示:參照上面的貓在下面生成草圖。

OpenAI 驚訝地發現 DALL·E 居然有這種神奇的能力,因為他們沒有對神經網絡或訓練程序進行任何修改。

受這些結果的啟發,OpenAI 通過在 Raven 的漸進矩陣上進行測試來衡量 DALL·E 對於解決類推推理問題的能力,這是一種視覺智商測試,在 20 世紀得到了廣泛應用。

文本 + 圖像提示:一個幾何形狀序列。

地理知識

OpenAI 發現 DALL·E 了解地理事實、地標和街區。它對這些概念的了解在某些方面出奇地精確,而在另一些方面卻有缺陷。

文本提示:中國食物的圖片。

時間知識

除了探索 DALL·E 關於隨空間變化的概念的知識外,OpenAI 還探索了其隨時間變化的概念的知識。

文本 + 圖像提示:20 年代發明的電話。

總結:方法和先前工作

DALL·E 是一個僅有解碼器的 Transformer 架構,它可以接收 1280 個 token 的文本和圖像作為單個流(文本為 256 個 token,圖像為 1024 個 token),並對它們全部進行自動回歸建模。

它的 64 個自注意力層中的每一個都具有注意力 mask,使每個圖像 token 都可以匹配所有文本 token。DALL·E 對文本 token 使用標準的因果 mask,以行、列或卷積注意模式對圖像 token 使用稀疏注意,具體取決於層數。

OpenAI 計劃在下一篇論文中提供有關 DALL·E 架構和訓練過程的詳細信息。

與 VQVAE-2 中使用的 rejection sampling 類似,OpenAI 使用 CLIP 對每個文本生成的 512 個採樣中的前 32 個進行排名。此過程也可以看作是一種語言指導的搜索,會對樣本質量產生巨大影響。

GPT-3 已經向我們展示,可以用語言來指示大型神經網絡執行各種文本生成任務。Image GPT 則表明,同樣類型的神經網絡也可以用來生成高保真的圖像。OpenAI 進一步擴展了這些發現,以表明通過語言操縱視覺概念是觸手可及的。

與 GPT-3 一樣,DALL·E 是一種 Transformer 語言模型。OpenAI 認為,涉及生成模型的工作可能會產生重大而廣泛的社會影響。因此未來,OpenAI 會計劃分析像 DALL·E 這樣的模型如何與社會問題聯繫起來,例如對某些工作流程和專業的經濟影響,模型輸出中可能存在的偏見以及該技術所隱含的長期道德挑戰。

最後,Henry AI Labs 在 YouTube 上分享了一個視頻,簡要介紹了 OpenAI 的 DALL-E 模型,並表示 「希望可以清楚說明深度神經網絡中文本和圖像是如何作為張量統一的。」

由於是非官方解釋,僅供參考。

最後,大家對 DALL·E 這個的神經網絡模型有什麼應用上的期待呢?二維設計師?

又會覺得它會引導什麼 AI 革命嗎?又或者覺得它會存在很多不可避免的限制?

相關焦點

  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!Keras創始人Franois Chollet特意發文稱:這看起來非常酷,尤其是「圖像生成」的部分。從原理上來看,它應該就是GPT-3在文本合成圖像方向上的擴展版本。AI大神吳恩達也第一時間轉推點讚,還順帶挑選了一張滿意的藍色襯衫 + 黑色長褲的AI 生成圖。
  • OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    一、GPT-3「繼承者」:看文繪圖的DALL·EDALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。▲Dali代表作《記憶的永恆》和機器人總動員海報。
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    01.GPT-3「繼承者」:看文繪圖的DALL·EDALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。
  • 從文本直接創建圖像!OpenAI發布新人工智慧系統
    1月5日,人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。 比GPT-3更牛的東西,還真被Open AI 搞出來了。最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。有意思的是,它還可以將動物和物體擬人化,將一些無關的概念以一種合理的方式組合起來。
  • OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E
    Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
  • 圖像版GPT3問世!打破語言與視覺界線,AI將更加聰明
    E 是 GPT-3 的 120 億參數版本,如此龐大的數據集,足以讓它發揮 「想像力」 創造出那些不同尋常的圖像。  你只用簡單描述一下想要的圖像特徵,比如 「一個高質量的龜兔插圖」 「一隻模仿烏龜的兔子」 「一隻烏龜做成的兔子」,DALL?E 就可以生成以下圖像,堪稱幫助設計師 「開腦洞」 的神器。
  • 中國最大AI預訓練模型發布:113億參數,北京智源研究院、阿里、清華...
    而近日,北京智源人工智慧研究院發布了與此類似的中國最大AI模型文匯,包含113億參數。例如,給定的提示是:走進平定縣宋家莊村,映入眼帘的是再給出如下所示的圖像:據了解,模型整體架構基於Transformer,其中圖像進行切塊並對塊採用ResNet-50提取特徵。這些特徵以及對應的position embedding讓圖像和文本能組合在一起送入模型。
  • 文本匹配模型TextMatching
    寫在前面本次分享一篇NLP文本匹配的經典文章,主要思路是借鑑圖像識別的思路來解決NLP文本匹配問題,畢竟計算機視覺技術的發展在當時異常迅猛。背景文本匹配廣泛用於搜尋引擎、問答系統、信息流相關文章推薦等場景中,目的是為了在文本庫中找出與目標文本類似或相關的文本。本文即將介紹的TextMathcing模型是一種端到端的文本匹配方法,將計算機視覺領域圖像識別任務的解決方案思路引入文本匹配模型中,讓我們一起來看看作者是如何設計和實現的。2.
  • Unity Perception工具 | 使用合成數據訓練出強大的物體檢測ML模型
    其中760張圖像被用作訓練,253張圖像被用作驗證,餘下的254張圖像被用於測試,任何使用現實圖像訓練的模型都會用到這三組數據。使用驗證組是為了選出性能最好的模型、防止出現過擬合。而保留組(剩下的測試圖像)從未被模型觀察過,也從未暗中或明著使用數據來選取模型或設定模型超參數。
  • 170 億參數加持,微軟發布史上最大 Transformer 模型 T-NLG!
    【CSDN編者按】Turing Natural Language Generation(T-NLG)是微軟提供的一個有170億參數的語言模型,在許多NLP任務上均優於目前的SOTA技術。那麼,它就有哪些優勢?在誕生過程中,又有哪些突破?趕快往下看!
  • 由馬斯克發起創辦的AI實驗室發布新型圖像生成器
    OpenAI培訓出了一款名為Dall-E的軟體,可以從短文字標題生成圖像。它演示了AI如何製作鱷梨和戴著芭蕾舞短裙的蘿蔔蘿蔔形狀的扶手椅。OpenAI對稱為Dall-E的軟體進行了培訓,可以從一個短文字生成圖像。它專門使用了在網際網路上找到的包含120億張圖像及其標題的數據集。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    △ Deep Dream模型利用普通照片生成的一張奇幻照片△ Deep Dream模型將塔樓、房屋和小鳥等對象融入圖像中的效果示例想要運行Deep Dream模型,你只需要輸入一張圖像,然後這個模型就開始窮盡所能,尋找被訓練識別的目標。在一張完全不相關的圖像中,神經網絡可能會發現一些與狗、房子、水母等物體的相似之處。