OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...

2021-01-07 雷鋒網

2021剛剛開啟,OpenAI又來放大招了!

能寫小說、哲學語錄的GPT-3已經不足為奇?那就來一個多模態『圖像版GPT-3』。

今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!

比如,在DALL·E模型中輸入「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:

輸入「鱷梨形狀的扶手椅」,就是這樣:

甚至輸入「含OpenAI字樣的店鋪」,它也能成生成多種設計圖

DALL·E這項神技能衝上了各大社交平臺的熱搜。

Keras創始人Franois Chollet特意發文稱:

這看起來非常酷,尤其是「圖像生成」的部分。從原理上來看,它應該就是GPT-3在文本合成圖像方向上的擴展版本。

AI大神吳恩達也第一時間轉推點讚,還順帶挑選了一張滿意的藍色襯衫 + 黑色長褲的AI 生成圖。

OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表道:人工智慧的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近「多模態 AI 系統」這一目標。

值得一提的是,DALL·E的命名也很特別。這個善於繪畫創作的模型名稱來源於人類藝術家薩爾瓦多·達利(Salvador Dalí)和皮克斯(Pixar)機器人WALL·E名稱的結合。

接下來,我們來詳細介紹一下它還有哪些硬核能力。

DALL·E的能力

DALL·E能夠為多語言成分結構的各種句子創造似是而非的圖像。研究人員通過一些交互視覺效果舉例說明了這一點。在下面的案例中,每個視覺效果的文本提示都是通過CLIP重新排序後,從512個文本提示中的前32個獲得的,不採取任何手動選取(cherry-picking)。

控制屬性

研究人員測試了DALL·E修改目標物體的能力,包括修改相應的屬性以及出現的次數。

文本提示:五邊形的綠色鍾。

繪製多個目標

同時控制多個目標物體、以及它們的屬性、空間關係是一個全新的挑戰。

例如,「一隻戴著紅帽子、黃手套、藍襯衫和綠褲子的刺蝟」。要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且不能混淆它們。

文本提示:一堆三維立方體:紅色的立方體在綠色立方體的頂部;綠色立方體在中間;藍色立方體在底部。

雖然DALL·E確實為少量目標的屬性和位置提供了某種程度的可控性,但成功率取決於標題文本的語言措辭。

隨著目標的增多,DALL·E容易混淆目標與顏色之間的關聯,成功率會急劇降低。研究人員注意到,在這些場景中,DALL·E對於標題文本的重新表述是脆弱的、可替代的,語義上等價的標題文本通常不會產生正確的解釋。

可視化透視與三維

研究人員發現DALL·E還能夠控制場景的視點和渲染場景的3D樣式。

文本提示:坐在田野上的體素化模型水豚。

為了進一步驗證DALL·E的這個能力,研究人員測試了DALL·E在同等視角下重複繪製知名人物頭部的能力,並發現DALL·E可以成功恢復旋轉頭部的平滑動畫。

文本提示: 荷馬半身像。

DALL·E能夠將某些類型的光學畸變(Optical Distortions)應用到具體場景中,正如我們在「魚眼透鏡視圖(Fisheye Lens View)」和「球形全景圖(Spherical Panorama.)」等場景中看到的那樣。它促使研究人員探索其產生光學反射的能力。

文本提示:一個白色的立方體看著自己在鏡子裡的倒影;一個白色的立方體看著鏡子裡的自己。

可視化內部和外部結構

「特寫鏡頭(Extreme Close-up View)」和「x射線(X-Ray)」風格的案例使研究人員進一步探索了DALL·E運用橫截面視角繪製內部結構和用宏觀圖像繪製外部結構的能力。

文本提示:核桃的橫截面圖。

推斷上下文細節

將文本翻譯成圖像的任務是不明確的:一個標題文本通常可以對應無限多種圖像,換句話說,圖像不是唯一確定的。例如,假如標題文本是「日出時,坐在田野上的水豚的繪畫像。根據水豚的方位,可能需要畫一個陰影,但這個細節沒有被明確提及。

研究人員探討了DALL·E在以下三種情況下解決無規範標準問題的能力:改變風格、設置和時間;在各種不同的情況下繪製同一目標圖像;在生成目標圖像上書寫指定文本。

文本提示:帶有藍色草莓的彩色玻璃窗。

利用不同程度的可靠性,DALL·E為通過自然語言實現3D渲染引擎功能提供了一種途徑。它可以獨立地控制少量目標的屬性,並在有限的範圍內控制目標的數量以及它們之間的排列方式。它還可以控制渲染場景的位置和角度,並且根據角度和照明條件生成精確且規範的已知目標。

與3D渲染引擎不同,3D渲染引擎的輸入必須明確且完整,當標題文本暗示圖像必須包含未明確的特定細節時,DALL·E通常能夠「填補空白」。

應用案例

研究人員探討了上述功能在時尚設計和室內設計中的應用。

文本提示:一位穿著橘色和黑色相間襯衫的男性人體模特。

文本提示:客廳中有兩個白色的扶手椅和一幅鬥獸場的畫,這幅畫掛在現代樣式壁爐的上方。AI生成的圖像:

組合不相關的概念

語言的構成本質使人們能夠將概念描述集成在一起,用以描述真實和虛構的事物。 OpenAI發現,DALL·E還具有將完全不同的idea結合起來以合成物體的能力,其中有些物體不可能在現實世界中存在。

OpenA在兩種情況下探索這種能力:將各種概念的特質傳遞給動物,以及從不相關的概念中汲取靈感來設計產品。

文本提示:豎琴狀的蝸牛。

在上一部分中探討了DALL·E在生成真實物體的圖像時結合無關概念的能力。 接下來,OpenAI通過在藝術的背景下的三種插圖探索這種能力:動物和物體的擬人化版本、動物嵌合體、表情符號。

文本提示:長頸鹿烏龜合體的專業高質量插圖,模仿烏龜的長頸鹿,由烏龜變成的長頸鹿。

零樣本視覺推理

可以僅根據說明和提示來指示GPT-3執行多種任務,而無需任何額外訓練。例如,當提示短語「將『在公園裡walking狗的人』被翻譯成法語:」時,GPT-3會回答「un homme quipromèneson chien dans le parc。此功能稱為零樣本推理。

OpenAI發現DALL·E將此功能擴展到了視覺領域,並且在以正確的方式提示時,能夠執行多種圖像到圖像的翻譯任務。

文本+圖像提示:參照上面的貓在下面生成草圖。

OpenAI驚訝地發現DALL·E居然有這種神奇的能力,因為他們沒有對神經網絡或訓練程序進行任何修改。

受這些結果的啟發,OpenAI通過在Raven的漸進矩陣上進行測試來衡量DALL·E對於解決類推推理問題的能力,這是一種視覺智商測試,在20世紀得到了廣泛應用。

文本+圖像提示:一個幾何形狀序列。

地理知識

OpenAI 發現DALL·E了解地理事實、地標和街區。 它對這些概念的了解在某些方面出奇地精確,而在另一些方面卻有缺陷。

文本提示:中國食物的圖片。

時間知識

除了探索DALL·E關於隨空間變化的概念的知識外,OpenAI還探索了其隨時間變化的概念的知識。

文本+圖像提示:20年代發明的電話。

總結:方法和先前工作

DALL·E是一個僅有解碼器的Transformer架構,它可以接收1280個token的文本和圖像作為單個流(文本為256個token,圖像為1024個token),並對它們全部進行自動回歸建模。

它的64個自注意力層中的每一個都具有注意力mask,使每個圖像token都可以匹配所有文本token。DALL·E對文本token使用標準的因果mask,以行、列或卷積注意模式對圖像token使用稀疏注意,具體取決於層數。

OpenAI計劃在下一篇論文中提供有關DALL·E架構和訓練過程的詳細信息。

與VQVAE-2中使用的rejection sampling類似,OpenAI使用CLIP對每個文本生成的512個採樣中的前32個進行排名。此過程也可以看作是一種語言指導的搜索,會對樣本質量產生巨大影響。

GPT-3已經向我們展示,可以用語言來指示大型神經網絡執行各種文本生成任務。Image GPT則表明,同樣類型的神經網絡也可以用來生成高保真的圖像。OpenAI進一步擴展了這些發現,以表明通過語言操縱視覺概念是觸手可及的。

與GPT-3一樣,DALL·E是一種Transformer語言模型。OpenAI認為,涉及生成模型的工作可能會產生重大而廣泛的社會影響。因此未來,OpenAI會計劃分析像DALL·E這樣的模型如何與社會問題聯繫起來,例如對某些工作流程和專業的經濟影響,模型輸出中可能存在的偏見以及該技術所隱含的長期道德挑戰。

最後,Henry AI Labs在YouTube上分享了一個視頻,簡要介紹了OpenAI的DALL-E模型,並表示「希望可以清楚說明深度神經網絡中文本和圖像是如何作為張量統一的。」

由於是非官方解釋,僅供參考。

最後,大家對DALL·E 這個的神經網絡模型有什麼應用上的期待呢?二維設計師?

又會覺得它會引導什麼AI革命嗎?又或者覺得它會存在很多不可避免的限制?

參考連結:https://openai.com/blog/dall-e/

雷鋒網雷鋒網雷鋒網

相關焦點

  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    一、GPT-3「繼承者」:看文繪圖的DALL·EDALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。▲Dali代表作《記憶的永恆》和機器人總動員海報。
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    01.GPT-3「繼承者」:看文繪圖的DALL·EDALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。
  • 文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚
    過去的2020年,人工智慧研究組織OpenAI打造的1750億參數文本生成器GPT-3火爆全球。用它撰寫的博客文章成功欺騙了很多人類讀者。不少業內人士認為,GPT-3對AI行業具有顛覆力量。可以看到,自然語言處理的神經網絡規模越來越大,功能也越來越豐富。
  • OpenAI提出可逆生成模型Glow
    也許最引人注目的是,我們展示了僅通過普通的對數似然度目標優化,生成模型就可以高效地進行逼真圖像的合成以及大尺寸圖像的操作。Glow 模型控制人臉圖像屬性以及和其它人臉圖像融合的交互式 demo(讀者可在原網頁進行交互操作,還可以上傳自己的圖片)。研究動機研究員 Prafulla Dhariwal 和 Durk Kingma 的圖像屬性操作。
  • OpenAI發布可用文本敘述產生合理圖像的神經網絡DALL·E
    DALL·E是一個具有120億個參數的GPT-3語言模型,經過文本圖像配對資料集訓練,可以從文本敘述生成圖像。DALL·E具有豐富的功能,除了創建擬人化動物與物體,還能以合理的方式組合不相關的概念,而渲染文本以及轉換圖像等工作,也都難不倒DALL·E。
  • OpenAI的GPT-2:用Python構建世界上最先進的文本生成器
    由OpenAI開發的GPT-2是一個預訓練語言模型,我們可以使用它來完成各種NLP任務,比如:文本生成語言翻譯建立問答系統等等語言模型(LM)是現代自然語言處理的重要任務之一。語言模型是預測文檔中下一個單詞或字符的概率模型。GPT-2是OpenAI最初的NLP框架GPT的繼承者,完整的GPT-2模型有15億個參數,幾乎是GPT參數的10倍。
  • 獨家 | OpenAI的DALL·E模型使人類更接近通用人工智慧(附連結)
    Figure 1.該語言模型因為一些驚人的應用程式而非常受歡迎(請查看視頻連結以觀看14個基於OpenAI的GPT-3 API的應用程式展示)https://youtu.be/G6Z_S6hs29s今天我們要介紹的DALL·E也是基於GPT-3來進行開發的。接下來,就讓我們來了解一下什麼是DALL·E吧。Open AI研究人員在有120億參數GPT-3的版本(因為GPT-3有多個變體)的上構建了DALL·E。
  • 向圖像進擊的Transformer! OpenAI提出Image GPT實現高質量圖像補全和樣本生成
    自然語言處理高歌猛進的同時,圖像領域也躍躍欲試,想要利用類似的模型學習出可以用於分類任務的有效特徵來。Transformer家族的模型基本上可以直接處理任何形式的1D數據,於是研究人員就想到將2D圖像拉伸為長長的1D圖像序列,利用與GPT-2模型類似的技術構建了用於處理像素序列的iGPT模型。在詳細的實驗分析後研究人員發現,模型顯現出對於2D圖像特徵的理解能力,包括有效的個體和類別的理解。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。有意思的是,它還可以將動物和物體擬人化,將一些無關的概念以一種合理的方式組合起來。
  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文章、答題,還懂數學
    這一基於 Transformer 的大型語言模型共包含 15 億參數、在一個 800 萬網頁數據集上訓練而成。GPT-2 是對 GPT 模型的直接擴展,在超出 10 倍的數據量上進行訓練,參數量也多出了 10 倍。然而,長江後浪推前浪。昨日,OpenAI 發布 GPT-3 模型,1750 億參數量,足足是 GPT-2 的 116 倍。
  • OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E
    Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文,答題,還懂數學
    GPT-2 是對 GPT 模型的直接擴展,在超出 10 倍的數據量上進行訓練,參數量也多出了 10 倍。然而,長江後浪推前浪。昨日,OpenAI 發布 GPT-3 模型,1750 億參數量,足足是 GPT-2 的 116 倍。
  • OpenAI提出人肉模型訓練,文本摘要全面超越人類表現!
    就在上周,視金錢如糞土的OpenAI團隊又在文本摘要方面推出了最新力作,全方位超越人類表現。其亮點在於:以人類偏好替代自動化評測方法(如ROUGE、BLUE)為訓練目標,用人類反饋作為獎勵進行強化學習,性能表現十分驚豔。
  • 合成逼真圖像,試試港中大&英特爾的半參數方法|CVPR 2018 oral
    根據大致的草圖框架(也稱語義布局法),深度神經網絡現在可以直接合成真實效果的圖片。不過,主流圖像合成所用的模型大多是參數模型(parametric models)。這種模型,所有和逼真外觀有關的數據,都會體現在深度神經網絡的權重裡。不過,這與人類畫畫的方式不太一樣。
  • 百萬像素高清圖輕鬆合成,效果迷人
    現在,我要告訴你,最上面這張圖像也是Transformer生成的,解析度有1280x460之高。合成這張圖像的模型名叫VQGAN,而且,它能做的事情遠不止於此。先看看VQGAN和iGPT的對比,前者生成的圖像明顯高清得多。最後再展示一些用語義圖引導合成的樣本,從上往下的解析度分別是:1280×832、1024×416、1280×240。VQGAN功能多,生成的圖像又高清,就用下圖來總結一下。
  • OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!
    ,直接彌補了BERT文本生成的缺陷,甚至連它的創造者們 OpenAI 也發言表示「Too Dangerous To Release(太危險了不能公開)」,結果在社交媒體上引起了一片爭論:有挺OpenAI派表示應該對這種模型進行限制,也有反OpenAI派表示就是炒作,「放出來估計也沒啥事」。
  • OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!
    一放出就在7個Zero-Shot任務上取得SOTA,其強大的文本生成能力讓人震驚,直接彌補了BERT文本生成的缺陷,甚至連它的創造者們 OpenAI 也發言表示「Too Dangerous To Release(太危險了不能公開)」,結果在社交媒體上引起了一片爭論: