OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...

2021-01-09 AI 科技評論

作者 | OpenAI

編譯 | 貝爽、陳大鑫

前幾個月GPT-3剛剛問世的時候,能夠根據一段話就寫出一個小說、一段哲學語錄,就足以令AI圈為之感到興奮。

然而2020年剛剛開始沒多久,OpenAI又實現一重大突破!

OpenAI最新發布了一個名叫 DALL·E 的神經網絡模型,它可以魔法一般按照自然語言文字描述直接生成對應圖片!

效果如下所示:

文本提示:鱷梨形狀的扶手椅。

AI生成的圖像:

這生產效果真是堪稱神奇!自然語言與視覺的壁壘正在被逐漸打通。

OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表示道:人工智慧的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近「多模態 AI 系統」這一目標。

吳恩達對OpenAI也表示祝賀,並挑選了自己最喜歡的藍色襯衫 + 黑色長褲的AI 生成圖。

Keras創始人Franois Chollet感嘆這看起來非常酷,尤其是「圖像生成」的部分。

「從原理上來看,它應該就是GPT-3在文本合成圖像方向上的擴展版本。」

DALL·E 實際上是GPT-3的120億參數版本,經過訓練可以從文本描述中生成圖像。OpenAI發現它具有多種功能,包括創建擬人化的動物和物體、以合理的方式組合無關概念、渲染文本並將轉換應用於現有的圖像。

DALL·E這個名字是不是聽起來很有熟悉感,其實OpenAI使用了畫家薩爾瓦多·達利(Salvador Dalí)和皮克斯(Pixar)的WALL·E的複合來命名模型。

圖註:西班牙超現實主義畫家薩爾瓦多·達利

圖註:電影機器人總動員中的WALL·E

以下是DALL·E的幾個演示案例。

文本提示:穿著芭蕾舞短裙的蘿蔔寶寶在遛狗。

AI生成的圖像:

文本提示:寫有「openai」字樣的店鋪。

AI生成的圖像:

文本+圖像提示:參照上面的貓在下面生成草圖

AI生成的圖像:

GPT-3已經向我們展示,可以用語言來指示大型神經網絡執行各種文本生成任務。Image GPT則表明,同樣類型的神經網絡也可以用來生成高保真的圖像。OpenAI進一步擴展了這些發現,以表明通過語言操縱視覺概念是觸手可及的。

與GPT-3一樣,DALL·E是一種Transformer語言模型。OpenAI認為,涉及生成模型的工作可能會產生重大而廣泛的社會影響。因此未來,OpenAI會計劃分析像DALL·E這樣的模型如何與社會問題聯繫起來,例如對某些工作流程和專業的經濟影響,模型輸出中可能存在的偏見以及該技術所隱含的長期道德挑戰。

1

DALL·E的能力

DALL·E能夠為多語言成分結構的各種句子創造似是而非的圖像。研究人員通過一些交互視覺效果舉例說明了這一點。在下面的案例中,每個視覺效果的文本提示都是通過CLIP重新排序後,從512個文本提示中的前32個獲得的,不採取任何手動選取(cherry-picking)。

控制屬性

研究人員測試了DALL·E修改目標物體的能力,包括修改相應的屬性以及出現的次數。

文本提示:五邊形的綠色鍾

AI生成的圖像:

繪製多邊形物體

同時控制多個目標物體、它們的屬性和它們的空間關係是一個新的挑戰。

例如,「一隻戴著紅帽子、黃手套、藍襯衫和綠褲子的刺蝟」。要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且不能混淆它們。

文本提示:一堆三維立方體:紅色的立方體在綠色立方體的頂部。綠色立方體在中間。藍色立方體在底部。

AI生成的圖像:

雖然DALL·E確實為少量目標的屬性和位置提供了某種程度的可控性,但成功率取決於標題文本的語言措辭。隨著目標的增多,DALL·E容易混淆目標與顏色之間的關聯,成功率會急劇降低。研究人員注意到,在這些場景中,DALL·E對於標題文本的重新表述是脆弱的:可替代的、語義上等價的標題文本通常不會產生正確的解釋。

可視化透視與三維

研究人員發現DALL·E還能夠控制場景的視點和渲染場景的3D樣式。

文本提示:坐在田野上的體素化模型水豚。

AI生成的圖像:

為了進一步驗證DALL·E的這個能力,研究人員測試了DALL·E在同等視角下重複繪製知名人物頭部的能力,並發現DALL·E可以成功恢復旋轉頭部的平滑動畫。

文本提示:荷馬半身像

AI生成的圖像:

DALL·E能夠將某些類型的光學畸變(Optical Distortions)應用到具體場景中,正如我們在「魚眼透鏡視圖(Fisheye Lens View)」和「球形全景圖(Spherical Panorama.)」等場景中看到的那樣。它促使研究人員探索其產生光學反射的能力。

文本提示:一個白色的立方體看著自己在鏡子裡的倒影;一個白色的立方體看著鏡子裡的自己。

AI生成的圖像:

可視化內部和外部結構

「特寫鏡頭(Extreme Close-up View)」和「x射線(X-Ray)」風格的案例使研究人員進一步探索了DALL·E運用橫截面視角繪製內部結構和用宏觀圖像繪製外部結構的能力。

文本提示:核桃的橫截面圖。

AI生成的圖像:

推斷上下文細節

將文本翻譯成圖像的任務是不明確的:一個標題文本通常可以對應無限多種圖像,換句話說,圖像不是唯一確定的。例如,假如標題文本是「日出時,坐在田野上的水豚的繪畫像。根據水豚的方位,可能需要畫一個陰影,但這個細節沒有被明確提及。

研究人員探討了DALL·E在以下三種情況下解決無規範標準問題的能力:改變風格、設置和時間;在各種不同的情況下繪製同一目標圖像;在生成目標圖像上書寫指定文本。

文本提示:帶有藍色草莓圖案的彩色玻璃窗。

AI生成的圖像:

利用不同程度的可靠性,DALL·E為通過自然語言實現3D渲染引擎功能提供了一種途徑。它可以獨立地控制少量目標的屬性,並在有限的範圍內控制目標的數量以及它們之間的排列方式。它還可以控制渲染場景的位置和角度,並且根據角度和照明條件生成精確且規範的已知目標。

與3D渲染引擎不同,3D渲染引擎的輸入必須明確且完整,當標題文本暗示圖像必須包含未明確的特定細節時,DALL·E通常能夠「填補空白」。

應用案例

接下來,研究人員探討了上述功能在時尚設計和室內設計中的應用。

文本提示:一位穿著橘色和黑色相間襯衫的男性人體模特。

AI生成的圖像:

文本提示:客廳中有兩個白色的扶手椅和一幅鬥獸場的畫,這幅畫掛在現代樣式壁爐的上方。

AI生成的圖像:

組合不相關的概念

語言的構成本質使人們能夠將概念描述集成在一起,用以描述真實和虛構的事物。OpenAI發現,DALL·E還具有將完全不同的idea結合起來以合成物體的能力,其中有些物體不可能在現實世界中存在。OpenA在兩種情況下探索這種能力:將各種概念的特質傳遞給動物,以及從不相關的概念中汲取靈感來設計產品。

文本提示:豎琴狀的蝸牛

AI生成的圖像:

文本提示:鱷梨形狀的扶手椅。

AI生成的圖像:

動物插圖描述

在上一部分中探討了DALL·E在生成真實物體的圖像時結合無關概念的能力。接下來,OpenAI通過在藝術的背景下的三種插圖探索這種能力:動物和物體的擬人化版本、動物嵌合體、表情符號。

文本提示:穿著芭蕾舞短裙的蘿蔔寶寶在遛狗。

AI生成的圖像:

文本提示:長頸鹿烏龜合體的專業高質量插圖,模仿烏龜的長頸鹿,由烏龜變成的長頸鹿。

AI生成的圖像:

文本提示:一個專業的高質量的戀愛波霸珍珠奶茶表情符號

AI生成的圖像:

零樣本視覺推理

可以僅根據說明和提示來指示GPT-3執行多種任務,而無需任何額外訓練。例如,當提示短語「將『在公園裡walking狗的人』被翻譯成法語:」時,GPT-3會回答「un homme quipromèneson chien dans le parc。此功能稱為零樣本推理。

OpenAI發現DALL·E將此功能擴展到了視覺領域,並且在以正確的方式提示時,能夠執行多種圖像到圖像的翻譯任務。

文本+圖像提示:參照上面的貓在下面生成草圖。

AI生成的圖像:

文本+圖像提示:畫出和上面一樣的茶壺,並在茶壺上寫上「GPT」。

AI生成的圖像:

OpenAI驚訝地發現DALL·E居然有這種神奇的能力,因為他們沒有對神經網絡或訓練程序進行任何修改。

受這些結果的啟發,OpenAI通過在Raven的漸進矩陣上進行測試來衡量DALL·E對於解決類推推理問題的能力,這是一種視覺智商測試,在20世紀得到了廣泛應用。

文本+圖像提示:一個幾何形狀序列。

AI生成的圖像:

地理知識

OpenAI 發現DALL·E了解地理事實、地標和街區。它對這些概念的了解在某些方面出奇地精確,而在另一些方面卻有缺陷。

文本提示:中國食物的圖片。

AI生成的圖像:

文本+圖像提示:舊金山金門大橋的圖片。

AI生成的圖像:

時間知識

除了探索DALL·E關於隨空間變化的概念的知識外,OpenAI還探索了其隨時間變化的概念的知識。

文本+圖像提示:從20年代起發明的電話的照片。

AI生成的圖像:

2

總結:方法和先前工作

DALL·E是一個僅有解碼器的Transformer架構,它可以接收1280個token的文本和圖像作為單個流(文本為256個token,圖像為1024個token),並對它們全部進行自動回歸建模。

它的64個自注意力層中的每一個都具有注意力mask,使每個圖像token都可以匹配所有文本token。DALL·E對文本token使用標準的因果mask,以行、列或卷積注意模式對圖像token使用稀疏注意,具體取決於層數。

OpenAI計劃在下一篇論文中提供有關DALL·E架構和訓練過程的詳細信息。

與VQVAE-2中使用的rejection sampling類似,OpenAI使用CLIP對每個文本生成的512個採樣中的前32個進行排名。此過程也可以看作是一種語言指導的搜索,會對樣本質量產生巨大影響。

如下圖所示,使用CLIP對DALL·E中的樣本進行重新排序,可以大大提高樣本的一致性和質量。

文本提示:穿著芭蕾舞短裙的蘿蔔寶寶在遛狗。

AI生成的圖像:

Henry AI Labs在YouTube上分享了一個視頻,簡要介紹了OpenAI的DALL-E模型,並表示「希望可以清楚說明深度神經網絡中文本和圖像是如何作為張量統一的。」

由於是非官方解釋,僅供參考。

最後,大家對DALL·E 這個的神經網絡模型有什麼應用上的期待呢?二維設計師?

又會覺得它會引導什麼AI革命嗎?又或者覺得它會存在很多不可避免的限制?

原文連結:

https://openai.com/blog/dall-e/

[贈書福利]

AI科技評論本次聯合【博文視點】為大家帶來15本「《labuladong 的算法小抄》」正版新書。

在1月1日頭條文章《我多篇頂會論文在手,面試AI算法崗時竟然還要刷算法題?| 元旦送書福利》留言區暢所欲言,談一談你刷算法的故事,或你對2020的總結或者是對2021年的規劃和心願,甚至可以是新的一年對AI科技評論的建議和期待,有哪些喜歡看的報導,還希望看到什麼樣的報導?

AI 科技評論將會在留言區選出 15名讀者,每人送出《labuladong 的算法小抄》一本。

活動規則:

1. 在1月1日頭條文章(注意不是本文!)下面留言,留言點讚最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。

2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。

3. 本活動時間為2021年1月1日 - 2020年1月7日(23:00),活動推送內僅允許中獎一次。

相關焦點

  • OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • 引燃AI社區,不用跨界也能從文本生成圖像,OpenAI新模型打破自然...
    在 ImageNet 基準上,CLIP 的性能超過 ResNet-50,在識別不常見圖像任務中的性能遠超 ResNet。DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    一、GPT-3「繼承者」:看文繪圖的DALL·EDALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。▲Dali代表作《記憶的永恆》和機器人總動員海報。
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    01.GPT-3「繼承者」:看文繪圖的DALL·EDALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。 比GPT-3更牛的東西,還真被Open AI 搞出來了。最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。
  • 文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚
    過去的2020年,人工智慧研究組織OpenAI打造的1750億參數文本生成器GPT-3火爆全球。用它撰寫的博客文章成功欺騙了很多人類讀者。不少業內人士認為,GPT-3對AI行業具有顛覆力量。可以看到,自然語言處理的神經網絡規模越來越大,功能也越來越豐富。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    DALL·E:從文本生成圖像DALL·E 是 GPT-3 的 120 億參數版本,經文本 - 圖像對數據集訓練後,可基於文本描述生成圖像。DALL·E 這個名稱來源於皮克斯動畫經典作品《機器人總動員(WALL·E)》。有意思的是,它還可以將動物和物體擬人化,將一些無關的概念以一種合理的方式組合起來。
  • OpenAI的10億AGI夢何時實現?
    雷鋒網了解到,這一超級計算機擁有 285,000 個 CPU 內核、10,000 個 GPU 和 400Gbps 的網絡連接。其目的在於訓練大規模人工智慧模型,這些人工智慧模型可從出版的書籍、教學手冊、歷史課、人力資源指南和其他公開來源中獲取數十億頁的文本。
  • 圖像合成神器MSG-GAN入選CVPR2020,超越最先進GAN
    摘要雖然生成對抗網絡在圖像合成任務中取得了巨大的成功,但眾所周知,它們很難適應不同的數據集,部分原因是訓練過程中的不穩定性和對超參數的敏感性。這種不穩定性的一個普遍接受的原因是,當真實和虛假分布的支持沒有足夠的重疊時,從鑑別器到發生器的梯度變得不具信息性。
  • OpenAI追蹤AI模型效率:每16個月翻一番!超越摩爾定律
    智東西5月6日消息,昨日,OpenAI宣布將開始追蹤效率最高的機器學習模型,該舉措推出了新的評價指標,可用以量化模型的擴展規模和整體性能,從而可實時公示效率最高的模型,為行業提供參考。OpenAI表示,除了關注時下最新的最佳AI模型之外,公開衡量效率將描繪出算法進展的定量情況。這將通過重新關注AI的技術屬性和社會影響,為決策制定提供依據。OpenAI在博客中寫道:「算法改進是推動AI發展的關鍵因素。儘管這比度量計算趨勢更難,但尋找能夠反映整體算法進展的度量是很重要的。」算法效率的提高使得研究人員可以在給定的時間和預算內進行更多有趣的實驗。
  • 由馬斯克發起創辦的AI實驗室發布新型圖像生成器
    OpenAI培訓出了一款名為Dall-E的軟體,可以從短文字標題生成圖像。它演示了AI如何製作鱷梨和戴著芭蕾舞短裙的蘿蔔蘿蔔形狀的扶手椅。OpenAI對稱為Dall-E的軟體進行了培訓,可以從一個短文字生成圖像。它專門使用了在網際網路上找到的包含120億張圖像及其標題的數據集。
  • 極力擺脫假新聞與歧視言論陰霾,OpenAI推出商業化文本產生器
    馬斯克於2018年與OpenAI分道揚鑣,去年轉成盈利公司,並從微軟獲得10億美元投資。OpenAI領導者聲稱,只有將研究成果商業化使投資者受益,才能籌集到數十億美元,以便跟上AI尖端發展的腳步。機器學習算法用於分析從網絡搜集的大量文本,統計歸納出語言使用模式,然後再調校軟體,以執行諸如回答事實性問題或總結文件類的任務。Google利用這項技術改善搜尋引擎處理超時查詢的方式,至於微軟Office則用來糾舉語法錯誤。OpenAI致力擴大技術規模,並開發能生成文本的軟體。
  • 今日Paper|動態圖像檢索;實時場景文本定位;感知場景表示;雙重網絡等
    目錄Sketch Less for More:基於細粒度草圖的動態圖像檢索ABCNet:基於自適應Bezier-Curve網絡的實時場景文本定位通過逐步增加蒙版區域來修復圖像BlockGAN:從未標記的圖像中學習
  • Hinton谷歌大腦最新研究:1370億參數超大規模神經網絡
    我們將 MoE 應用於語言建模和機器翻譯任務,在這些任務中模型性能(model capacity)對於吸收訓練語料庫中可用的大量知識至關重要。我們提出的模型架構中,高達 1370 億個參數被卷積地應用於堆疊的 LSTM 層當中。在大型語言建模和機器翻譯基準測試中,這些模型以更低的計算成本獲了得比現有最好技術更好的結果。  1.
  • 超越SOTA Transformer,哈佛,FAIR提出基於殘差能量模型的文本生成
    理論保證詳見論文中的定理 1,其結論是當 E_θ (x) 足夠強大時(一般意味著足夠多參數),目標函數的最優解是,亦即即使語言模型 P_LM (x)和真實文本有偏差,足夠強大的 E_θ (x)和足夠好的優化算法都可以使殘差模型無限逼近真實文本分布。