OpenAI推DALL-E模型:能根據文字描述生成圖片

2021-01-07 太平洋電腦網

　　機器學習公司 OpenAI 今天宣布了兩套多模態人工智慧系統 DALL-E 和 CLIP 。DALL-E 能將計算機視覺和自然語言處理（NLP）結合起來，能夠從文本描述中生成圖片。例如，下面這張照片就是由「穿著芭蕾舞裙遛狗的小蘿蔔插圖」生成的。

　　在 OpenAI 今天分享的測試中，表明 Dall-E 有能力對生成的圖像中的物體進行操作和重新排列，也能夠創作出一些不存在的東西，例如豪豬的紋理或者雲朵的立方體。

　　OpenAI 今天在一篇關於 DALL-E 的網絡日誌中表示：「我們認識到，涉及生成式模型的工作有可能產生重大而廣泛的社會影響。未來，我們計劃分析像DALL-E這樣的模型與社會問題的關係，比如對某些工作流程和職業的經濟影響，模型輸出中潛在的偏見，以及這項技術所隱含的更長期的道德挑戰」。

　　OpenAI 今天還介紹了CLIP，這是一個多模態模型，教育了4億對從全球資訊網收集的圖片和文字。CLIP 利用了類似於 GPT-2 和 GPT-3 語言模型的零射學習能力。

　　在關於該模型的論文中寫道：「我們發現，CLIP與GPT家族類似，在前期訓練中可以學習執行一系列廣泛的任務，包括OCR、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的零點轉移性能進行基準測試來衡量，發現它可以與之前的特定任務監督模型競爭。」

　　【來源：cnBeta.COM】

相關焦點

OpenAI推出DALL-E模型,一句話即可生成對應圖像

今天，其博客宣布，推出了兩個結合計算機視覺和NLP結合的多模態模型：DALL-E和CLIP，它們可以通過文本，直接生成對應圖像，堪稱圖像版「GPT-3」。比GPT-3更牛的東西，還真被Open AI 搞出來了。最近，OpenAI官宣了一個基於Transformer的語言模型--DALL-E，使用了GPT-3的120億參數版本。
「幹掉」程式設計師飯碗後,OpenAI 又對藝術家下手了!

CLIP 能根據視覺類別名稱自己分類圖像已經讓人嘆服，沒想到 DALL·E 居然可以用一句話就生成對應圖像！由文本「鱷梨扶手椅」DALL·E 生成的圖像但這種結合的成功率也需視情況而定。或許由於鱷梨的橫截面本就形似高背扶手椅，果核可看做抱枕，因此 DALL·E 生成的圖片並無違和感。可將文字描述換成「豎琴做成的蝸牛」，生成的圖片就僅僅是將蝸牛與豎琴生硬地結合在一起。
引燃AI社區,不用跨界也能從文本生成圖像,OpenAI新模型打破自然...

而文字有重複的時候，成功率會變高。儘管樣本變得更簡單，但隨著採樣溫度的降低，成功率有時候會提升。和 GPT-3 一樣，DALL·E 是一種 Transformer 語言模型。它以包含多達 1280 個 token 的單數據流形式接收文本和圖像，並利用最大似然進行訓練，逐個生成所有 token。token 是來自不連續詞彙表的任意符號。
OpenAI重磅推出語言模型DALL·E和圖像識別系統CLIP

這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。OpenAI希望這些升級後的語言模型能夠以接近人類解釋世界的方式來解讀圖像。 2020年5月，OpenAI發布了迄今為止全球規模最大的預訓練語言模型GPT-3。GPT-3具有1750億參數，訓練所用的數據量達到45TB。
OpenAI發布新人工智慧系統:根據文字生成圖像

新浪科技訊 1月6日上午消息，據報導，舊金山人工智慧研究公司OpenAI已經開發了一種新系統，能根據短文本來生成圖像。通過神經網絡去生成圖像，這種技術並不新穎。此前，生成對抗網絡（GAN）已被廣泛用於創建真實的人、寵物、租賃房產和食物的照片。不過，DALL-E的獨特之處在於可以根據輸入的文本來創作圖像。該系統基於文字生成系統GPT-3的一個版本，該系統此前被用於撰寫詩歌和新聞文章等。
OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...

OpenAI最新發布了一個名叫 DALL·E 的神經網絡模型，它可以魔法一般按照自然語言文字描述直接生成對應圖片！效果如下所示：文本提示：鱷梨形狀的扶手椅。AI生成的圖像：這生產效果真是堪稱神奇！自然語言與視覺的壁壘正在被逐漸打通。
引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁

如果你想讓一支胡蘿蔔喝拿鐵咖啡或騎獨輪車，DALL·E 會把生成圖像中的方巾、手腳放在合理的位置。還比如，生成寫著 OpenAI 的商店招牌：通常 DALL·E 寫入的字符串越長，成功率會降低一些。而文字有重複的時候，成功率會變高。儘管樣本變得更簡單，但隨著採樣溫度的降低，成功率有時候會提升。
OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和文本生成圖像...

CLIP，「另類」的圖像識別目前，大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像，而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型

在博客上，OpenAI也大秀了一把DALL·E的「超強想像力」，隨意輸入一句話，DALL·E就能生成相應圖片，這個圖片可能是網絡上已經存在的圖片，也可能是根據自己的理解「畫」出的。但OpenAI的研究人員也承認，隨著輸入文本中描述主體的增多和關係的複雜，DALL·E生成的圖像會更不準確。
文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

在博客上，OpenAI也大秀了一把DALL·E的「超強想像力」，隨意輸入一句話，DALL·E就能生成相應圖片，這個圖片可能是網絡上已經存在的圖片，也可能是根據自己的理解「畫」出的。▲輸入文本分別是：穿芭蕾舞裙遛狗的蘿蔔、牛油果形狀的扶手椅、將上部的圖片素描化DALL·E是如何實現先理解文字，再創造圖片的呢？
文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型

在博客上，OpenAI也大秀了一把DALL·E的「超強想像力」，隨意輸入一句話，DALL·E就能生成相應圖片，這個圖片可能是網絡上已經存在的圖片，也可能是根據自己的理解「畫」出的。但OpenAI的研究人員也承認，隨著輸入文本中描述主體的增多和關係的複雜，DALL·E生成的圖像會更不準確。
OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E

Open AI發布新聞稿，引入兩個新的GPT-3模型：CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中，CLIP神經網絡可以從自然語言監督中有效學習視覺概念。從長遠來看，您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言，因為它可以看到單詞和句子的含義。OpenAI擴展的GPT-3兩個新模型，結合了NLP和圖像識別，使其人工智慧更好地理解日常概念。（文章來源：鈦媒體）
十個生成模型(GANs)的最佳案例和原理 | 代碼+論文

更多信息博客：https://blog.openai.com/generative-models/代碼：https://github.com/openai/imitation3、指馬為斑馬用圖像生成圖像，這也是生成網絡的一個有趣應用。
它正在學習根據文字生成...

艾倫人工智慧研究所（AI2）在這個問題上取得了進展，技術人員開發了一種新的視覺語言模型，可以根據給定的文本生成對應圖像。不同於 GAN 所生成的超現實主義作品，AI2 生成的這些圖像看起來非常怪異，但它的確可能是一個實現通用人工智慧的新路徑。
OpenAI發布GPT3 api調用接口!可處理幾乎所有英文問題

就是說，從一個好的神經網絡開始，把它增大十倍，它能變更聰明嗎？聰明多少？會聰明十倍嗎？能一直這樣做下去，直到它變得無限智慧、或是把所有電腦都用上？」官網指路：https://openai.com/blog/openai-api/基本上，該項工作是建立在理解英語單詞的基礎上。OpenAI希望能幫助用戶實現自動化。GPT-3系列自然語言理解模型的各種功能可供開發人員使用。
文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

OpenAI稱其可以通過自然語言文本直接生成對應圖像，意味著「通過語言文字操縱視覺概念現在已經觸手可及。」OpenAI 的這項最新成果引來不少AI大牛的關注。Coursera 創始人、史丹福大學教授吳恩達就在社交媒體表示祝賀，還選出一則他認為「非常酷」的OpenAI文字生成圖像示例——由AI生成的藍色襯衫搭配黑色長褲圖像。吳恩達對OpenAI表示祝賀。
CVPR 2020 | 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成

意圖無關的圖像描述不能生成用戶想要描述的內容且缺乏多樣性，而所提出的細粒度可控圖像描述模型可根據用戶意圖生成可控的、多樣化的圖像內容描述。為了解決上述問題，少數工作提出了主動控制圖像描述生成，主要可以分為風格控制和內容控制兩類。
DALL·E發布兩天就被復現?官方論文沒出,大神們就在自製代碼和視頻了

Yannic認為，DALL·E應該是VQ-VAE模型、和類似於GPT-3的語言模型的結合。 GPT-3這類語言模型，有著非常強大的語言建模能力，可以對輸入的文字描述進行很好的拆分理解。

OpenAI推DALL-E模型:能根據文字描述生成圖片

相關焦點

OpenAI推出DALL-E模型,一句話即可生成對應圖像

「幹掉」程式設計師飯碗後,OpenAI 又對藝術家下手了!

引燃AI社區,不用跨界也能從文本生成圖像,OpenAI新模型打破自然...

OpenAI重磅推出語言模型DALL·E和圖像識別系統CLIP

OpenAI發布新人工智慧系統:根據文字生成圖像

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...

引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁

OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...

文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型

文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型

OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E

十個生成模型(GANs)的最佳案例和原理 | 代碼+論文

它正在學習根據文字生成...

OpenAI發布GPT3 api調用接口!可處理幾乎所有英文問題

文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

CVPR 2020 | 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成

DALL·E發布兩天就被復現?官方論文沒出,大神們就在自製代碼和視頻了

OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和文本生成圖像...