OpenAI推DALL-E模型:能根據文字描述生成圖片

2021-01-08 太平洋電腦網

　　機器學習公司 OpenAI 今天宣布了兩套多模態人工智慧系統 DALL-E 和 CLIP 。DALL-E 能將計算機視覺和自然語言處理（NLP）結合起來，能夠從文本描述中生成圖片。例如，下面這張照片就是由「穿著芭蕾舞裙遛狗的小蘿蔔插圖」生成的。

　　在 OpenAI 今天分享的測試中，表明 Dall-E 有能力對生成的圖像中的物體進行操作和重新排列，也能夠創作出一些不存在的東西，例如豪豬的紋理或者雲朵的立方體。

　　OpenAI 今天在一篇關於 DALL-E 的網絡日誌中表示：「我們認識到，涉及生成式模型的工作有可能產生重大而廣泛的社會影響。未來，我們計劃分析像DALL-E這樣的模型與社會問題的關係，比如對某些工作流程和職業的經濟影響，模型輸出中潛在的偏見，以及這項技術所隱含的更長期的道德挑戰」。

　　OpenAI 今天還介紹了CLIP，這是一個多模態模型，教育了4億對從全球資訊網收集的圖片和文字。CLIP 利用了類似於 GPT-2 和 GPT-3 語言模型的零射學習能力。

　　在關於該模型的論文中寫道：「我們發現，CLIP與GPT家族類似，在前期訓練中可以學習執行一系列廣泛的任務，包括OCR、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的零點轉移性能進行基準測試來衡量，發現它可以與之前的特定任務監督模型競爭。」

　　【來源：cnBeta.COM】

相關焦點

OpenAI推出DALL-E模型,一句話即可生成對應圖像

今天，其博客宣布，推出了兩個結合計算機視覺和NLP結合的多模態模型：DALL-E和CLIP，它們可以通過文本，直接生成對應圖像，堪稱圖像版「GPT-3」。比GPT-3更牛的東西，還真被Open AI 搞出來了。最近，OpenAI官宣了一個基於Transformer的語言模型--DALL-E，使用了GPT-3的120億參數版本。
「幹掉」程式設計師飯碗後,OpenAI 又對藝術家下手了!

CLIP 能根據視覺類別名稱自己分類圖像已經讓人嘆服，沒想到 DALL·E 居然可以用一句話就生成對應圖像！由文本「鱷梨扶手椅」DALL·E 生成的圖像但這種結合的成功率也需視情況而定。或許由於鱷梨的橫截面本就形似高背扶手椅，果核可看做抱枕，因此 DALL·E 生成的圖片並無違和感。可將文字描述換成「豎琴做成的蝸牛」，生成的圖片就僅僅是將蝸牛與豎琴生硬地結合在一起。
OpenAI發布新人工智慧系統:根據文字生成圖像

新浪科技訊 1月6日上午消息，據報導，舊金山人工智慧研究公司OpenAI已經開發了一種新系統，能根據短文本來生成圖像。通過神經網絡去生成圖像，這種技術並不新穎。此前，生成對抗網絡（GAN）已被廣泛用於創建真實的人、寵物、租賃房產和食物的照片。不過，DALL-E的獨特之處在於可以根據輸入的文本來創作圖像。該系統基於文字生成系統GPT-3的一個版本，該系統此前被用於撰寫詩歌和新聞文章等。
OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...

能寫小說、哲學語錄的GPT-3已經不足為奇？那就來一個多模態『圖像版GPT-3』。今天，OpenAI重磅推出了最新語言模型—DALL·E，它是GPT-3的120億參數版本，可以魔法一般按照自然語言文字描述直接生成對應圖片！
文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型

在博客上，OpenAI也大秀了一把DALL·E的「超強想像力」，隨意輸入一句話，DALL·E就能生成相應圖片，這個圖片可能是網絡上已經存在的圖片，也可能是根據自己的理解「畫」出的。但OpenAI的研究人員也承認，隨著輸入文本中描述主體的增多和關係的複雜，DALL·E生成的圖像會更不準確。
文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

在博客上，OpenAI也大秀了一把DALL·E的「超強想像力」，隨意輸入一句話，DALL·E就能生成相應圖片，這個圖片可能是網絡上已經存在的圖片，也可能是根據自己的理解「畫」出的。▲輸入文本分別是：穿芭蕾舞裙遛狗的蘿蔔、牛油果形狀的扶手椅、將上部的圖片素描化DALL·E是如何實現先理解文字，再創造圖片的呢？
它正在學習根據文字生成...

艾倫人工智慧研究所（AI2）在這個問題上取得了進展，技術人員開發了一種新的視覺語言模型，可以根據給定的文本生成對應圖像。不同於 GAN 所生成的超現實主義作品，AI2 生成的這些圖像看起來非常怪異，但它的確可能是一個實現通用人工智慧的新路徑。
文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

OpenAI稱其可以通過自然語言文本直接生成對應圖像，意味著「通過語言文字操縱視覺概念現在已經觸手可及。」OpenAI 的這項最新成果引來不少AI大牛的關注。Coursera 創始人、史丹福大學教授吳恩達就在社交媒體表示祝賀，還選出一則他認為「非常酷」的OpenAI文字生成圖像示例——由AI生成的藍色襯衫搭配黑色長褲圖像。吳恩達對OpenAI表示祝賀。
北理工&阿里文娛:結合常識與推理,更好地理解視頻並生成描述

該方法通過迭代學習算法實現，交替執行以下兩種推理方式：(1) 常識推理，將視覺區域根據常識推理，嵌入到語義空間中從而構成語義圖；(2) 關係推理，將語義圖通過圖神經網絡編碼，生成圖像視頻文字描述。一、研究動機圖像視頻的文字描述本質上是視覺到語言 (Vision-to-Language，即 V2L) 的問題。
OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!

GPT3之所以能引起這麼大關注，首先當然是爸爸GPT2的功勞。炒作了整個19年，就那幾個模型還悄咪咪地一點點放出來，從年初一直放到年末。當然GPT2本身在生成式的效果也是毋庸置疑的，所以大家也拿著GPT2搞出了各種腦洞大開的應用，比如用它下棋，還有人把它做成一款文字冒險遊戲等等。
日本研究員提出基於生成對抗網絡的Iconify模型!

為解決設計師的這一痛點，來自於日本九州大學和電氣通信大學的研究人員提出了基於生成對抗網絡的Iconify模型，可以將輸入的圖像轉換為較為形象簡潔的圖標，為圖標生成和構建提出了新的可行方向。圖像主體的圖標化圖標化指的是對圖像中的目標進行抽象和簡化的過程，下圖顯示了一些典型的圖標。
在線文字雲生成工具WordArt(製作教程)

WordArt是一個文字雲生成網站，稱為文字雲圖，又稱為詞雲圖，是一款製作文字雲效果圖的在線免費軟體，對文本中出現頻率較高的「關鍵詞」以視覺化的形式呈現，是在新媒體圖文、ppt、科研和宣傳中較為適用的工具。
你看到的文字,可能是機器人寫的

京東的「AI閃電」平臺也融合了之前李白和莎士比亞兩大智能文案系統上的豐富實踐和積累，在風格上可以選擇不同的表達方式，例如專業、優美的寫作風格，亦或是口語化的風格，用戶能根據自身的需求進行不同的選擇。除文字之外，阿里和京東都有配套的智能圖片設計、AI智能排版、視頻自動生成等功能，可以解決小公司或商家設計師和運營不足的問題。
前端開發者的福音:根據UI設計圖自動生成GUI骨架代碼

首先開發者需要從視覺上理解圖片中的 UI 元素及其空間布局，然後將自己的理解轉換為合適的 UI 組件以及組件間的組合，如圖 1 所示。這個差異可以理解為對 UI 設計的元素描述和代碼實現之間的知識鴻溝。實際上，更多的開發者正使用反覆試驗的方式來弄清楚 GUI 組件組合方式來實現給定的 UI 設計，這樣的跟蹤和不斷地嘗試非常麻煩，也浪費了寶貴的開發時間，不利於 UI 設計開發的快速迭代。
自媒體人必備文字圖片製作在線工具

>趣味圖片生成http://cn.photofunia.com/圖片編輯器-塗改網--讓在線圖片處理更簡單http://www.tugai.net/editor語言文字在線翻譯器http://apps2.bdimg.com/store/static/kvt/38324aa1b70935f2785427cb64faf7a7
一鍵生成文字雲,這個工具超給力!

微詞雲就是這樣一款文字雲製作器，它的創作方式非常自由和方便，快速製作高質量的文字雲圖片，與此同時適應各種應用場景。利用文字雲這樣的神奇素材，打造一張令人目不轉睛的PPT，距離你升職加薪還會遠嗎？
人工智慧生成虛擬人物照

為幫助軟體更好地識別圖片中的人，Googl e、Facebook等公司在多年之前就已經開始使用這種人工神經網絡。現在，研究人員又開發出了一種名為「生成對抗網絡」的新型人工神經網絡，它由一個能生成圖像的生成器網絡和一個負責評價圖像真偽的鑑別器網絡組成。「要讓神經網絡學會識圖，需要經過數百萬張圖片的訓練。
怎樣用GAN生成各種胖吉貓?谷歌大腦程式設計師教你撩妹神技

一切從這裡BEGAN生成對抗網絡 (GAN) 是精分的AI，由兩個神經網絡組成，一是生成模型 (Generator) ，即畫師，二是判別模型 (Discriminator) ，即鑑賞家。縮略為G和D。人類要用大量的圖像來餵養GAN，培養兩個神經網絡的藝術細菌。

OpenAI推DALL-E模型:能根據文字描述生成圖片

相關焦點

OpenAI推出DALL-E模型,一句話即可生成對應圖像

「幹掉」程式設計師飯碗後,OpenAI 又對藝術家下手了!

OpenAI發布新人工智慧系統:根據文字生成圖像

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...

文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型

文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

它正在學習根據文字生成...

文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

北理工&阿里文娛:結合常識與推理,更好地理解視頻並生成描述

OpenAI耗資8500萬、1750億參數煉出的GPT-3,它真的不香嗎?!

日本研究員提出基於生成對抗網絡的Iconify模型!

在線文字雲生成工具WordArt(製作教程)

你看到的文字,可能是機器人寫的

前端開發者的福音:根據UI設計圖自動生成GUI骨架代碼

自媒體人必備 文字圖片製作在線工具

一鍵生成文字雲,這個工具超給力!

人工智慧生成虛擬人物照

怎樣用GAN生成各種胖吉貓?谷歌大腦程式設計師教你撩妹神技

自媒體人必備文字圖片製作在線工具