OpenAI推DALL-E模型:能根據文字描述生成圖片

2021-01-07 騰訊網

機器學習公司 OpenAI 今天宣布了兩套多模態人工智慧系統 DALL-E 和 CLIP 。DALL-E 能將計算機視覺和自然語言處理(NLP)結合起來,能夠從文本描述中生成圖片。例如,下面這張照片就是由「穿著芭蕾舞裙遛狗的小蘿蔔插圖」生成的。

在 OpenAI 今天分享的測試中,表明 Dall-E 有能力對生成的圖像中的物體進行操作和重新排列,也能夠創作出一些不存在的東西,例如豪豬的紋理或者雲朵的立方體 。

OpenAI 今天在一篇關於 DALL-E 的網絡日誌中表示:「我們認識到,涉及生成式模型的工作有可能產生重大而廣泛的社會影響。未來,我們計劃分析像DALL-E這樣的模型與社會問題的關係,比如對某些工作流程和職業的經濟影響,模型輸出中潛在的偏見,以及這項技術所隱含的更長期的道德挑戰」。

OpenAI 今天還介紹了CLIP,這是一個多模態模型, 教育 了4億對從全球資訊網收集的圖片和文字。CLIP 利用了類似於 GPT-2 和 GPT-3 語言模型的零射學習能力。

在關於該模型的論文中寫道:「我們發現,CLIP與GPT家族類似,在前期訓練中可以學習執行一系列廣泛的任務,包括OCR、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的零點轉移性能進行基準測試來衡量,發現它可以與之前的特定任務監督模型競爭。」

【來源:cnBeta.COM】

相關焦點

  • 獨家 | OpenAI的DALL·E模型使人類更接近通用人工智慧(附連結)
    這個基於Transformer的神經網絡可以根據圖像-文本的的大型數據集來進行訓練,得到一個僅僅一句文本的描述即可生成對應圖像的模型。DALL·E實現了一些驚人的功能,例如創建擬人化(即類人)的動物和對象、文本渲染、對既有圖像的轉換,以及將某些對象或概念合併至單個圖像中等。它甚至還可以補全圖像的缺失部分。具體來說,DALL·E的功能包括一下部分
  • 自帶魔法棒的 DALL·E | 一文圖解熱詞
    大錚:DALL·E 能按照文字的描述,畫出十分自然的圖像。目前的模型對於選詞比較敏感,官方釋出的例子是類似完形填空的形式,給句子中的名詞位置挖了空,並提供了候選的詞彙。我們選擇了一個擬物的句子來展示DALL·E的能力。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    而文字有重複的時候,成功率會變高。儘管樣本變得更簡單,但隨著採樣溫度的降低,成功率有時候會提升。和 GPT-3 一樣,DALL·E 是一種 Transformer 語言模型。它以包含多達 1280 個 token 的單數據流形式接收文本和圖像,並利用最大似然進行訓練,逐個生成所有 token。token 是來自不連續詞彙表的任意符號。
  • 無論給它多扯淡的描述,它都能給你畫出來!牛掰了
    這個模型是由人工智慧公司OpenAI研發的,它能根據一段話自動寫出語錄、小說和論文,讓全球科技圈大為興奮,稱它是「能窺見未來的AI」。前幾天,OpenAI又發布了新模型,叫做DALL-E,以藝術家達利和機器人瓦力合體命名。它和GPT-3一樣極其強大,僅僅通過一段自然語言,就能生成對應圖片。
  • OpenAI發布新人工智慧系統:根據文字生成圖像
    據報導,舊金山人工智慧研究公司OpenAI已經開發了一種新系統,能根據短文本來生成圖像。   通過神經網絡去生成圖像,這種技術並不新穎。此前,生成對抗網絡(GAN)已被廣泛用於創建真實的人、寵物、租賃房產和食物的照片。   不過,DALL-E的獨特之處在於可以根據輸入的文本來創作圖像。該系統基於文字生成系統GPT-3的一個版本,該系統此前被用於撰寫詩歌和新聞文章等。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    能寫小說、哲學語錄的GPT-3已經不足為奇?那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    如果你想讓一支胡蘿蔔喝拿鐵咖啡或騎獨輪車,DALL·E 會把生成圖像中的方巾、手腳放在合理的位置。還比如,生成寫著 OpenAI 的商店招牌:通常 DALL·E 寫入的字符串越長,成功率會降低一些。而文字有重複的時候,成功率會變高。儘管樣本變得更簡單,但隨著採樣溫度的降低,成功率有時候會提升。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • OpenAI提出可逆生成模型Glow
    OpenAI 提出的模型可以生成逼真的高解析度圖像,支持高效率採樣,並能發現用於操作數據屬性的特徵。目前,OpenAI 已經發布了該模型的代碼,並開放了在線可視化工具,供人們試用。也許最引人注目的是,我們展示了僅通過普通的對數似然度目標優化,生成模型就可以高效地進行逼真圖像的合成以及大尺寸圖像的操作。Glow 模型控制人臉圖像屬性以及和其它人臉圖像融合的交互式 demo(讀者可在原網頁進行交互操作,還可以上傳自己的圖片)。研究動機研究員 Prafulla Dhariwal 和 Durk Kingma 的圖像屬性操作。
  • 它正在學習根據文字生成圖片
    艾倫人工智慧研究所(AI2)在這個問題上取得了進展,技術人員開發了一種新的視覺語言模型,可以根據給定的文本生成對應圖像。不同於 GAN 所生成的超現實主義作品,AI2 生成的這些圖像看起來非常怪異,但它的確可能是一個實現通用人工智慧的新路徑。
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    在博客上,OpenAI也大秀了一把DALL·E的「超強想像力」,隨意輸入一句話,DALL·E就能生成相應圖片,這個圖片可能是網絡上已經存在的圖片,也可能是根據自己的理解「畫」出的。但OpenAI的研究人員也承認,隨著輸入文本中描述主體的增多和關係的複雜,DALL·E生成的圖像會更不準確。
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    在博客上,OpenAI也大秀了一把DALL·E的「超強想像力」,隨意輸入一句話,DALL·E就能生成相應圖片,這個圖片可能是網絡上已經存在的圖片,也可能是根據自己的理解「畫」出的。▲輸入文本分別是:穿芭蕾舞裙遛狗的蘿蔔、牛油果形狀的扶手椅、將上部的圖片素描化DALL·E是如何實現先理解文字,再創造圖片的呢?
  • OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E
    Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。OpenAI擴展的GPT-3兩個新模型,結合了NLP和圖像識別,使其人工智慧更好地理解日常概念。 (文章來源:鈦媒體)
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    其實這原本是一個圖像分類器,而生成的迷幻圖片,是故意對圖像進行過度處理的副產品。現在這套系統有個單獨的名字:「深夢(Deep Dream)」。最近,研究人員提出了一種深度卷積生成對抗網絡(Deep convolutional generative adversarial networks),可以產生一些高度逼真的圖像,但是目前僅針對特定類別,如人臉、唱片封面和房間內飾。該模型的訓練數據為一些文本描述及其對應圖像的樣本集。當給出任何物體描述時,這個模型會嘗試根據描述來生成圖像。
  • OpenAI發布可用文本敘述產生合理圖像的神經網絡DALL·E
    DALL·E是一個具有120億個參數的GPT-3語言模型,經過文本圖像配對資料集訓練,可以從文本敘述生成圖像。DALL·E具有豐富的功能,除了創建擬人化動物與物體,還能以合理的方式組合不相關的概念,而渲染文本以及轉換圖像等工作,也都難不倒DALL·E。
  • 一文解析OpenAI最新流生成模型「Glow」
    論文引入隨著深度神經網絡的發展,生成模型也得到了巨大的飛躍。目前已有的生成模型除了 Glow 外包括三大類,GAN、VAE 和 Autoregressive Model(自回歸模型)。 其中自回歸模型和 VAE 是基於似然的方法,GAN 則是通過縮小樣本和生成之間的分布實現數據的生成。
  • 基於深度學習的三大生成模型:VAE、GAN、GAN的變種模型
    本章將為讀者介紹基於深度學習的生成模型。前面幾章主要介紹了機器學習中的判別式模型,這種模型的形式主要是根據原始圖像推測圖像具備的一些性質,例如根據數字圖像推測數字的名稱,根據自然場景圖像推測物體的邊界;而生成模型恰恰相反,通常給出的輸入是圖像具備的性質,而輸出是性質對應的圖像。
  • VAE、GAN、Info-GAN:全解深度學習三大生成模型
    在深度學習之前已經有很多生成模型,但苦於生成模型難以描述難以建模,科研人員遇到了很多挑戰,而深度學習的出現幫助他們解決了不少問題。本章介紹基於深度學習思想的生成模型——VAE和GAN,以及GAN的變種模型。本節將為讀者介紹基於變分思想的深度學習的生成模型——Variational autoencoder,簡稱VAE。
  • 關於AI文本生成動畫模型的論文
    近日,迪士尼研究所和羅格斯大學的科學家共同發表了關於AI文本生成動畫模型的論文。 研究人員表示,這種算法只要在輸入的文本中描述某些活動即可,不需要注釋數據和進行大量訓練就能產生動畫。 這篇論文中,研究人員進一步提出了端到端模型,這種模型可以創建一個粗略的故事版和電影劇本的視頻,用來描繪電影劇本中的文字。
  • OpenAI發布GPT3 api調用接口!可處理幾乎所有英文問題
    就是說,從一個好的神經網絡開始,把它增大十倍,它能變更聰明嗎?聰明多少?會聰明十倍嗎?能一直這樣做下去,直到它變得無限智慧、或是把所有電腦都用上?」官網指路:https://openai.com/blog/openai-api/基本上,該項工作是建立在理解英語單詞的基礎上。OpenAI希望能幫助用戶實現自動化。GPT-3系列自然語言理解模型的各種功能可供開發人員使用。