文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

2021-01-07 澎湃新聞

過去的2020年,人工智慧研究組織OpenAI打造的1750億參數文本生成器GPT-3火爆全球。用它撰寫的博客文章成功欺騙了很多人類讀者。不少業內人士認為,GPT-3對AI行業具有顛覆力量。可以看到,自然語言處理的神經網絡規模越來越大,功能也越來越豐富。

當地時間2021年1月5日,OpenAI又放出大招,在官方博客公布最新人工智慧神經網絡「DALL·E」。OpenAI稱其可以通過自然語言文本直接生成對應圖像,意味著「通過語言文字操縱視覺概念現在已經觸手可及。」

OpenAI 的這項最新成果引來不少AI大牛的關注。Coursera 創始人、史丹福大學教授吳恩達就在社交媒體表示祝賀,還選出一則他認為「非常酷」的OpenAI文字生成圖像示例——由AI生成的藍色襯衫搭配黑色長褲圖像。

吳恩達對OpenAI表示祝賀。據OpenAI介紹,DALL·E基於120億參數版本的GPT-3模型,使用文本-圖像對的數據集,能夠通過文字描述生成圖像。OpenAI研究人員發現,DALL·E有一系列不同功能,例如創建動物或物體的擬人化版本、以合理的方式組合不相關的概念、文字渲染以及對已有圖像進行變換等等。「DALL·E」的名字來自藝術家薩爾瓦多·達利(Salvador Dali )和皮克斯的機器人WALL-E。

從文本「穿著芭蕾舞裙的蘿蔔寶寶在遛狗」生成的圖像。在他們給出的第一批示例裡,文本「穿著芭蕾舞裙的蘿蔔寶寶在遛狗」被擬人化地呈現在圖像上。類似的例子還有「一隻模仿烏龜的長頸鹿」、「一杯被戀愛衝昏頭腦的波霸奶茶」等。從這些案例中,研究人員發現,DALL·E能夠將人類活動和衣物,甚至情緒遷移到動物和無生命物體上。

由文字生成的長頸鹿和奶茶圖像DALL·E的第二個功能是以合理的方式組合不相關的概念。譬如,「一把牛油果形狀的扶手椅」,這一天馬行空的描述,也被DALL·E以看似合理的方式呈現在圖像中。

從文本「一把牛油果形狀的扶手椅」生成的圖像。第三大功能更為實用——文字渲染。研究人員發現,DALL·E能夠在圖像中呈現文字,並使文字的字體風格適應周圍環境。不過,這類功能只能在少量字符下使用,輸入的字數越多,成功率越低。

從文本「一家門前寫有『OPENAI』的商店」生成的圖像。除了以上這些功能,DALL·E還可以對動物照片進行多種圖像變換。下圖就是它為同一隻(不存在的)貓畫的多幅草圖。

從文本「上面一排一樣的貓,下面是它們的草圖」 生成的圖像。2020年6月,Open AI發布大型生成式語言模型GPT-3,全稱Generative Pre-training Transformer-3。通過對不同的書面材料集與長篇連載文本的預訓練,GPT-3獲取了大量知識,有 1750 億參數,遠超此前類似語言模型,參數量較2019年2月發布的GPT-2高兩個數量級。自發布之日起,GPT-3因強大功能和令人驚嘆的測試結果備受關注。它可以實現的功能包括:輸入一句自然語言後,模型自動完成編程;對模型描述一種病症,它可以指出是什麼疾病並開出藥方;甚至詢問一些關於人生信仰的問題,模型也可以做出回答。

從專注文本任務的GPT-3到最新的DALL·E,OpenAI表示:GPT-3證明了語言可以指導大型神經網絡執行各種文本生成任務;而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真的圖像。「這些發現說明,通過語言文字操縱視覺概念現在已經觸手可及。」

OpenAI成立於2015年,是一家以研發通用人工智慧為目標的公司。公司官網稱,其使命是確保通用人工智慧(AGI),即一種高度自主且在大多數具有經濟價值的工作上超越人類的系統,將為全人類帶來福祉。

(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)

相關焦點

  • 引燃AI社區,不用跨界也能從文本生成圖像,OpenAI新模型打破自然...
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    OpenAI 發布了兩個新的神經網絡:CLIP 和 DALL·E。它們將 NLP(自然語言識別)與 圖像識別結合在一起,對日常生活中的圖像和語言有了更好的理解。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    OpenAI最新發布了一個名叫 DALL·E 的神經網絡模型,它可以魔法一般按照自然語言文字描述直接生成對應圖片!效果如下所示:文本提示:鱷梨形狀的扶手椅。AI生成的圖像:這生產效果真是堪稱神奇!自然語言與視覺的壁壘正在被逐漸打通。
  • OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • GPT-3今年的首次升級,讓吳恩達、Keras之父等大佬紛紛叫好!
    於是效果一出,吳恩達、Keras之父等紛紛轉發、點讚。堪稱2021年第一個令人興奮的AI技術突破。看吳恩達老師pick的這個demo效果,以後是想直接描述生成自己想要的藍工裝?「圖像版」GPT-3,還自帶排名生成這些優秀作品的,是一個名為DALL·E的結構。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿蔔寶寶」生成的圖像示例根據文字提示,DALL-E生成的圖像可以像在現實世界中拍攝的一樣。同時測試表明,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,但也能創造出一些根本不存在的東西,比如一個鱷梨形狀的扶手椅:又或者是「一個長頸鹿烏龜」:GPT-3表明,語言可以用來指導大型神經網絡執行各種文本生成任務。而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現在已經觸手可及。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • 【通用人工智慧的新宇宙】OpenAI 重磅發布AGI測試訓練平臺Universe
    目前,Universe 已經有1000種訓練環境,由微軟、英偉達等公司參與建設。研究人員介紹說,Universe 從李飛飛等人創立的 ImageNet 上獲得啟發,希望把 ImageNet 在降低圖像識別錯誤率上的成功經驗引入到通用人工智慧的研究上來,取得實質進展。
  • 工具分享:一鍵生成Facebook和Ins等社交圖像
    分享一款自動裁剪圖像的工具,可以幫您一鍵生成各大社交網站主頁的:LOGO,主頁圖片,banner等等圖片。 步驟二:選擇你要生成的社交網站 步驟三:點擊下一步,選擇圖像類型。 比如我們選facebook,有4種尺寸,有個人資料頭像照片,封面照片,連結圖片,還有一個正方形圖片。
  • 微軟發布最新機器學習模型,助視障人士衝浪...
    早在2017年,微軟就發布了行動應用程式Seeing AI,試圖分析周圍環境並通過語音為視力缺陷者帶來幫助。基於神經網絡,這款應用不僅可以翻譯文本,而且可以識別人物和貨幣、掃描產品條形碼,對整個場景或者導入的圖像進行簡單的描述。
  • 英偉達發布最強圖像生成器StyleGAN2,生成圖像逼真到嚇人
    今天,英偉達的研究人員發布了升級版——StyleGAN2,重點修復特徵偽影問題,並進一步提高了生成圖像的質量。現在戳右邊連結上新智元小程序了解更多! StyleGAN是NVIDIA去年發布的一個新的圖像生成方法,並於今年2月開源。
  • APP在線製作平臺,一鍵生成你想要的APP
    APP在線製作生成工具解決你這些困擾!!現在進入移動市場不再需要成千上萬的資金,也不需要數月的研發,甚至一個人都可以輕鬆應對。免費APP在線製作生成平臺無需任何編碼知識就能解決。另一個優點是,Doraemon可以隨意發布圖像和文本,可以發揮自己的想像力來豐富您的App內容。通過共享,評論,投票,天氣,反饋,推送和其他功能性插件,該應用程式可以更好地滿足用戶的需求,並與您的用戶形成有效的互動。Doraemon為用戶提供了最大的創作空間,使行動應用程式的創建極為有趣。 dingdone平臺部署在雲伺服器上。
  • 吳恩達寄語:6大主題回顧AI圈兒的2020
    政府培訓了一個模型,以識別衛星圖像中的赤貧地區,指導將救濟金分配給最需要的人。 這裡列舉了一些受歡迎的: 根據谷歌Earth的圖像,這個不存在的城市產生了大大小小的定居點的鳥瞰圖。
  • 今日Paper | TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測...
    REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正創新點:該論文提出了一種REFORMER結構,它的核心有以下幾點:首先提出了可逆層,在該層中只存儲單層激活值的一份拷貝,然後它把FF層裡的激活值進行切分 ,最後它使用局部敏感哈希(LSH)注意力代替傳統多頭注意力研究意義:這個新模型不僅訓練速度快,而且佔用內存小,還可以解決序列過長的問題。
  • 極力擺脫假新聞與歧視言論陰霾,OpenAI推出商業化文本產生器
    去年春天,AI人工智慧研究機構OpenAI宣布已開發出一款非常擅長自動生成文章的軟體,但因也能生成假新聞,以致太危險而沒有正式發布。如今OpenAI挾著更強大的文本產生器(Text Generator)和新產品重返市場。
  • OpenAI創造出目前最智能的文本生成器
    由埃隆·馬斯克(Elon Musk)創立的人工智慧實驗室OpenAI,最近獲得了微軟10億美元的資助,現在實驗室創造出一款文本生成器,它生成的段落與人類創造的文字,幾乎無法被甄別。
  • 今日Paper|動態圖像檢索;實時場景文本定位;感知場景表示;雙重網絡等
    目錄Sketch Less for More:基於細粒度草圖的動態圖像檢索ABCNet:基於自適應Bezier-Curve網絡的實時場景文本定位通過逐步增加蒙版區域來修復圖像BlockGAN:從未標記的圖像中學習