多模態 AI 系統?從文本直接創建圖像!OpenAI發布新人工智慧系統

2021-01-08 控制工程中文版

1月5日,人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。

這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。OpenAI希望這些升級後的語言模型能夠以接近人類解釋世界的方式來解讀圖像。

2020年5月,OpenAI發布了迄今為止全球規模最大的預訓練語言模型GPT-3。GPT-3具有1750億參數,訓練所用的數據量達到45TB。對於所有任務,應用GPT-3無需進行任何梯度更新或微調,僅需要與模型文本交互為其指定任務和展示少量演示即可使其完成任務。

GPT-3在許多自然語言處理數據集上均具有出色的性能,包括翻譯、問答和文本填空任務,還包括一些需要即時推理或領域適應的任務等,已在很多實際任務上大幅接近人類水平。

新發布的語言模型DALL·E,是GPT-3的120億參數版本,可以按照自然語言文字描述直接生成對應圖片!

這個新系統的名稱DALL·E,來源於藝術家薩爾瓦多·達利(Salvador Dali)和皮克斯的機器人英雄瓦力(WALL-E)的結合。新系統展示了「為一系列廣泛的概念」創造圖像的能力,可從文字標題直接創建圖像以表達概念。通過從文本描述而不是標籤數據生成圖像,可以為模型提供了更多有關含義的上下文。

開發人員將DALL·E稱為「轉換語言模型」(transformer language model),能夠將文本和圖像作為單個數據流接收。這種訓練程序使得DALL·E不僅可以從零開始生成圖像,而且還可以重新生成現有圖像的任何矩形區域…….以一種與文本提示一致的方式。

這種語言模型能夠反映人類語言的微妙之處,包括 "將不同的想法結合起來合成物體的能力"。例如,在DALL·E模型中輸入「牛油果形狀的扶手椅」,它就可以生成這樣的圖片:

DALL·E還擴展了被稱為「零樣本推理」(zero-shotreasoning)的GPT-3功能,這是一種強大的常識性機器學習形式。DALL·E將這一功能擴展到了視覺領域,並且在以正確的方式提示時能夠執行多種圖像到圖像的翻譯任務。

圖像識別系統CLIP的通用性比當前針對單個任務的系統更好,可以用網上公開的文字圖像配對數據集來訓練。CLIP系統可用於對比語言-圖像預訓練,通過從網絡圖像中收集的自然語言監督學習視覺概念。OpenAI表示CLIP的工作方式是提供要識別的視覺類別的名稱。

當將其應用於圖像分類基準時,可以指示模型執行一系列基準,而無需針對每個測試進行優化。OpenAI表示:「通過不直接針對基準進行優化,我們證明它變得更具代表性。」 CLIP方法可將「穩健性差距」縮小多達75%。

OpenAI 聯合創始人、首席科學家 Ilya Sutskever認為,人工智慧的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界,而 DALL·E 和 CLIP 使我們更接近「多模態 AI 系統」這一目標。

未來,我們將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。

更多工業人工智慧的一手資訊和深度報導,請關注微信號:工業AI(gongye_AI)

相關焦點

  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    OpenAI 發布了兩個新的神經網絡:CLIP 和 DALL·E。它們將 NLP(自然語言識別)與 圖像識別結合在一起,對日常生活中的圖像和語言有了更好的理解。
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    」的界限,實現多模態AI系統。什麼是多模態系統呢?就像人類有視覺、嗅覺、聽覺一樣,AI也有自己「眼鼻嘴」,而為了研究的針對性和深入,科學家們通常會將其分為「計算機視覺」、「自然語言處理」、「語音識別」等研究領域,分門別類地解決不同的實際問題。每一個研究領域也可以被稱為一種模態,通常來說,多模態學習(MultiModal Learning)就是在不同的模態間構建聯繫,讓AI學會「通感」。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    「涇渭分明」的界限,實現多模態AI系統。什麼是多模態系統呢?就像人類有視覺、嗅覺、聽覺一樣,AI也有自己「眼鼻嘴」,而為了研究的針對性和深入,科學家們通常會將其分為「計算機視覺」、「自然語言處理」、「語音識別」等研究領域,分門別類地解決不同的實際問題。
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。 比GPT-3更牛的東西,還真被Open AI 搞出來了。最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表道:人工智慧的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近「多模態 AI 系統」這一目標。值得一提的是,DALL·E的命名也很特別。
  • OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • OpenAI 祭出 120 億參數魔法模型:從文本合成圖像栩栩如生,仿佛...
    那就來一個多模態『圖像版 GPT-3』。今天,OpenAI 重磅推出了最新語言模型—DALL·E,它是 GPT-3 的 120 億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!比如,在 DALL·E 模型中輸入 「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:
  • 聚焦多模態自然語言處理等AI技術,京東智聯雲亮相NLPCC 2020
    近年來,人工智慧 (AI) 在涉及單一模態如語音、自然語言和視覺等領域,取得了重大突破。在單一模態的任務上,如物體識別、語音識別、機器翻譯等,AI 系統在特定數據集上的表現水平與人類相當。隨著單模態人工智慧潛在問題的解決,研究人員意識到更高層次的AI任務往往涉及到跨多種模式的更複雜的信息處理。同時,局限於單一模態的研究往往不能充分利用跨模態信息。
  • 深思考楊志明:多模態語義理解能推動人工智慧大規模落地|2019 WISE...
    目前,AI在語音識別、圖像識別領域已經比較成熟,開始了大規模落地。人工智慧的發展也正從認知走向理解。深思考專注語義理解15年的時間,目前在多模態語義理解方面取得了一些進展,在智慧營銷、智能終端落地了相關技術。對於多模態語義理解的AI落地,他們又有怎樣的見解和經驗分享?
  • Facebook AI 年度總結來啦
    內容如下,一起來看看吧~在 Facebook,我們認為,人工智慧以更有效的新方式學習,就像人類一樣,可以在將人們聚集在一起發揮重要作用。這一核心信念有助於推動我們的 AI 戰略,將投資重點放在與使用真實數據學習的系統相關的長期研究上,激勵工程師與更廣泛的人工智慧社區共享尖端工具和平臺,並最終展示使用技術造福世界的新方法。
  • 圖像版GPT3問世!打破語言與視覺界線,AI將更加聰明
    繼 OpenAI 推出史上最強語言模型 GPT-3 後,這家舊金山 AI 研究公司又有新動作。  這次,他們一連推出兩款強大的多模態模型 CLIP 和 DALL?E,CLIP 可以對圖像進行理解、歸類,而 DALL?E 則可以直接藉助文本生成圖像,簡直就是 「圖像版 GPT-3」。
  • 由馬斯克發起創辦的AI實驗室發布新型圖像生成器
    OpenAI 是一個非營利的人工智慧研究組織,目的是促進和發展友好的人工智慧,使人類整體受益。OpenAI成立於2015年底,總部位於舊金山,組織目標是通過與其他機構和研究者的「自由合作」,向公眾開放專利和研究成果。創始人伊隆·馬斯克以及薩姆·奧特曼的動機是出於對強人工智慧潛在風險的擔憂。
  • 打破開放與隱私壁壘,7國30家機構創建最大醫學AI協作系統
    由賓夕法尼亞大學醫學院領導、29家國際醫療和研究機構參與的聯合團隊正在創建一個有史以來最大腦瘤數據集訓練的人工智慧模型,基於一種名為聯邦學習(Federated Learning)的技術,可以在分散的伺服器之間訓練算法。
  • AI「幹掉」程式設計師後,又對藝術家下手了
    什麼是人工智慧的未來?《麻省理工科技評論》認為就是「那把牛油果造型的扶手椅」,因為 AI 又往「構建多模態 AI 系統」這個長期目標又邁近了一大步。而 OpenAI 同期發布的 CLIP(Contrastive Language–Image Pre-training),則是為了加強文本和圖像的關聯程度而誕生的。CLIP 是一個從網際網路上收集的 4 億對圖像和文本來進行訓練的多模態模型。CLIP 使用了大量可用的監督資源,即網絡上找到的文本-圖像對。
  • OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E
    Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
  • 馬斯克的AI野心——OpenAI Gym系統深度解析
    【導讀】開源人工智慧系統OpenAI的成立打破了谷歌、Facebook等巨頭霸佔AI領域的格局,但其創始人、特斯拉CEO馬斯克多次發表人工智慧威脅論。分析最近發布的OpenAI Gym,可以找出他的真正動機。OpenAI Gym是一款用於研發和比較強化學習算法的工具包,它支持訓練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的遊戲,都在範圍中。本文其中一位作者是OpenAI內部研究員,你想知道關於這個系統的一切,他都寫在這裡了。
  • 人工智慧的產生源於古代人類對計算機編程幻想的各種可能性
    本人在閒來無事的時候也是喜歡看看人工智慧領域的科普著作,但是由於身邊的人經常掛在嘴邊的一句話「人工智慧是一個熱門的領域,但是大學不教」導致了自己無法深入了解,從而在自己科普到這個領域之後也遇到了瓶頸,那麼多的科普書籍,竟然不知道如何選擇好。