OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E

2021-01-10 東方財富網

Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。

其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。

「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。

OpenAI擴展的GPT-3兩個新模型,結合了NLP和圖像識別,使其人工智慧更好地理解日常概念。

(文章來源:鈦媒體)

相關焦點

  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    OpenAI 發布了兩個新的神經網絡:CLIP 和 DALL·E。它們將 NLP(自然語言識別)與 圖像識別結合在一起,對日常生活中的圖像和語言有了更好的理解。
  • GPT-4前奏?OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。 比GPT-3更牛的東西,還真被Open AI 搞出來了。最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    能寫小說、哲學語錄的GPT-3已經不足為奇?那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • 我用GPT-2創造了3000個寵物小精靈,完美復刻《神奇寶貝》!
    今年該模型因1750億超大參數量和超強應用,在各大媒體平臺頻頻刷屏。GPT-2,與GPT-3師出同門,都是OpenAI研發的自然語言處理模型,兩個模型最大的不同是它的參數量,GPT-2僅為15億。但這並不影響它的應用範圍。與GPT-3類似,GPT-2也可以用來寫故事、畫圖表,或者玩西洋棋。
  • 從文本直接創建圖像!OpenAI發布新人工智慧系統
    1月5日,人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • OpenAI 祭出 120 億參數魔法模型:從文本合成圖像栩栩如生,仿佛...
    能寫小說、哲學語錄的 GPT-3 已經不足為奇?那就來一個多模態『圖像版 GPT-3』。今天,OpenAI 重磅推出了最新語言模型—DALL·E,它是 GPT-3 的 120 億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!比如,在 DALL·E 模型中輸入 「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:
  • 使用神經網絡為圖像生成標題
    我們都知道,神經網絡可以在執行某些任務時複製人腦的功能。神經網絡在計算機視覺和自然語言生成方面的應用已經非常引人注目。本文將介紹神經網絡的一個這樣的應用,並讓讀者了解如何使用CNNs和RNNs (LSTM)的混合網絡實際為圖像生成標題(描述)。
  • OpenAI發布「顯微鏡」,可視化神經網絡內部結構
    OpenAI Microscope顯微鏡地址:https://microscope.openai.com/models如上圖所示,初始版本包含8個計算機視覺領域的神經網絡模型。每個神經網絡都用可視化的形式展示了一些重要神經元的內部結構。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    一個網絡稱為生成器(generator),能將噪聲作為輸入並生成樣本;另一個網絡稱為鑑別器(discriminator),能接收生成器數據和真實訓練數據,訓練得到能正確區分數據類型的分類器。這兩個網絡互相對抗。其中,生成器通過學習來產生更逼近真實數據的新樣本,用於愚弄鑑別器,反之鑑別器也需要更好地區分生成數據與真實數據。
  • 這款「狗屁不通」文章生成器火了,效果確實比GPT 2差太遠
    由於此項目的目的只是用於 GUI 開發時測試文本渲染,所以對文本的連貫性和含義要求不高,這也就是「狗屁不通」的含義了 從源碼中可以看出,生成文本的方式就是從本地讀取到的文本中按照一定規律隨機讀取,並且替換掉文本中「x」為指定的主題文本,並未使用深度學習方法。不難發現,生成的文本會存在句子不連貫、重複性高的特點。
  • "妙筆"生花:一個易用、高效的文本生成開源庫
    文本生成作為近年來自然語言處理中的熱門領域,受到了學界和工業界的廣泛關注。隨著研究的不斷深入,文本生成領域下的子任務和相應的模型越來越豐富,一些優秀的開源框架也紛紛湧現。
  • PyTorch:Bi-LSTM的文本生成
    同樣,最受歡迎的模型中的共同點是實施基於深度學習的模型。如前所述,NLP領域解決了大量的問題,特別是在本博客中,我們將通過使用基於深度學習的模型來解決文本生成問題,例如循環神經網絡LSTM和Bi-LSTM。同樣,我們將使用當今最複雜的框架之一來開發深度學習模型,特別是我們將使用PyTorch的LSTMCell類來開發。
  • GPT-GNN:圖神經網絡的生成式預訓練方法
    事實上,在NLP任務中也同樣存在著類似的問題,作者利用自然語言處理中預訓練的思想: "從大量的未標記語料庫中訓練一個模型,然後將學習到的模型轉移到只有少量標記的下遊任務",嘗試通過對圖神經網絡進行預訓練,使得GNN能夠捕獲輸入圖的結構和語義屬性,從而輕鬆地將其推廣到任何下遊任務。預訓練的目標是允許一個模型(通常是神經網絡)用預訓練的權重初始化它的參數。
  • 四個任務就要四個模型?現在單個神經網絡模型就夠了!
    你的大腦中是否有專門負責處理這些任務的神經網絡?現代神經科學對此給出了答案:大腦中的信息是跨不同的部位進行分享和交流的。大腦究竟怎樣完成這些任務只是研究的一個領域,而對於這種執行多任務的能力是怎樣產生的,我們也有一些線索——答案可能就存在於如何在神經網絡中存儲和解釋數據。