OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E

2021-01-08 東方財富網

Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。

其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。

「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。

OpenAI擴展的GPT-3兩個新模型,結合了NLP和圖像識別,使其人工智慧更好地理解日常概念。

(文章來源:鈦媒體)

相關焦點

  • GPT-3今年的首次升級,讓吳恩達、Keras之父等大佬紛紛叫好!
    也就是說,還需要一個網絡CLIP,來對它生成的這些作品進行排名、打分。越是CLIP看得懂、匹配度最高的作品,分數就會越高,排名也會越靠前。這種結構,有點像是利用生成對抗文本,以合成圖像的GAN。不過,相比於利用GAN擴大圖像解析度、匹配圖像-文本特徵等方法,CLIP則選擇了直接對輸出進行排名。
  • 「幹掉」程式設計師飯碗後,OpenAI 又對藝術家下手了!
    目前 AI 客服對於人工的替代率已高達 90% 以上,GPT-2 續寫的權遊結局,似乎比原著更好,GPT-3 更是能直接把需求變成代碼,直搶程式設計師飯碗!而剛步入 2021 年,繼「威逼」客服、作家、程式設計師之後,人工智慧非營利組織 OpenAI 昨日發布的 DALL·E 和 CLIP 兩個模型,又讓藝術家們開始頭疼了。
  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型
    智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • 全面解讀用於文本特徵提取的神經網絡技術:從神經概率語言模型到...
    選自arXiv作者:Vineet John機器之心編譯參與:吳攀、李亞洲、蔣思源文本特徵提取是自然語言處理的核心問題之一,近日,加拿大滑鐵盧大學的 Vineet John 在 arXiv 發布了一篇關於用於文本特徵提取的神經網絡技術的綜述論文。機器之心對該論文進行了編譯介紹,論文原文可點擊文末「閱讀原文」查閱。
  • 五行代碼玩轉GPT-2,新加坡高中生開源輕量級GPT-2「客戶端」
    魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAIOpenAI會講故事的文本生成模型GPT-2,現在有了更易用的封裝版本。輕鬆上手,輕量級,速度快。這就是這隻名叫gpt2-client的包裝器的突出特性。
  • 關於生成式對抗網絡(GAN) 還有這些開放性問題尚未解決
    GAN在圖像之外的應用主要集中在三個領域:1)文本:文本的離散性使得應用GAN變得困難。這是因為GAN依賴於將信號從鑑別器通過生成的內容反向傳播給生成器。有兩種方法可以解決這個問題。首先,GAN只對離散數據的連續表示發揮作用;二是利用實際的離散模型,嘗試用梯度估計的方法訓練GAN。其他更複雜的處理方法也存在,但就我們所知,它們都沒有產生與基於可能性的語言模型具有競爭性的結果。
  • 今日Paper|TRANSFORMER結構;圖像到圖像翻譯;缺失標註目標檢測解決...
    目錄REFORMER:一個高效的TRANSFORMER結構具有文本指導的圖像到圖像的翻譯解決背景重校準損失下的缺失標註目標檢測問題MLFcGAN:基於多級特徵融合的條件GAN水下圖像顏色校正 基於跨模態自我注意網絡學習的視頻問題生成 REFORMER:一個高效的TRANSFORMER結構
  • Facebook 用神經網絡矯正扭曲的地平線
    當用戶進入全景照片移動手機和在屏幕上縮放觀看的時候,程序會不停地做這樣的全套計算。這樣,原來的用戶體驗上不會有什麼可感知的變化,卻實現了千萬甚至上億像素的高解析度全景圖像顯示。用於全景照片的深度神經網絡用戶公開上傳到 Facebook 的上千萬張全景照片形成了一個強有力的新數據集,Facebook 的研發人員們也就可以利用這個數據集改善自家的產品。
  • 網易有道上線神經網絡翻譯質量媲美英語八級
    人工智慧改變翻譯讓翻譯更「聰明」深度學習是推動當前人工智慧熱潮最關鍵的技術,它首先在圖像、音頻等感知領域獲得了巨大成功,目前在語言方面的應用也獲得了長足的進展。而神經網絡翻譯就是深度學習在機器翻譯領域的具體應用。
  • 它正在學習根據文字生成...
    在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發公眾的遐想。 雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,並且成功地讓人們相信這是人類的創作。但是,它在同人類對話時還是顯得非常「幼稚」。
  • 今日Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等
    大規模的機器閱讀任務將文檔檢索(查找相關文章)與機器理解文本(識別這些文章的答案範圍)的挑戰結合在一起。作者的方法將基於bigram哈希和TF-IDF匹配的搜索組件與經過訓練以檢測Wikipedia段落中的答案的多層遞歸神經網絡模型相結合。
  • 【神經網絡會夢到電子羊嗎?】「匹配模式」暴露神經網絡致命缺陷
    今天,只要你生活在網際網路的世界,你就可能與神經網絡交互。神經網絡是一種機器學習算法,從語言翻譯到金融建模等各種應用,神經網絡都可以發揮作用。它的專長之一是圖像識別。谷歌、微軟、IBM、Facebook等科技巨頭都有自己的照片標籤算法。但即使是頂尖的圖像識別算法,也會犯非常奇怪的錯誤。
  • 文本挖掘實操|用文本挖掘剖析54萬首詩歌,我發現了這些
    以下分別是清洗後的詩歌數據統計結果和部分樣例:針對上述數據,筆者在本文中主要有兩個大目標:構建一個包含熱門題材標籤的詩歌語料庫,用於後續的詩歌題材分類和詩歌生成任務;基於上述詩歌語料庫的各類文本挖掘和語義分析,以期得到有趣味的發現。
  • 圖像識別與檢測挑戰賽冠軍方案出爐,基於偏旁部首識別 Duang 字
    以下便是在這項比賽中分別負責識別和檢測任務的中科大學生張建樹和朱意星對比賽方案的描述,對於第三個賽道,他們則是結合了識別和檢測的方案。此次比賽中,主辦方提供 20000 張圖像作為數據集。其中 50% 作為訓練集,50% 作為測試集。
  • 清華唐傑:GPT-3表示能力已經接近人類,但它有一個阿喀琉斯之踵
    回顧機器學習的發展歷程,首先想到的就是很多分類模型,比如決策樹,貝葉斯、神經網絡……最左邊是分類模型、序列模型、概率圖模型,往右一點是最大化邊界,深度學習,循環智能,隨後是強化學習、深度強化學習,以及最近常提及的無監督學習。機器思考VS人類思考機器學習發展到現在,離認知到底還有多遠?
  • 從特徵檢測器到視覺轉換器:卷積神經網絡的時代到此結束了嗎?
    卷積神經網絡(CNN)存在的問題在深入研究視覺轉換器的運行方式之前,釐清卷積神經網絡的缺點和根本缺陷很有必要。首先,卷積神經網絡無法編碼相對空間信息。也就是說,它僅關注於檢測某些特徵,而忽略了相對空間位置。上面兩幅圖像都會被識別為人臉,因為卷積神經網絡只關注輸入圖像中是否存在某些特徵,而忽略了它們相對於彼此的位置。