文本秒生成圖像,震驚業界!詳解OpenAI兩大AI模型

2021-01-08 智東西

智東西(公眾號:zhidxcom)編譯 |子佩編輯 |Panken

智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態AI系統。

什麼是多模態系統呢?

就像人類有視覺、嗅覺、聽覺一樣,AI也有自己「眼鼻嘴」,而為了研究的針對性和深入,科學家們通常會將其分為「計算機視覺」、「自然語言處理」、「語音識別」等研究領域,分門別類地解決不同的實際問題。

每一個研究領域也可以被稱為一種模態,通常來說,多模態學習(MultiModal Learning)就是在不同的模態間構建聯繫,讓AI學會「通感」。

一、GPT-3「繼承者」:看文繪圖的DALL·E

DALL·E的名字取自藝術家Salvador Dali和皮克斯動畫片機器人總動員(WALL-E),而與GPT-3一樣,它也是一個具有120億參數的Transformer語言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。

▲Dali代表作《記憶的永恆》和機器人總動員海報。

在博客上,OpenAI也大秀了一把DALL·E的「超強想像力」,隨意輸入一句話,DALL·E就能生成相應圖片,這個圖片可能是網絡上已經存在的圖片,也可能是根據自己的理解「畫」出的。

▲輸入文本分別是:穿芭蕾舞裙遛狗的蘿蔔、牛油果形狀的扶手椅、將上部的圖片素描化

DALL·E是如何實現先理解文字,再創造圖片的呢?

那首先要從理解token開始,語言學中對token的定義是詞符,或者標記。對於英語來說,每個字母就是一個token,每一個單詞就是一個tokens。

但在NLP中,tokens並不一定代表完整的單詞,如re、ug等沒有實際意義的字母組合也算一個tokens。

在最早提出Transformer架構的論文《Attention is all you need》裡,就提到了BPE(Byte-Pair Encoding)編碼方法,簡單來說,BPE就是通過分析訓練集中每個單詞的組成,創建一個基礎詞彙表,詞彙表裡涵蓋了一定數量最常用的tokens。

模型中tokens的數量是超參數,也就是訓練模型中人為規定的。

DALL·E同時包含著BPE編碼的文本和圖像詞彙表,分別涵蓋了16384、8192個tokens。

當需要生成圖片時,它以單一數據流的形式,接收1280個文本和圖像的tokens(文本256個tokens,圖像1024個tokens),建立回歸模型。

與大多數Transformer模型一樣,DALL·E也採用自注意力機制(Self-Attention),分析文本內部的聯繫。

在DALL·E的64層自注意層中,每層都有一個注意力mask,就是為了使圖像的每個tokens都能匹配文本tokens。

OpenAI也表示,更具體的架構和詳細訓練過程會在之後的博客中公布。

二、普適的DALL·E:從改變物體關係到創造「不存在」

比起長篇累牘地描述自己模型的優越性,OpenAI則是用大量實測案例證明了自己。

1、改變單個物體的某個屬性

如動圖所示,我們可以通過簡單地改變按鈕選項,將鍾改為花盆,再將綠色改為黃色,再將三角形改為正方形。

▲原輸入文本:三角形綠色的鐘

2、同時改變多個物體以及其位置關係

將上方的物塊改成書,再將物體的上下疊放關係改成左右擺放。

當一句話含有多個主體時,例如「紅色的物塊放在綠色的物塊上面」,DALL·E需要分辨出這兩個物塊是兩個不同的物體,且他們之間的位置關係是上下疊放。

但OpenAI的研究人員也承認,隨著輸入文本中描述主體的增多和關係的複雜,DALL·E生成的圖像會更不準確。

▲輸入文本:一堆立方體,紅色的立方體在綠色立方體的頂部,綠色立方體在中間,藍色立方體在底部。

3、可視化透視與背景

如動圖所示,將特寫圖改成前視圖,將背景從草地改成山上。

▲原輸入文本:特寫圖下,在草地的水豚

除了二維圖像理解,DALL·E也能將某些類型的光學畸變(Optical Distortions)應用到具體場景中,展現出「魚眼透視」或「球形全景態」圖等效果。

4、內外部結構

▲輸入文本:核桃橫截面圖

5、上下文推理

將文本目標「翻譯」成圖像這個問題,是沒有唯一答案的,且語言中常含有字面所沒有的引申義。

如「日出時,坐在田野上的水豚的繪畫像」這一文本目標,其中並沒有提到水豚的陰影,但根據經驗我們也能知道,日出時,水豚必然會有由於陽光照射產生陰影。

因此,DALL·E就需要通過Transformer中的上下文推理,通過自己的「經驗」,得到這一結論。

▲輸入文本:日出時,坐在田野上的水豚的繪畫像。

6、不存在的物品

DALL·E還具有將完全不同的物品合成起來的能力,創造一些現實世界不可能出現的物體。

▲輸入文本:豎琴狀的蝸牛

三、「zero-shot」踐行者:按詞分圖的CLIP

如果說DALL·E是GPT-3在圖像領域的延伸,那CLIP就是主打「zero-shot(零樣本)」,攻破視覺領域的深度學習方法的三大難題。

1、訓練所需大量數據集的採集和標註,會導致的較高成本。

2、訓練好的視覺模型一般只擅長一類任務,遷移到其他任務需要花費巨大成本。

3、即使在基準測試中表現良好,在實際應用中可能也不如人意。

對此,OpenAI聯合創始人Ilya Sutskever曾發文聲稱,語言模型或是一種解法,我們可以通過文本,來修改和生成圖像。

基於這一願景,CLIP應運而生。

CLIP全稱是Contrastive Language-Image Pre-training,根據字面意思,就是對比文本-圖像預訓練模型,只需要提供圖像類別的文本描述,就能將圖像進行分類。

怎麼分?為什麼能分?

CLIP靠的就是預訓練階段,OpenAI從網際網路中收集的4億個文本-圖像對。接著,憑著與GPT-2/3相似的「zero-shot」設計,CLIP在不直接針對基準進行優化的同時,表現出優越的性能:魯棒性差距(robustness gap)縮小了75%,性能和深度殘差網絡ResNet50相當。

也就是說,CLIP無需使用ResNet50同樣大的訓練樣本,就達到了原始ResNet50在ImageNet數據集上的精確度。

在眾多數據集上,CLIP都有著可以與ResNet50升級版ResNet101媲美的精度,其中ObjectNet數據集代表模型識別物體不同形態和背景的能力,ImageNet Rendition和ImageNet Sketch代表模型識別抽象物體的能力。

雖然二者在ImageNet測試集上的表現相差無幾,但非ImageNet設置更能代表CLIP優秀的泛化能力。

為了識別出未曾見過的類別(圖像或文本),Zero-shot這一概念可以追溯到十年前,而目前計算機視覺領域應用的重點是,利用自然語言作為靈活的預測空間,實現泛化和遷移。

在2013年,史丹福大學的Richer Socher教授就曾在訓練CIFAR-10的模型時,在詞向量嵌入空間中進行預測,並發現該模型可以預測兩個「未見過」的類別。

剛剛登上歷史舞臺、用自然語言學習視覺概念的CLIP則帶上了更多現代的架構,如用注意力機制理解文本的Transformer、探索自回歸語言建模的Virtex、研究掩蔽語言建模的ICMLM等。

四、詳細解析,CLIP的「足」與「不足」

在對CLIP有一個基本的認識後,我們將從四個方面詳細剖析CLIP。

1、從CLIP流程,看三大問題如何解決

簡單來說,CLIP的任務就是識別一張圖像所出現的各種視覺概念,並且學會它的名稱。比如當任務是對貓和狗的圖片進行分類,CLIP模型就需要判斷,目前處理的這張圖片的文字描述是更偏向於「一張貓的照片」,還是一張狗的照片。

在具體實現上,有如下流程:預訓練圖像編碼器和文本編碼器,得到相互匹配的圖像和文本,基於此,CLIP將轉換為zero-shot分類器。此外,數據集的所有類會被轉換為諸如「一隻狗的照片」之類的標籤,以此標籤找到能夠最佳配對的圖像。

在這個過程中,CLIP也能解決之前提到的三大問題。

1、昂貴的數據集:25000人參與了ImageNet中1400萬張圖片的標註。與此相比,CLIP使用的是網際網路上公開的文本-圖像對,在標註方面,也利用自監督學習、對比方法、自訓練方法以及生成建模等方法減少對人工標註的依賴。

2、只適用於單一任務:由於已經學會圖片中的各種視覺概念,所以CLIP可以執行各種視覺任務,而不需要額外的訓練和調整。如下也展示了CLIP模型識別各類型圖像中視覺概念,無論是食物、場景還是地圖,都是有不錯的表現。

3、實際應用性能不佳:基準測試中表現好的模型在實際應用中很可能並沒有這麼好的水平。就像學生為了準備考試,只重複複習之前考過的題型一樣,模型往往也僅針對基準測試中的性能進行優化。但CLIP模型可以直接在基準上進行評估,而不必在數據上進行訓練。

2、CLIP的「足」:高效且靈活通用。

CLIP需要從未經標註、變化多端的數據中進行預訓練,且要在「zero-shot」,即零樣本的情況下使用。GPT-2/3模型已經驗證了該思路的可行性,但這類模型需要大量的模型計算,為了減少計算量,OpenAI的研究人員採用了兩種算法:對比目標(contrastive objective)和Vision Transformer。前者是為了將文本和圖像連接起來,後者使計算效率比標準分類模型提高了三倍。

▲CLIP模型在準確率和處理圖像大小上都優於其他兩種算法。

由於CLIP模型可以直接從自然語言中學習許多視覺概念,因此它們比現有的ImageNet模型更加靈活與通用。OpenAI的研究人員在30多個數據集上評估了CLIP的「zero-shot」性能,包括細粒度物體分類,地理定位,視頻中的動作識別和OCR(光學字符識別)等。

下圖也展示了12種模型在27種數據集準確率和處理圖像大小的比較。CLIP-ViT和CLIP-ResNet兩類CLIP方法都遙遙領先。

3、CLIP的「不足」:複雜任務仍有差距

儘管CLIP在識別常見物體上表現良好,但在如計算圖像中物品數量、預測圖片中物品的位置距離等更抽象、複雜的任務上,「zero-shot」CLIP表現僅略勝於隨機分類,而在區分汽車模型、飛機型號或者花卉種類時,CLIP也不好。

且對於預訓練階段沒有出現過的圖像,CLIP泛化能力也很差。例如,儘管CLIP學習了OCR,但評估MNIST數據集的手寫數字上,「zero-shot」CLIP準確率只達到了88%,遠低於人類在數據集中的99.75%精確度。最後,研究人員發現,CLIP的「zero-shot」分類器對單詞構造或短語構造比較敏感,但有時還是需要試驗和錯誤「提示引擎」的輔助,才能表現良好。

4、CLIP未來:算法公正仍需努力

研究人員也在博客中提到,CLIP更大的潛力是允許人們設計自己的分類,無需使用特定任務的訓練數據。因為分類的定義方法會影響模型的性能和偏差。

如果CLIP中添加的標籤包括Fairface種族標籤(FairFace是一個涵蓋不同人種、性別的面部圖像數據集)和少數負面名詞,例如「犯罪」,「動物」等,那麼很可能大約32.3%年齡為0至20歲的人像會被劃分到負面類別中,但在添加「兒童」這一標籤後,負面類別的比例大約下降到8.7%。

此外,由於CLIP不需要針對特定任務訓練數據,所以能夠更輕鬆地完成一些任務。但這些任務會不會涉及到特定的隱私和監視風險,需要進一步的研究。

結語:模型很厲害,監管需謹慎

無論是DALL·E還是CLIP,都採用不同的方法在多模態學習領域跨出了令人驚喜的一步。

但OpenAI的研究人員也反覆強調,越強大的模型一旦失控,後果也越加可怕,所以兩個模型後續的關於「公平性」、「隱私性」等問題研究也會繼續進行。

今後,文本和圖像的界限是否會進一步被打破,我們能否能順暢地用文字「控制」圖像的分類和生成,在現實生活中將會帶來怎樣的改變,都值得我們期待。

來源:OpenAI

相關焦點

  • 文本秒生成圖像,震驚業界,詳解OpenAI兩大AI模型
    編譯 | 子佩編輯 | Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派
  • 文本秒生成圖像,震驚業界——詳解OpenAI兩大AI模型
    編譯|智東西  子佩編輯|Panken智東西1月7日消息,2021開年,頂著地表最強語言模型GPT-3的光環,OpenAI在自然語言處理領域一路高歌猛進,於昨日推出兩個跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基於文本生成圖像,後者則可以基於文本對圖片進行分類,兩者都意在打破自然語言處理和計算機視覺兩大門派「涇渭分明」的界限,實現多模態
  • OpenAI 發布兩個 GPT-3 模型,圖像匹配文本 CLIP 和 文本生成圖像...
    因此,OpenAI 和其它地方的研究者試圖將圖像與文本結合起來,讓 AI 更好地理解人類日常事物的概念。CLIP 和 DALL·E 試圖從兩個不同的方向解決這一問題。CLIP,「另類」的圖像識別目前,大多數模型學習從策劃好的數據集的帶標籤的示例中識別圖像,而 CLIP 則是學習從網際網路獲取的圖像及其描述中識別圖像——即通過一段描述而不是「香蕉」、「蘋果」這樣的單詞標籤來認識圖像。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • OpenAI推出DALL-E模型,一句話即可生成對應圖像
    今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。 比GPT-3更牛的東西,還真被Open AI 搞出來了。最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。
  • OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有...
    那就來一個多模態『圖像版GPT-3』。今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!比如,在DALL·E模型中輸入「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:輸入「鱷梨形狀的扶手椅」,就是這樣:甚至輸入「含OpenAI字樣的店鋪」,它也能成生成多種設計圖DALL·E這項神技能衝上了各大社交平臺的熱搜。
  • OpenAI發布兩個GPT-3模型:神經網絡CLIP和文本生成圖像DALL·E
    Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
  • OpenAI 祭出 120 億參數魔法模型:從文本合成圖像栩栩如生,仿佛...
    那就來一個多模態『圖像版 GPT-3』。今天,OpenAI 重磅推出了最新語言模型—DALL·E,它是 GPT-3 的 120 億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!比如,在 DALL·E 模型中輸入 「穿芭蕾舞短裙、正在遛狗的蘿蔔寶寶」,它就可以生成這樣一張圖片:
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    這不,OpenAI 最近連發大招,提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。OpenAI 的新工作引起了 AI 圈的一陣歡呼。Coursera 創始人、史丹福大學教授吳恩達也表示祝賀,並選出了自己喜歡的「藍色襯衫 + 黑色長褲」AI 設計。
  • 多模態 AI 系統?從文本直接創建圖像!OpenAI發布新人工智慧系統
    1月5日,人工智慧(AI)研究組織OpenAI重磅推出了最新的語言模型DALL·E和圖像識別系統CLIP。這兩個模型是OpenAI第三代語言生成器的一個分支。兩種神經網絡都旨在生成能夠理解圖像和相關文本的模型。
  • OpenAI發布120億參數圖像版GPT-3
    1月5日,剛剛開工的OpenAI同時發布了兩個與 GPT 有關的文本-圖像工作: DALL·E:一個利用文本-圖像數據集,有著120億參數的「GPT-3」,可以根據文本生成各種各樣的圖像; CLIP:可以通過自然語言的監督來有效學習視覺概念,只需要提供要識別的視覺類別名稱,利用CLIP便能夠做任意的視覺分類,類似於GPT-2和GPT
  • 如何0代碼、快速定製企業級NLP模型?百度工程師詳解技術選型與模型...
    :文本分類,文本匹配,序列標註,文本生成。文本蘊含任務輸入的是兩段文本,需要判斷兩段文本之間的關係(包含關係、對立關係、中立關係等),屬於句對分類。文本匹配假設輸入文本為x,輸出標籤為y,如果x是兩段文本(x1、x2),Y表示二者的相似度,則可抽象為文本匹配問題。如圖,x1與x2的意思是非常相似的,所以標籤y是1。
  • 十個生成模型(GANs)的最佳案例和原理 | 代碼+論文
    更多信息博客:https://blog.openai.com/generative-models/代碼:https://github.com/openai/imitation3、指馬為斑馬用圖像生成圖像,這也是生成網絡的一個有趣應用。
  • Facebook AI 年度總結來啦
    在基於哈希標籤的圖像識別的研究中,我們創造性地利用現有的非傳統標籤來生成大量訓練數據集,這些數據集裡面基本上是自標記數據,包括一組 35 億張的 Instagram 公共圖像。該項目建議用戶提供的哈希標籤可以充當數據標籤,將現有的圖像轉換為弱監督訓練示例。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    >>查看詳情ai.baidu.com/tech/face/darkcircles 人臉 3D 虛擬形象生成能力開放邀測根據用戶上傳的自拍圖,生成臉型、五官分布相似的人臉模型基底內容審核平臺:不斷優化文本、圖像審核能力,持續豐富審核維度、提升識別精度 文本審核:模型全面升級,準確率+10%對涉黃、涉政、暴恐、辱罵、廣告、灌水6個維度的模型進行閾值調優和效果優化,提升模型在社交、資訊、遊戲、電商等典型場景下的識別精度,例如:廣告模型的召回率提升至97%以上
  • 文本匹配模型TextMatching
    寫在前面本次分享一篇NLP文本匹配的經典文章,主要思路是借鑑圖像識別的思路來解決NLP文本匹配問題,畢竟計算機視覺技術的發展在當時異常迅猛。背景文本匹配廣泛用於搜尋引擎、問答系統、信息流相關文章推薦等場景中,目的是為了在文本庫中找出與目標文本類似或相關的文本。本文即將介紹的TextMathcing模型是一種端到端的文本匹配方法,將計算機視覺領域圖像識別任務的解決方案思路引入文本匹配模型中,讓我們一起來看看作者是如何設計和實現的。2.
  • 由馬斯克發起創辦的AI實驗室發布新型圖像生成器
    OpenAI培訓出了一款名為Dall-E的軟體,可以從短文字標題生成圖像。它演示了AI如何製作鱷梨和戴著芭蕾舞短裙的蘿蔔蘿蔔形狀的扶手椅。OpenAI對稱為Dall-E的軟體進行了培訓,可以從一個短文字生成圖像。它專門使用了在網際網路上找到的包含120億張圖像及其標題的數據集。
  • Waymo利用AI生成攝像頭圖像 用於自動駕駛仿真
    蓋世汽車訊 據外媒報導,日前,Waymo表示開發了新方法SurfelGAN,利用自動駕駛汽車收集的傳感器數據,通過AI生成用於仿真的攝像頭圖像。SurfelGAN使用紋理映射表面元素(surface elements,簡稱surfel)重建場景和攝像頭視角,以獲取位置和方向。