【新智元導讀】OpenAI又放大招了!今天,其博客宣布,推出了兩個結合計算機視覺和NLP結合的多模態模型:DALL-E和CLIP,它們可以通過文本,直接生成對應圖像,堪稱圖像版「GPT-3」。
比GPT-3更牛的東西,還真被Open AI 搞出來了。
最近,OpenAI官宣了一個基於Transformer的語言模型--DALL-E,使用了GPT-3的120億參數版本。取名DALL-E,是為了向藝術家薩爾瓦多-達利(Salvador Dali )和皮克斯的機器人WALL-E致敬。
圖: 從文本「一個穿著芭蕾舞裙遛狗的蘿蔔寶寶」生成的圖像示例
根據文字提示,DALL-E生成的圖像可以像在現實世界中拍攝的一樣。
同時測試表明,DALL-E也有能力對生成的圖像中的物體進行操作和重新排列,但也能創造出一些根本不存在的東西,比如一個鱷梨形狀的扶手椅:
又或者是「一個長頸鹿烏龜」:
GPT-3表明,語言可以用來指導大型神經網絡執行各種文本生成任務。而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真度的圖像。這個突破說明通過文字語言來操縱視覺概念現在已經觸手可及。
此外,它還展示了一些意想不到但有用的行為,包括使用直覺邏輯來理解請求,比如要求它為同一隻(不存在的)貓畫多幅草圖:
DALL·E:很強大,但仍有缺陷
和GPT-3一樣,DALL-E也是一個Transformer語言模型。它同時接收文本和圖像作為單一數據流,其中包含多達1280個token,並使用最大似然估計來進行訓練,以一個接一個地生成所有的token。這個訓練過程不僅允許DALL-E可以從頭開始生成圖像,而且還可以重新生成現有圖像的任何矩形區域,與文本提示內容基本一致。
研究人員測試了DALLe修改一個對象的幾個屬性的能力,以及它出現的次數。
例如,用豪豬做成的立方體vs有豪豬紋理的立方體:
有些也有語義上的歧義,比如:a collection of「glasses」sitting on the table
同時控制多個對象、它們的屬性以及它們的空間關係,對模型提出了新的挑戰。例如,考慮 "一隻刺蝟戴著紅色的帽子、黃色的手套、藍色的襯衫和綠色的褲子 "這句話,為了正確解釋這個句子,DALL-E不僅要正確地將每件衣服與動物結合起來,而且要形成(帽子,紅色)、(手套,黃色)、(襯衫,藍色)和(褲子,綠色)的關聯,不能將它們混為一談。
研究人員測試了DALLe在相對定位、堆疊對象和控制多個屬性方面的能力。例如:一個Emoji的小企鵝,帶著藍帽子,紅手套,穿著黃褲子。
雖然DALL-E確實在一定程度上提供了對少量物體屬性和位置的可控性,但成功率可能取決於文字的措辭。當引入更多的對象時,DALL-E容易混淆對象及其顏色之間的關聯,成功率會急劇下降。研究人員還注意到,在這些情況下,DALL-E對於文字的重新措辭是很脆弱的:替代的、語義等同的標題往往也不會產生正確的解釋.
而有趣的是,OpenAI 的另一個新系統 CLIP 可以與 DALL-E 聯合使用,以理解和排序問題中的圖像。
CLIP:減少對海量數據集的依賴
OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一個從網際網路上收集的4億對圖像和文本來進行訓練的多模態模型。
它可以從自然語言監督中有效地學習視覺概念,可以應用於任何視覺分類基準,只需提供要識別的視覺類別的名稱,類似於 GPT-2和GPT-3的」zero-shot learning」能力。
CLIP使用了豐富的網際網路上的與圖像配對的文本,這些數據被用來為CLIP創建一個訓練任務:通過預訓練圖像編碼器和文本編碼器來預測給定一張圖像與數據集中的一組32768個隨機採樣的文本片段中的哪些文本真正配對。然後使用結果將 CLIP 轉換為zero-shot分類器。最後,將一個數據集的所有類別轉換成文字 ,並預測文本的類別與給定圖像的最佳對應關係。
"我們發現,CLIP與GPT類似,在前期訓練中可以學習執行一系列廣泛的任務,包括物體字符識別(OCR)、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的zero-shot轉移性能進行基準測試來衡量,發現它可以與之前的特定任務監督模型相媲美。"12位OpenAI合作者關於該模型的論文中寫道。
雖然深度學習給計算機視覺帶來了革命性的變化,但目前的方法存在幾個主要問題:典型的視覺數據集的創建需要耗費大量的人力和成本,標準的視覺模型只擅長一種任務和一種任務,需要付出巨大的努力才能適應新的任務;在基準上表現良好的模型在壓力測試中的表現令人失望,這讓人們對整個計算機視覺的深度學習方法產生了懷疑。
設計 CLIP 就是為了解決計算機視覺深度學習方法中的一些主要問題:
1.昂貴的數據集:
深度學習需要大量的數據,而視覺模型傳統上採用人工標註的數據集進行訓練,這些數據集的構建成本很高,而且只能提供有限數量的預先確定的視覺概念。例如,ImageNet 數據集就需要超過25000名工作人員為22000個對象類別標註1400萬張圖像。
而相比之下,CLIP 可以從網際網路上已經公開可用的文本圖像對中學習。減少昂貴的大型標註數據集的需求已經被廣泛研究,尤其是自監督學習、對比方法、自訓練方法和生成式模型等。
2.範圍狹窄:
一個ImageNet模型擅長預測1000個ImageNet類別,但如果我們希望它執行其他的任務,就需要建立一個新的數據集,添加一個輸出,並對模型進行微調。
相比之下,CLIP可以適應執行各種各樣的視覺分類任務,而不需要額外的訓練樣本。為了將CLIP應用於一個新的任務,我們只需要將任務的視覺概念名稱 "告訴 "CLIP的文本編碼器,它就會輸出一個CLIP視覺表示的線性分類器。這個分類器的準確度通常可以和監督模型相媲美。
通過設計,該網絡可以用自然語言指導它執行大量的分類基準,而不直接優化基準的性能,類似於GPT-2和GPT-3的 "zero-shot "能力。
這是一個關鍵的變化:通過不直接優化基準,使得結果變得更有代表性:CLIP系統將這種 "robustness gap" 縮小了75%,同時在不使用任何原始的1.28M個已標註樣本的情況下,在ImageNet zero-shot上接近ResNet50的性能。
雖然測試發現 CLIP 精通多項任務,但測試也發現 CLIP 在諸如衛星地圖分類或淋巴結腫瘤檢測等專業任務上存在不足。
這一初步分析旨在說明通用計算機視覺模型所帶來的一些挑戰,並對其偏差和影響一窺究竟。研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表徵進行研究,以便加速這一領域的發展。
OpenAI首席科學家Ilya Sutskever是這篇詳細介紹CLIP的論文作者之一,他最近表示,多模態模型將在2021年成為機器學習的主要趨勢。
而谷歌AI負責人Jeff Dean也在2020年做出了類似的預測。
DALL-E和CLIP等類似的一系列生成模型,都具有模擬或扭曲現實來預測人們如何繪製風景和靜物藝術的能力。比如StyleGAN,就表現出了種族偏見的傾向。
而從事CLIP和DALL-E的OpenAI研究人員呼籲對這兩個系統的潛在社會影響進行更多的研究。GPT-3顯示出顯著的黑人偏見,因此同樣的缺點也可存在於DALL-E中。在CLIP論文中包含的偏見測試發現,該模型最有可能將20歲以下的人錯誤地歸類為罪犯或非人類,被歸類為男性的人相比女性更有可能被貼上罪犯的標籤,這表明數據集中包含的一些標籤數據存在嚴重的性別差異。
參考連結:
https://openai.com/blog/dall-e/