【CSDN 編者按】去年 OpenAI 發布了擁有 1750 億個參數的 GPT-3,而今年 OpenAI又發布了 GPT-3 上的重要突破:DALL·E & CLIP,或許這是 GPT-4 的熱身?
整理 | 鄭麗媛
AI 從上世紀 50 年代首次提出,經過幾十年的發展已愈發先進。目前 AI 客服對於人工的替代率已高達 90% 以上,GPT-2 續寫的權遊結局,似乎比原著更好,GPT-3 更是能直接把需求變成代碼,直搶程式設計師飯碗!
而剛步入 2021 年,繼「威逼」客服、作家、程式設計師之後,人工智慧非營利組織 OpenAI 昨日發布的 DALL·E 和 CLIP 兩個模型,又讓藝術家們開始頭疼了。CLIP 能根據視覺類別名稱自己分類圖像已經讓人嘆服,沒想到 DALL·E 居然可以用一句話就生成對應圖像!
CSDN 博客專家馬超(從事金融 IT 行業超十年,阿里雲 MVP、華為雲 MVP、華為 2020 年技術社區開發者之星)評價道:
DALL·E 帶給我們震撼在於這是一種跨模態的生成模型,之前不管是 pix2pix,DeepFake 還是大谷老師修復老北京的影像,AI 還只能在圖像或者文字的單模態下進行生成和模仿.跨模態模型像 B 站的彈幕和圖像的模型只能做到認知,通過彈幕理解圖像的含義,通過文字直接腦補出圖像來,之前聞所未聞,從這次 DALL·E 展示出的能力來看,其聯想能力已經接近人類四歲的兒童,而且在未來繼續擴大參數規模的情況下,還展示出 AI 的無限可能,這齣不禁讓我們想盡 AI 的邊界到底在哪?
一句話生成對應圖像的 DALL·E
DALL·E 這個名字取自藝術家薩爾瓦多·達利(Salvador Dalí)和皮克斯動畫工作室(Pixar)的《機器人總動員》 (WALL·E), 是 GPT-3 的 120 億參數版本。它將計算機視覺和自然語言處理(NLP)相結合,經過文本-圖像對數據集的訓練,即可通過給定的簡短文本生成匹配的圖像。
與 GPT-3 一樣,DALL·E 也是一種 Transformer 語言模型,以包含多達1280 個 tokens(類似於每個英文字母都是26個字母中的一個 token,而在 DALL·E 中,圖像使用 1024 個 tokens,文本最多使用 256 個 BPE 編碼 tokens)的單個數據流同時接收文本和圖像,利用最大似然法(使用概率模型,尋找能夠以較高概率產生觀察數據的系統發生樹)訓練並一個接一個地生成所有 tokens。
由文本「寫著 OpenAI 的店面」DALL·E 生成的圖像
為了測試 DALL·E 處理新概念的能力,OpenAI 研究人員還給了一些實際上並不存在的描述,例如「豎琴做成的蝸牛」和「鱷梨扶手椅」。意外的是,DALL·E可以將圖像中的物體進行操作和重新排列,把一些無關的概念以合理的方式進行組合併應用到現有圖像上。
由文本「鱷梨扶手椅」DALL·E 生成的圖像
但這種結合的成功率也需視情況而定。或許由於鱷梨的橫截面本就形似高背扶手椅,果核可看做抱枕,因此 DALL·E 生成的圖片並無違和感。可將文字描述換成「豎琴做成的蝸牛」,生成的圖片就僅僅是將蝸牛與豎琴生硬地結合在一起。
由文本「豎琴做成的蝸牛」DALL·E 生成的圖像
除此之外,經測試還發現 DALL·E 具有創建擬人化動物及物體形象,它會將某些人類的活動和衣物轉移到動物和無生命的物體上,還能以合理的方式組合不同的動物。
由文本「一個穿著芭蕾舞裙遛狗的小白蘿蔔」DALL·E 生成的圖像
由文本「一個長頸鹿做成的烏龜」DALL·E 生成的圖像
但同時,DALL·E 也存在一些不足。通過研究人員控制文字描述屬性觀測 DALL·E 所生成的圖像看來,DALL·E 對於少量的屬性表述還可以較為準確地把控,可一旦描述的屬性過多,或者出現容易混淆的措辭和顏色之間的關聯,生成正確圖片的成功率就會大幅降低。此外,DALL·E 處理描述文字的變動也不太靈活:有時用語義相同的描述替換,結果卻得不到正確的圖片了。
由文本「戴藍色帽子、紅色手套,穿綠色襯衫和黃色褲子的小企鵝表情符號」DALL·E 生成的圖像
不過,瑕不掩瑜。通過 OpenAI 對 DALL·E 進行的全方面探測,DALL·E 還具備以下幾個功能:
可以控制場景視角,將場景渲染成 3D 風格;內部和外部結構可視化;能推斷背景細節進行圖像調整;零樣本視覺推理,可根據虛擬圖像得到草圖;具備地理知識,可根據文本指示生成相應地區有關圖像。除了 DALL·E ,OpenAI 還發布了一款連接文本和圖像的多模態模型 CLIP (Contrastive Language–Image Pre-training) 。DALL·E 生成的圖片排序正是由 CLIP 決定,它將對生成的圖片進行區分,越符合文本的圖片排序越前,而這又是如何實現的呢?
零樣本學習的 CLIP
CLIP 能有效地從自然語言監督中學習視覺概念,只需提供識別的視覺類別名稱,就可將 CLIP應用於視覺分類基準,類似於 GPT-2 和 GPT-3 的「零樣本」功能。
設計團隊採用了大量可用的數據:文本和與之匹配的圖像。該數據用於為 CLIP 創建代理訓練任務:給定一幅圖像,預測在 32768 個隨機採樣的文本數據集中與哪一個片段更匹配。以下是 CLIP 框架結構圖:
CLIP 提前訓練圖像編碼器和文本編碼器,以預測數據集中哪些圖像與哪些文本相匹配;然後,利用結果將 CLIP 轉換為 zero-shot 分類器;最後,將數據集的所有類別轉換成文字 ,並預測文本的類別與給定圖像的最佳對應關係。
CLIP 的開發主要是為了解決基於深度學習計算機視覺中的一些問題:
數據集昂貴:深度學習需要大量的數據,而視覺模型一般都是在構建成本高昂的人工標記數據集上進行訓練。以 ImageNet 數據集為例,需要 25,000 多名工作人員為 22,000 個對象類別注釋 1400 萬張圖像。但 CLIP 可以從網際網路上已經公開可用的文本圖像對中學習。適用範圍狹窄:還是以 ImageNet 模型為例,雖然它可以很好地預測 1000 種 ImageNet 類別,但想要執行新的任務就需要再構建一個新的數據集並對模型進行微調。而 CLIP 可適用於執行各種視覺分類任務,而無需其他訓練樣本。實際應用不佳:據報導,深度學習系統在測試時,通常可以達到甚至超越人類的視覺基準,可一旦投入實際使用,其性能就大打折扣。這種仿佛是「基準績效」與「實際績效」之間的差異,可能是因為模型只優化了基準性能來「欺騙」大眾,就像一個臨時抱佛腳的學生,僅研究過去幾年考試中的問題去通過考試。相反,CLIP 模型可以在基準上進行評估,而不必訓練其數據,它的基準性能更接近它的實際性能。CLIP 本身是一個高效,並且靈活通用的多模態模型,但事無完美,它也存在一些局限。雖然 CLIP 在識別常見對象方面可圈可點,但面對抽象或系統性任務(計算圖像中的對象數量)或複雜的任務(計算圖像中最近的汽車的距離)時,誤差也較大。此外,CLIP 對於在訓練數據集中未涵蓋的圖像概括性較差。即使 CLIP 學習了功能強大的 OCR 系統,但面對 MNIST 數據集進行評估時,準確率只有 88%,遠低於數據集中 99.75% 的人類。最後,CLIP 的 zero-shot 分類器可能對文本或措辭較為敏感。
你怎麼看?
OpenAI 推出的這兩個模型,很快就登上了 Techmeme 的首頁,也在 Hacker News 衝上第二名,引起了許多討論。
評論1:
人類能通過少量的示例來推斷和理解一些抽象概念,但 AI 看起來似乎並不行。
評論2:
我預測 2050 年時,我們的手機將有很高的「智商」,能對周圍的世界有深刻的理解(不論是語言還是視覺方面)。
評論3:
我希望這是一個人人都能使用的工具!
OpenAI 聯合創始人&首席科學家 Ilya Sutskever 曾在吳恩達編輯的 The Batch 周刊 2020 年終特刊裡寫到:「2021 年,語言模型將開始了解視覺世界。」此次新年剛過便推出的 DALL·E 和 CLIP 也印證了他的話,同時讓人工智慧更進一步理解人類的日常概念。對此,你有什麼看法嗎?歡迎評論區留言~
參考連結:
https://openai.com/blog/dall-e/
https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/