過去的2020年,人工智慧研究組織OpenAI打造的1750億參數文本生成器GPT-3火爆全球。用它撰寫的博客文章成功欺騙了很多人類讀者。不少業內人士認為,GPT-3對AI行業具有顛覆力量。可以看到,自然語言處理的神經網絡規模越來越大,功能也越來越豐富。
當地時間2021年1月5日,OpenAI又放出大招,在官方博客公布最新人工智慧神經網絡「DALL·E」。OpenAI稱其可以通過自然語言文本直接生成對應圖像,意味著「通過語言文字操縱視覺概念現在已經觸手可及。」
OpenAI 的這項最新成果引來不少AI大牛的關注。Coursera 創始人、史丹福大學教授吳恩達就在社交媒體表示祝賀,還選出一則他認為「非常酷」的OpenAI文字生成圖像示例——由AI生成的藍色襯衫搭配黑色長褲圖像。
吳恩達對OpenAI表示祝賀。據OpenAI介紹,DALL·E基於120億參數版本的GPT-3模型,使用文本-圖像對的數據集,能夠通過文字描述生成圖像。OpenAI研究人員發現,DALL·E有一系列不同功能,例如創建動物或物體的擬人化版本、以合理的方式組合不相關的概念、文字渲染以及對已有圖像進行變換等等。「DALL·E」的名字來自藝術家薩爾瓦多·達利(Salvador Dali )和皮克斯的機器人WALL-E。
從文本「穿著芭蕾舞裙的蘿蔔寶寶在遛狗」生成的圖像。在他們給出的第一批示例裡,文本「穿著芭蕾舞裙的蘿蔔寶寶在遛狗」被擬人化地呈現在圖像上。類似的例子還有「一隻模仿烏龜的長頸鹿」、「一杯被戀愛衝昏頭腦的波霸奶茶」等。從這些案例中,研究人員發現,DALL·E能夠將人類活動和衣物,甚至情緒遷移到動物和無生命物體上。
由文字生成的長頸鹿和奶茶圖像DALL·E的第二個功能是以合理的方式組合不相關的概念。譬如,「一把牛油果形狀的扶手椅」,這一天馬行空的描述,也被DALL·E以看似合理的方式呈現在圖像中。
從文本「一把牛油果形狀的扶手椅」生成的圖像。第三大功能更為實用——文字渲染。研究人員發現,DALL·E能夠在圖像中呈現文字,並使文字的字體風格適應周圍環境。不過,這類功能只能在少量字符下使用,輸入的字數越多,成功率越低。
從文本「一家門前寫有『OPENAI』的商店」生成的圖像。除了以上這些功能,DALL·E還可以對動物照片進行多種圖像變換。下圖就是它為同一隻(不存在的)貓畫的多幅草圖。
從文本「上面一排一樣的貓,下面是它們的草圖」 生成的圖像。2020年6月,Open AI發布大型生成式語言模型GPT-3,全稱Generative Pre-training Transformer-3。通過對不同的書面材料集與長篇連載文本的預訓練,GPT-3獲取了大量知識,有 1750 億參數,遠超此前類似語言模型,參數量較2019年2月發布的GPT-2高兩個數量級。自發布之日起,GPT-3因強大功能和令人驚嘆的測試結果備受關注。它可以實現的功能包括:輸入一句自然語言後,模型自動完成編程;對模型描述一種病症,它可以指出是什麼疾病並開出藥方;甚至詢問一些關於人生信仰的問題,模型也可以做出回答。
從專注文本任務的GPT-3到最新的DALL·E,OpenAI表示:GPT-3證明了語言可以指導大型神經網絡執行各種文本生成任務;而Image GPT表明,同樣類型的神經網絡也可以用來生成高保真的圖像。「這些發現說明,通過語言文字操縱視覺概念現在已經觸手可及。」
OpenAI成立於2015年,是一家以研發通用人工智慧為目標的公司。公司官網稱,其使命是確保通用人工智慧(AGI),即一種高度自主且在大多數具有經濟價值的工作上超越人類的系統,將為全人類帶來福祉。
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)