CHUNFANG:大家最近在聊的熱門詞兒 DALL·E 是什麼?具備什麼功能?
大錚:DALL·E 能按照文字的描述,畫出十分自然的圖像。
目前的模型對於選詞比較敏感,官方釋出的例子是類似完形填空的形式,給句子中的名詞位置挖了空,並提供了候選的詞彙。
我們選擇了一個擬物的句子來展示DALL·E的能力。我們來看幾個例子:
第一個句子是:「一個長得像豬的鬧鐘」。
於是,DALL·E 生成了這樣的圖片:
在這裡我們看到了一件有意思的事情:對於鬧鐘,手提包這些生活中本身就有各種形式的物體,DALL·E會生成形狀各異的物體,且都很好得捕捉到了物體本身的特性。比如鬧鐘的錶盤和手提包的背帶。而我們卻沒有看到長得像桃子的皮質扶手椅,DALL·E在這裡採用的外觀特性是桃子特有的粉色。除了擬物,DALL·E 可以做的還有更多,畫油畫,設計服裝,布置房間,畫emoji,等等。mixlab對此有更多介紹,或者你可以直接在openAI的官網試一試。https://openai.com/blog/dall-e/
大錚:DALL·E不是一個架空的作品,Openai在去年發布了GPT-3(見跨模態專欄第一期)和Image GPT兩個模型,各自分別能完成多種類的文本任務以及補全圖像中的空缺部分。DALL·E的模型在技術上來講和GPT-3應該是大同小異的,同樣採用了Transformer模型。因此這個作品更像是在秀肌肉(當然我得承認肌肉線條非常優美)。DALL·E有120億的參數,但和GPT-3的1750億相比相形見絀,但這不是因為Openai沒有這個財力去訓練一個更大的模型,而可能是收集能夠用來的訓練的「圖片-文本」對的成本很高(Openai為此收集了4億個「圖片-文本」對,文章的作者在Reddit的問答匯總也提到「這大概是最困難的部分」),遠沒有收集大量文本來的容易,而愈大的模型意味著愈大的訓練樣本數量。大錚:在介紹DALL·E時我就驚訝於ta能夠很聰明地捕捉到每個事物的特性,並且合理地組織在了一起。這個能力在之前一直被認為需要更多的人類常識的參與,光給模型看一大堆樣本是做不到的。但事實上DALL·E做的很好,仿佛是真的理解了我們的真實世界。大錚:當然哈哈哈。因為之前就說這是一項秀肌肉的工作,即使這些例子都是精挑細選出來的,但只要花點時間還是能夠找出一些沒做對的合成圖像。CHUNFANG:還有哪些關於DALL·E有趣的討論?→ 它生成來美麗的紫色路標。我建議我們將所有路標更改為紫色!→ 我們用深度學習發現了魔術。即使知道它是如何工作的,它仍然像是魔術。「給我一把像牛油果一樣的椅子。不,比這還要毛絨絨的……」專欄作者:大錚
復旦大學 | 計算機應用技術在讀博士
研究:機器學習、深度學習、媒體大數據分析