「幹掉」程式設計師飯碗後,OpenAI 又對藝術家下手了!

2021-01-09 CSDN

【CSDN 編者按】去年 OpenAI 發布了擁有 1750 億個參數的 GPT-3,而今年 OpenAI又發布了 GPT-3 上的重要突破:DALL·E & CLIP,或許這是 GPT-4 的熱身?

整理 | 鄭麗媛

AI 從上世紀 50 年代首次提出,經過幾十年的發展已愈發先進。目前 AI 客服對於人工的替代率已高達 90% 以上,GPT-2 續寫的權遊結局,似乎比原著更好,GPT-3 更是能直接把需求變成代碼,直搶程式設計師飯碗!

而剛步入 2021 年,繼「威逼」客服、作家、程式設計師之後,人工智慧非營利組織 OpenAI 昨日發布的 DALL·E 和 CLIP 兩個模型,又讓藝術家們開始頭疼了。CLIP 能根據視覺類別名稱自己分類圖像已經讓人嘆服,沒想到 DALL·E 居然可以用一句話就生成對應圖像!

CSDN 博客專家馬超(從事金融 IT 行業超十年,阿里雲 MVP、華為雲 MVP、華為 2020 年技術社區開發者之星)評價道:

DALL·E 帶給我們震撼在於這是一種跨模態的生成模型,之前不管是 pix2pix,DeepFake 還是大谷老師修復老北京的影像,AI 還只能在圖像或者文字的單模態下進行生成和模仿.跨模態模型像 B 站的彈幕和圖像的模型只能做到認知,通過彈幕理解圖像的含義,通過文字直接腦補出圖像來,之前聞所未聞,從這次 DALL·E 展示出的能力來看,其聯想能力已經接近人類四歲的兒童,而且在未來繼續擴大參數規模的情況下,還展示出 AI 的無限可能,這齣不禁讓我們想盡 AI 的邊界到底在哪?

一句話生成對應圖像的 DALL·E

DALL·E 這個名字取自藝術家薩爾瓦多·達利(Salvador Dalí)和皮克斯動畫工作室(Pixar)的《機器人總動員》 (WALL·E), 是 GPT-3 的 120 億參數版本。它將計算機視覺和自然語言處理(NLP)相結合,經過文本-圖像對數據集的訓練,即可通過給定的簡短文本生成匹配的圖像。

與 GPT-3 一樣,DALL·E 也是一種 Transformer 語言模型,以包含多達1280 個 tokens(類似於每個英文字母都是26個字母中的一個 token,而在 DALL·E 中,圖像使用 1024 個 tokens,文本最多使用 256 個 BPE 編碼 tokens)的單個數據流同時接收文本和圖像,利用最大似然法(使用概率模型,尋找能夠以較高概率產生觀察數據的系統發生樹)訓練並一個接一個地生成所有 tokens。

由文本「寫著 OpenAI 的店面」DALL·E 生成的圖像

為了測試 DALL·E 處理新概念的能力,OpenAI 研究人員還給了一些實際上並不存在的描述,例如「豎琴做成的蝸牛」和「鱷梨扶手椅」。意外的是,DALL·E可以將圖像中的物體進行操作和重新排列,把一些無關的概念以合理的方式進行組合併應用到現有圖像上。

由文本「鱷梨扶手椅」DALL·E 生成的圖像

但這種結合的成功率也需視情況而定。或許由於鱷梨的橫截面本就形似高背扶手椅,果核可看做抱枕,因此 DALL·E 生成的圖片並無違和感。可將文字描述換成「豎琴做成的蝸牛」,生成的圖片就僅僅是將蝸牛與豎琴生硬地結合在一起。

由文本「豎琴做成的蝸牛」DALL·E 生成的圖像

除此之外,經測試還發現 DALL·E 具有創建擬人化動物及物體形象,它會將某些人類的活動和衣物轉移到動物和無生命的物體上,還能以合理的方式組合不同的動物。

由文本「一個穿著芭蕾舞裙遛狗的小白蘿蔔」DALL·E 生成的圖像

由文本「一個長頸鹿做成的烏龜」DALL·E 生成的圖像

但同時,DALL·E 也存在一些不足。通過研究人員控制文字描述屬性觀測 DALL·E 所生成的圖像看來,DALL·E 對於少量的屬性表述還可以較為準確地把控,可一旦描述的屬性過多,或者出現容易混淆的措辭和顏色之間的關聯,生成正確圖片的成功率就會大幅降低。此外,DALL·E 處理描述文字的變動也不太靈活:有時用語義相同的描述替換,結果卻得不到正確的圖片了。

由文本「戴藍色帽子、紅色手套,穿綠色襯衫和黃色褲子的小企鵝表情符號」DALL·E 生成的圖像

不過,瑕不掩瑜。通過 OpenAI 對 DALL·E 進行的全方面探測,DALL·E 還具備以下幾個功能:

可以控制場景視角,將場景渲染成 3D 風格;內部和外部結構可視化;能推斷背景細節進行圖像調整;零樣本視覺推理,可根據虛擬圖像得到草圖;具備地理知識,可根據文本指示生成相應地區有關圖像。除了 DALL·E ,OpenAI 還發布了一款連接文本和圖像的多模態模型 CLIP (Contrastive Language–Image Pre-training) 。DALL·E 生成的圖片排序正是由 CLIP 決定,它將對生成的圖片進行區分,越符合文本的圖片排序越前,而這又是如何實現的呢?

零樣本學習的 CLIP

CLIP 能有效地從自然語言監督中學習視覺概念,只需提供識別的視覺類別名稱,就可將 CLIP應用於視覺分類基準,類似於 GPT-2 和 GPT-3 的「零樣本」功能。

設計團隊採用了大量可用的數據:文本和與之匹配的圖像。該數據用於為 CLIP 創建代理訓練任務:給定一幅圖像,預測在 32768 個隨機採樣的文本數據集中與哪一個片段更匹配。以下是 CLIP 框架結構圖:

CLIP 提前訓練圖像編碼器和文本編碼器,以預測數據集中哪些圖像與哪些文本相匹配;然後,利用結果將 CLIP 轉換為 zero-shot 分類器;最後,將數據集的所有類別轉換成文字 ,並預測文本的類別與給定圖像的最佳對應關係。

CLIP 的開發主要是為了解決基於深度學習計算機視覺中的一些問題:

數據集昂貴:深度學習需要大量的數據,而視覺模型一般都是在構建成本高昂的人工標記數據集上進行訓練。以 ImageNet 數據集為例,需要 25,000 多名工作人員為 22,000 個對象類別注釋 1400 萬張圖像。但 CLIP 可以從網際網路上已經公開可用的文本圖像對中學習。適用範圍狹窄:還是以 ImageNet 模型為例,雖然它可以很好地預測 1000 種 ImageNet 類別,但想要執行新的任務就需要再構建一個新的數據集並對模型進行微調。而 CLIP 可適用於執行各種視覺分類任務,而無需其他訓練樣本。實際應用不佳:據報導,深度學習系統在測試時,通常可以達到甚至超越人類的視覺基準,可一旦投入實際使用,其性能就大打折扣。這種仿佛是「基準績效」與「實際績效」之間的差異,可能是因為模型只優化了基準性能來「欺騙」大眾,就像一個臨時抱佛腳的學生,僅研究過去幾年考試中的問題去通過考試。相反,CLIP 模型可以在基準上進行評估,而不必訓練其數據,它的基準性能更接近它的實際性能。CLIP 本身是一個高效,並且靈活通用的多模態模型,但事無完美,它也存在一些局限。雖然 CLIP 在識別常見對象方面可圈可點,但面對抽象或系統性任務(計算圖像中的對象數量)或複雜的任務(計算圖像中最近的汽車的距離)時,誤差也較大。此外,CLIP 對於在訓練數據集中未涵蓋的圖像概括性較差。即使 CLIP 學習了功能強大的 OCR 系統,但面對 MNIST 數據集進行評估時,準確率只有 88%,遠低於數據集中 99.75% 的人類。最後,CLIP 的 zero-shot 分類器可能對文本或措辭較為敏感。

你怎麼看?

OpenAI 推出的這兩個模型,很快就登上了 Techmeme 的首頁,也在 Hacker News 衝上第二名,引起了許多討論。

評論1:

人類能通過少量的示例來推斷和理解一些抽象概念,但 AI 看起來似乎並不行。

評論2:

我預測 2050 年時,我們的手機將有很高的「智商」,能對周圍的世界有深刻的理解(不論是語言還是視覺方面)。

評論3:

我希望這是一個人人都能使用的工具!

OpenAI 聯合創始人&首席科學家 Ilya Sutskever 曾在吳恩達編輯的 The Batch 周刊 2020 年終特刊裡寫到:「2021 年,語言模型將開始了解視覺世界。」此次新年剛過便推出的 DALL·E 和 CLIP 也印證了他的話,同時讓人工智慧更進一步理解人類的日常概念。對此,你有什麼看法嗎?歡迎評論區留言~

參考連結:

https://openai.com/blog/dall-e/

https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/

相關焦點

  • AI「幹掉」程式設計師後,又要對藝術家下手了
    「幹掉」程式設計師後,AI 又對藝術家下手了 DALL·E 率先在社交網絡上刷起了屏,因為人們放出了很多看起來像憑空捏造的合成圖,比如「立方體狀的豪豬」、「由烏龜變成的長頸鹿」和「豎琴狀的蝸牛」,這些就像是超現實主義畫家薩爾瓦多 · 達利在夢裡會看到的奇異造物。有意思的是,DALL·E 也正是「Dalí」和皮克斯動畫形象「WALL-E」的合成詞。
  • 黑客與普通程式設計師的十大區別 - OSCHINA - 中文開源技術交流社區
    1、黑客是程式設計師的子集2、程式設計師在解決那些原先已經被解決過的問題。而黑客通常是在嘗試解決一些新的問題。3、程式設計師是一種職業,而黑客是一種興趣。4、程式設計師的工作有很多限制,而黑客可以盡情發揮。5、程式設計師都想把自己說得更好,因為他們要推銷自己,而真正的黑客更謙虛,他們知道自己懂得還不夠多。
  • 是誰幹掉了實體店?實體店還有沒得做?
    以前琳琅滿目的街道,越來越冷清了,越來越多的實體店關閉了,是誰幹掉了實體店?幹掉實體的不是電商,就是實體自己。從銷售的角度來講,實體店和電商到底誰更難,中國人幾千年以來的消費習慣,是一手交錢,一手交貨。
  • 程式設計師都這麼無趣嗎?吃飯一個人悶頭吃完然後就呆呆看女生吃
    都說程式設計師加班多,導致在生活中缺少生活趣味,不少網友吐槽程式設計師呆板無趣。有一女網友在吃飯的時候碰到一對程式設計師,看的網友好生尷尬,吐槽稱:在公司吃飯,旁邊坐著一男一女程式設計師,女生歡快的聊天,男生則悶頭吃東西,等女生說完就有氣無力回兩句,全程都是女生在找話題聊,女生不說話,兩人就尷尬地悶頭吃。後來果然程式設計師哥們先把一盆面幹掉了,然後就呆呆坐那兒看女生吃,不玩手機不說話......。網友想問程式設計師小哥:你們平時跟妹子都是這麼相處的嗎?
  • 程式設計師節是什麼節日?1024程式設計師節怎麼來的?祝福程式設計師的話
    程式設計師節是什麼節日?1024程式設計師節怎麼來的?祝福程式設計師的話  1024是2的十次方,二進位計數的基本計量單位之一,因此每年的10月24日被大家親切稱為程式設計師節,也是一個屬於中國程式設計師的共同節日。  至於有些品牌和機構直接把1024程式設計師節佔為己有,以「1024程式設計師節」創始人、定義者自居就過分了。
  • 「火星人」馬斯克推論:世界或是被編碼而成,上帝可能是個程式設計師!
    在最近一期《濤滔不絕》中,CSDN創始人蔣濤就談到了這個話題,並引發了程式設計師的廣泛討論,你是否也曾這麼想過?所以,馬斯克是怎麼看待這個世界的?想要移民火星的男人馬斯克果然敢想,按照這個邏輯,我們的世界是什麼?手機裡面又是什麼?其實,不只是馬斯克有過類似猜想,中國道家學派代表人物莊子也曾有過類似的思考。
  • 程式設計師是什麼領?
    程式設計師應該是什麼領啊?公司發的衣服大多是短袖T恤,沒有領子啊?在現今社會很多人都會給職業分階級,什麼藍領,白領,金領應運而生。而作為高薪的程式設計師到底屬於什麼領呢?小青不禁陷入思考。如果按照薪資劃分,那麼妥妥的是白領,但是朝九晚五的生活貌似和程式設計師有極大的差距,由此判斷程式設計師肯定不是白領!
  • 夸克90後程式設計師有多潮:燙髮、潮鞋、健身、萌寵樣樣精通
    如今大批90後成為新一代程式設計師的主力,崇尚個性與自我表達的他們,開始讓程式設計師的形象變得活躍多彩。在工位上每天面對電腦屏幕10幾個小時,一個與眾不同、敲擊聲帶感的鍵盤,透露出90後想要彰顯的獨特趣味。 「很多人說程式設計師不說話,比較悶,愛穿格子襯衫,其實那都是一些刻板印象」。生於1992年的晨偉是今年應屆畢業的清華大學計算機博士,9月份正式入職阿里巴巴旗下智能搜索APP夸克的技術團隊,擔任排序算法工程師。
  • 貓咪飯碗:選用什麼材質的安全,貓咪不適用的飯碗有哪些?
    下面給大家說下,貓咪飯碗選擇也有講究。貓咪飯碗如何選擇1、千萬不要因為便宜而選擇兩種飯碗,用久之後會對貓咪身體健康產生巨大的影響:①塑料飯碗塑料在消毒燙洗的過程中會有變色、掉色圖案變淺的情況,而且塑料的性質不穩定,熱、酸可以改變塑料的性質
  • 盤點7個「顏值+才華」美女程式設計師,她竟然是世界上第一個程式設計師!
    如果你對程式設計師的印象還停留在格子衫、黑框眼鏡、公文包的男性的話,那你就太孤陋寡聞了,其實歷史上第一個程式設計師是一名女性,她是英國著名詩人拜倫的女兒。或許你也不知道,第一個從事遊戲設計和開發的女程式設計師是一個不折不扣的大美女。可能你還不知道微軟頂級華人女神比許多男性程式設計師還要厲害。
  • 95後程式設計師連日加班深夜淚奔 鐵板燒師傅為他煎了個「100分」
    首頁 > 見聞 > 關鍵詞 > 程式設計師最新資訊 > 正文 95後程式設計師連日加班深夜淚奔 鐵板燒師傅為他煎了個「100分」
  • 程式設計師如何打破 30 歲職業瓶頸?
    第二類,程式設計師-高級開發-架構師   再看個例子,H 先生,他2011年北航畢業,而後選擇創業做 SAAS 平臺當時擔任前端負責人,兩年後選擇加入搜狗成為一名高級前端工程師,後來去到了音悅臺擔任架構師,目前在一家創業公司擔任前端架構師,他職業規劃的最大亮點是在前端領域各個方向都深入見解,而後負責多條產品線的架構設計
  • 世界上最黑的物質被發明後,兩個藝術家因為顏色開撕了...
    這種材料剛被發明出來的時候,本來是準備用在天文學研究和軍事領域的,但是一個名叫Anish Kapoor的英國藝術家也從中發現了它其他方面的價值,Kapoor決定要買斷這種材料在藝術方面的使用權。這個消息出來之後,很多藝術家立馬都炸毛了。
  • 程式設計師門檻高嗎?學歷低、工資低的都想轉程式設計師,這行這麼好做?
    很多低學歷、低薪資、想轉行的人都會優先考慮程式設計師,畢竟通過培訓做程式設計師可以獲得高薪,這是很多人改變目前經濟狀況最好的辦法之一,也最行得通。這樣看來,程式設計師的門檻高嗎?似乎不那麼高。但是,轉行後呢?這些程式設計師在職場上能否真正做得好,升職加薪呢?這裡的答案是否定的。雖然程式設計師的入行門檻看起來比較低,但是想要讓自己的程式設計師職業生涯發展得好,這裡的門檻就比較高了。
  • 世界最年長程式設計師:退休後自學編程 專給老人設計遊戲
    今年83歲的若宮正子是世界上最年長的程式設計師,也被廣大網友譽為最勵志的老奶奶。10月24日,若宮正子受邀來到西安參加第二屆全球程式設計師節。對於這座古老的城市,她表示:「西安不僅是歷史文化名城,科技也非常發達。」
  • 日常生活中,存在大量調侃程式設計師的例子,程式設計師真的壓力很大嗎?
    日常生活中,存在大量調侃程式設計師的例子,程式設計師真的壓力很大嗎?「程式設計師真的壓力很大嗎?」這個問題的答案是「不一定」,需要根據具體的行業來定。在我們的日常生活中,存在大量調侃程式設計師的例子,當然也包括一些程式設計師的自嘲。
  • 軟體谷「碼農」迎來首屆1024程式設計師節|程式設計師|1024|軟體產業|軟體...
    交匯點訊 10月24日,由中國(南京)軟體谷管委會主辦的2020中國(南京)軟體谷首屆1024程式設計師節開幕,活動以「Hello Software Valley」(你好軟體谷)為核心主題,旨在依託軟體谷雙創服務中心平臺和全國17家企業及機構,打響軟體谷1024程式設計師節系列品牌,更好弘揚「數字工匠」精神,激發程式設計師創新熱情。
  • 給程式設計師的幾點建議和體會,內含程式設計師職場表情包!
    程式設計師當久了,自然而然就會產生一些心得體會,下面我就分享出來我這麼多年的一些體會,大部分也找到了一些表情配圖,快快快,來瞧一瞧哦!在現在全民學編程的潮流下,程式設計師想要成為一個優秀的、有能力程式設計師,做軟體開發的話,就來學習C/C++吧,而且學習編程的話有一個學習的氛圍跟交流圈子特別重要!手Q裙11零八;後一52零零零。想要成為更好的自己,不妨現在就開始學好編程。
  • 為什麼程式設計師那麼討厭改需求?我來說一下程式設計師發自內心的心聲
    為什麼程式設計師那麼討厭改需求?不就是改個功能就可以嗎,很簡單啊簡單什麼簡單,不簡單,最壞的情況就是,架構不支持,推翻重做。你在原型上只要動動筆就可以,前後可能不到5分鐘,我們程式設計師改的東西基本上要以天計算,按小時算的都是少的。
  • 優秀男程式設計師到公司面試被淘汰,隔天來了個女程式設計師,結果愣了!
    而在職業論壇上有這樣一則帖子,講述的是一家網際網路公司前幾天面試了很多男程式設計師,但是紛紛被pass掉了,但是隔天來了一個女生,馬上就被錄取了,進公司後看到她的業務能力愣了,而這究竟是怎麼一回事呢?  原來事情是這樣的,網友小張是一家網際網路公司的員工,最近公司某個部門在招員工,還是前端程式設計師,前幾天來應聘的都是比較優秀的男程式設計師,不過領導全被給pass掉了,認為技術不過關,但是第二天來了一個女生,當場就給了offer