AI「幹掉」程式設計師後,又對藝術家下手了

2021-01-11 網易

  

  

幾十年前,柯達說出了那句經典的廣告語,「你負責按快門,剩下的交給我們」。在未來,AI 興許也會打起類似的廣告,「你什麼都不用幹,剩下的交給我們」。

  人工智慧領域缺錢,但這兩個月來,他們不缺「好消息」。

  Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白質結構預測 AI——AlphaFold 2,為困擾了生化學界 50 年的難題提供了解決思路;接著又發論文介紹「進階版 AlphaGo」——MuZero,這個 AI 能在完全不知道棋局規則和人類知識的情況下,自己摸索,決策,並贏棋。

  2021 年的第一周還沒過去,AI 就再次向人類發起了「挑釁」。

  AI 研究機構 OpenAI,繼去年部分開放了 AI 模型 GPT-3 並引爆整個科技圈之後,又於近期連發了 DALL·E 和 CLIP 這兩個連接文本與圖像的神經網絡。它們剛一面世,就點燃了整個 AI 社區。因為人們發現有了這些神經網絡,就能通過自然語言操縱視覺概念,比如,你輸入「一把牛油果造型的扶手椅」,它們就能通過圖像合成,「憑空捏造」出一系列的目標圖像。

  

  什麼是人工智慧的未來?《麻省理工科技評論》認為就是「那把牛油果造型的扶手椅」,因為 AI 又往「構建多模態 AI 系統」這個長期目標又邁近了一大步。

  「幹掉」程式設計師後,AI 又對藝術家下手了

  DALL·E 率先在社交網絡上刷起了屏,因為人們放出了很多看起來像憑空捏造的合成圖,比如「立方體狀的豪豬」、「由烏龜變成的長頸鹿」和「豎琴狀的蝸牛」,這些就像是超現實主義畫家薩爾瓦多·達利在夢裡會看到的奇異造物。有意思的是,DALL·E 也正是「Dalí」和皮克斯動畫形象「WALL-E」的合成詞。

  

  豎琴狀的蝸牛

  DALL·E 是 OpenAI 基於 GPT-3 開發的一種「用字生圖」的 AI。GPT-3 本質上是一個自然語言處理(NLP)模型,機器就是依靠 NLP 理解了我們平時說的「人話」。在 1750 億參數量基礎上的 GPT-3,展現出了驚人的翻譯、問答和文本填空能力,寫出來的新聞甚至通過了圖靈測試,人們分辨不出是人還是機器寫的。

  GPT-3 可擴展性非常強大,甚至可以用在無代碼開發領域。無代碼就是就是不用敲代碼也可以直接生成程序,而 GPT-3 就是強大的無代碼開發平臺,只要對它輸入你想要什麼樣的網頁或者 app,它就能幫你直接生成。因此,業內認為基層碼農將會被 AI「幹掉」。

  而 DALL·E 是 GPT-3 的一個小版本,使用了 120 億個參數。它使用的是「文本-圖像對」的數據集,而非像 GPT-3 那樣廣泛的數據集。「從原理上來看,它應該就是 GPT-3 在文本合成圖像方向上的擴展版本。」Keras 創始人 François Chollet 表示。

  DALL·E 可以利用自然語言從文字說明中「捏造」圖像,就像 GPT-3 創建網站和寫故事一樣。DALL·E 生成複雜圖像的表現,讓人驚喜,比如下面這則包含多個要素的目標文本:「一隻戴著紅帽子、黃手套、藍襯衫和綠褲子的刺蝟」。

  要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且還不能混淆它們。

  

  這張圖顯示了 DALL·E 掌握了理解相對定位、堆疊對象和控制多個屬性方面的能力|OpenAI

  因為足夠強大的 NLP 底層,DALL·E 還能執行多種圖像到圖像的翻譯任務,比如「參照上面的貓在下面生成草圖」、「畫出和上面一樣的茶壺,並在茶壺上寫上『GPT』」等等。除此之外,DALL·E 也能理解地理事實,生成讓人信服的「中國食物的圖片」,它甚至也能理解「時間」,畫出從 20 年代起發明的電話,甚至聯想未來的手機。

  

  中國食物

  

  各個年代的手機

  另外,它還能根據文字指令「看日出的水豚鼠」,生成諸如波普風格、超現實主義風格、浮世繪風格等不同藝術風格的畫作,還能渲染出各個角度下美洲獅的細節。

  

  看日出的水豚鼠

  Coursera 創始人、史丹福大學教授吳恩達還特別對 OpenAI 表示祝賀,並挑選了自己最喜歡的「藍色襯衫 + 黑色長褲」的 AI 生成圖。DALL·E 能不能成為藝術家不敢說,但成為 AI 大神的著裝參謀,綽綽有餘。

  

  吳恩達的 Twitter

  一個生成圖像,一個匹配文字和圖像

  但 DALL·E 目前也存在局限,比如當人們引入更多的對象時,DALL-E 容易混淆對象及其顏色之間的關聯。另外,用意思相同的詞重新表述指令,生成的圖像也不一致。還有一些跡象表明,DALL·E 只是在模仿它在網上看到的圖片,而不是生成新穎的圖像。

  而 OpenAI 同期發布的 CLIP(Contrastive Language–Image Pre-training),則是為了加強文本和圖像的關聯程度而誕生的。CLIP 是一個從網際網路上收集的 4 億對圖像和文本來進行訓練的多模態模型。

  CLIP 使用了大量可用的監督資源,即網絡上找到的文本-圖像對。這些數據用於創建 CLIP 的代理訓練任務,即給定一張圖像,然後預測數據集中 32768 個隨機採樣文本片段中哪個與該圖像匹配。

  簡單來說,CLIP 能根據視覺類別名稱,自己分類圖像,創新點在於它學會了識別圖像,而不是像大多數現有模型那樣,通過數據集中的標籤(比如「貓」或「香蕉」)識別圖像,而是從網際網路上獲取的圖像及其標題中識別圖像。

  CLIP 瞄向的,就是當前深度學習的兩個「痛點」:一是數據集構建成本高昂;二是數據集應用範圍狹窄。具體來說,深度學習需要大量的數據,而視覺模型傳統上採用人工標註的數據集進行訓練,這些數據集的構建成本很高,而 CLIP 可以從網際網路上已經公開可用的文本圖像對中自行學習;CLIP 可以適應執行各種各樣的視覺分類任務,而不需要額外的訓練樣本。

  另外,實驗結果表明,經過 16 天的 GPU 訓練,在訓練 4 億張圖像之後,Transformer 語言模型在 ImageNet 數據集上僅實現了 16% 的準確率。CLIP 則高效得多,實現相同準確率的速度快了大約 9 倍。

  

  簡單來說,DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。

  出門問問 CEO 李志飛曾告訴極客公園(ID: GeekPark),「GPT-3 隨著數據和參數規模增大而展現出的學習能力曲線,目前也還沒有要停止的意思。雖然 AI 的學習能力還沒有達到大家公認的「摩爾定律」,但是過去幾年確實看到模型每幾個月就翻倍。可以預測到的是,GPT-4 參數又會增大至少 10 倍,而且處理的數據將會更加多模態(文字、圖像、視覺、聲音)。

  OpenAI 首席科學家 Ilya Sutskever 也在推特上發文表示:「人工智慧的長期目標是構建多模態神經網絡,即 AI 能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近『多模態 AI 系統』這一目標。

  DALL·E 和 CLIP 的出現,讓人們看到自然語言與視覺的壁壘正在被逐漸打通。

  幾十年前,柯達說出了那句經典的廣告語,「你負責按快門,剩下的交給我們」。在未來,AI 興許也會打起類似的廣告,「你什麼都不用幹,剩下的交給我們」。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • Adam Coates離職,吳恩達招人,「散落天涯」的百度AI研究力量
    Coates 在 LinkedIn 個人頁面上更新了自己的狀態,稱「準備好迎接下一次 AI 、機器學習、深度學習和 HPC 的挑戰」。SVAIL 是百度深度學習實驗室在矽谷的分實驗室。Coates 在 SVAIL 工作期間,帶領團隊開發了端到端的深度學習語音系統 Deep Speech 和多麥克風語音轉文字(TTS)引擎 Deep Voice。
  • 「三十而立」,我不喜歡這樣的話
    然後聊到工作,在我說到我最討厭的伴侶職業是「醫生」和「老師」,最喜歡的是「產品經理」和「運營」的時候,她露出了異於常人的眼神。還是因為我過的不是眾人所認為的「線性人生」?「線性人生」這個結論之所以能夠成立,是因為它有很多很多前提條件。然而這些條件卻是一般人所達不到的。同時樹立這個觀念的這些人又將這些條件隱去了。
  • ai愛不只是進出?男人必知這5件事.......
    過去我幫助過很多對的伴侶,發現他們之間xing親密的議題很少在溝通,可能是觀念的保守或是羞於表達,床上的事成了「不能說、配合做」的精神包袱
  • 據說,程式設計師已成為女生年度最喜歡男友職業Top3?
    你看看程式設計師小哥哥有這麼多的優點,你還不心動麼!?七夕·可算等到你A、Blink江湖:附近在活動期間,選擇活動標籤「七夕·此時等你」,並使用定位功能,就可以等一個有緣人~只要有另一個人,也在你的附近定位發布blink,你們就有機會認識!
  • 在「被催婚」和「尋找愛情」之間左右為難的 90 後
    圖片來源:全景視覺「為什麼 90 後都在被催婚?」而另一個相似的問題,「90 後被催婚是什麼體驗?」,有超過 7000 人圍觀。 可見,「被催婚」大軍中的主流力量 90 後,心情之複雜。為什麼 90 後都在被催婚?
  • 「打工皇帝」離開聚光燈的日子
    事發後,他接到新僱主陳發樹的一個電話,後者質問道,「唐駿這個事情我只想確認一點,就是你美國的學位拿到了沒有?」除了僱主,唐駿還要給公司一個交代,兩周後他在給員工的郵件裡寫道,「網絡大風波從今天開始應該收尾了。」但蝴蝶已經扇動翅膀,從唐駿開始的學歷打假還只是一個開始。彼時,授予唐駿博士學位的西太平洋大學被扒出一份校友名單,其中不乏國家機關公務員、國企和事業單位的高管。
  • LOOK | 法國創意喜劇 ·「愛情萬歲」
    法國阿維尼翁藝術節售罄之作默劇大師馬歇·馬叟的2位愛徒打造歐洲演出300多場8月7日,上海站首秀這場充滿「騙局」的戲可能是愛情最真實的模樣」法國創意喜劇用獨特的方式講述生活的瘋狂馬歇·馬叟是繼卓別林之後最偉大的默劇表演藝術家。
  • 基努·裡維斯新女友「一頭白髮」,原因曝光:20歲就全白了
    53歲的加拿大男演員基努李維(Keanu Reeves)是知名影星,他演出《捍衛任務》(John Wick)電影系列後,受到許多影迷喜愛,在全球知名度相當高。已經單身18年的他,日前終於再度公開認愛,對方是46歲的藝術家「亞歷山德拉格蘭特」(Alexandra Grant),引起軒然大波!雖然女友年紀比他小,不過卻擁有一頭灰白長發,近日,格蘭特也公開了一直不願意染髮的原因,引起網友關注。基努李維的上一任女友,在2001年時不幸喪生,此後18年,他再也沒有和任何人建立正式交往的關係。
  • 宮崎縣絕景盡在「小林市」:生駒高原花海、入住農家茅葺屋
    蝦野高原還種植有許多「芒草」,據說這裡的芒草因為過去火山灰的影響而變成了蝦紅色,才有了「蝦野高原」的名稱,米白色的芒草在風中搖曳,拍照也很唯美喔!登山後,不妨就到蝦野高原相當有名的「白鳥溫泉」上湯、下湯去泡泡溫泉,紓解疲勞吧!百萬朵波斯菊盛開!到「生駒高原」賞花去說到宮崎縣小林市的代表景色之一,就是霧島山麓下的「生駒高原」啦!
  • 「程式設計師沒有女朋友」你們是不是誤會了什麼?
    大家好,我是程式設計師負一。一個努力將想法變現的男人。程式設計師沒有女朋友程式設計師會不會單身一輩子?為什麼程式設計師容易單身程式設計師為什麼普遍單身我們公司有兩個女程式設計師,長得漂亮,主要是還是和我一樣做php的,可惜我剛入職,害羞不敢上去聊天
  • 在座右銘裡的「胸懷」,「雅量」和「信仰」!
    李開復在他的書中,談到他的座右銘:「有勇氣來改變可以改變的事情,有胸懷接受不可改變的事情,有智慧來分便兩者的不同。」這句話是我修改 Serenity Pray,原文不是用胸懷接受不可改變的事情,而是用寧靜和信仰接受。
  • 碩士論文研究「AI預測性取向」:化妝等因素並不影響判斷
    機器之心報導機器之心編輯部2017 年,史丹福大學的一篇《深度學習通過面部識別判斷性取向超越人類》曾引發了極大爭議,其通過 AI 算法僅需「看面相」即可判斷一個人是不是同性戀的方法讓眾人感到一絲恐慌,也讓技術研究者們對於算法的偏見提出了很多意見。
  • 變態「三角戀」?世界知識、大腦和計算是AGI的新「三駕馬車」
    【新智元導讀】「冰鎮椅子」和「彩虹蕉」見過沒?反正神經網絡要淚奔了。近年來,吃數據的人工智慧狹隘性日益凸顯,而來自舊金山的科學家們,認為智能來源於歸納偏差,他們試圖通過已知的世界屬性、大腦的物理結構和算法來構建一種新的世界模型。看到下面這個場景,你會想到啥?可能會想,是什麼導致球改變了方向,球飛得比球棒高會發生什麼?
  • 2020回顧-維鍶天后養成計劃「用十二個習慣祝福自己」
    2020充滿了魔幻色彩一場疫情讓我們的生活和工作都發生了很大的變化但也讓我們意外收穫了超長的假期與陪伴也成功造就了維鍶天后養成計劃「用十二個習慣祝福自己」的專欄因為突然闖入的慢節奏,讓我們不得不讓奔跑的生命慢下來讓我們一起回顧「用十二個習慣祝福自己」專欄至今的成長吧
  • 對男人來說,到底什麼是「喜歡」,什麼是「愛」?
    男人們講出「我喜歡你」的時候多半意思就是「我對你有好感」男女在喜歡與愛之間有相當大的差別,對於男生來說有好感就是喜歡,所以男生比較容易「喜歡」很多人。往往只要有「我想跟她相處」、「我想把她撲倒」的念頭這都算有好感,都算是喜歡。
  • 「興味」是暗戀「趣味」是表白~這倆搞清了麼?
    趣味はなんですか」很多人會非常激動地回答 看電影 跑步 旅行www但是這些小愛好真的能叫做「趣味」  確定它不是「興味」麼?を持つ」:指的是對某個主題 內容感興趣 心理活動「趣味を持つ」:指的是將感興趣的事變成習慣,或者將喜歡的東西自己珍藏舉個慄子:如果只是偶爾消遣想看場電影或者只是覺得跑步的人很瘦很棒 但是自己永遠是跑兩圈就喘又或者只是想著詩和遠方 但是並沒下決心踏上旅程那麼 那些僅僅停留在心中 感興趣的 只能叫「興味」
  • 【神人家庭】「將功贖罪」與「對不起」
    如果今天在外面,一個路人看我一眼說:「你實在很可惡!」或者說:「我很討厭你!」我想我不會倍感傷痛。
  • 連Raf Simons的「情史」都不知道?你憑什麼發朋友圈!
    並非早前所傳 Raf Simons 離開 CALVIN KLEIN 後會加入 Prada 旗下品牌 Miu Miu 擔任設計總監,而是與 Miuccia Prada 擔任聯合創意總監。此事一經官宣,相信各位都看到各大媒體都爭鋒探討分析 Raf Simons 與 Prada 的「情緣」將會何去何從。
  • 「夫妻」男人,永遠需要妳的「撩」
    雖然說「婚姻是戀愛的墳墓」,實際上,男女交往不需要走入婚姻,只要雙方的關係步向穩定,就很可能斷送愛情相較於女人,雖然男人也挺享受這一成不變的居家感受,但體內畢竟流著擅於追逐、狩獵、獲取關注的血液,他們渴望異性的注目,期待女人的崇拜,希冀別人的讚嘆,曾聽過有些女生信誓旦旦說「我男友/老公很安分守己,這些東西他才不屑一顧咧」,我都認為是她們太過輕敵。
  • 「好棒」的日文怎麼說?6種誇讚他人的日文,不要只會「鼠勾以」
    想用日文說「贊啦!」、「好棒棒!」該怎麼講?「棒」的程度不同,表達方式當然也不一樣,這篇要一次教你6種誇讚他人的超簡單日文,下次不要只會講「鼠勾以」啦! ▋好棒棒程度100%:「最高」(さいこうsaikō)大家應該常看到日本雜誌、綜藝節目上出現「最高!」(さいこうsaikō)。並不是在講高度或身高,而是「最棒了!」