AI「幹掉」程式設計師後,又對藝術家下手了

2021-01-10 極客公園

人工智慧領域缺錢,但這兩個月來,他們不缺「好消息」。

Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白質結構預測 AI——AlphaFold 2,為困擾了生化學界 50 年的難題提供了解決思路;接著又發論文介紹「進階版 AlphaGo」——MuZero,這個 AI 能在完全不知道棋局規則和人類知識的情況下,自己摸索,決策,並贏棋。

2021 年的第一周還沒過去,AI 就再次向人類發起了「挑釁」。

AI 研究機構 OpenAI,繼去年部分開放了 AI 模型 GPT-3 並引爆整個科技圈之後,又於近期連發了 DALL·E 和 CLIP 這兩個連接文本與圖像的神經網絡。它們剛一面世,就點燃了整個 AI 社區。因為人們發現有了這些神經網絡,就能通過自然語言操縱視覺概念,比如,你輸入「一把牛油果造型的扶手椅」,它們就能通過圖像合成,「憑空捏造」出一系列的目標圖像。

什麼是人工智慧的未來?《麻省理工科技評論》認為就是「那把牛油果造型的扶手椅」,因為 AI 又往「構建多模態 AI 系統」這個長期目標又邁近了一大步。

「幹掉」程式設計師後,AI 又對藝術家下手了

DALL·E 率先在社交網絡上刷起了屏,因為人們放出了很多看起來像憑空捏造的合成圖,比如「立方體狀的豪豬」、「由烏龜變成的長頸鹿」和「豎琴狀的蝸牛」,這些就像是超現實主義畫家薩爾瓦多·達利在夢裡會看到的奇異造物。有意思的是,DALL·E 也正是「Dalí」和皮克斯動畫形象「WALL-E」的合成詞。

豎琴狀的蝸牛

DALL·E 是 OpenAI 基於 GPT-3 開發的一種「用字生圖」的 AI。GPT-3 本質上是一個自然語言處理(NLP)模型,機器就是依靠 NLP 理解了我們平時說的「人話」。在 1750 億參數量基礎上的 GPT-3,展現出了驚人的翻譯、問答和文本填空能力,寫出來的新聞甚至通過了圖靈測試,人們分辨不出是人還是機器寫的。

GPT-3 可擴展性非常強大,甚至可以用在無代碼開發領域。無代碼就是就是不用敲代碼也可以直接生成程序,而 GPT-3 就是強大的無代碼開發平臺,只要對它輸入你想要什麼樣的網頁或者 app,它就能幫你直接生成。因此,業內認為基層碼農將會被 AI「幹掉」。

而 DALL·E 是 GPT-3 的一個小版本,使用了 120 億個參數。它使用的是「文本-圖像對」的數據集,而非像 GPT-3 那樣廣泛的數據集。「從原理上來看,它應該就是 GPT-3 在文本合成圖像方向上的擴展版本。」Keras 創始人 Franois Chollet 表示。

DALL·E 可以利用自然語言從文字說明中「捏造」圖像,就像 GPT-3 創建網站和寫故事一樣。DALL·E 生成複雜圖像的表現,讓人驚喜,比如下面這則包含多個要素的目標文本:「一隻戴著紅帽子、黃手套、藍襯衫和綠褲子的刺蝟」。

要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且還不能混淆它們。

這張圖顯示了 DALL·E 掌握了理解相對定位、堆疊對象和控制多個屬性方面的能力|OpenAI

因為足夠強大的 NLP 底層,DALL·E 還能執行多種圖像到圖像的翻譯任務,比如「參照上面的貓在下面生成草圖」、「畫出和上面一樣的茶壺,並在茶壺上寫上『GPT』」等等。除此之外,DALL·E 也能理解地理事實,生成讓人信服的「中國食物的圖片」,它甚至也能理解「時間」,畫出從 20 年代起發明的電話,甚至聯想未來的手機。

中國食物

各個年代的手機

另外,它還能根據文字指令「看日出的水豚鼠」,生成諸如波普風格、超現實主義風格、浮世繪風格等不同藝術風格的畫作,還能渲染出各個角度下美洲獅的細節。

看日出的水豚鼠

Coursera 創始人、史丹福大學教授吳恩達還特別對 OpenAI 表示祝賀,並挑選了自己最喜歡的「藍色襯衫 + 黑色長褲」的 AI 生成圖。DALL·E 能不能成為藝術家不敢說,但成為 AI 大神的著裝參謀,綽綽有餘。

吳恩達的 Twitter

一個生成圖像,一個匹配文字和圖像

但 DALL·E 目前也存在局限,比如當人們引入更多的對象時,DALL-E 容易混淆對象及其顏色之間的關聯。另外,用意思相同的詞重新表述指令,生成的圖像也不一致。還有一些跡象表明,DALL·E 只是在模仿它在網上看到的圖片,而不是生成新穎的圖像。

而 OpenAI 同期發布的 CLIP(Contrastive Language–Image Pre-training),則是為了加強文本和圖像的關聯程度而誕生的。CLIP 是一個從網際網路上收集的 4 億對圖像和文本來進行訓練的多模態模型。

CLIP 使用了大量可用的監督資源,即網絡上找到的文本-圖像對。這些數據用於創建 CLIP 的代理訓練任務,即給定一張圖像,然後預測數據集中 32768 個隨機採樣文本片段中哪個與該圖像匹配。

簡單來說,CLIP 能根據視覺類別名稱,自己分類圖像,創新點在於它學會了識別圖像,而不是像大多數現有模型那樣,通過數據集中的標籤(比如「貓」或「香蕉」)識別圖像,而是從網際網路上獲取的圖像及其標題中識別圖像。

CLIP 瞄向的,就是當前深度學習的兩個「痛點」:一是數據集構建成本高昂;二是數據集應用範圍狹窄。具體來說,深度學習需要大量的數據,而視覺模型傳統上採用人工標註的數據集進行訓練,這些數據集的構建成本很高,而 CLIP 可以從網際網路上已經公開可用的文本圖像對中自行學習;CLIP 可以適應執行各種各樣的視覺分類任務,而不需要額外的訓練樣本。

另外,實驗結果表明,經過 16 天的 GPU 訓練,在訓練 4 億張圖像之後,Transformer 語言模型在 ImageNet 數據集上僅實現了 16% 的準確率。CLIP 則高效得多,實現相同準確率的速度快了大約 9 倍。

簡單來說,DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。

出門問問 CEO 李志飛曾告訴極客公園(ID: GeekPark),「GPT-3 隨著數據和參數規模增大而展現出的學習能力曲線,目前也還沒有要停止的意思。雖然 AI 的學習能力還沒有達到大家公認的「摩爾定律」,但是過去幾年確實看到模型每幾個月就翻倍。可以預測到的是,GPT-4 參數又會增大至少 10 倍,而且處理的數據將會更加多模態(文字、圖像、視覺、聲音)。」

OpenAI 首席科學家 Ilya Sutskever 也在推特上發文表示:「人工智慧的長期目標是構建多模態神經網絡,即 AI 能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近『多模態 AI 系統』這一目標。」

DALL·E 和 CLIP 的出現,讓人們看到自然語言與視覺的壁壘正在被逐漸打通。

幾十年前,柯達說出了那句經典的廣告語,「你負責按快門,剩下的交給我們」。在未來,AI 興許也會打起類似的廣告,「你什麼都不用幹,剩下的交給我們」。

本文圖片:OpenAI

責任編輯:於本一

本文由極客公園 GeekPark 原創發布,轉載請添加極客君微信 geekparker。

相關焦點

  • JavaScript正則表達式「程式設計師培養之路第十二天」
    正則內部有個lastIndex屬性,這個屬性記錄每一次匹配後的索引位置,該屬性與"g"修飾符存在以下關係:沒有g修飾:lastIndex屬性的值始終為0,每次執行匹配僅查找字符串中第一個匹配的項。圖五有g修飾:找到匹配的項後lastIndex的值被設置為匹配內容的下一個字符的索引,用來標識下次執行匹配時開始查找的位置。如果找不到匹配的項lastIndex的值會被設置為0。
  • 騰訊AI 王者「絕悟」升級了
    騰訊 AI 王者「絕悟」升級了 機器人大講堂 發表於 2020-12-02 10:29:06 AI 王者「絕悟」升級了,能達到精通金庸武俠裡所有武功的那種水平。
  • AI無法成為「專利發明人」?一位計算機學者決定起訴美國專利局
    這份報告中寫到:「專利性應根據對技術進步的客觀貢獻決定,而不是主觀地由完成發明的過程來確定。」它們的相同點在於:專利發明人均為「DABUS」。值得注意的是,「DABUS」是一個 AI 系統,由大量訓練過的神經網絡組成,Thaler 將其形容為「創造力引擎」。
  • 騰訊的 AI 進化了!王者榮耀「絕悟」升級,全英雄池解禁
    但受到練習時間與精力限制,很少有人能精通所有英雄,但「絕悟」做到了。那麼,王者再進化,將有多強?據了解,「絕悟」一年內掌握的英雄數從 1 增加到 100+,王者榮耀英雄池也實現了完全解禁,不但掌握了所有英雄的全部技能,能應對高達 10 的 15 次方的英雄組合數變化,甚至還「自帶軍師」,可做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優英雄組合。
  • 遊戲王:「元素英雄卡組」構築思路
    元素英雄卡組不建議投入「融合」與「奇蹟融合」之類的,為了融合個怪獸還要多浪費一張手卡,很不值得。建議使用場地魔法「融合之門」+「平行世界融合」的組合,利用1張場地魔法就可以一直使用融合下去,而除外的怪獸用「平行世界融合」可以一回合再出一個融合怪獸。
  • 200 年來,科技圈那些「硬核女神」
    當你看到「程式設計師」這個詞時,腦海是不是浮現出一個男性形象?的確,很多網際網路公司的技術部門裡男性員工佔了 80% 以上,這讓我們幾乎把「程式設計師」和「男性程式設計師」之間畫上了等號。但是,你知道嗎?世界上的第一位程式設計師其實是一名女性。在並不久遠的七十年前,計算機編程還被認為是非常女性化的職業,在隨後的三四十年裡女性一直是這個領域的領軍人物。
  • 暴漲的比特幣、特斯拉與被程式設計師統治的世界
    如果你們了解他們的收入的話,就會發現買個房子實際上是「細細米」。舉個例子,美團已經1.6萬億港幣了,它的程式設計師應該有無數的錢。 這個世界,之前是由「文案」來控制。具體來說,在中國就是儒家文化和道德統治世界,在美國可能是由一群「法家」也就是一群律師來控制他們互相熟悉規則的一個世界。
  • 黃道十二宮殺手密碼51年後被破解,來自兩位程式設計師與數學家通力合作
    破譯團隊通過切成類似「對角三角形」來重新排列出字符來重新破解的。具體來說,先要將密碼分為三個部分,分別來進行解讀。(第一部分跟第二部分為9行,最後一部分為2行)隨後在AZdecrypt運行幾次之後,直到看到字符裡出現「TV SHOW」。
  • AI再次升級,對藝術家出手了,還有什麼不會被取代?
    AI要成為藝術家了? 隨著移動網際網路的不斷地發展,AI所涉及的領域也越來越多。 近日,AI 研究機構 OpenAI近期連發了 DALL·E 和 CLIP 這兩個連結文本與圖像的神經網絡。或許很多人對於神經網絡並不了解,請容我慢慢道來。
  • 機器之心「AI00」十一月最新榜單:兩家國內公司新上榜
    -OpenAI「AI00 ,這是一個開源項目」這不僅是一份榜單,更是一個開源項目,主要基於以下幾點:人工智慧是一個複雜龐大的體系,涉及眾多學科,也關乎技術、產品、行業和資本等眾多要素,報告的寫作團隊只代表他們的專業觀點,有自己的局限性
  • 藝術家眼中的英文字母,太美了!
    馬德裡工作室CESS推出的藝術字母表,代表荷蘭藝術家梵谷的「V」。圖/取自behance代表西班牙藝術大師畢卡索的「P」。圖/取自behance。代表超現實主義畫家達利Salvador Dali 的「S」。圖/取自behance。代表英國當代街頭藝術家班克斯的「B」。圖/取自behance。在CESS的巧思下,每個字體都是一件精美的作品,也與真實存在的物品相似。
  • 患上乳腺癌後開發AI診斷模型,MIT女學者獲「AI諾貝爾獎」
    諾貝爾獎」出爐!那麼這位首屆「AI諾貝爾獎」得主,究竟有何厲害之處?2018年,她正式成為「Susan Komen」基金會學者,一個由51位專家組成,專注於乳腺癌研究的美國規模最大的乳腺癌組織。很快,就在去年,她就發現了一種名為「Halicin」的抗生素。
  • 為什麼成為一名程式設計師這麼困難? —— 從程序新手到準工程師的必經...
    在學習程序開發的過程中,常常看到網絡上的「甘苦談」,也聽過身邊前途一片光明的程式設計師朋友們分享過學習歷程,總覺得不同的人、同樣的故事卻不斷的重複,像是狼叫聲般,從遠處傳來一聲又一聲的迴響。突然間我們的問題不再是「困難度」,而是「比天高的期望」跟「比地大的夢想」。最重要的是,以上提到的這些工具跟平臺實在太有用,帶領毫無程序開發經驗的初學者們一步步認識變數、條件語句、程序語法。當你一路過關斬將把程序語言基本邏輯跟語法學會的同時,你就會超有成就感、自信心大增,開始有「原來我也行嘛」、「寫程序也不過就這樣」的感覺,基本上覺得自己已經跟「程式設計師」相差不遠了。
  • Python之父談996:救救中國程式設計師
    雷鋒網 AI 科技評論按:996.ICU 事件進一步發酵,繼上個月在推特上評論 996 制度「違反人性」後,「Python 之父」Guido van Rossum 近日再就此事於 Python 官方論壇發布一篇名為《Can we do something for 996 programmers in China?》(我們能為深陷「996」泥沼的中國程式設計師們做什麼?)
  • AI+醫療「最佳掘金案例」榜單出爐,致敬寒冬中的「持炬者」
    2017年11月,雷鋒網聯合數十家風險投資公司、傳統上市企業、機關單位領導以及海內外高校,啟動了業內首個人工智慧商業案例評選活動:「AI最佳掘金案例年度榜單」,從商業維度出發,尋找各個行業用戶/客戶問題解決能力強的最佳產品和解決方案。
  • 瘋狂前行的「AI教育」,「含AI量」到底幾何?
    瘋狂前行的「AI教育」,「含AI量」到底幾何?
  • 人類首次完全利用AI發現「迄今最強抗生素」,登《細胞》雜誌封面
    機器之心報導機器之心編輯部MIT 科學家用深度學習模型發現的「halicin」抗生素分子展示了前所未有的廣譜抗菌能力,這是人類首次完全使用人工智慧的方法發現新抗生素。研究人員表示,halicin 可以消滅一些世界上最危險的細菌。他們的這一研究登上了生命科學頂級期刊《Cell》。自青黴素出現以來,抗生素已經成為現代醫學的基石。
  • 研發空間智能技術,「宸境科技」想要打造城市級別鏡像世界
    「宸境科技」是國內一家專注於空間智能技術的創業公司。在CTO雷加貝看來,空間智能技術讓人與計算機交互的界面從二維平面進入了三維空間,人們能更高效、直觀地互動以及獲取信息。其中,智慧城市是空間智能技術的核心落地場景之一,「宸境科技」已經與廣州南沙區政府合作推出了明珠灣鏡像世界。
  • 如何用「邊寫邊搜」寫論文?
    「在線精讀」是一款基於雲服務的分屏閱讀和筆記應用,邊讀資料邊做筆記,打造個人專屬的高倍速閱讀理解體系。「邊寫邊搜」是一款簡單好用的輔助成文應用,讀寫分屏,輕鬆實現本地文件和雲端各類數據資源之間的聯動,高效組織想法和創意,快速成文。在 PC 端登錄 cyprex.fir.ai可立即使用。