DALL·E才發布兩天就被復現?官方論文還沒出,大神們就在自製代碼和...

2021-01-11 澎湃新聞

蕭簫 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

沒想到,OpenAI剛公布DALL·E,就已經有人在復現了。

雖然還是個半成品,不過大體框架已經搭建好了,一位第三方作者Philip Wang正在施工中。

DALL·E是前兩天剛公布的文字轉圖像網絡框架,目前只公布了項目結果,甚至連官方論文都還沒出。

論文還沒出,就開始復現了

論文復現的依據,來自一位叫做Yannic Kilcher的博主製作的油管視頻。

他在視頻中,對DALL·E的原理結構進行了猜測。

他表示,這些猜測並不代表真實情況,也許DALL·E的論文出來後,會顛覆他的預想。

Yannic認為,DALL·E應該是VQ-VAE模型、和類似於GPT-3的語言模型的結合。

GPT-3這類語言模型,有著非常強大的語言建模能力,可以對輸入的文字描述進行很好的拆分理解。

而VAE模型,則是一種強大的圖像生成Transformer,在訓練完成後,模型會去掉編碼器(encoder)的部分,只留下解碼器,用於生成圖像。

將二者結合的話,就能像下圖中的那個小方塊一樣,將輸入的各種物體,根據理解的文字,結合成具有實際意義的一幅畫面。

例如,輸入人、太陽和樹,模型就能輸出「太陽下,樹底坐著一個人」所描繪的圖像。

要怎麼實現?

先簡單分析一下VQ-VAE的模型原理。

與VAE相似,這也是一個Transformer結構的模型,編碼器對圖像進行編碼後,將編碼數據送入隱空間,解碼器再從隱空間中,對圖像進行重構。

相比於VAE,VQ-VAE隱變量的每一維都是離散整數,也就是說,它的隱空間其實是一個編碼簿(codebook),包含提取出的各種向量信息。

在DALL·E裡,這個編碼簿,本質上可以等價為一個詞彙表(vocabulary)。

這個詞彙表,專門用來存儲對圖像的各種描述。

對輸入圖像進行編碼時,本質上是將圖像分成各種像素塊。

期間,會產生各種各樣的圖像信息。

假設天藍色的格子,包含「天空」的描述信息,那麼在重建時,解碼器讀取到「天空」信息,就會分配頂端的一系列像素,用來生成天空。

在完成VQ-VAE的訓練後,模型就得到了一個只有解碼器看得懂的編碼簿。

屆時,將由類似於GPT-3的語言模型,對輸入的文字進行解碼,轉換成只有編碼簿才能看懂的向量信息。

然後,編碼簿會將這些信息進行排序,依次列出每個像素塊應該生成的數據,並告訴解碼器。

解碼器會合成這些像素數據,得到最終的圖像。

為了實現這樣的目標,既要對類似於GPT-3的語言模型進行訓練,也要提前對VQ-VAE模型進行預訓練。

而且,還需要對二者融合後的模型進行訓練。

這位作者復現的DALL·E,也是依據這個視頻解析的原理復現的。

有關項目本身

目前,DALL·E的復現項目還沒有完成,作者仍然在加工中(WIP),不過已經有700多個Star。

作者希望寫出一個PyTorch版本的DALL·E,現在的框架中,已經包含了VAE的訓練、CLIP的訓練,以及VAE和CLIP融合後的模型預訓練。

此外,還包括DALL·E的訓練、和將預訓練VAE模型融合進DALL·E模型中的部分。

上述模塊訓練完成後,就能用DALL·E來做文字生成圖像了。

目前,作者正在進行DALL·E模塊部分的代碼復現。

作者承諾,完成DALL·E的部分後,會把CLIP模型也一起補上。

作者介紹

Philip Wang,本碩畢業於康奈爾大學,博士畢業於密西根大學醫學院。

他的研究興趣是AI(深度學習方向),以及醫療健康,目前GitHub上已有1.7k個followers。

關於DALL·E本身,視頻解析博主Yannic也表示,之所以能取得這麼好的效果,並不全是因為模型設計。

DALL·E,極可能也像GPT-3一樣,用了樣本量龐大的數據集,來對模型進行訓練。

網友表示,難以想像訓練這個玩意所用的GPU數量,氣候又要變暖了。

所以要想完全復現這個項目,最難的其實是硬體部分?(手動狗頭)

項目地址:

https://github.com/lucidrains/DALLE-pytorch

DALL·E視頻解析:

https://www.youtube.com/watch?v=j4xgkjWlfL4

— 完 —

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

原標題:《DALL·E才發布兩天就被復現?官方論文還沒出,大神們就在自製代碼和視頻了》

閱讀原文

相關焦點

  • 一行代碼即可調用18款主流模型!PyTorch Hub輕鬆解決論文可復現性
    用戶可以提交、瀏覽模型,極大的改善了論文的可復現性難題。機器學習論文的可復現性一直是個難題。許多機器學習相關論文要麼無法復現,要麼難以重現。有時候論文讀者經常為了調用各種經典機器學習模型,還要重複造輪子。隨著提交給arXiv以及各種會議上的論文數量開始暴漲,可復現性的重要性也越來越凸顯。
  • CVPR論文經不起復現推敲?是學術會議水了還是我飄了
    作者稱這種做法表現良好,但我的復現結果並不理想,因此我決定對其進行測試。作者提供了他們用的代碼,但是經過仔細檢查,我發現他們的測試準確率計算有誤,導致得出的所有結果無效。」>CVPR 論文復現發現問題下面,先讓我們細緻過一遍 po 主在復現這篇論文時發現的問題,他主要發現測試準確率計算無效,因此加噪聲或採用 1×1 的卷積也沒有更好的效果。
  • PapersWithCode發布代碼完整性自查清單:想獲得更多星,你需要注意...
    近日,PapersWithCode 發布了機器學習代碼完整性自查清單。目前,該清單已成為 NeurIPS 2020 代碼提交流程的一部分。可復現性是科學領域長期關注的話題,近期人工智慧和機器學習社區也對此投入了更多關注。
  • 獨家 | OpenAI的DALL·E模型使人類更接近通用人工智慧(附連結)
    DALL·E實現了一些驚人的功能,例如創建擬人化(即類人)的動物和對象、文本渲染、對既有圖像的轉換,以及將某些對象或概念合併至單個圖像中等。它甚至還可以補全圖像的缺失部分。具體來說,DALL·E的功能包括一下部分
  • 論文不公開代碼,應該被直接拒稿?
    Lecun 表示,即使是 NLP 的一些頂級研究人員也無法復現谷歌大腦的語言模型 Transformer-XL 所得到的結果。此外,有人還面向廣大研發人員發出了「江湖懸賞令」,稱成功復現者將獲得「酬勞」。迄今為止,行業內仍有相當數量的優質研究未能復現,這也使得後來的研究工作多多少少受到影響。但由於各項研究的本質各不相同,所以這類問題需要多維度地去看待。
  • 經典論文復現 | InfoGAN:一種無監督生成方法
    過去幾年發表於各大 AI 頂會論文提出的 400 多種算法中,公開算法代碼的僅佔 6%,其中三分之一的論文作者分享了測試數據,約 54% 的分享包含「偽代碼」。這是今年 AAAI 會議上一個嚴峻的報告。 人工智慧這個蓬勃發展的領域正面臨著實驗重現的危機,就像實驗重現問題過去十年來一直困擾著心理學、醫學以及其他領域一樣。
  • 強強聯合,Papers with Code攜手arXiv,上傳論文、提交代碼一步到位
    ,這或許有助於解決論文可復現性問題。現在,arXiv 上機器學習論文摘要頁面的下方出現了一個 Code 按鈕,它可以連結論文相關的官方和社區代碼實現:arXiv 論文頁面新增的 Code 部分(Papers with Code 提供支持)。可提供官方代碼和社區代碼。如何使用?
  • 自帶魔法棒的 DALL·E | 一文圖解熱詞
    大錚:DALL·E 能按照文字的描述,畫出十分自然的圖像。目前的模型對於選詞比較敏感,官方釋出的例子是類似完形填空的形式,給句子中的名詞位置挖了空,並提供了候選的詞彙。我們選擇了一個擬物的句子來展示DALL·E的能力。
  • Papers with Code攜手arXiv,上傳論文、提交代碼一步到位
    ,這或許有助於解決論文可復現性問題。現在,arXiv 上機器學習論文摘要頁面的下方出現了一個 Code 按鈕,它可以連結論文相關的官方和社區代碼實現:arXiv 論文頁面新增的 Code 部分(Papers with Code 提供支持)。可提供官方代碼和社區代碼。
  • Papers with Code與arXiv達成合作,論文、代碼可一併查看啦!
    Papers with Code 是一個總結了機器學習論文及其代碼實現的網站。大多數論文都是有GitHub代碼的。這個網站最好的地方就是對機器學習做了任務分類,檢索對應的模型非常方便。早在18年Paper With Code創立時就轟動一時,僅創立一年就被Facebook收購。
  • 經典論文復現 | ICML 2017大熱論文:Wasserstein GAN
    最根本的問題是研究人員通常不共享他們的原始碼。 可驗證的知識是科學的基礎,它事關理解。隨著人工智慧領域的發展,打破不可復現性將是必要的。為此,PaperWeekly 聯手百度 PaddlePaddle 共同發起了本次論文有獎復現,我們希望和來自學界、工業界的研究者一起接力,為 AI 行業帶來良性循環。
  • 你上世紀寫的代碼現在還work嗎?挑戰者:我需要一個讀磁帶的機器
    Rougier 認為,儘管計算在科學研究中佔有越來越重要的比重,但研究者很少披露自己的底層代碼。即使他們給出了代碼,別人也很難去執行,就連作者本人有時也會遇到麻煩。而且,隨著程式語言、計算環境的演化,現在還能運行的代碼過段時間可能就不行了。因此,「『十年代碼復現挑戰』的宗旨是找出那些十年之後仍然能夠 work 的代碼編寫和發布技術,」Hinsen 表示。這項比賽共吸引了 35 名參賽者。
  • 如何將深度學習研究論文實現為代碼的幾個要點
    為什麼要去復現機器學習研究論文?正如我所說的,能夠將一篇論文轉換成代碼絕對是一種超超能力,尤其是在像機器學習這樣每天都在快速發展的領域。大多數研究論文來自大型科技公司或大學裡的人,他們可能是博士,也可能是研究前沿技術的人。還有什麼比復現這些頂尖專業人士的研究成果更酷的呢?另一件需要注意的事情是,行業中對這些能夠將研究論文進行代碼復現的人需求量很大。
  • 復現一篇深度強化學習論文之後,我學到了什麼
    可以說是很形象了……不過這種方法的確能讓深度學習愛好者們受益匪淺。近日,瑞士機器學習專家Matthew Rahtz就發表了一篇博客,記錄了他的一個復現項目,重點寫了其中的收穫和感悟。論智將原文搬運如下,希望能對大家有所幫助。深度強化學習中有許多巧妙的地方。去年,最令人印象深刻的實驗之一是OpenAI和DeepMind使用人類反饋而不是傳統的獎勵信號來訓練智能體。
  • 機器學習論文復現,你需要注意的五大問題
    論文復現一直是機器學習領域的難題,雖然最近多個學術會議提倡大家提交代碼,但解決論文復現問題仍然任重而道遠。在試圖復現機器學習論文時,我們經常遇到哪些問題呢?新加坡機器學習工程師 Derek Chia 對此進行了總結。我最初接觸機器學習時,花費了大量時間來閱讀論文,並嘗試實現。當然,我不是天才。實現它意味著要執行 git clone 並嘗試運行論文作者的代碼。
  • 機器學習論文復現,這五大問題你需要注意
    論文復現一直是機器學習領域的難題,雖然最近多個學術會議提倡大家提交代碼,但解決論文復現問題仍然任重而道遠。在試圖復現機器學習論文時,我們經常遇到哪些問題呢?新加坡機器學習工程師 Derek Chia 對此進行了總結。我最初接觸機器學習時,花費了大量時間來閱讀論文,並嘗試實現。當然,我不是天才。實現它意味著要執行 git clone 並嘗試運行論文作者的代碼。
  • 想輕鬆復現深度強化學習論文?看這篇經驗之談
    本文作者認為復現論文是提升機器學習技能的最好方式之一,所以選擇了 OpenAI 論文《Deep Reinforcement Learning from Human Preferences》作為 target,雖獲得最後成功,卻未實現初衷。如果你也打算復現強化學習論文,那麼本文經驗也許是你想要的。
  • RIID知識追蹤(一)基於NN方法的SAKT模型(含論文及代碼實現)
    2015年,Deep Knowledge Tracing這篇論文首次將知識追蹤任務轉換為Seq-to-Seq的任務,並用RNN實現,取得的跨越式的進展。但是,由於DKT用的是RNN,局限性還比較大。1 數據準備Knowledge Tracing任務有一些開源的數據集:Synthetic、Assistments、Junyi和Ednet等。下圖是Ednet論文中對比數據集的數據情況。
  • 用Keras復現DCN算法
    放假前幾天一直在按老師的要求修改聚類框架,老師想要將論文《Towards K-means-friendly Spaces: Simultaneous DeepLearning and Clustering》中的聚類方法DCN應用到我們的框架中。
  • PyTorch版EfficientDet比官方TF快25倍?這個項目數天狂攬千星
    機器之心報導項目作者:zylo117參與:Racoon X、Jamin、兔子EfficientDet 難復現,復現即趟坑。但最終得出了非常不錯的效果,也是全網第一個跑出接近論文成績的 PyTorch 版。我們先來看一下項目作者與 EfficientDet 官方提供代碼的測試效果對比。第一張圖為官方代碼的檢測效果,第二張為項目作者的檢測效果。項目作者的實現竟然透過汽車的前擋風玻璃檢測出了車輛裡面的人?!!這樣驚豔的檢測效果不愧是目前 EfficientDet 的霸榜存在。