DALL·E才發布兩天就被復現?官方論文還沒出,大神們就在自製代碼和...

2021-01-11 澎湃新聞

蕭簫發自凹非寺

量子位報導 | 公眾號 QbitAI

沒想到，OpenAI剛公布DALL·E，就已經有人在復現了。

雖然還是個半成品，不過大體框架已經搭建好了，一位第三方作者Philip Wang正在施工中。

DALL·E是前兩天剛公布的文字轉圖像網絡框架，目前只公布了項目結果，甚至連官方論文都還沒出。

論文還沒出，就開始復現了

論文復現的依據，來自一位叫做Yannic Kilcher的博主製作的油管視頻。

他在視頻中，對DALL·E的原理結構進行了猜測。

他表示，這些猜測並不代表真實情況，也許DALL·E的論文出來後，會顛覆他的預想。

Yannic認為，DALL·E應該是VQ-VAE模型、和類似於GPT-3的語言模型的結合。

GPT-3這類語言模型，有著非常強大的語言建模能力，可以對輸入的文字描述進行很好的拆分理解。

而VAE模型，則是一種強大的圖像生成Transformer，在訓練完成後，模型會去掉編碼器（encoder）的部分，只留下解碼器，用於生成圖像。

將二者結合的話，就能像下圖中的那個小方塊一樣，將輸入的各種物體，根據理解的文字，結合成具有實際意義的一幅畫面。

例如，輸入人、太陽和樹，模型就能輸出「太陽下，樹底坐著一個人」所描繪的圖像。

要怎麼實現？

先簡單分析一下VQ-VAE的模型原理。

與VAE相似，這也是一個Transformer結構的模型，編碼器對圖像進行編碼後，將編碼數據送入隱空間，解碼器再從隱空間中，對圖像進行重構。

相比於VAE，VQ-VAE隱變量的每一維都是離散整數，也就是說，它的隱空間其實是一個編碼簿（codebook），包含提取出的各種向量信息。

在DALL·E裡，這個編碼簿，本質上可以等價為一個詞彙表（vocabulary）。

這個詞彙表，專門用來存儲對圖像的各種描述。

對輸入圖像進行編碼時，本質上是將圖像分成各種像素塊。

期間，會產生各種各樣的圖像信息。

假設天藍色的格子，包含「天空」的描述信息，那麼在重建時，解碼器讀取到「天空」信息，就會分配頂端的一系列像素，用來生成天空。

在完成VQ-VAE的訓練後，模型就得到了一個只有解碼器看得懂的編碼簿。

屆時，將由類似於GPT-3的語言模型，對輸入的文字進行解碼，轉換成只有編碼簿才能看懂的向量信息。

然後，編碼簿會將這些信息進行排序，依次列出每個像素塊應該生成的數據，並告訴解碼器。

解碼器會合成這些像素數據，得到最終的圖像。

為了實現這樣的目標，既要對類似於GPT-3的語言模型進行訓練，也要提前對VQ-VAE模型進行預訓練。

而且，還需要對二者融合後的模型進行訓練。

這位作者復現的DALL·E，也是依據這個視頻解析的原理復現的。

有關項目本身

目前，DALL·E的復現項目還沒有完成，作者仍然在加工中（WIP），不過已經有700多個Star。

作者希望寫出一個PyTorch版本的DALL·E，現在的框架中，已經包含了VAE的訓練、CLIP的訓練，以及VAE和CLIP融合後的模型預訓練。

此外，還包括DALL·E的訓練、和將預訓練VAE模型融合進DALL·E模型中的部分。

上述模塊訓練完成後，就能用DALL·E來做文字生成圖像了。

目前，作者正在進行DALL·E模塊部分的代碼復現。

作者承諾，完成DALL·E的部分後，會把CLIP模型也一起補上。

作者介紹

Philip Wang，本碩畢業於康奈爾大學，博士畢業於密西根大學醫學院。

他的研究興趣是AI（深度學習方向），以及醫療健康，目前GitHub上已有1.7k個followers。

關於DALL·E本身，視頻解析博主Yannic也表示，之所以能取得這麼好的效果，並不全是因為模型設計。

DALL·E，極可能也像GPT-3一樣，用了樣本量龐大的數據集，來對模型進行訓練。

網友表示，難以想像訓練這個玩意所用的GPU數量，氣候又要變暖了。

所以要想完全復現這個項目，最難的其實是硬體部分？（手動狗頭）

項目地址：

https://github.com/lucidrains/DALLE-pytorch

DALL·E視頻解析：

https://www.youtube.com/watch?v=j4xgkjWlfL4

— 完 —

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容，未經帳號授權，禁止隨意轉載。

原標題：《DALL·E才發布兩天就被復現？官方論文還沒出，大神們就在自製代碼和視頻了》

閱讀原文

相關焦點

一行代碼即可調用18款主流模型!PyTorch Hub輕鬆解決論文可復現性

用戶可以提交、瀏覽模型，極大的改善了論文的可復現性難題。機器學習論文的可復現性一直是個難題。許多機器學習相關論文要麼無法復現，要麼難以重現。有時候論文讀者經常為了調用各種經典機器學習模型，還要重複造輪子。隨著提交給arXiv以及各種會議上的論文數量開始暴漲，可復現性的重要性也越來越凸顯。
CVPR論文經不起復現推敲?是學術會議水了還是我飄了

作者稱這種做法表現良好，但我的復現結果並不理想，因此我決定對其進行測試。作者提供了他們用的代碼，但是經過仔細檢查，我發現他們的測試準確率計算有誤，導致得出的所有結果無效。」>CVPR 論文復現發現問題下面，先讓我們細緻過一遍 po 主在復現這篇論文時發現的問題，他主要發現測試準確率計算無效，因此加噪聲或採用 1×1 的卷積也沒有更好的效果。
PapersWithCode發布代碼完整性自查清單:想獲得更多星,你需要注意...

近日，PapersWithCode 發布了機器學習代碼完整性自查清單。目前，該清單已成為 NeurIPS 2020 代碼提交流程的一部分。可復現性是科學領域長期關注的話題，近期人工智慧和機器學習社區也對此投入了更多關注。
獨家 | OpenAI的DALL·E模型使人類更接近通用人工智慧(附連結)

DALL·E實現了一些驚人的功能，例如創建擬人化（即類人）的動物和對象、文本渲染、對既有圖像的轉換，以及將某些對象或概念合併至單個圖像中等。它甚至還可以補全圖像的缺失部分。具體來說，DALL·E的功能包括一下部分
論文不公開代碼,應該被直接拒稿?

Lecun 表示，即使是 NLP 的一些頂級研究人員也無法復現谷歌大腦的語言模型 Transformer-XL 所得到的結果。此外，有人還面向廣大研發人員發出了「江湖懸賞令」，稱成功復現者將獲得「酬勞」。迄今為止，行業內仍有相當數量的優質研究未能復現，這也使得後來的研究工作多多少少受到影響。但由於各項研究的本質各不相同，所以這類問題需要多維度地去看待。
經典論文復現 | InfoGAN:一種無監督生成方法

過去幾年發表於各大 AI 頂會論文提出的 400 多種算法中，公開算法代碼的僅佔 6%，其中三分之一的論文作者分享了測試數據，約 54% 的分享包含「偽代碼」。這是今年 AAAI 會議上一個嚴峻的報告。人工智慧這個蓬勃發展的領域正面臨著實驗重現的危機，就像實驗重現問題過去十年來一直困擾著心理學、醫學以及其他領域一樣。
強強聯合,Papers with Code攜手arXiv,上傳論文、提交代碼一步到位

，這或許有助於解決論文可復現性問題。現在，arXiv 上機器學習論文摘要頁面的下方出現了一個 Code 按鈕，它可以連結論文相關的官方和社區代碼實現：arXiv 論文頁面新增的 Code 部分（Papers with Code 提供支持）。可提供官方代碼和社區代碼。如何使用？
自帶魔法棒的 DALL·E | 一文圖解熱詞

大錚：DALL·E 能按照文字的描述，畫出十分自然的圖像。目前的模型對於選詞比較敏感，官方釋出的例子是類似完形填空的形式，給句子中的名詞位置挖了空，並提供了候選的詞彙。我們選擇了一個擬物的句子來展示DALL·E的能力。
Papers with Code攜手arXiv,上傳論文、提交代碼一步到位

，這或許有助於解決論文可復現性問題。現在，arXiv 上機器學習論文摘要頁面的下方出現了一個 Code 按鈕，它可以連結論文相關的官方和社區代碼實現：arXiv 論文頁面新增的 Code 部分（Papers with Code 提供支持）。可提供官方代碼和社區代碼。
Papers with Code與arXiv達成合作,論文、代碼可一併查看啦!

Papers with Code 是一個總結了機器學習論文及其代碼實現的網站。大多數論文都是有GitHub代碼的。這個網站最好的地方就是對機器學習做了任務分類，檢索對應的模型非常方便。早在18年Paper With Code創立時就轟動一時，僅創立一年就被Facebook收購。
經典論文復現 | ICML 2017大熱論文:Wasserstein GAN

最根本的問題是研究人員通常不共享他們的原始碼。可驗證的知識是科學的基礎，它事關理解。隨著人工智慧領域的發展，打破不可復現性將是必要的。為此，PaperWeekly 聯手百度 PaddlePaddle 共同發起了本次論文有獎復現，我們希望和來自學界、工業界的研究者一起接力，為 AI 行業帶來良性循環。
你上世紀寫的代碼現在還work嗎?挑戰者:我需要一個讀磁帶的機器

Rougier 認為，儘管計算在科學研究中佔有越來越重要的比重，但研究者很少披露自己的底層代碼。即使他們給出了代碼，別人也很難去執行，就連作者本人有時也會遇到麻煩。而且，隨著程式語言、計算環境的演化，現在還能運行的代碼過段時間可能就不行了。因此，「『十年代碼復現挑戰』的宗旨是找出那些十年之後仍然能夠 work 的代碼編寫和發布技術，」Hinsen 表示。這項比賽共吸引了 35 名參賽者。
如何將深度學習研究論文實現為代碼的幾個要點

為什麼要去復現機器學習研究論文？正如我所說的，能夠將一篇論文轉換成代碼絕對是一種超超能力，尤其是在像機器學習這樣每天都在快速發展的領域。大多數研究論文來自大型科技公司或大學裡的人，他們可能是博士，也可能是研究前沿技術的人。還有什麼比復現這些頂尖專業人士的研究成果更酷的呢？另一件需要注意的事情是，行業中對這些能夠將研究論文進行代碼復現的人需求量很大。
復現一篇深度強化學習論文之後,我學到了什麼

可以說是很形象了……不過這種方法的確能讓深度學習愛好者們受益匪淺。近日，瑞士機器學習專家Matthew Rahtz就發表了一篇博客，記錄了他的一個復現項目，重點寫了其中的收穫和感悟。論智將原文搬運如下，希望能對大家有所幫助。深度強化學習中有許多巧妙的地方。去年，最令人印象深刻的實驗之一是OpenAI和DeepMind使用人類反饋而不是傳統的獎勵信號來訓練智能體。
機器學習論文復現,你需要注意的五大問題

論文復現一直是機器學習領域的難題，雖然最近多個學術會議提倡大家提交代碼，但解決論文復現問題仍然任重而道遠。在試圖復現機器學習論文時，我們經常遇到哪些問題呢？新加坡機器學習工程師 Derek Chia 對此進行了總結。我最初接觸機器學習時，花費了大量時間來閱讀論文，並嘗試實現。當然，我不是天才。實現它意味著要執行 git clone 並嘗試運行論文作者的代碼。
機器學習論文復現,這五大問題你需要注意

論文復現一直是機器學習領域的難題，雖然最近多個學術會議提倡大家提交代碼，但解決論文復現問題仍然任重而道遠。在試圖復現機器學習論文時，我們經常遇到哪些問題呢？新加坡機器學習工程師 Derek Chia 對此進行了總結。我最初接觸機器學習時，花費了大量時間來閱讀論文，並嘗試實現。當然，我不是天才。實現它意味著要執行 git clone 並嘗試運行論文作者的代碼。
想輕鬆復現深度強化學習論文?看這篇經驗之談

本文作者認為復現論文是提升機器學習技能的最好方式之一，所以選擇了 OpenAI 論文《Deep Reinforcement Learning from Human Preferences》作為 target，雖獲得最後成功，卻未實現初衷。如果你也打算復現強化學習論文，那麼本文經驗也許是你想要的。
RIID知識追蹤(一)基於NN方法的SAKT模型(含論文及代碼實現)

2015年，Deep Knowledge Tracing這篇論文首次將知識追蹤任務轉換為Seq-to-Seq的任務，並用RNN實現，取得的跨越式的進展。但是，由於DKT用的是RNN，局限性還比較大。1 數據準備Knowledge Tracing任務有一些開源的數據集：Synthetic、Assistments、Junyi和Ednet等。下圖是Ednet論文中對比數據集的數據情況。
用Keras復現DCN算法

放假前幾天一直在按老師的要求修改聚類框架，老師想要將論文《Towards K-means-friendly Spaces: Simultaneous DeepLearning and Clustering》中的聚類方法DCN應用到我們的框架中。
PyTorch版EfficientDet比官方TF快25倍?這個項目數天狂攬千星

機器之心報導項目作者：zylo117參與：Racoon X、Jamin、兔子EfficientDet 難復現，復現即趟坑。但最終得出了非常不錯的效果，也是全網第一個跑出接近論文成績的 PyTorch 版。我們先來看一下項目作者與 EfficientDet 官方提供代碼的測試效果對比。第一張圖為官方代碼的檢測效果，第二張為項目作者的檢測效果。項目作者的實現竟然透過汽車的前擋風玻璃檢測出了車輛裡面的人？！！這樣驚豔的檢測效果不愧是目前 EfficientDet 的霸榜存在。

DALL·E才發布兩天就被復現?官方論文還沒出,大神們就在自製代碼和...

相關焦點

一行代碼即可調用18款主流模型!PyTorch Hub輕鬆解決論文可復現性

CVPR論文經不起復現推敲?是學術會議水了還是我飄了

PapersWithCode發布代碼完整性自查清單:想獲得更多星,你需要注意...

獨家 | OpenAI的DALL·E模型使人類更接近通用人工智慧(附連結)

論文不公開代碼,應該被直接拒稿?

經典論文復現 | InfoGAN:一種無監督生成方法

強強聯合,Papers with Code攜手arXiv,上傳論文、提交代碼一步到位

自帶魔法棒的 DALL·E | 一文圖解熱詞

Papers with Code攜手arXiv,上傳論文、提交代碼一步到位

Papers with Code與arXiv達成合作,論文、代碼可一併查看啦!

經典論文復現 | ICML 2017大熱論文:Wasserstein GAN

你上世紀寫的代碼現在還work嗎?挑戰者:我需要一個讀磁帶的機器

如何將深度學習研究論文實現為代碼的幾個要點

復現一篇深度強化學習論文之後,我學到了什麼

機器學習論文復現,你需要注意的五大問題

機器學習論文復現,這五大問題你需要注意

想輕鬆復現深度強化學習論文?看這篇經驗之談

RIID知識追蹤(一)基於NN方法的SAKT模型(含論文及代碼實現)

用Keras復現DCN算法

PyTorch版EfficientDet比官方TF快25倍?這個項目數天狂攬千星