stackGAN通過文字描述生成圖片的V2項目

2021-03-02 CreateAMind

  https://github.com/hanzhanggit/StackGAN-v2

StackGAN-v2

StackGAN-v1: Tensorflow implementation

StackGAN-v1: Pytorch implementation

Inception score evaluation

Pytorch implementation for reproducing StackGAN_v2 results in the paper StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks by Han Zhang*, Tao Xu*, Hongsheng Li, Shaoting Zhang, Xiaogang Wang,   Xiaolei Huang, Dimitris Metaxas.


Dependencies

python 2.7

Pytorch

In addition, please add the project folder to PYTHONPATH and pip install the following packages:

tensorboard

python-dateutil

easydict

pandas

torchfile

Data

Download our preprocessed char-CNN-RNN text embeddings for birds and save them to data/

Download the birds image data. Extract them to data/birds/

Download ImageNet dataset and extract the images to data/imagenet/

Download LSUN dataset and save the images to data/lsun

Training

Train a StackGAN-v2 model on the bird (CUB) dataset using our preprocessed embeddings:

Train a StackGAN-v2 model on the ImageNet dog subset:

Train a StackGAN-v2 model on the ImageNet cat subset:

Train a StackGAN-v2 model on the lsun bedroom subset:

Train a StackGAN-v2 model on the lsun church subset:

*.yml files are example configuration files for training/evaluation our models.

If you want to try your own datasets, here are some good tips about how to train GAN. Also, we encourage to try different hyper-parameters and architectures, especially for more complex datasets.

Pretrained Model

StackGAN-v2 for bird. Download and save it to models/ (The inception score for this Model is 4.04±0.05)

StackGAN-v2 for dog. Download and save it to models/ (The inception score for this Model is 9.55±0.11)

StackGAN-v2 for cat. Download and save it to models/

StackGAN-v2 for bedroom. Download and save it to models/

StackGAN-v2 for church. Download and save it to models/

Evaluating

Examples generated by StackGAN-v2

Tsne visualization of randomly generated birds, dogs, cats, churchs and bedrooms

Citing StackGAN++

If you find StackGAN useful in your research, please consider citing:

@article{Han17stackgan2,  author    = {Han Zhang and Tao Xu and Hongsheng Li and Shaoting Zhang and Xiaogang Wang and Xiaolei Huang and Dimitris Metaxas},  title     = {StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks},  journal   = {arXiv: 1710.10916},  year      = {2017},}

@inproceedings{han2017stackgan,Author = {Han Zhang and Tao Xu and Hongsheng Li and Shaoting Zhang and Xiaogang Wang and Xiaolei Huang and Dimitris Metaxas},Title = {StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks},Year = {2017},booktitle = {{ICCV}},}

Our follow-up work

References

招聘請公眾號回復招聘

相關焦點

  • <模型匯總_5>生成對抗網絡GAN及其變體SGAN_WGAN_CGAN_DCGAN_InfoGAN_StackGAN
    極限情況下,當G能夠完全恢復輸入樣本X的分布的時候,D已經把G生成的樣本識別出來,所以G的輸出概率處處為1/2。與傳統的生成模型,如DBN相比,通過這種方式來訓練生成模型,不需要計算複雜的馬爾科夫鏈或者像CD-K算法那樣進行展開的近似推理過程。
  • 資源 | T2T:利用StackGAN和ProGAN從文本生成人臉
    而計算機視覺是不是也能僅使用少量的描述性語句就生成對應的人臉圖像?本 GitHub 項目使用了最新發布的 Face2Text 數據集,並通過結合 StackGAN 與 ProGAN 從文本生成人臉圖像。
  • OpenAI推DALL-E模型:能根據文字描述生成圖片
    DALL-E 能將計算機視覺和自然語言處理(NLP)結合起來,能夠從文本描述中生成圖片。例如,下面這張照片就是由「穿著芭蕾舞裙遛狗的小蘿蔔插圖」生成的。 在 OpenAI 今天分享的測試中,表明 Dall-E 有能力對生成的圖像中的物體進行操作和重新排列,也能夠創作出一些不存在的東西,例如豪豬的紋理或者雲朵的立方體 。
  • 不僅僅是生成二次元萌妹子,來看 GAN 模型還有哪些有趣應用吧!
    它的全稱是 Generator adversarial networks,中文是生成對抗網絡,是一種生成式模型,由 good fellow 在 14 年提出,近四年來被 AI 研究者瘋狂研(guan)究(shui),更有大神建立一個 GAN zoo,收集了上百種不同的GAN:https://github.com/hindupuravinash/the-gan-zoo
  • 能生成Deepfake也能診斷癌症,GAN與惡的距離
    在蒙特婁一個酒吧,一些朋友希望他能幫忙看看手頭上一個棘手的項目:計算機如何自己生成圖片。研究人員已經使用了神經網絡(模擬人腦的神經元網絡的一種算法),作為生成模型來創造合理的新數據。但結果往往不盡人意。計算機生成的人臉圖像通常不是模糊不清,就是缺耳少鼻。
  • 科普 | ​生成對抗網絡(GAN)的發展史
    它可以生成高質量的圖像,圖片增強,從文本生成圖像,將圖像從一個域轉換為另一個域,隨年齡增長改變臉部外觀等等。這個名單是遠遠不夠的。我們將在本文中介紹一些流行的GAN架構。第三,圍繞GAN不斷的研究是如此令人著迷,以至於它吸引了其他所有行業的注意力。我們將在本文後面部分討論重大技術突破。誕生生成對抗網絡(GAN)具有兩個網絡,生成器網絡和鑑別器網絡。
  • 輕鬆構建 PyTorch 生成對抗網絡(GAN)
    主要內容課題及方案概覽模型的開發環境生成對抗網絡模型模型的訓練和驗證結論與總結課題及方案概覽下面顯示的兩組手寫體數字圖片,您是否能從中夠辨認出由計算機生成的『手寫』字體是其中哪一組?『模仿手寫字體』與人像生成的基本原理和工程流程基本是一致的,雖然它們的複雜性和精度要求有一定差距,但是通過解決『模仿手寫字體』問題,可以為生成對抗網絡的原理和工程實踐打下基礎,進而可以逐步嘗試和探索更加複雜先進的網絡架構和應用場景。《生成對抗網絡》(GAN)由 Ian Goodfellow 等人在 2014年提出,它是一種深度神經網絡架構,由一個生成網絡和一個判別網絡組成。
  • 一些fancy的GAN應用
    ,是一種生成式模型,由good fellow在14年提出,近四年來被AI研究者瘋狂研(guan)究(shui),更有大神建立一個GAN zoo,收集了上百種不同的GAN:https://github.com/hindupuravinash/the-gan-zoo 事實上隨著GAN理論的不斷完善,GAN逐漸展現出了自己非凡的魅力,在一些應用領域開始大放異彩,由此衍生了一些非常fancy
  • GAN生成式對抗網絡及應用詳解
    需要注意的是,以交替方式訓練生成器 G 和鑑別器 D,其中每個目標都表示為通過梯度下降優化的損失函數。生成器模塊學會如何使輸入越來越逼真,而鑑別器模塊學會如何越來越準確地識別虛假輸入。鑑別器網絡(通常是標準的卷積神經網絡)用來界定輸入圖像是真實的還是生成的。一個重要的新想法是通過倒置鑑別器和發生器來調整生成器的參數,使得生成器可以學習如何在各種情況下騙過鑑別器。
  • GAN(生成對抗網絡)萬字長文綜述
    同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。即最小化:生成圖片通過判別器的特徵和真實圖片通過判別器得到的特徵之間的距離。 標籤平滑:GAN 訓練中的標籤非 0 即 1,這使得判別器預測出來的 confidence 傾向於更高的值。使用標籤平滑可以緩解該問題。具體來說,就是把標籤 1 替換為 0.8~1.0 之間的隨機數。
  • TF - GAN入門:TensorFlow 2.0 的輕量級 GAN 庫
    2017 年,谷歌推出了用於訓練和評估 生成對抗網絡 (Generative Adversarial Networks, GAN) 的輕量級庫 TF-GAN。自那時起,TF-GAN 便在大量極具影響力的論文和項目中被廣泛應用。
  • 騰訊TIM安卓版v2.1.0測試版:長按聊天圖片可識別文字
    今天騰訊官方發布了TIM安卓版v2.1.0測試版,本次更新主要包括長按聊天圖片識別圖中文字、雲文件接入WPS雲盤等。版本2.1.0中的更新內容:長按聊天時收發的圖片,可識別圖中文字,並支持收藏、搜索、翻譯雲文件接入WPS雲盤,可選擇雲盤內的文件進行瀏覽、下載及發送給好友TIM安卓版v2.1.0測試版下載地址:傳送門騰訊TIM是一款專注於團隊辦公協作的跨平臺溝通工具,提供雲文件、在線文檔、郵件、日程、收藏等好用的辦公功能,界面簡潔清晰,能夠實現QQ
  • node 文字生成圖片
    公眾號發布文章時,需要為文章配置一個封面圖片。我的常規做法就是網上搜一張圖片,然後利用 PhotoShop,在圖片上加入文章標題,然後導出生成圖片,如下圖所示:上圖實際就是在一張背景圖中,加入了一行文字。操作步驟簡單,但是每次都需要打開PhotoShop修改文字,感覺麻煩、工作重複。
  • 萬字綜述之生成對抗網絡(GAN)
    即最小化:生成圖片通過判別器的特徵和真實圖片通過判別器得到的特徵之間的距離。 標籤平滑:GAN 訓練中的標籤非 0 即 1,這使得判別器預測出來的 confidence 傾向於更高的值。使用標籤平滑可以緩解該問題。具體來說,就是把標籤 1 替換為 0.8~1.0 之間的隨機數。
  • 經典GAN實戰教程:理解並運行自己的GAN生成手寫數字
    本文主要是以下3個部分:了解什麼是GAN理解和評估GAN運行自己的GAN希望通過本文,讀者能夠了解如何評估GAN,並最終能夠動手運行自己的GAN生成MNIST等手寫數字。這些輸出可用作訓練其他模型的合成數據,或僅用於產生有趣的side項目,例如GAN是什麼?GAN由一個生成網絡與一個判別網絡組成。
  • 別人家的高中生:入大學前,Ta詳細梳理了GAN的發展脈絡
    通過卷積方式將稀疏的圖像矩陣轉換為密集矩陣。DCGAN 生成的圖片。較 GAN 更清晰,有更多色彩。GAN 從噪聲中生成圖片。因此,如果訓練的是一類圖(例如,狗),其能生成這一類圖片。但是,如果訓練中同時有很多類(例如,狗和貓都有)圖片,則生成的圖片是這些圖片模糊的混合。而 CGAN 可以讓用戶指定生成的圖片分類。具體的,CGAN 將 one-hot 向量 y 和隨機噪聲向量 z 拼接,組成如下的結構:使用 CGAN 可以生成指定的 MNIST 數字。
  • 【專知薈萃11】GAN生成式對抗網絡知識資料全集(理論/報告/教程/綜述/代碼等)
    blog.csdn.net/love666666shen/article/details/74953970]六、Github資源以及模型深度卷積生成對抗模型(DCGAN)參考連結:[https://github.com/Newmu/dcgan_code]TensorFlow實現深度卷積生成對抗模型(DCGAN)參考連結:[https://github.com
  • 深度 | 生成對抗網絡初學入門:一文讀懂GAN的基本原理(附資源)
    對抗樣本在我們詳細描述 GAN 之前,我們先看看一個有些近似的主題。給定一個訓練後的分類器,我們能生成一個能騙過該網絡的樣本嗎?如果我們可以,那看起來又會如何?事實證明,我們可以。不僅如此,對於幾乎任何給定的圖像分類器,都可以通過圖像變形的方式,在新圖像看起來和原圖像基本毫無差別的情況下,讓網絡得到有很高置信度的錯誤分類結果!這個過程被稱為對抗攻擊(adversarial attack),而這種生成方式的簡單性能夠給 GAN 提供很多解釋。對抗樣本(adversarial example)是指經過精心計算得到的旨在誤導分類器的樣本。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    夏乙 編譯整理量子位 出品 | 公眾號 QbitAI圖片來源:Kaggle blog從2014年誕生至今,生成對抗網絡(GAN)始終廣受關注,已經出現了200多種有名有姓的變體。通過自己動手、探索模型代碼來學習,當然是墜吼的~如果用簡單易上手的Keras框架,那就更贊了。一位GitHub群眾eriklindernoren就發布了17種GAN的Keras實現,得到Keras親爸爸Franois Chollet在Twitter上的熱情推薦。
  • 用機器學習生成圖片:GAN的局限性以及如何GAN的更爽
    (上)—— GAN 和 pix2pix本文翻譯、總結自朱俊彥的線上報告,主要講了如何用機器學習生成圖片。而想要生成想遊戲場景這類的圖片,這種方法根本沒用。所以,我們必須得想出更厲害滴東西完成這項任務(使命感爆棚)!GAN 就完了?Naive!