STARGAN-多領域圖像

2021-01-18 GoAI

    Pix2Pix模型解決了有Pair對數據的圖像翻譯問題;CycleGAN解決了Unpaired數據下的圖像翻譯問題。但無論是Pix2Pix還是CycleGAN,都是解決了一對一的問題,即一個領域到另一個領域的轉換。當有很多領域要轉換了,對於每一個領域轉換,都需要重新訓練一個模型去解決。這樣的行為太低效了。本文所介紹的StarGAN就是將多領域轉換用統一框架實現的算法。

    下圖是StarGAN的效果,在同一種模型下,可以做多個圖像翻譯任務,比如更換頭髮顏色,更換表情,更換年齡等。

  StarGAN,顧名思義,就是星形網絡結構,在StarGAN中,生成網絡G被實現成星形。如下圖所示,左側為普通的Pix2Pix模型要訓練多對多模型時的做法,而右側則是StarGAN的做法,可以看到,StarGAN僅僅需要一個G來學習所有領域對之間的轉換。


    要想讓G擁有學習多個領域轉換的能力,需要對生成網絡G和判別網絡D做如下改動。

    在G的輸入中添加目標領域信息,即把圖片翻譯到哪個領域這個信息告訴生成模型。

    D除了具有判斷圖片是否真實的功能外,還要有判斷圖片屬於哪個類別的能力。這樣可以保證G中同樣的輸入圖像,隨著目標領域的不同生成不同的效果

    除了上述兩樣以外,還需要保證圖像翻譯過程中圖像內容要保存,只改變領域差異的那部分。圖像重建可以完整這一部分,圖像重建即將圖像翻譯從領域A翻譯到領域B,再翻譯回來,不會發生變化。

    D的訓練和G的訓練如下所示。

對D訓練

(a)D對真假圖片進行判別,真圖片判真,假圖片判假,真圖片被分類到相應域對G訓練

(b)真圖片+目的標籤c進入G生成假圖片

(c)假圖片+原始標籤c撇進入G又回去生成重構圖片(重構loss)

(d)D對假圖片進行判別,判假圖片為真


其次是類別損失,該損失被分成兩個,訓練D的時候,使用真實圖像在原始領域進行,訓練G的時候,使用生成的圖像在目標領域進行。

訓練D的損失:

再次則是重建函數,重建函數與CycleGAN中的正向函數類似。

    在多數據集下訓練StarGAN存在一個問題,那就是數據集之間的類別可能是不相交的,但內容可能是相交的。比如CelebA數據集合RaFD數據集,前者擁有很多膚色,年齡之類的類別。而後者擁有的是表情的類別。但前者的圖像很多也是有表情的,這就導致前一類的圖像在後一類的標記是不可知的。

    為了解決這個問題,在模型輸入中加入了Mask,即如果來源於數據集B,那麼將數據集A中的標記全部設為0。

1、CelebA:

CelebFaces Attributes (CelebA) dataset,有202599張人臉,作者對圖片進行了檢測,還使用以下屬性構建了七個domian:頭髮的顏色(黑色,金色,棕色),性別(男/女)、年齡(年輕/老)。

2、RaFD:

The Radboud Faces Database (RaFD) 由67個參與者收集的4824幅圖像組成,裡面有各種表情數據增強方面作者用水平翻轉,為了彌補數據的不足,當使用RaFD訓練時,作者以0.0001的學習率訓練所有模型100個周期,並在接下來的100個周期應用相同的衰減策略

比較對象:DIAT ,CycleGAN還有IcGAN

標籤c掩碼向量的設計,實現多數據集(掩碼m表示)多特徵(多條件GAN)訓練。

相關焦點

  • 生成「貓狗版」川普,造假臉工具StarGANv2被玩壞,算法已開源
    先將項目克隆到本地:git clone https://github.com/clovaai/stargan-v2.git cd stargan-v2/安裝依賴項:conda create -n stargan-v2 python=3.6.7conda activate stargan-v2 conda install
  • [CVPR 2020] StarGAN v2: 多域風格圖像合成,效果驚人,史上最強!
    而編碼器則學習從給定的參考圖像中提取風格編碼。在多個域的情況下,這兩個模塊都擁有多個輸出分支,每一個都為特定域提供了風格編碼。最終,使用這些風格編碼,生成器就可以成功地學習在多個域下合成風格圖像。我們的多任務架構允許F高效地學習所有域的風格表達。Style encoder(Figure 2c)給定圖像x和它對應的域y,編碼器E提取風格編碼s=Ey(x)s=Ey(x). 其中Ey(⋅)Ey(⋅)表示編碼器特定域域y的輸出。和F類似,風格編碼器E也受益於多任務學習設置。E可以使用不同參考圖片生成多樣化風格編碼。
  • 這隻狗,其實是貓變的:「擼貓神器」StarGAN v2來了!
    StarGAN v2:青出於藍,同時解決多樣性和擴展性 優秀的圖像-圖像轉換模型需要學習不同視覺域之間的映射,要同時滿足以下屬性:1)生成圖像的多樣性和 2)在多個域上的可擴展性。現有方法一般只能解決這兩個問題的其中一個,即要麼對於所有域,其呈現的多樣性有限,要麼需要使用多個模型。
  • 【明星自動大變臉】最新StarGAN對抗生成網絡實現多領域圖像變換(附代碼)
    近日,香港科技大學、新澤西大學和韓國大學等機構在 arXiv 上聯合發表了一篇研究論文,提出了在同一個模型中進行多個圖像領域之間的風格轉換的對抗生成方法StarGan,突破了傳統的只能在兩個圖像領域轉換的局限性。
  • 【明星自動大變臉,嬉笑怒罵加變性】最新StarGAN對抗生成網絡實現多領域圖像變換(附代碼)
    近日,香港科技大學、新澤西大學和 韓國大學等機構在 arXiv 上聯合發表了一篇研究論文,提出了在同一個模型中進行多個圖像領域之間的風格轉換的對抗生成方法StarGan,突破了傳統的只能在兩個圖像領域轉換的局限性。
  • 升級版StarGAN來襲!你想要的多目標域多風格圖像變換它都有
    模型整體在 StarGAN [1] 的基礎上解決了圖像翻譯任務中源域的圖像轉換為目標域的多種圖像,並支持多個目標域的問題,實現了較好的源域圖像到目標域圖像的轉換,值得一說的是文章還公布了一個動物面部圖像數據集,即將發布於作者的 Github 下。
  • GANs中的明星StarGAN:使用單一模型執行多個域的圖像轉換
    論文摘要:最近的研究表明在兩個領域的圖像轉化方面取得了顯著的成功。 然而,現有的方法在處理兩個以上的域時在可伸縮性和魯棒性上存在局限,原因在於應該為每一對圖像域獨立建立不同的模型。 為了解決這個限制,我們提出了StarGAN,這是一種新穎且可擴展的方法,可以僅使用一個模型來執行多個域的圖像到圖像的轉換。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    智慧機器人在2006年前,大多數機器學習方法是使用淺結構模型來處理數據,且結構模型至多只有一層或兩層的非線性特徵的層。最有代表性的若干淺層結構:高斯混合模型(Gaussian Mixture Model,GMM),K均值聚類,支持向量機(Support Vector Machine,SVM)、Logistic回歸等。
  • 在圖像生成領域裡,GAN這一大家族是如何生根發芽的
    我們可以發現,擁有最頂尖效果的模型,通常都有非常美妙的想法,這對於理解整個任務或領域非常重要。但是如果從另一個角度,探討這些頂尖模型的關係與演化,我們能獲得另一種全局體驗。為了獲得這種全局概覽,我們探索了 SOTA 項目中圖像生成領域的頂級模型。根據機器之心的 SOTA 模型統計,在圖像生成領域 58 個頂尖模型中,有 32 個模型在命名中帶了「GAN」。
  • 包括的領域有計算機視覺,語音識別,自然語言處理,圖像識別等
    現在人工智慧已經包括的領域有計算機視覺,語音識別,自然語言處理,圖像識別等。人工智慧的步驟人工智慧基本步驟包括,信息提取->信息分析->假設建模->學習->泛化,具體步驟。如果說計算機視覺是讓計算機看到一張黑白的二維圖像,那麼它可以識別字符串,可以通過圖像獲取某個標註的信息,它具有特定的識別圖像,可以從圖像分析出某個基本的結構。
  • 「CVPR Oral」TensorFlow實現StarGAN代碼全部開源,1天訓練完
    新智元編譯 來源:github作者:Junho Kim 編譯:肖琴【新智元導讀】StarGAN 是去年 11 月由香港科技大學、新澤西大學和韓國大學等機構的研究人員提出的一個圖像風格遷移模型,是一種可以在同一個模型中進行多個圖像領域之間的風格轉換的對抗生成方法。
  • 多模態 AI 系統?從文本直接創建圖像!OpenAI發布新人工智慧系統
    GPT-3在許多自然語言處理數據集上均具有出色的性能,包括翻譯、問答和文本填空任務,還包括一些需要即時推理或領域適應的任務等,已在很多實際任務上大幅接近人類水平。新發布的語言模型DALL·E,是GPT-3的120億參數版本,可以按照自然語言文字描述直接生成對應圖片!
  • 巧解圖像處理經典難題之圖像配準
    一、定義圖像配準是使用某種算法,基於某種評估標準,將一副或多副圖片(局部)最優映射到目標圖片上的方法。根據不同配準方法,不同評判標準和不同圖片類型,有不同類型的圖像配準方法。(詳見「問題分類」部分)二、問題背景和應用圖像配準在計算機視覺、醫學圖像處理、材料力學、遙感等領域有廣泛應用。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • 深度學習與圖像識別 圖像檢測
    CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。深度學習很重要的是對全局和局部特徵的綜合把握(2)深度學習不是一個黑箱系統。
  • 俄羅斯制訂多領域人工智慧應用路線圖
    俄羅斯經濟發展部正在制訂人工智慧在衛生、交通、智慧城市、農業、工業和國防工業綜合體等領域的應用戰略和路線圖,至2024年,將制定出不少於15個此類政策。在衛生領域,將運用人工智慧來開發新藥,通過解釋醫學圖像在疾病診斷方面提供幫助,以及創建能進行診斷、開處方並下達醫療決策的系統。
  • 多光譜可見光遙感圖像壓縮系統設計
    摘要:為了實現多光譜可見光遙感圖像高質量壓縮的要求,提出以JPEG2000壓縮標準為理論,將FPGA與專用壓縮晶片ADV212相結 合的空間遙感圖像壓縮方法。
  • 計算機視覺(圖像)技術:視覺圖像搜索綜述
    你之前有沒有考慮過,為何谷歌和 Facebook 會讓你免費上傳如此多圖片?原因就在於這些圖片可以將他們的深度學習網絡訓練的更加準確。一、舉例說明:  亞馬遜出品的Firefly當時引起了很大的轟動雖然這個產品也很難說是不是成功但是當時確實是很大膽的一個舉動。  百度也有圖像搜索和圖像識別微軟也有。
  • 超多,超快,超強!百度飛槳發布工業級圖像分割利器PaddleSeg
    機器之心發布機器之心編輯部近日,飛槳官方發布了工業級圖像分割模型庫 PaddleSeg,給開發者帶來誠意滿滿的三重超值驚喜:①一次性開源 15 個官方支持的圖像分割領域主流模型,大禮包帶來大滿足。②多卡訓練速度比對標產品快兩倍,工業級部署能力,時間節省超痛快。
  • 圖像處理技術是什麼_圖像處理技術現狀和發展前景
    早期數字圖像處理的目的是改善圖像的質量,它以人為對象,以改善人的視覺效果為目的。目前該技術已廣泛用於科學研究、工農業生產、生物醫學工程、航空航天、軍事、工業、機器人產業、政府職能機關文化文藝等多領域。並在其中發揮著越來越大的作用,已成為一門引人注目、前景廣闊的新型學科。