新智元AI World 2017世界人工智慧大會開場視頻
中國人工智慧資訊智庫社交主平臺新智元主辦的 AI WORLD 2017 世界人工智慧大會11月8日在北京國家會議中心舉行,大會以「AI 新萬象,中國智能+」為主題,上百位AI領袖作了覆蓋技術、學術和產業最前沿的報告和討論,2000多名業內人士參會。新智元創始人兼CEO楊靜在會上發布全球首個AI專家互動資訊平臺「新智元V享圈」。
全程回顧新智元AI World 2017世界人工智慧大會盛況:
新華網圖文回顧
http://www.xinhuanet.com/money/jrzb20171108/index.htm
愛奇藝
上午:http://www.iqiyi.com/v_19rrdp002w.html
下午:http://www.iqiyi.com/v_19rrdozo4c.html
阿里云云棲社區
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm
新智元推薦
來源:專知
【導讀】圖像之間的風格遷移和翻譯是近年來最受關注的人工智慧研究方向之一,這個任務在具有趣味性的同時也是很有挑戰的。相關的研究成果也層出不窮,有的甚至引起了全世界的廣泛討論。近日,香港科技大學、新澤西大學和韓國大學等機構在 arXiv 上聯合發表了一篇研究論文,提出了在同一個模型中進行多個圖像領域之間的風格轉換的對抗生成方法StarGan,突破了傳統的只能在兩個圖像領域轉換的局限性。
圖像到圖像轉化的任務是將一個給定圖像的特定方面改變到另一個方面,例如,將一個人的面部表情從微笑到皺眉改變(見圖1)。自從生成對抗網絡(GANs)的引入,這個任務經歷了很大的發展,從改變發色,改變邊緣圖以重建照片,到改變風景圖像的季節等。
圖1. 通過從RaFD數據集學習轉移知識,從而應用到CelebA圖像轉化的多域的圖像到圖像轉化結果。第一列和第六列顯示輸入圖像,其餘列是產生的StarGAN圖像。注意,圖像是由一個單一模型網絡生成的,面部表情標籤如生氣、高興、恐懼是從RaFD學習的,而不是來自CelebA。
給定來自兩個不同域的訓練數據,這些模型學習如何將圖像從一個域轉換到另一個域。文章中將術語表示為圖像中固有的特徵,如頭髮顏色、性別或年齡,屬性值作為屬性的特定值,例如黑色/金色/棕色的頭髮顏色,或性別的男性/女性等。我們進一步將具有一系列相同屬性值的圖像設為一個域。例如,女性形象代表一個域,而男性代表另一個域。
幾個圖像數據集帶有許多標記屬性。例如,在CelebA數據集包含40個標籤的面部特徵,如頭髮的顏色、性別、年齡;RaFD數據集有8個表示面部表情的標籤,如「快樂」,「憤怒」和「悲傷」。我們可以根據這些屬性設置執行更有趣的任務,即多域圖像到圖像的轉換,我們根據多個域的屬性來改變圖像。圖1中,前5列展示了一個CelebA圖像可以根據任何四個域進行轉化,「金髮」、「性別」、「年齡」、「蒼白的皮膚」。我們可以進一步延伸到從不同的數據集進行多個域的訓練,如共同訓練的CelebA和RaFD圖像來改變CelebA圖像的面部表情,通過訓練RaFD數據提取特徵來作用於CelebA圖像,如在圖1的最右邊的列。
然而,現有的模型在多域圖像轉換任務中效率低下。這些模型的低效率是因為在學習K域的時候,需要訓練K(K−1)個生成器。圖2說明了如何在四個不同的域之間轉換圖像的時候,訓練十二個不同的生成器的網絡。即使它們可以從所有域圖像學習全局特徵,如形狀特徵學習,這種模型也是無效的,因為每個生成器不能充分利用整個訓練數據,只能從K學習的兩個領域。未能充分利用訓練數據很可能會限制生成圖像的質量。此外,它們不能聯合訓練來自不同域的數據集,因為每個數據集只有部分標記,本文在3.2章進一步討論。
圖2. 我們的StarGAN模型與其他跨域模型的比較。(a)為處理多個域,應該在每一對域都建立跨域模型。(b)StarGAN用單個發生器學習多域之間的映射。該圖表示連接多個域的拓撲圖。
為解決這些問題我們提出了StarGAN,它是生成對抗網絡,能夠學習多個域之間的映射。如圖2(b)所示,文章中提出的模型接受多個域的訓練數據,並且只使用一個生成器學習所有可用域之間的映射。這個想法是非常簡單的。其模型不是學習固定的圖像轉化(例如,從黑髮到金髮),而是輸入圖像和域信息,學習如何靈活地將輸入圖像轉換到相應的域中。文章中使用一個標籤(二進位或one hot向量)代表域信息。在訓練過程中,隨機生成目標域標籤並訓練模型,以便靈活地將輸入圖像轉換到目標域。通過這樣做,可以控制域標籤並在測試階段將圖像轉換成任何所需的域。
本文還引入了一種簡單而有效的方法,通過將掩碼向量添加到域標籤,使不同數據集的域之間進行聯合訓練。文章中所提出的方法使模型可以忽略未知的標籤,並專注於有標籤的特定數據集。在這種方式下,此模型對任務能獲得良好的效果,如利用從RaFD數據集學到的特徵來在CelebA圖像中合成表情,如圖1的最右邊的列。據本文中提及,這篇工作是第一個成功地完成跨不同數據集的多域圖像轉化。
總的來說,本文的貢獻如下:
提出了StarGAN,生成一個新的對抗網絡,只使用一個單一的發生器和辨別器實現多個域之間的映射,有效地從所有域的圖像進行訓練;
展示了如何在多個數據集之間學習多域圖像轉化,並利用掩碼向量的方法使StarGAN控制所有可用的域標籤。
提供定性和定量的結果,對面部表情合成任務和面部屬性傳遞任務使用StarGAN,相比baseline模型顯示出它的優越性。
原則上,文中提出的模型可以應用於任何其他類型的域之間的轉換問題,例如,風格轉換(style transfer),這是未來的工作方向之一。
在單一數據集上的訓練
總得來看,StarGAN包括兩個模塊,一個鑑別器D和一個生成器G.(a)D學習如何區分真實圖像和偽造圖像,並將真實圖像分類到相應領域。 (b)G同時輸入圖像和目標域的標籤並生成假圖像,在輸入時目標域標籤被複製並與輸入圖像拼接在一塊。 (c)G嘗試從給定原始域標籤的假圖像重建原始圖像。 (d)G試圖生成與真實圖像不可區分的圖像同時又很容易被目標域D所區分出來。
在多數據集上的訓練
StarGAN同時在CelebA和RaFD兩個數據機上進行培訓的概述。 (a)〜(d)顯示了使用CelebA的訓練過程,(e)〜(h)顯示了使用RaFD的訓練過程。 (a),(e)鑑別器D學習如何區分真實圖像和偽造圖像,並僅將已知標籤的分類誤差最小化。 (b),(c),(f),(g)當掩碼向量(紫色)為[1,0]時,生成器G學習專注於CelebA標籤(黃色),而忽略RaFD標籤(綠色)來執行圖像到圖像的轉換,反之亦然,當掩碼矢量是[0,1]時。 (d),(h)G嘗試生成與真實圖像無法區分的圖像,同時圖像可以被D分類可為目標域。
在明星臉上的面部屬性遷移
這些圖片是由StarGAN在CelebA 數據集上訓練後生成的。
在RaFD人臉數據集上的表情合成
這些圖片是由StarGAN在RaFD人臉數據集上訓練後生成的。
在明星臉上的表情合成
這些圖片是由StarGAN同時在RaFD和CelebA數據集上訓練後生成的。
論文:StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
摘要
最近的研究表明,在兩個領域之間圖像到圖像轉化的研究領域取得了顯著的成功。然而,現有的方法在處理兩個以上圖像域時,可伸縮性和魯棒性有限,因此,要為每一對映像域都需要獨立構建不同的模型。
為了解決這個問題,我們提出了一個新的可擴展的StarGAN,可以利用同一個模型實現多個域圖像到圖像轉化。這樣一個統一的StarGAN模型體系允許在一個單一的網絡內同時訓練不同域的多個數據集。這使得StarGAN與現有的圖像轉化模型相比,StarGAN更加靈活,能將輸入圖像轉化到任意所需要的目標域圖像。實驗證明,我們的方法在面部屬性轉移和面部表情合成任務上的有效性。
PyTorch代碼實現的《StarGAN: UnifiedGenerative Adversarial Networks for Multi-Domain Image-to-Image Translation》,StarGAN可以很靈活的將一副圖片轉換成任何你想要的目標風格,這一切只需要一個簡單的生成器和一個判別器。
Yunjey Choi https://github.com/yunjey,
Minje Choi https://github.com/mjc92,
Munyoung Kim https://www.facebook.com/munyoung.kim.1291,
Jung-Woo Ha https://www.facebook.com/jungwoo.ha.921,
Sung Kim https://www.cse.ust.hk/~hunkim/,
Jaegul Choo https://sites.google.com/site/jaegulchoo/
Python 2.7 or 3.5+ https://www.continuum.io/downloads
PyTorch 0.2.0 http://pytorch.org/
TensorFlow 1.3+ https://www.tensorflow.org/
bash
$ git clonehttps://github.com/yunjey/StarGAN.git
$ cd StarGAN/
bash
$ bashdownload.sh
由於RaFD並不是一個公開的數據集,所以你必須先在Radboud Faces Database website (http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main)這個網站上申請使用權限。然後你需要想這裡描述https://github.com/yunjey/StarGAN/blob/master/png/RaFD.md的那樣,來創建相應的目錄結構。
bash
$ python main.py--mode='train' --dataset='CelebA' --cdim=5 --imagesize=128 --numepochs=20--numepochsdecay=10
bash
$ python main.py--mode='train' --dataset='RaFD' --cdim=8 --imagesize=128 --numepochs=200--numepochsdecay=100
bash
$ python main.py--mode='train' --dataset='Both' --cdim=5 --c2dim=8 --imagesize=256--numiters=200000 --numitersdecay=100000
bash
$ python main.py--mode='test' --dataset='CelebA' --cdim=5 --imagesize=256 --testmodel=201000
bash
$ python main.py--mode='test' --dataset='RaFD' --cdim=8 --imagesize=256 --testmodel=200200
bash
$ python main.py--mode='test' --dataset='Both' --cdim=5 --c2dim=8 --imagesize=256--testmodel=200000
參考文獻
論文:
StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
arXiv: https://arxiv.org/abs/1711.09020
github: https://github.com/yunjey/StarGAN
video: https://v.qq.com/x/page/t0510kq8mya.html
本文經授權轉載自專知:Quan_Zhuanzhi,點擊「閱讀原文」可查閱原文。