新智元AI World 2017世界人工智慧大會開場視頻
中國人工智慧資訊智庫社交主平臺新智元主辦的 AI WORLD 2017 世界人工智慧大會11月8日在北京國家會議中心舉行,大會以「AI 新萬象,中國智能+」為主題,上百位AI領袖作了覆蓋技術、學術和產業最前沿的報告和討論,2000多名業內人士參會。新智元創始人兼CEO楊靜在會上發布全球首個AI專家互動資訊平臺「新智元V享圈」。
全程回顧新智元AI World 2017世界人工智慧大會盛況:
新華網圖文回顧
http://www.xinhuanet.com/money/jrzb20171108/index.htm
愛奇藝
上午:http://www.iqiyi.com/v_19rrdp002w.html
下午:http://www.iqiyi.com/v_19rrdozo4c.html
阿里云云棲社區
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm
新智元編譯
來源:arxiv.org
編譯:馬文
【新智元導讀】英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的項目,並公開了論文和代碼。pix2pixHD能夠利用條件GAN進行2048x1024解析度的圖像合成和處理,輸入語義標註圖生成接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像,效果優於pix2pix和CRN等先前的方法。
英偉達和UC Berkeley的研究者最近公開一個名為pix2pixHD的「用條件GAN進行2048x1024解析度的圖像合成和處理」項目,並公開了論文和代碼。pix2pixHD能夠利用語義標註圖還原接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像。
圖:上方是輸入的語義地圖,下方是pix2pixHD合成圖像
作者發布的視頻介紹中,可以看到,你可以選擇更換街景中車輛的顏色和型號,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)。類似地,利用語義標註圖合成人臉時,給定語義標註的人臉圖像,你可以選擇組合人的五官,調整大小膚色,添加鬍子等。
圖:左下角是人臉的語義標註圖,pix2pixHD合成各種不同五官、接近真實的人臉圖像。
視頻介紹:
論文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
作者:Ting-Chun Wang¹, Ming-Yu Liu¹, Jun-Yan Zhu², Andrew Tao¹, Jan Kautz¹, Bryan Catanzaro¹
¹NVIDIA Corporation ²UC Berkeley
摘要
本文提出了一種利用條件生成對抗網絡(conditional GANs)來合成高解析度、照片級真實的圖像的新方法。條件GAN已經實現了各種各樣的應用,但是結果往往是低解析度的,而且也缺乏真實感。在這項工作中,我們的方法生成了2048x1024解析度的視覺上非常棒的效果,利用新的對抗損失,以及新的多尺度生成器和判別器架構。此外,我們還將我們的框架擴展到具有兩個附加特徵的交互式可視化操作。首先,我們合併了對象實例分割信息,這些信息支持對象操作,例如刪除/添加某個對象或更改對象類別。其次,我們提出了一種方法,可以在給定相同輸入條件下生成不同的結果,允許用戶交互式地編輯對象的外觀。人類意見研究(human opinion study)表明,我們的方法顯著優於現有的方法,既提高了圖像的質量,也提高了圖像合成和編輯的解析度。
圖1:我們提出了一個利用語義標註圖(上圖(a)的左下角)合成2048×1024解析度圖像的生成對抗框架。與以前的工作相比,我們的結果表現出更自然的紋理和細節。(b)我們可以在原始標籤地圖上改變標籤來創建新的場景,例如用建築物替換樹木。(c)我們的框架還允許用戶編輯場景中單個對象的外觀,例如改變汽車的顏色或道路的紋理。請訪問網站進行更多的對比和交互式編輯演示。
圖2:生成器的網絡架構。我們首先在較低解析度的圖像上訓練一個殘差網絡G₁。 然後,將另一個殘差網絡G₂附加到G₁,然後兩個網絡在高解析度圖像上進行聯合訓練。具體來說,G₂中的殘差塊的輸入是來自G₂的特徵映射和來自G₁的最後一個特徵映射的元素和。
圖3:使用實例圖(instance map):(a)一個典型的語義標籤圖。請注意,所有汽車都有相同的標籤,這使得它們很難區分開來。(b)提取的實例邊界圖。有了這些信息,更容易區分不同的對象。
圖4:沒有實例映射(instance map)和帶有實例映射的結果之間的比較。可以看出,當添加實例邊界信息時,相鄰車輛的邊界更加清晰。
圖5:除了用於生成圖像的標籤之外,還使用 instance-wise特徵。
表1:Cityscapes 數據集上不同方法得出的結果的語義分割得分。我們的結果大大優於其他方法,並且非常接近原始圖像的準確率(即Oracle)。
圖7:在Cityscapes數據集上的比較(語義標註圖顯示在(a)的左下角)。對於有VGG損失和沒有VGG損失,我們的結果比其他兩種方法更接近真實。可以放大圖片查看更多細節。
圖8:在NYU數據集上的比較。我們的方法比其他方法生成的圖像更加逼真、色彩更豐富。
本研究的結果表明,條件GAN(conditional GAN)能夠合成高解析度、照片級逼真的圖像,而不需要任何手工損失或預訓練的網絡。我們已經觀察到,引入perceptual loss可以稍微改善結果。我們的方法可以實現許多應用,並且可能對需要高解析度結果,但是預訓練的網絡不可用的領域有潛在的用處,例如醫學成像和生物學領域。
本研究還表明,可以擴展圖像-圖像的合成流程以產生不同的輸出,並且在給定適當的訓練輸入 - 輸出對(例如本例中的實例圖)的情況下實現交互式圖像處理。我們的模型從未被告知什麼是「紋理」,但能學習將不同的對象風格化,這也可以推廣到其他數據集(即,使用一個數據集中的紋理來合成另一個數據集中的圖像)。我們相信這些貢獻拓寬了圖像合成的領域,並可以應用於許多其他相關的研究領域。
論文:https://arxiv.org/pdf/1711.11585.pdf
代碼:https://github.com/NVIDIA/pix2pixHD
歡迎讀者朋友加入新智元讀者群一起交流探討,請加微信(備註名字+學校/企業+研究/關注領域):aiera2015
備註(名字+學校/企業+視覺),加入計算機視覺討論群。