CVPR 2018 中國論文分享會之 「GAN 與合成」

2020-12-04 雷鋒網

雷鋒網 AI 科技評論按:2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters,AI 科技評論將為您詳細報導。

雷鋒網註:全球計算機視覺頂級會議 IEEE CVPR 2018 將於 6 月 18 - 22 日在美國鹽湖城召開。據 CVPR 官網顯示,今年大會有超過 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長了近 25%。

更多報導請參看雷鋒網更多報導:

Session 1:GAN and SynthesisSession 2: Deep LearningSession 3: Person Re-Identification and TrackingSession 4: Vision and LanguageSession 5: Segmentation, DetectionSession 6: Human, Face and 3D Shape

本文為 Session 1,報告論文主要以使用 GAN 方法和生成方法為主,共有四場論文報導。

在第一個報告中,北京大學劉家瑛副教授介紹他們團隊使用 Attentive GAN 從單幅圖像中去除雨滴的工作;第二個報告由來自中科院自動化所的胡一博博士介紹他們通過 CAPG-GAN 算法實現人臉旋轉任意角度的工作;隨後是由北京大學連宙輝副教授介紹了他們提出的交互式紋理變換的通用框架;最後由來自微軟亞洲研究院的傅建龍研究員介紹了他們提出的基於instance-level的 DA-GAN(深度注意生成對抗網絡),該網絡在圖像到圖像翻譯中能夠實現更精細的生成結果。

1、如何從單張圖片中去除雨滴?

論文:Attentive Generative Adversarial Network for Raindrop Removal from A Single Image報告人:劉家瑛,北京大學論文下載地址:

去除圖片中的雨痕,一般有四種情景,如下圖所示,分別為:落下的雨滴(Rain Drop 1),落在鏡頭上的雨滴(Rain Drop 2),雨線(Rain Streak),以及雨霧(Mist)。

劉家瑛團隊在去年 CVPR 中曾發表過一篇關於去除雨痕的文章《Deep Joint Rain Detection and Removal From A Singal Image》,在這篇論文中他們主要研究如何去除圖片中的雨線。但在無人駕駛或相關研究中,更具挑戰性的一個任務是如何去除落在玻璃或者鏡頭上的雨滴。劉家瑛在本次分享會上介紹了她所指導的北大大二學生 Rui Qian 所做的該方面工作,也即去除單張圖片上隨機散布的雨滴(Rain Drop 2)。

在此之前僅有的一篇類似研究,是由 David Eigen 等人發表在 ICCV 2013 的一篇文章,在這篇文章中由於作者只使用了 3 層卷積網絡,所以只能處理很少的 case,同時能夠處理的圖片上的雨滴也非常小,基本上可以視為灰塵。

在劉家瑛所分享的這篇文章中,其思路仍然延續去年文章的方法,即生成數據集,然後用生成的數據集來訓練模型。

1、數據集生成

數據集的生成方式是,本文作者 Rui Qian 使用單反+一個 3 毫米厚的玻璃片(或者直接把水噴在鏡頭上)收集了 1000 多對(有雨和無雨)在不同戶外環境、不同背景、不同尺寸和形狀的雨滴圖像,以模擬真實環境中雨滴的多樣性。使用一個數學公式來表達帶有雨滴圖像的話,如圖中公式所示:

2、模型框架

在該論文中作者選擇使用 GAN 的方法,整個模型的框架如下圖所示:

共包含三個部分,分別為:Generator(Attention-recurrent Network),Context Autoencoder 和 Dicriminator Network。

第一部分主要的工作是做檢測(即檢測雨滴在圖片中的位置),然後生成 attention map。首先使用 Residual block 從雨滴圖片中抽取 feature,漸進式地使用 Convs 來檢測 attentive 的區域。訓練數據集中圖片都是成對的,所以可以很容易計算出相應的 mask(M),由此可以構建出 Loss 函數;由於不同的 attention 網絡刻畫 feature 的準確度不同,所以給每個 loss 一個指數的衰減。相應的 loss 函數如下:

隨後將 attention map 和雨滴圖像一起送給 autoencoder,生成去雨滴圖像。autoencoder 的結構用了 16 個 Conv 和 Relu。為了避免網絡本身造成的 blur,作者使用了 skip connection,因為在低級層次這會帶來很好的效果。在構建 loss 方面,除了多尺度的考慮,還加上了一個高精度的 loss,即:Multi-scale loss + perceptual loss。

最後一個是 discriminator。這個步驟有兩種方式,一種是只使用 autoencoder 生成的無雨滴圖像,進行判斷;另一種則是加入 attention map 作為指導。如圖所示:

3、實驗結果

作者使用兩個數據集(PSNR 和 SSIM)進行了驗證,其中 PSNR 是他們自己收集的數據集。作者選用 Eigen 等人 2013 年發表的工作以及 Pix2Pix 的方法作為對比。結果如下:

其中 A 表示只有 Autoencoder,A+D 表示 Autoencoder+Discriminator,A+AD 表示 Autoencoder + Attention Discriminator,AA + AD 表示 Attention Autoencoder + Attention Discriminator。

實際去雨效果如圖所示:

2、如何旋轉圖像中的人臉?

論文:Pose-Guided Photorealistic Face Rotation報告人:胡一博,中科院自動化所論文下載地址:暫無

對於如何將圖像中的人臉旋轉任意角度,例如從一張正臉圖像生成側臉圖像,或反之從側臉恢復其正臉圖像,無論是學術界還是工業界都給予了很大的關注,因為這可以用於人臉編輯、姿態變換、數據增強、表示學習等當中。

視角旋轉有 x、y、z 三個方向,目前研究中主要考慮左右偏轉。如果從單張圖像進行旋轉的話,這其實是一種「無中生有」、一對多的病態問題。因此目前人臉旋轉存在真實性不高、解析度較低、身份信息保持較差的問題。

胡一博在介紹他們的工作之前,簡單介紹了人臉旋轉研究的歷程,如下圖所示:

1、啟發

從 2015 年的 CVPR 論文開始,人臉識別逐漸引起廣泛的關注。目前人臉識別主要分成兩個部分,一個是人臉正面化,一個是水平方向的任意角度旋轉。之所以將人臉正面化作為一個單獨的部分,是因為人臉正面化的過程中可以引入「對稱性」的強約束,從而降低一對多問題的困難。

其中的 TP-GAN 是人臉正面化中一個裡程碑式的工作,這種方法出現之後使得人臉轉正能夠達到以假亂真的效果。TP-GAN 之所以能夠這麼有效是因為,它通過一條全局通路和 4 個局部通路(分別對應人的五官),最終讓局部和全局的通路進行融合。但是這種方法有兩點不足:1)它受限於最慢通路的約束存在一定的性能瓶頸;2)只適用於人臉正面化的問題中,而不能應用於更廣泛的人臉旋轉中。針對這兩個問題,胡一博認為我們需要提升其網咯性能以及實現任意姿態的人臉旋轉。

另一方面,全局優先拓撲感知理論指出生物視覺系統對全局拓撲結構非常敏感。人臉五官包含著很豐富的全局拓撲信息,因此以人臉全局拓撲信息作為一個條件指導整個人臉的過程。

2、模型

基於上面兩方面的啟發,胡一博等人提出了 CAPG-GAN 的方法,該方法能夠進行二維空間中任意角度的人臉旋轉。選擇人臉全局拓撲信息作為條件有兩個優勢,首先它可以提供人臉的結構信息促使生成的圖像更加的逼真,其次在判別器中它可以作為先驗知識,可以提高判別器對於人臉結構的判別性,進而促使生成器生成解析度較高的圖像。CAPG-GAN 的結構圖如下:

輸入包括原始圖像 I^a,原始圖像的五個關鍵點 P^a,以及目標姿態的關鍵點 P^b,通過生成器 G 輸出目標圖像。判別器採用的是 couple-agent 的結構,本質上就是兩個獨立的判別器,agent 1 判別旋轉角度的真實性,agent 2 判斷的是拓撲結構的真實性。

針對兩個 agent,對應的損失函數如下圖所示:

3、實驗對比

胡一博團隊針對人臉正面化以及旋轉任意角度的任務在多種數據集上進行實驗驗證,其結果表現優異。效果如下:

相關文章:

[1]中科院自動化所赫然:大規模人臉圖像編輯理論、方法及應用

[2] 中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR 2018

3、如何給字體添加多樣風格?

論文:A Common Framework for Interactive Texture Transfer報告人:連宙輝,北京大學論文下載地址:

研究來源於需求。連宙輝副教授來自北京大學計算機科學技術研究所(該研究所是由)的字形計算技術實驗室。傳統上,字形設計需要人工對每個字進行手寫或者設計,然後輸入系統才能夠被利用。但是由於中文有大量的漢字,且很多漢字的結構非常複雜,所以這項工作艱難且費時。一種解決方法就是,設計一個特定風格的字,然後通過變換遷移到別的字上。

那麼是否可以將任意紋理的圖像風格通過變換遷移到一個目標漢字上呢?更廣義一點,是否可以將任意紋理風格遷移到任意圖像上呢?基於這些思考,連宙輝團隊在其論文中提出一種交互式的紋理遷移通用框架。

如上圖所示,該通用框架能夠:(a)將塗鴉轉換為藝術品,(b)編輯裝飾模式,(c)生成特殊效果的文本,(d)控制文本中的效果分布圖像,(e)交換紋理。

1、方法

紋理遷移的問題其實就是,如何輸入原始紋理圖像、原始圖像的語義圖以及目標圖像的語義圖後,從而輸出目標紋理圖像。

其中較為關鍵的問題是,如何將兩張語義圖進行匹配。例如上圖中,對於邊緣由於有豐富的語義信息指引,因此可以較為容易地進行匹配;但是對於內部大面積的區域(d、e),同一個點有很多地方可以去匹配,作者選擇利用從邊緣傳過來的信息(紋理一致和結構引導)可以實現很好的匹配效果。

整個流程如上圖所示,共分為三大部分 7 個步驟。需要說明的是,基於交互式結構的圖像合成是由語義映射和結構信息來指導的,其中用戶可以對語義通道進行注釋來控制目標圖像中風格化紋理的空間分布。在結構提取環節,通過內容感知顯著性檢測自動提取結構通道,並將其從源樣式圖像傳遞到目標。具體而言,傳播步驟通過在源圖像和目標圖像之間的關鍵輪廓點的配準來獲取內部結構對應關係。結合語義和結構信息進行動態指導,可以使轉換過程產生具有內容意識和低級細節的高質量紋理。

2、實驗結果

3、結論

本文提出了一個結構指導的交互式紋理傳遞的一般框架。該方法可以自動將樣式從給定的源圖像遷移到用戶控制的目標圖像,同時保持結構的完整性和視覺豐富性。更具體地說,作者引入了通過自動提取顯著區域和傳播結構信息獲得的結構指導。通過將結構通道與語義和紋理一致性結合起來,可以實現指導紋理轉移。實驗結果表明,所提出的框架廣泛適用於許多紋理轉移挑戰。儘管目前大多數模型都傾向於使用基於神經的方法進行樣式轉換,但本文的結果表明,簡單的傳統的紋理合成框架仍然可以表現出優異的性能。

4、如何進行更細緻的圖像到圖像翻譯?

論文:DA-GAN: Instance-level Image Translation by Deep Attention Generative Adversarial Network報告人:傅建龍,微軟亞洲研究院論文下載地址:

本文是另外一篇將 Attention 機制與 GAN 相結合,以生成更高質量目標的工作。

1、啟發

傅建龍在報告中認為,CV 中的圖像到圖像的翻譯任務(Image2Image Translation)是一個比較廣泛的概念,即根據 source domain 中的圖像生成 target domain 中的對偶圖像,同時在翻譯過程中約束生成的樣本和 source 中的樣本有儘量一致的分布。事實上有許多基本的 CV 問題都屬於圖像到圖像的翻譯問題,例如白天到黑夜的圖像轉換、黑白照到彩色照的轉換、低像素到高像素的轉換、去除水印、圖像分割、2D 到 3D、梵谷風格化、木炭風格、缺失部分復原等。

更高級的如下圖這些:

在這所有的任務中,根據是否是一對一的學習對,將這些任務劃分為 pair data 任務和 unpair data 任務。(如下圖所示)

其中前者在訓練數據集中具有一對一的數據對,x 作為輸入,y 用來計算輸出的 loss 函數,目前效果最好的網絡是 Pix2Pix 網絡;而後者則是兩個獨立的數據集之間的訓練,模型應該能夠從兩個集合中自動地發現集合之間的關聯,從而來學習出映射函數,其中目前效果最好的網絡是 CycleGAN 模型。

但是以上這些都是基於圖像級的特徵學習,若想完成更高質量要求的生成任務(例如要求改變圖像區域的風格)則較為困難。於是有人便提出了基於 instance-level 的圖像到圖像的翻譯方法——PatchGAN:

如傅建龍所說,做研究就是要找到前人所沒有填補的空缺。通過畫出上圖,可以很明白地看出,對應的也應該有基於 unpaired instance-level 的圖像到圖像的翻譯方法。這正是本文的工作,即能否自動地發現 source domain 和 target domain 的 instance 之間的關聯,同時這是一種 unpair 的方法,不需要任何人類標註。

2、模型

既然是基於 instance-level 的方法,那麼首先就要問:什麼是 instance?

事實上,這是一個比較寬泛的概念,在不同的任務中可以有不同的定義。例如在生成鳥的任務中,鳥本身是一個 instance,鳥的嘴、腿、翅膀、尾巴等也都可以是 instance;如果想要建立更細緻的生成模型,也可更加細緻地去定義更多種 instance。

介紹了以上的思路後,模型本身的構建就很清晰了。如上圖所示,首先通過一個深度 Attention 編碼器(DAE)來自動地學習各個 instance,然後將不同的部分分別投射到一個「隱空間」,最後通過 GAN 網絡進行生成。

3、實驗結果

定量的比較可以看出,DA-GAN 相比於其他方法有較大的提升。

在定性比較方面,有下面三種:

Text to Image

object configuration

pose morphing

從左到右分別為 source bird、target bird 和 DA-GAN 生成的鳥。一個疑問是:鳥腿缺失是因為什麼呢?

4、結論

本文提出了一種無監督的圖像翻譯的方法,即通過更細緻化的 instance-level 的 GAN 生成來獲得更高質量的翻譯圖像。通過實驗結果可以很明顯地看出 DA-GAN 相較於其他網絡在性能上的提升。但是需要注意的是,在生成結果中仍然存在一些失敗的地方(例如前面提到的「缺失的鳥腿」),這可能由於模型中的 instance 是通過弱監督 Attention 機制學到的,這與完全監督下的學習還是有一定的差距。如何彌補,或許要靜等傅建龍團隊接下來的工作了。

相關文章:

[1] DA-GAN技術:計算機幫你創造奇妙「新物種」

相關焦點

  • CVPR 2018 中國論文分享會之「分割與檢測」
    2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第 5 個 Session ——「Segmentation, Detection」環節的三場論文報告。雷鋒網註:[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • CVPR 2018 中國論文分享會 之「深度學習」
    本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中「Deep Learning」環節的四場論文報告,分別針對Deep Learning的冗餘性、可解釋性、遷移學習和全局池化做了深入分享。
  • CVPR 2018 中國論文分享會 之「人物重識別及追蹤」
    :本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第三個 Session——「Person Re-Identification and Tracking」環節的四場論文報告。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習。
  • 2018 年最棒的三篇 GAN 論文
    ,並從 Reddit 網站上「What are best papers regarding GANs for 2018 you read?」受 Reddit 網站上「What are best papers regarding GANs for 2018 you read?」
  • [論文分享]用GAN從MFCC合成語音波形
    「Speech waveform synthesis from MFCC sequences with generative adversarial networks.」 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕,在本次大會接收的眾多論文當中,有華人參與的接近半數。這七百餘篇論文中有哪些亮點?眾多參會的中國研究機構又貢獻了多少?我們為你整理了一篇觀看指南。  不久之前,谷歌發布了 2017 版學術指標。
  • CVPR 2020評審結果,曠視南京研究院負責人淺談學術論文rebuttal
    會議審稿對於會議審稿流程而言,由於會議論文往往有比較嚴格的截止日期(Deadline),作者們通常會根據這一時間來 rush 自己的 paper(關於論文寫作的一些 tips 請戳筆者早年的《LaTeX 寫作新手須知》),所謂「Deadline 就是第一生產力!」。
  • 2018 年度人工智慧熱門事件大盤點:「悲喜交加」
    以下 AI 科技評論就帶領讀者們回顧一下 2018 人工智慧領域的發展情況以及熱點事件。如果用「高歌猛進」來作為人工智慧 2017 年發展的形容詞,那它在 2018 年的發展則可稱得上是「悲喜交加」了。
  • 超全的GAN PyTorch+Keras實現集合
    >代碼地址:https://github.com/eriklindernoren/PyTorch-GAN/blob/master/implementations/aae/adversarial_autoencoder.py在這篇論文中,作者們提出了「對抗自編碼器」(AAE),它是一種概率自編碼器,且通過最近提出的生成對抗網絡實現變分推斷。
  • 學術論文要不要免費開放?中國的回答是「YES」
    原標題:學術論文要不要免費開放?中國的回答是「YES」 雷鋒網 AI 科技評論按:在本周於德國召開的 Open Access(開放獲取)2020 會議上,來自中國的圖書管理中心及學術研究資助機構明確表示,正在考慮支持讓公共資助的研究成果在出版後能立即免費閱讀。
  • 「合併」樣本和標籤?IBM 為多標籤小樣本圖像分類帶來新進展!|CVPR...
    IBM 的研究人員對多標籤小樣本的圖像分類進行了研究,並在 CVPR 2019 大會上進行了論文分享,相關成果發表在 IBM 官網博客上,雷鋒網 AI 科技評論編譯如下。當我們將人工智慧和機器學習擴展到面向企業和工業界應用的更廣泛的任務集時,從更少的數據集中學到更多是必要的。數據增強是一個重要的工具,特別是在沒有足夠的訓練數據的情況下,它通過自動合成新的訓練樣本來改進學習。
  • 華人學者再獲 SIGGRAPH 優秀博士論文獎:「每章都能作為博士論文」
    而他的博士論文頒獎詞:「將閆令琪博士論文的任一章節摘取出,都可以自成一篇博士論文」,充分代表了業內對其卓越學術成就的至高評價。 圖1 閆令琪博士從高考狀元到 CS 學神很多人第一次聽到閆令琪這個名字,或許更多是和「2009 年安徽省阜陽高考狀元」相關聯的。
  • 「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(下篇)
    Patrick Lewis 是 UCL 的自然語言處理博士生,早前參加了 EMNLP 2018,並在個人博客寫下了他的參會見聞,雷鋒網(公眾號:雷鋒網) AI 科技評論對此進行了有刪節的編譯。本文為頂會見聞的下篇,上篇可移步《「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(上篇)》進行閱讀。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    對每一層來說,它之前的所有的層的 feature-map 都作為了它的輸入,然後它自己的 feature-map 則會作為所有它之後的層的輸入。CVPR最佳論文提名「Annotating Object Instance with a Polygon-RNN」論文作者:多倫多大學計算機學院Llu´ıs Castrejon,Kaustav Kundu,Raquel Urtasun,Sanja Fidler
  • 阿里 CVPR 論文用全新幾何角度構建 GAN 模型
    :本論文由阿里巴巴達摩院機器智能技術實驗室華先勝團隊與 UCF 齊國君教授領導的 UCF MAPLE 實驗室合作完成,被 CVPR 2018 收錄為 poster 論文。從學術開發和企業活動上看,阿里巴巴達摩院機器智能技術實驗室在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有不錯的表現。實驗室分別在 SQuAD 和 KITTI 比賽中獲得第一名,近期在 AAAI 2018 上,達摩院機器智能技術實驗室共有 4 篇論文被錄用,在CVPR 2018上,也有多篇論文被錄用,成績斐然。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型 選自CVPR 2017 參與:Smith、路雪、蔣思源
  • 我們離人造「超級病毒」還有多遠
    一些公司會生產化學合成的遺傳物質短片段,價格低廉,可以網購。用非常簡單的方法和足夠的耐心把它們連接在一起,就能造出病毒來。 2018年,加拿大的幾個學者用這種郵購的原材料,利用最簡單的實驗手段,幾個人用半年時間復刻出了當時人類合成出的序列最大的病毒——馬痘病毒,只花了不到10萬美元。
  • 一騎絕塵 商湯科技 44 篇論文入選 CVPR 2018
    全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文 979 篇。