CVPR 2018 Spotlight論文:U-Net,按條件獨立變換目標外觀和形狀

2021-01-09 機器之心Pro

由於深度生成模型通常是直接生成目標圖像,沒有對本質形狀和外觀之間的相互影響建模,導致在空間轉換時出現性能退化。來自德國海德堡大學的研究者提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。實驗證明,這個模型能夠完成條件圖像生成和轉換。在多個數據集上進行的定性和定量實驗表明,該方法比目前最先進的方法都有所提升。

研究展示頁:https://compvis.github.io/vunet/

簡介

最近用於圖像合成的生成模型備受關注 [7, 12, 18, 24, 49, 51, 32]。生成目標的圖像需要對它們的外觀和空間布局的詳細理解。因此,我們必須分辨基本的目標特徵。一方面,與觀察者視角相關的有目標的形狀和幾何輪廓(例如,一個人坐著、站著、躺著或者拎著包)。另一方面,還有由顏色和紋理為特徵的本質外觀屬性(例如棕色長捲髮、黑色短平頭,或者毛茸茸的樣式)。很明顯,目標可以自然地改變其形狀,同時保留本質外觀(例如,將鞋子弄彎曲也不會改變它的樣式)。然而,由於變換或者自遮擋等原因,目標的圖像特徵會在這個過程中發生顯著變化。相反,衣服的顏色或者面料的變化對其形狀是沒有影響的,但是,它還是很清晰地改變了衣服的圖像特徵。

圖 1:變分 U-Net 模型學習從左邊的查詢中進行推理,然後生成相同外觀的目標在第一行所示的不同姿態下的圖像。

由於深度學習的使用,生成模型最近有很大的進展,尤其是生成對抗網絡 (GAN) [1, 8, 10, 27, 38]、變分自編碼器 [16],以及它們的組合 [2, 17]。儘管有著引人注目的結果,但是這些模型在有著較大空間變化的圖像分布上還是面臨著性能較差的問題:儘管在完美註冊的人臉數據集(例如對齊的 CelebA 數據集 [22])上能夠生成高解析度的圖像 [19,13],然而從像 COCO[20] 多樣化的數據集中合成整個人體仍然是一個開放性的問題。導致這個問題的主要原因是,雖然這些生成模型能夠直接合成一個目標的圖片,但是它無法對生成圖像的外觀和形狀之間複雜的相互影響進行建模。所以,它們可以容易地向一張人臉添加鬍鬚和眼鏡,因為這相當於給那些圖像區域重新著色。將這個與人物移動胳膊相比,後者相當於給舊的位置的胳膊用背景顏色著色,並且將新位置的背景轉變為一隻胳膊。我們所缺失的就是一個能夠改變物體形狀,而不是僅能夠調整顏色的生成模型。

所以,在生成圖像的過程中,我們要對外觀、形狀以及兩者之間的複雜影響進行建模。對於通用的適用性,我們希望能夠僅從靜態的圖像數據集中進行學習,而不需要展示同一目標不同形狀的一系列圖片。為此,研究者提出了條件 U-Net[30] 架構,這個架構用於從形狀到目標圖像的映射,以及將關於外觀的變分自編碼器的潛在表徵條件化。為了解耦形狀和外貌,我們允許利用與形狀相關的簡單可用信息,例如邊緣或者身體關節位置的自動估計。然後該方法能實現條件圖像生成和轉換:為了合成不同的幾何輪廓或者或者改變目標的外觀,一個查詢圖片的外觀或者形狀會被保留,同時未被保留的那一部分就會被自由改變,甚至從其他圖像導入。此外,模型也允許在不改變形狀的情況下對外觀分布進行採樣。

圖 2: 條件 U-Net 與變分自編碼器相結合。x:查詢圖像,y hat:形狀估計,z:外觀。

圖 3: 僅僅將邊緣圖像作為輸入時的生成圖像(左側的 GT 圖像被保留了)。研究者在鞋子數據集 [43] 和挎包數據集 [49] 上將本文的方法與 pix2pix 進行了對比。在圖的右側是從變分 U-Net 的潛在外觀分布中的採樣。

表 1: 在 DeepFashion 和 Market1501 數據集上重建圖像的結構相似性(SSIM)和 Inception score(IS)。本文的方法要比 pix2pix[12] 和 PG^2[24] 具有更好的 SSIM 性能,至於 IS 性能,本文的方法要比 pix2pix 好一些,並且和 PG^2 有著相當的結果。

圖 4:僅僅將曲棍球擊球手作為輸入的生成圖像(GT 圖像被保留)。在 Deepfashion 和 Market-1501 數據集上將本文的方法與 pix2pix[12] 進行比較。圖像右側是從潛在外觀分布中所得的採樣。

圖 5: 草圖著色:比較 pix2pix[12] 和本文的模型的生成能力,本文的模型是在實際圖像上進行的訓練。任務是為鞋子和挎包的手繪草圖生成合理的外觀 [9]。

圖 6: Market-1501 數據集上的外觀轉換。外觀由左側底部的圖像提供。y(中間)是從頂部圖像中自動提取,並向底部進行轉換。

圖 7: DeepFashion 數據集上外觀轉換的穩定性。每一行都是使用最左側圖像的外觀信息合成的,每一列都是對應於第一行的姿態的合成。需要注意的是,推理得到的外觀在很多視角上都是不變的。

圖 8:圖像轉換與 PG^2 的比較。左側:Market 數據集上的結果。右側:DeepFashion 數據集上的結果。外觀是從條件圖像中推理得到的,姿態是從目標圖像中推理的得到的。要注意,本文的方法不需要關於人物身份的標籤。

論文:A Variational U-Net for Conditional Appearance and Shape Generation(用於條件式生成外貌和形狀的變分 U-Net)

論文連結:https://arxiv.org/abs/1804.04694

深度生成模型在圖像合成領域展現了優異的性能。然而,由於它們是直接生成目標的圖像,而沒有對其本質形狀和外觀之間的複雜相互影響進行建模,所以在空間轉換時就會存在性能退化。我們針對形狀指導圖像生成提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。這個方法在圖像數據集上進行端到端的訓練,不需要同一個物體在不同的姿態或者外觀下的採樣。實驗證明,這個模型能夠完成條件圖像生成和轉換。所以,查詢圖像的外觀或者形狀能夠被保留,同時能夠自由地改變未被保留的另一個。此外,在保留形狀的時候,由於外觀的隨機潛在表徵,它可以被採樣。在 COCO、 DeepFashion,、shoes、 Market-1501 以及 handbags 數據集上進行的定性和定量實驗表明,我們的方法比目前最先進的方法都有所提升。

相關焦點

  • CVPR2019| 05-13更新14篇論文及代碼合集(含目標損失/零樣本識別/姿態估計/GAN等)
    加入極市專業CV交流群,與6000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    :2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • CVPR 2017論文精選|不可思議的研究: EEG腦電波深度學習在視覺分類中的應用
    今天David 9想要分析的論文就和感官交互有關, 特別之處是它是人體最複雜的感官 — 大腦 .很難想像今年CVPR上竟然有這樣一篇近乎科幻不可思議的研究, 相信讀完你也會興奮的.這篇文章本質上的研究, 是從EEG腦電波提取視覺特徵, 從而進行我們常見的視覺分類任務(狗? 吉他? 鞋子? 披薩?)
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    :CVPR 2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • CVPR 2018 中國論文分享會 之「人類、人臉及3D形狀」
    :本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中最後一個Session ——「Human, Face and 3D Shape」環節的三場論文報告。
  • 何愷明上榜CVPR 2021獲獎名單,4篇「最佳」是華人一作
    本文通過利用新的數據資源來應對這一挑戰:一些社交媒體舞蹈視頻,這些視頻跨越了不同的外觀、服裝風格、表演和身份。每段視頻都描繪了一個人身體和衣服的動態運動,同時缺乏3D ground truth幾何。為了利用這些視頻,作者提出了一種使用局部變換的新方法,將人預測的局部幾何形狀從圖像扭曲到另一個圖像的局部幾何。
  • 百度17篇論文入選全球頂尖視覺盛會CVPR 百度大腦實力超群成幕後贏家
    CVPR 官網顯示,今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,錄取率約為 25%。據了解,去年的 CVPR 2018 共有 979 篇論文被主會收錄,錄用率約為 29%。相比 2018,今年的競爭更加激烈。
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    這個方法並不依賴用來生成數據的行為策略的知識,所以可以被用來從一個未知的策略生成的數據中進行學習。在一些條件下,該算法(儘管非常簡單)可以證明策略提升的下界,並且在實驗中的效果超過了其它方法,並有望為複雜遊戲 AI 提供更好的模仿學習。論文中也提供了詳盡的數值實驗來展示所提出的算法的有效性。4.
  • 第一批在 SQUAD 2.0 上刷榜的 U-NET 模型,它們有何高明之處?
    最佳方案採用了基於 U-net 的架構,相關的論文連結如下:https://arxiv.org/abs/1810.06638  。本文也將從這裡展開。「U-net 背後的思想是什麼?」在目前的機器學習架構開發過程中,開發者往往都會針對數據集構建特定的算法架構。U
  • 開源| CVPR2020|PQ-NET通過順序部件裝配方式表達和生成三維物體
    論文地址:http://arxiv.org/pdf/1911.10949v2.pdf代碼:https://github.com/chriswu1997/pq-net來源: 北京大學前沿計算研究中心論文名稱:PQ-NET: A Generative Part Seq2Seq
  • 計算機視覺「奧斯卡」CVPR 2020公布收錄論文
    當面部全局外觀發生巨大變化時,局部區域將起重要作用。最近的一些工作應用注意力模塊來自動定位局部區域。如果不考慮多樣性,所學的注意力通常會在一些相似的局部塊周圍產生冗餘的響應,而忽略了其他潛在的有判別力的局部塊。此外,由於姿態或表情變化,局部塊可能以不同的尺度出現。為了緩解這些挑戰,百度團隊提出了一種金字塔多樣化注意模塊,以自動和自適應地學習多尺度的多樣化局部表示。
  • 圖像分割中的深度學習:U-Net 體系結構
    我們將要探討的論文是U-Net:用於生物醫學圖像分割的卷積網絡(https://arxiv.org/pdf/1505.04597.pdf)。在這篇文章中,我們將仔細看看一個這樣的架構:u-net。深度學習是需要數據集來訓練模型的。但是對於數據的獲取有一定難度。對於某一個對象而言,我們並沒有足夠的數據進行訓練。在這種情況下,往往需要花費時間、金錢,最重要的是硬體設備。例如,我們無法使用手機上的攝像頭來收集生物醫學圖像。因此,我們需要更系統的方法來收集數據。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。1.
  • CVPR2017精彩論文解讀:直接處理三維點雲的深度學習模型
    :雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。點雲的數據結構就是一些三維空間的點坐標構成的點集,本質是對三維世界幾何形狀的低解析度重採樣,因此只能提供片面的幾何信息。面對以上困難,來自史丹福大學的學者提出了PointNet,給出了自己的的解決方案。PointNet是第一種直接處理無序點雲數據的深度神經網絡。
  • 信息保留的二值神經網絡IR-Net,落地性能和實用性俱佳|CVPR 2020
    因此,Libra-PB將量化值的量化誤差和二值參數的信息熵同時作為優化目標,定義為:在伯努利分布假設下,當p=0.5時,量化值的信息熵取最大值。因此,在Libra-PB通過標準化和平衡操作獲得標準化平衡權重,如圖2所示,在Bernoulli分布下,由Libra-PB量化的參數具有最大的信息熵。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    近日,計算機視覺方向的三大國際頂級會議之一的ECCV 2020公布論文獲獎結果。本次ECCV 2020有效投稿5025篇,最終被接受發表論文1361篇,錄取率為27%,較上屆有所下降。其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。
  • 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別、人臉識別等領域
    其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。 隨著人工智慧的發展,計算機視覺的研究深入和應用迅速發展,每次舉行都會吸引大量的論文投稿,而今年ECCV的投稿量更是ECCV 2018的兩倍還多,創下歷史新高。
  • 騰訊AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017
    2017谷歌學術指標(Google Scholar)按論文引用率排名, CVPR位列計算機視覺領域榜首。據雷鋒網AI科技評論了解,今年CVPR審核了2620篇文章,最終收錄783篇,錄取率29%,口頭報告錄取率僅2.65%。
  • CVPR 2020 重磅:百度Apollo自動駕駛安全相關論文實力入選
    論文中的Pillar Message Passing Network(PMPNet),可將點雲俯視圖下的非空柵格編碼為圖節點,並在節點間進行信息傳遞以動態改善節點感受野,PMPNet可以有效結合圖空間的非歐特性和CNN的歐式特性;在時空特徵聚合模塊中,還提出空間和時間注意力機制來強化原始的Conv-GRU層,空間注意力機制對new memory進行前景增強和背景抑制,時間注意力機制用以對齊相鄰幀中的動態前景目標
  • 阿里 CVPR 論文用全新幾何角度構建 GAN 模型
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:本論文由阿里巴巴達摩院機器智能技術實驗室華先勝團隊與 UCF 齊國君教授領導的 UCF MAPLE 實驗室合作完成,被 CVPR 2018 收錄為 poster 論文。