英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?

2021-01-11 澎湃新聞

機器之心報導

作者:蛋醬、小舟

圖像 / 視頻合成領域的集大成者,就在這一篇了。

圖像和視頻等視覺數據的生成是機器學習和計算機視覺領域重要的研究問題之一。近幾年,英偉達提出了 SPADE、MUNIT 等多個圖像及視頻合成模型。

近日,英偉達又開源了一個新的 PyTorch 庫「Imaginaire」,共包含 9 種英偉達開發的圖像及視頻合成方法。

項目地址:https://github.com/NVlabs/imaginaire

這九種方法分別為:

有監督的圖像到圖像轉換

1、pix2pixHD

2、SPADE/GauGAN

無監督的圖像到圖像轉換

1、UNIT

2、MUNIT

3、FUNIT

4、COCO-FUNIT

視頻到視頻轉換

1、vid2vid

2、fs-vid2vid

3、wc-vid2vid

pix2pixHD

「pix2pixHD」是 pix2pix 的升級版本,具備高解析度圖像和語義處理功能,主要解決了深度圖像合成編輯中的質量及解析度問題。

項目主頁:https://tcwang0509.github.io/pix2pixHD/

論文連結:https://arxiv.org/pdf/1711.11585.pdf

在這篇論文中,來自英偉達和 UC 伯克利的研究者提出了一種使用條件 GAN 從語義標籤圖上合成高解析度照片級逼真圖像的方法。此前,條件 GAN 已經有了很廣泛的應用,但生成結果均為低解析度並與現實差異較大。因此,研究者使用了一種新的對抗損失、多尺度生成器和判別器架構來生成 2048x1024 的結果。此外,研究者為該框架擴展了兩個附加功能。首先,合併了對象實例分割信息,實現了刪除 / 添加對象和更改對象類別等操作;其次,提出了一種在相同輸入下生成多種結果的方法,讓使用者可以編輯對象外觀。該論文被 CVPR 2018 接收。

SPADE/GauGAN

在 GTC 2019 上,英偉達展示了一款交互應用「GauGAN」。它可以輕鬆地將粗糙的塗鴉變成逼真的傑作,令人嘆為觀止,效果堪比真人攝影師作品。GauGAN 應用主要使用的技術,就是英偉達的 SPADE。

項目主頁:https://nvlabs.github.io/SPADE/

論文地址:https://arxiv.org/pdf/1903.07291.pdf

在中,來自 UC 伯克利、英偉達、MIT CSALL 的研究者提出了一種空間自適應歸一化方法,在給定輸入語義布局的情況下,實現了一種簡單有效的逼真圖像合成層。以前的方法直接將語義布局作為輸入提供給深度網絡,然後通過卷積、歸一化和非線性層處理深度網絡。實驗表明,這種方法並不是最優的,因為歸一化層傾向於「洗去」語義信息。為了解決這個問題,研究者提出使用輸入布局,通過空間自適應的、學習的轉換來調節歸一化層中的激活函數。在幾個具有挑戰性的數據集上的實驗表明,與現有方法相比,該方法在視覺保真度和與輸入布局的對齊方面具有優勢。最後,該模型允許用戶控制合成圖像的語義和風格。該論文被 CVPR 2019 接收為 Oral 論文。

UNIT

項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/unit

論文地址:https://arxiv.org/abs/1703.00848

UNIT(Unsupervised image-to-image translation)旨在通過使用來自單個域中邊緣分布的圖像來學習不同域中圖像的聯合分布。由於要達到給定的邊緣分布需要一個聯合分布的無限集,因此如果沒有其他假設,就無法從邊緣分布推斷聯合分布。為了解決這個問題,研究者提出了一個共享潛在空間的假設,並提出了一個基於耦合 GAN 的無監督圖像到圖像轉換框架。

MUNIT

無監督圖像到圖像轉換是計算機視覺領域一個重要而富有挑戰的問題:給定源域(source domain)中的一張圖像,需要在沒有任何配對圖像數據的情況下,學習出目標域(target domain)中其對應圖像的條件分布。雖然條件分布是多模態的,但此前方法都引入了過於簡化的假設,而將其作為一個確定性的一對一映射,因此無法在特定的源域圖像中生成富有多樣性的輸出結果。

項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/munit

論文地址:https://arxiv.org/abs/1804.04732

在中,康奈爾大學和英偉達的研究者提出了多模態無監督圖像到圖像轉換 MUNT 框架。研究者假設,圖像表徵可以分解為一個具有域不變性(domain-invariant)的內容碼(content code)和一個能刻畫域特有性質的風格碼(style code)。為了將圖像轉化到另一個域中,研究者將:1. 原圖像的內容碼,2. 從目標域中隨機抽取的某個風格碼 進行重組,並分析了 MUNT 框架,並建立了相應的理論結果。大量實驗表明,將 MUNT 與其他 SOTA 方法相比具備優越性。最後,通過引入一個風格圖像(style image)樣例,使用者可以利用 MUNT 來控制轉化的輸出風格。

FUNIT

項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/funit

論文地址:https://arxiv.org/abs/1905.01723

雖然此前無監督圖像到圖像轉換算法在很多方面都非常成功,尤其是跨圖像類別的複雜外觀轉換,但根據先驗知識從新一類少量樣本中進行泛化的能力依然無法做到。具體來說,如果模型需要在某些類別上執行圖像轉換,那麼這些算法需要所有類別的大量圖像作為訓練集。也就是說,它們不支持 few-shot 泛化。總體而言有以下兩方面的限制:

其一,這些方法通常需要在訓練時看到目標類的大量圖像;

其二,用於一個轉換任務的訓練模型在測試時無法應用於另一個轉換任務。

在中,英偉達的研究者提出一種 Few-shot 無監督圖像到圖像轉換(FUNIT)框架。該框架旨在學習一種新穎的圖像到圖像轉換模型,從而利用目標類的少量圖像將源類圖像映射到目標類圖像。也就是說,該模型在訓練階段從未看過目標類圖像,卻被要求在測試時生成一些目標類圖像。

COCO-FUNIT

項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit

論文地址:https://nvlabs.github.io/COCO-FUNIT/paper.pdf

COCO-FUNIT 之前的圖像到圖像變換模型在模擬不可見域的外觀時很難保留輸入圖像的結構,這被稱為內容丟失問題。當輸入圖像和示例圖像中對象的姿勢有較大差異時,這個問題尤其嚴重。為了解決這個問題,研究者提出了一種新的 few-shot 的圖像變換模型,即 COCO-FUNIT。

vid2vid

2018 年,英偉達聯合 MIT CSAIL 開發出了直接視頻到視頻的轉換系統。該系統不僅能用語義分割掩碼視頻合成真實街景視頻,解析度達到 2K,能用草圖視頻合成真實人物視頻,還能用姿態圖合成真人舞蹈視頻。此外,在語義分割掩碼輸入下,只需換個掩碼顏色,該系統就能直接將街景中的樹變成建築。

項目主頁:https://tcwang0509.github.io/vid2vid/

論文地址:https://arxiv.org/abs/1808.06601

在中,來自英偉達和 MIT 的研究者提出了一種新型的生成對抗網絡框架下的視頻到視頻合成方法。通過精心設計生成器和判別器架構,結合空間 - 時間對抗目標函數,研究者在多種輸入視頻格式下生成了高解析度、時間連貫的照片級視頻,其中多種形式的輸入包括分割掩碼、草圖和姿態圖。在多個基準上的實驗結果表明,相對於強基線,本文方法更具優越性,該模型可以合成長達 30 秒的 2K 解析度街景視頻,與當前最佳的視頻合成方法相比具備顯著的優勢。研究者將該方法應用到未來視頻預測中,表現均超越其他方法。該論文被 NeurIPS 2018 接收。

Few-shot vid2vid

「vid2vid」旨在將人體姿態或分割掩模等輸入的語義視頻,轉換為逼真的輸出視頻,但它依然存在以下兩種局限:其一,現有方法極其需要數據。訓練過程中需要大量目標人物或場景的圖像;其二,學習到的模型泛化能力不足。姿態到人體(pose-to-human)的 vid2vid 模型只能合成訓練集中單個人的姿態,不能泛化到訓練集中沒有的其他人。

2019 年,英偉達又推出了新的「few-shot vid2vid」框架,僅藉助少量目標示例圖像就能合成之前未見過的目標或場景的視頻,在跳舞、頭部特寫、街景等場景中都能得到逼真的結果。

項目主頁:https://nvlabs.github.io/few-shot-vid2vid/

論文地址:https://arxiv.org/pdf/1910.12713.pdf

在中,英偉達的研究者提出了一種 few-shot vid2vid 框架,該框架在測試時通過利用目標主體的少量示例圖像,學習對以前未見主體或場景的視頻進行合成。

藉助於一個利用注意力機制的新型網絡權重生成模塊,few-shot vid2vid 模型實現了在少樣本情況下的泛化能力。研究者進行了大量的實驗驗證,並利用人體跳舞、頭部特寫和街景等大型視頻數據集與強基準做了對比。

實驗結果表明,英偉達提出的 few-shot vid2vid 框架能夠有效地解決現有方法存在的局限性。該論文被 NeurIPS 2019 接收。

World Consistent vid2vid

「World Consistent vid2vid」是英偉達在 2020 年 7 月推出的一種視頻到視頻合成方法。vid2vid 視頻編碼方法能夠實現短時間的時間一致性,但在長時間的情況下不能時間一致性。這是因為對 3D 世界渲染方式缺乏了解,並且只能根據過去的幾幀來生成每一幀。

項目主頁:https://nvlabs.github.io/wc-vid2vid/

論文地址:https://arxiv.org/pdf/2007.08509.pdf

在這篇論文中,英偉達的研究者引入了一個新的視頻渲染框架,該框架能夠在渲染過程中有效利用過去生成的所有幀,來改善後續視頻的合成效果。研究者利用「制導圖像」,並進一步提出了一種新的神經網絡結構以利用存儲在制導圖像中的信息。一系列實驗結果表明,該方法具備良好表現,輸出視頻在 3D 世界渲染上是一致的。

如何根據任務需求搭配恰當類型的資料庫?

在AWS推出的白皮書《進入專用資料庫時代》中,介紹了8種資料庫類型:關係、鍵值、文檔、內存中、關係圖、時間序列、分類帳、領域寬列,並逐一分析了每種類型的優勢、挑戰與主要使用案例。

原標題:《英偉達開源「Imaginaire」:九大圖像及視頻合成方法,你學fei了嗎?》

閱讀原文

相關焦點

  • 英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)
    pix2pixHD能夠利用條件GAN進行2048x1024解析度的圖像合成和處理,輸入語義標註圖生成接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像,效果優於pix2pix和CRN等先前的方法。
  • 除了實時光線追蹤,英偉達圖靈架構還有這些AI圖像處理能力
    英偉達演示的案例是,在陡峭的懸崖上繪製成群結隊的企鵝,企鵝腳下的巖石看起來如真的巖石一樣粗糙,看起來並不像用傳統的畫筆從附近區域複製過來的。據雷鋒網了解,Inpaint這個技術由英偉達Guilin Liu領導的團隊開發,運用了最先進的深度學習方法,可以編輯重建損壞的圖像,同時也可以通過移除部分圖像並重新填充來編輯圖像。
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    不僅如此,我們能否能延展這一概念以及將某個視頻的樣式轉換為另一種呢?是的,我們可以!這是一個非常酷的概念並且英偉達已經非常慷慨地發布了 PyTorch 實現,讓大家盡情嘗試。這個開源項目包括介紹這一技術的視頻、完整的研究論文以及代碼。
  • 英偉達提出僅使用噪點圖像訓練的圖像增強方法,可去除照片噪點
    你的照片庫裡是否有很多帶噪點的粗糙照片,很想修復它們?今天要介紹的這個基於深度學習的方法,僅通過觀察原始的低質量圖像就可以修復照片。這項研究由來自英偉達、阿爾託大學和 MIT 的研究者開展,將在本周的瑞典斯德哥爾摩 ICML 2018 上展示。近期在深度學習領域的研究聚焦於通過展示帶噪點和清晰的圖像示例對來訓練神經網絡修復圖像。然後 AI 系統學習如何彌補差異。
  • 英偉達醫療AI專用框架開源:要告別Pytorch和Caffe了嗎?
    雷鋒網(公眾號:雷鋒網)消息,英偉達與倫敦國王學院共同宣布了Project MONAI的開源alpha版本,該項目是一個醫療研究框架,現已在GitHub上提供。MONAI是AI Medical Open Network的縮寫。
  • 讓夢露和龍媽學著你說話,只需一張靜態圖和一個視頻|項目開源
    十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI想讓名人學著你說話,怎麼辦?很簡單,只要一張名人的照片,配上你說話的視頻,分分鐘就能搞定。來看下效果:無論你是擠眉弄眼,還是搖頭晃腦,照片裡的名人們都能跟你神同步!
  • 熱舞雙截棍飆中文,黃教主把GTC中國峰會開成了英偉達2018成果展
    英偉達異常低迷的股價似乎並沒有影響黃教主的心情。在剛剛結束的最新GTC 2018中國峰會上,英偉達創始人黃仁勳依然一身皮衣,激情四射地完成了長達兩個小時的主題演講。過程中,黃教主生怕現場中國聽眾聽不懂英文沒有辦法互動,多次轉換中文解釋,「很便宜」、「太重了」、「你們聽得懂嗎」。
  • 速度、準確率與泛化性能媲美SOTA CNN,Facebook開源高效圖像...
    最近,Facebook 研究人員提出一項新技術——數據高效圖像 Transformer (DeiT),該方法所需的數據量和計算資源更少,且能產生高性能的圖像分類模型。Transformer 是自然語言處理領域的主流方法,在多項任務中實現了 SOTA 結果。
  • 從歐巴馬假視頻到ZAO,換臉和人臉檢測技術發生了什麼?
    引言近期,通過數字操縱(尤其是 DeepFake 方法)生成包含人臉信息的假圖像和假視頻,已成為公眾關注焦點。「DeepFake」是一項基於深度學習的技術,通過把圖像或視頻中的人臉換成另一個人的臉,來創建假圖像/視頻。
  • 英偉達楊健:英偉達仿真模擬方法論助力無人駕駛算法開發
    今天分享的主題為《英偉達仿真模擬方法論助力無人駕駛算法開發》,主要分為以下三個方面:無人駕駛與預期功能安全;英偉達仿真驗證方法論;解決問題需要的規模和計算量。一種是大家比較熟悉的ISO26262功能安全(FuSa),這種方法論旨在預防由汽車電子電氣系統產生故障導致的意外風險隱患。另一種是 ISO21448 預期功能安全(SOTIF),這種方法論旨在解決自動駕駛系統本身由於算法或者傳感器(攝像頭、雷射雷達等)本身缺陷導致致命傷害事故的問題。這也是今天分享的重點。
  • 6月,機器學習最受歡迎的十大開源項目
    過去的一個月中,我們在將近250個機器學習開源項目中,綜合各種條件進行打分排序,最終評選出十大最新、最棒的機器學習開源項目。這份Top10名單包括NLP構架、圖像壓縮等項目。它們在GitHub上的平均標星數量是760多顆。希望你可以從中找到感興趣的項目。
  • GPU大廠英偉達的AI造夢空間_詳細解讀_最新資訊_熱點事件_36氪
    英偉達是誰?它是遊戲宅們口中的錢包「收割機」,也是AlphaGo背後的「硬實力」。1993年英偉達成立,瞄準遊戲晶片市場,以GPU為鉚點,不斷發展圖形渲染能力,並在之後的幾年,成長為遊戲顯卡界的巨擎。 與此同時,GPU的出現為AI計算帶來了新的動力。英偉達通過一系列手段支持AI技術發展,打造性能、構架更高效的GPU,即「通用AI處理器」。
  • 人體圖像合成,人工智慧製造打歌舞臺?
    近日,上海科技大學團隊的一項新研究,再一擴展了這一領域,其開發建立了人體圖像合成——人體圖像合成的目的是製作可信和逼真的人類圖像,包括運動模擬、外觀傳遞和新視圖合成等。這意味著,模型一旦經過訓練,就可以用來處理所有這些任務。只要一張照片、一段視頻,就能讓你跟著明星偶像「唱、跳、Rap」。
  • 幹掉高速攝像頭:神經網絡生成極慢視頻,突破人類肉眼極限
    跟得上球嗎? 像我們用智慧型手機拍的視頻,記錄下生活中很多美好,隨風飄逝的晚霞,又或者池塘濺起的漣漪,還有孩子們在泳池裡潑水嬉戲,如果都能夠放慢了觀看,必將帶來全新的感受。 正因如此,當今年計算機視覺頂會CVPR舉行時,英偉達團隊的一篇能讓手機拍攝的視頻也「高清慢速播放」的論文,在業界引發了很大的反響。
  • VPF:適用於 Python 的開源視頻處理框架,加速視頻任務、提高 GPU...
    雷鋒網 AI 開發者按:近日,NVIDIA 開源了適用於 Python 的視頻處理框架「VideoProcessingFramework(VPF)」。該框架為開發人員提供了一個簡單但功能強大的 Python 工具,可用於硬體加速的視頻編碼、解碼和處理類等任務。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    剛剛,谷歌開源了語義圖像分割模型 DeepLab-v3+,DeepLab-v3+結合了空間金字塔池化模塊和編碼器-解碼器結構的優勢,是自三年前的 DeepLab 以來的最新、性能最優的版本。GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等
  • 中國博士設計單目視頻完美重建3D場景,畫面毫無違和感
    單目視頻深度估計算法的核心思路,是結合單圖像深度估計網絡和傳統的結構-運動重建法,使網絡學會為指定視頻生成幾何一致的深度。該方法整體設計架構如下。輸入單目視頻,對一對相機位置不同的幀進行採樣,然後,用預先訓練好的單圖像深度估計模型估計深度,得到初始深度圖。對這對圖像,使用光流法前後向一致性檢查建立對應關係。
  • 中科院博士ECCV的新研究 | 開源
    ,最關鍵的核心,是3D輔助短視頻合成方法,它能模擬平面內和平面外的人臉移動,將一幅靜止圖像轉換為短視頻。3D輔助短視頻合成3D密集人臉對齊方法此外,由於沒有公開的三維密集人臉配準的視頻資料庫,採用視頻進行預訓練的方法也行不通。
  • 大人玩具——Arduino開源相機
    你可以自己動手製作,也可以購買成品套裝,Arduino所使用到的軟體都可以免費下載,可以根據自己的要求去修改它們。標準化的接口模式大大降低了大家的製作門檻,任何人有興趣動手都能嘗試折騰出來一臺相機。我們今天製作的這臺Arduino Camera開源相機擁有一般數位相機的基礎功能。