風格遷移新方法:微軟與上海交大提出深度圖像類比技術

2021-01-11 機器之心Pro

選自arXiv.org作者:廖菁等機器之心編譯參與:李澤南

近年來,科學家們已經開發出了多種圖像內容轉換工具,其中包括顏色轉換、紋理轉換和風格轉換。最近這一領域的研究集中於深度卷積神經網絡,除康奈爾大學和Adobe 的真實照片風格轉換以外,UC Berkeley 推出的手繪紋理生成模型也引起了很多人的關注。它們隨著社交媒體的發展而變得廣為人們所知——因為圖片分享是互動的重要組成部分。Prisma 和 Facetune 等應用就成功利用了這種吸引力。

來自微軟和上海交大的廖菁等人最近推出了又一種圖像風格轉換方法。據研究者稱,這種名為 Deep Image Analogy 的技術相比最近的其他研究可以得到更好的風格遷移效果,並適用於多種不同的圖像轉換任務。

摘要

我們提出了一種在圖片中進行視覺風格轉移的新技術,可以讓圖片進行外觀上的轉換,但保留感知上相似的紋理結構。我們的技術可以在兩個輸入圖像之間找到有意義的對應關係。為了實現這點,它使用「圖像類比」方式用深度卷積神經網絡進行對比;我們把這一新技術稱為 Deep Image Analogy。它使用粗化-精細的策略來計算生成結果的鄰域紋理。我們在各種任務中驗證了新方法的有效性,包含風格/紋理轉換、顏色/風格對換、素描/繪畫到照片的轉換和不同時間的光照條件轉換。

圖 1. 新技術可以在兩張圖片(A 和 B')之間建立起語義有意義的對應關係,A'和 B 是風格轉換後輸出的結果

這項新技術在輸入圖像之間建立起了有意義的予以對應關係,從而讓有效的視覺轉換成為可能。研究者在論文中稱,該研究的主要貢獻在於:

提出了「深度圖像類比」方法,並證明了新方法在不同圖像類別任務的處理中是有效的。將 PatchMatch 和重建從圖像域延展到了特徵域,後者可以引導語義上有意義視覺風格轉換。

圖 2. 該方法將相對困難的 A→B0(紅色)映射分解為兩個相對簡單的映射:A→A'和 A'→ B。

圖 3. 輸入圖 A(或 B')在 CNN 中每層的抽象程度。在這裡,每一層的圖像過濾都做了可視化。

圖 4. 系統處理過程

圖 8. 神經網絡中每一層 NNF 的可視化(第一行),NNF 重建結果(中間行)以及獨立層 NNF 重建結果(第三行)。

Deep Image Analogy 算法

圖 11. 對比不同對應密度的方法。

圖 14. 對比其他基於神經網絡的方法與應用(包括 Prisma)

圖 21. 該方法與其他目前表現最佳的圖像風格轉換的處理結果對比,其中包括康奈爾大學和 Adobe 最近的研究。左側小圖為輸入圖像和參考圖像。

通過調整圖像深層空間中的類比概念,研究人員發現了語義上的密集對照關係。Deep Image Analogy 在光照、顏色、紋理和風格的表現上都優於此前推出的其他方法。該方法在真實世界照片的風格轉換任務中展現了廣泛的適用性。在 Adobe 之後,微軟和上海交通大學將圖像風格轉換又向前推進了一步。

論文連結:https://arxiv.org/abs/1705.01088

相關焦點

  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    該網絡獲得了微軟亞洲研究院 COCO 分割挑戰的冠軍。然而在此之外,ENet[56](這是一種用於實時語義分割的深度神經網絡架構)卻並不屬於這一類別。它也展示出了可以降低計算成本的經濟適用價值,可以更好地用於行動裝置。我們希望儘可能地將這些前沿技術與已有的實際應用聯繫起來。
  • 圖像也能做情感遷移?羅切斯特大學團隊提出計算機視覺新任務
    機器之心報導編輯:魔王圖像風格遷移?語音情感遷移?不,是圖像情感遷移。計算機視覺領域中有很多任務,如目標檢測、圖像轉換、風格遷移等,但你聽說過「圖像情感遷移」嗎?羅切斯特大學羅傑波教授團隊提出了這項研究任務 [1]。
  • 深度學習在圖像處理中的應用趨勢及常見技巧
    (以AI之父Geoffry Hinton在2012年提出的高精度AlexNet圖像識別網絡為代表),掀起了以神經網絡為基礎的深度學習研究熱潮。目前為止,圖像處理已成為深度學習中重要的研究領域,幾乎所有的深度學習框架都支持圖像處理工具。當前深度學習在圖像處理領域的應用可分為三方面:圖像處理(基本圖像變換)、圖像識別(以神經網絡為主流的圖像特徵提取)和圖像生成(以神經風格遷移為代表)。本文第一部分介紹深度學習中圖像處理的常用技巧,第二部分淺析深度學習中圖像處理的主流應用,最後對本文內容進行簡要總結。
  • 用Python快速實現圖片的風格遷移
    在這各種神奇的背後,最核心的就是基於深度學習的風格遷移(style transfer)技術。我將在這篇博客帶領大家學習如何使用Python來快速實現圖片的風格遷移。閱讀完本博客後,相信你也能夠創造出漂亮的藝術品。什麼是圖片的風格遷移?
  • 【深度】從經典深度學習模型探討圖像識別新方向
    這些經典的模型其實在很多博文中早已被介紹過,作者的創新之處在於透過這些經典的模型,討論未來圖像識別的新方向,並提出圖像識別無監督學習的趨勢,並引出生成對抗網絡,以及討論了加速網絡訓練的新挑戰。文章梳理了用於圖像識別的深度學習方法的脈絡,並對將來的挑戰和方法做了分析,非常值得一讀!專知內容組編輯整理。
  • 新智元專訪CVPR2019程序主席微軟華剛 :arXiv讓雙盲評審形同虛設...
    華剛博士在接受新智元專訪時也表示了同樣的擔憂,他多次提到「多樣化」、「深度學習結合傳統方法」以及「老樹開新花」,希望看到更多新的技術和新的思路。  作為CVPR 2019的程序主席,華剛預測未來兩年圖像視頻理解相關的研究仍然會是計算機視覺領域的熱點,其中:基於圖像、視頻建模的無監督學習;基於任務的視覺建模機制;以及基於知識和小樣本學習進行視覺建模這3個領域會有所發展。
  • 讀書總結|深度學習圖像識別技術
    >讀書總結1.1什麼是人工智慧人工智慧是研究用於模擬、延伸、和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。    2016年,Google子公司DeepMind開發的基於深度神經網絡的人工智慧圍棋程序AlphaGo以4:1戰勝了棋王李世石,以深度學習技術為代表的人工智慧再次火爆全球。2017年,我國發布《新一代人工智慧發展規劃》,拉開了我國從國家層面支持和發展人工智慧產業的序幕。
  • BAIR提出MC-GAN,使用GAN實現字體風格遷移
    選自BAIR作者:Samaneh Azadi機器之心編譯參與:Nurhachu Null、路近日,BAIR 發布博客提出 MC-GAN(Multi-Content GAN),可以快速生成相同風格的字體這個過程需要大量勞動,藝術家們通常只設計標題或注釋所必需的字形子集,這使得設計完成後文本很難更改,或者很難把看到的字體實例遷移到自己的項目中。早期字形合成研究集中在輪廓的幾何建模上,局限於特定的字形拓撲上(例如,不能應用到裝飾字體或者手寫體),並且不能與圖像輸入一起使用。隨著深度神經網絡的興起,研究者研究了從圖像進行字形建模的問題。
  • 深度遷移學習(TransferLearning)核心技術 實戰培訓班
    深度遷移學習(TransferLearning)核心技術
  • 入門 | 簡述遷移學習在深度學習中的應用
    ,以及該方法在深度學習中的應用,引導構建預測模型的時候使用遷移學習的基本策略。遷移學習是一種機器學習方法,就是把為任務 A 開發的模型作為初始點,重新使用在為任務 B 開發模型的過程中。深度學習中在計算機視覺任務和自然語言處理任務中將預訓練的模型作為新模型的起點是一種常用的方法,通常這些預訓練的模型在開發神經網絡的時候已經消耗了巨大的時間資源和計算資源,遷移學習可以將已習得的強大技能遷移到相關的的問題上。
  • 手把手教你搭建能夠實現 Prisma 風格遷移效果的 iOS 酷炫應用
    翻譯 | 廖明月  吳桐  蔡雨萌    整理 |  凡江隨著 2012 年深度神經網絡在 ImageNetchallenge 比賽上以 AlexNet 模型獲勝,深度神經網絡開創了空前的高潮。AI 工程師已經將深度學習技術應用到越來越多的問題域,包括預訓練的深度美國有線電視新聞網模型。還有什麼比創造藝術更富有創造力呢?
  • 今日Paper | MaskGAN;深度人臉識別;人體姿態估計;妝容遷移等
    : 深度人臉識別的適應性課程學習損失MaskGAN:多樣和交互的面部圖像操作結合檢測和跟蹤的視頻人體姿態估計通過解糾纏表示的局部面部妝容遷移基於自動生成的訓練數據進行大規模事件抽取學習  CurricularFace: 深度人臉識別的適應性課程學習損失
  • 先融合再填充,上海交大提出少樣本圖像生成新方法F2GAN
    近日,上海交大和 Versa-AI 的研究人員合作發表論文,提出了先融合後填充(fusing-and-filling)的思想,以便更合理地融合條件圖片並完善生成圖片的細節信息。目前,這篇論文已被 ACM MM2020 會議接收。
  • 神經風格遷移指南(第一部分)
    在本系列中,我們會從神經風格的基礎開始,你將從中學到一種自下而上(從基礎開始)的方法。卷積神經網絡最初被設計用來進行圖片分類工作,最近它也被應用到了其他諸如圖片分割,圖像風格遷移及其他有關計算機視覺方面的任務上,當然也有被用於自然語言處理的例子。卷積神經網絡是深度學習中最能夠被解釋的模型之一,因為我們可以將他們的表徵可視化從而理解他們可能學到的東西。
  • 向圖像進擊的Transformer! OpenAI提出Image GPT實現高質量圖像補全和樣本生成
    由於針對序列中下一個像素的預測與圖像分類並沒有明顯的關係,最後層的特徵對於目標分類並不是最好的。從結果中可以看出一開始特徵質量在迅速提升,而後隨著深度的增加緩慢減小。這一現象表明transformer生成模型在運行中有兩個顯著的階段,在第一階段每個位置從它周圍的上下文中獲取信息以構建出有效的的圖像特徵;而後在第二階段上下文特徵被用於解決下一個像素的條件生成問題。
  • 【推薦】基於MATLAB編程、機器學習、深度學習在圖像處理中的實踐技術應用
    因此,為了幫助廣大科研人員更加系統地學習圖像處理、機器學習和深度學習的基礎理論知識及對應的代碼實現方法,Ai尚研修特舉辦「MATLAB圖像處理與機器學習技術應用培訓班」 培訓班,旨在幫助學員掌握圖像處理的基礎知識,以及經典機器學習算法和最新的深度神經網絡、遷移學習、對抗生成網絡等算法的基本原理及其MATLAB編程實現方法。
  • 乾貨丨深度遷移學習方法的基本思路
    與傳統的非深度遷移學習方法相比,深度遷移學習直接提升了在不同任務上的學習效果,並且由於深度遷移學習直接對原始數據進行學習,所以它與非深度遷移學習方法相比有兩個優勢。(1)能夠自動化地提取更具表現力的特徵。(2)滿足了實際應用中的端到端(End-to-End)需求。
  • 神經風格遷移(NST)的基本機制及實現
    深度學習可以捕獲一個圖像的內容並將其與另一個圖像的風格相結合,這種技術稱為神經風格遷移。但是,神經風格遷移是如何運作的呢?在這篇文章中,我們將研究神經風格遷移(NST)的基本機制。神經風格遷移概述我們可以看到,生成的圖像具有內容圖像的內容和風格圖像的風格。可以看出,僅通過重疊圖像不能獲得上述結果。
  • 八千字長文深度解讀,遷移學習在強化學習中的應用及最新進展
    機器學習技術在許多領域取得了重大成功,但是,許多機器學習方法只有在訓練數據和測試數據在相同的特徵空間中或具有相同分布的假設下才能很好地發揮作用。當分布發生變化時,大多數統計模型需要使用新收集的訓練數據重建模型。
  • 深度學習角度 | 圖像識別將何去何從?
    這些經典的模型其實在很多博文中早已被介紹過,作者的創新之處在於透過這些經典的模型,討論未來圖像識別的新方向,並提出圖像識別無監督學習的趨勢,並引出生成對抗網絡,以及討論了加速網絡訓練的新挑戰。文章梳理了用於圖像識別的深度學習方法的脈絡,並對將來的挑戰和方法做了分析,非常值得一讀!專知內容組編輯整理。