學界| 讓莫奈畫作變成照片:伯克利圖像到圖像翻譯新研究

2020-12-05 機器之心Pro

選自arXiv.org機器之心編譯參與:李澤南

UC Berkeley 的研究者們在圖像風格轉換領域的探索一直引人注目,幾個月前的人工智慧生成「貓片」:edges2cats 圖像轉換系統風靡一時。最近,該論文作者之一 Jun-Yan Zhu 又為我們展示了另一種圖像風格轉換技術。經過訓練,這種被稱為 CycleGAN 的新方法可以讓馬變成斑馬,莫奈的畫作變成照片,橘子變成蘋果……在論文發表後,研究小組在 GitHub 上公布了該項研究的 Torch 實現。讀者可點擊閱讀原文下載此論文。

論文:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

摘要:圖像到圖像轉換是一類視覺和圖形問題,其目標是通過訓練學習輸入圖片的風格,將其映射到框架類似的輸出圖片中。儘管對於很多任務而言,配對訓練數據可遇不可求。我們提出了一種在沒有配對的情況下從來源域 X 到目標域 Y 進行圖像轉換的方式。我們的目標是實現 G:X→ Y,其中 G(X) 的圖像分布與使用對抗性損失分布的 Y 難以區分。因為映射非常不完全,我們將其以 F:Y→ X 的方式建立映射,同時引入循環一致性損失函數來推動 F(G(X))≈X(反之亦然)。我們在無法配對的訓練數據中演示了新方法的成果,其中包括風格遷移、材質改變、季節變化、圖像增強等。我們業餘之前一些方法進行了定量比較,展示了新方法的優越性。

圖 1:給定兩個無序圖像集 X 和 Y,CycleGAN 可以自動對它們進行互相「翻譯」。

圖 3:該模型包含兩個映射函數 G : X ! Y 和 F : Y ! X,以及相關的對抗式鑑別器 DY 和 DX。DY 鼓勵 G 將 X 翻譯為 Y 風格的圖像,反之亦然。為了進一步規範映射,研究者引入了兩個「循環協調損失函數」,確保轉換後的風格在反轉換後可以回到處理之前的狀態。

圖 5:在道路圖片上,CycleGAN 與一些其他方法效果的對比

圖 8:CycleGAN 處理 pix2pix 配對數據集的效果

在論文中,作者表示儘管這一研究在很多包含紋理與顏色的風格轉換任務中表現優秀,但它在一些包含幾何圖形變化的任務中(如貓→ 狗轉換)仍無法達到令人滿意的表現。研究人員在未來將向這一方向展開新的探索。

相關連結

GitHub:https://github.com/junyanz/CycleGAN論文連結:https://arxiv.org/abs/1703.10593

相關焦點

  • 【變狗為貓】伯克利圖像遷移cycleGAN,貓狗互換效果感人
    作者:itok_msi   編譯:neko【新智元導讀】日本 NTT Data 的研究者用 cycleGAN 網絡,做了一個「將狗和貓的圖像互換」的模型,並且生成的貓或者狗的姿勢和毛色與輸入的圖像保持一致。
  • 無需成對示例、無監督訓練,CycleGAN生成圖像簡直不要太簡單
    訓練圖像到圖像的轉換模型通常需要一個大的成對數據集。這些數據集準備起來既困難又昂貴,而且在某些情況下是不可行的,比如已故許久的藝術家的畫作照片。  CycleGAN 是一種無需成對示例便可自動進行圖像到圖像轉換的技術。這些模型是採用一批無需關聯的來自源域和目標域的圖像,以一種無監督的方式訓練的。
  • 讓消失已久的莫奈畫作重見天日,萬能的搜尋引擎簡直逆天
    但最近,英國國家美術館策展人卻以一種出乎意料的方式找到了莫奈一幅遺失多年的畫作——通過谷歌搜索。 藝術史學家理察·湯姆森(Richard Thomson)從一本莫奈的作品目錄中發現了一幅叫做《迷霧之外》(Effet de Brouillard)的作品,只有郵票大小,標註為私人藏品。
  • 告別邪神作畫:加州大學開源全新圖像處理工具CycleGAN
    比如加州大學伯克利分校近日開源的一個新的圖像處理工具CycleGAN的藝術造詣就比Google要高尚不知道多少。話不多說先看圖:你一定會說這個不是和去年流行的手機App麼?錯!上圖中其實左圖是原圖,右圖是CycleGAN處理過的圖片。與廣為流行的Prisma相反,CycleGAN可以將一副繪畫作品還原成照片。
  • 唐能翻譯為莫奈《日出·印象》展覽開幕式提供法語翻譯服務
    談及「印象畫派」,莫奈的《日出·印象》在西方藝術史上具有劃時代的意義,一直以來也國內藝術界的熱門話題之一。如今,印象派的開山之作終於來華了,「日出·光明——莫奈《日出·印象》」特展9月16日在上海開幕,唐能翻譯為展覽開幕式提供了法語口譯翻譯服務。
  • 從Pix2Code到CycleGAN:2017年深度學習重大研究進展全解讀
    這一算法被應用到 800 億張圖片之上。 3.2 視覺推理 視覺推理指的是讓神經網絡回答根據照片提出的問題。例如,「照片中有和黃色的金屬圓柱的尺寸相同的橡膠物體嗎?」(BAIR)在 2016 年非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中,研究人員解決了圖像到圖像的生成問題。
  • 英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)
    Liu¹, Jun-Yan Zhu², Andrew Tao¹, Jan Kautz¹, Bryan Catanzaro¹¹NVIDIA Corporation  ²UC Berkeley摘要本文提出了一種利用條件生成對抗網絡(conditional GANs)來合成高解析度、照片級真實的圖像的新方法
  • 成對抗網絡圖像處理工具 CycleGAN
    CycleGAN 是一個圖像處理工具,可將繪畫作品生成照片。可以把它理解為是一個 「反濾鏡」,該工具來自來自加州大學伯克利分校。將畫作還原成照片當然,把畫作轉化成照片是一個較小的需求,CycleGAN 利用這項技術實現了更為實用的功能:將夏天轉換成冬天,或將普通的馬轉化成斑馬。
  • 迄今最清晰端粒酶圖像問世,開拓抗衰老與癌症新療法之路
    迄今最清晰端粒酶圖像問世,開拓抗衰老與癌症新療法之路 張夢然/科技日報 2018-04-27 08:46
  • 圖像識別 百度翻譯App隨手拍照就能翻譯
    如其所說,百度翻譯App最新推出3.0版本加入了百度獨有的圖像識別技術,這使得用戶只要打開百度翻譯App實物翻譯功能,對著物體拍張照,就能迅速識別並翻譯成英文。有意思的是,從不同角度,勾劃不同部分,還能得出各種結果。網友感嘆:屌絲生活變土豪,百度翻譯歡樂多!」
  • 于洋:當代主題性繪畫創作的「圖像困局」
    于洋丨中央美術學院教授、國家主題性美術創作研究中心副主任、中國畫學研究部主任在當下的融媒體、全媒體時代語境中,大數據圖像對於美術創作的影響深入而廣泛,幾乎無處不在。「畫照片」「圖像製作」的問題成為最為集中的問題之一,一時間對於「畫照片」現象的關注與批判,也成為當代畫壇的顯學與令人矚目的現象。陷入「圖像」的繪畫,如何解套與破局?是否存在超越與升華的契機?在影像媒體文化語境下,如何以繪畫藝術的敘事方式再現過往歷史、表現當代社會?如何以繪畫特有的魅力感染觀者、回應新的時代課題?這些都成為擺在當下主題性繪畫作者面前的重要問題。
  • 英偉達開源Imaginaire:九大圖像及視頻合成方法,你學fei了嗎?
    機器之心報導作者:蛋醬、小舟圖像 / 視頻合成領域的集大成者,就在這一篇了。圖像和視頻等視覺數據的生成是機器學習和計算機視覺領域重要的研究問題之一。項目主頁:https://tcwang0509.github.io/pix2pixHD/論文連結:https://arxiv.org/pdf/1711.11585.pdf在這篇論文中,來自英偉達和 UC 伯克利的研究者提出了一種使用條件 GAN 從語義標籤圖上合成高解析度照片級逼真圖像的方法。
  • 英偉達提出僅使用噪點圖像訓練的圖像增強方法,可去除照片噪點
    如果有一天,在低亮度環境中拍攝的照片中的噪聲可以被自動清除,並且自動修復失真,那將會如何?你的照片庫裡是否有很多帶噪點的粗糙照片,很想修復它們?今天要介紹的這個基於深度學習的方法,僅通過觀察原始的低質量圖像就可以修復照片。這項研究由來自英偉達、阿爾託大學和 MIT 的研究者開展,將在本周的瑞典斯德哥爾摩 ICML 2018 上展示。
  • 圖像特徵點、投影變換與圖像拼接
    多個視角拍攝的圖像很顯然,不管我們是把左邊的圖像擺在上面,還是把右邊的圖像擺在上面,都會觀察到「對不齊」的現象(看看中間欄杆的斷裂縫):文藝復興時代投影變換剛剛被發現,所以類似上面的這種表現形式在那時候的畫作中經常出現:
  • 學界 | 把2D公路變成3D飛車遊戲,MIT、清華打破圖像編輯的次元壁
    給出如圖 1 所示的街道圖像,我們可以毫不費力地檢測並識別汽車及其屬性,更有趣的是,人類可以想像汽車在 3D 世界中如何移動和旋轉。受這些人類能力的啟發,在這項工作中,MIT CSAIL 和清華大學的研究者尋求獲得機器的可解釋、可表達和可分解的場景表徵,並使用學習到的表徵來進行靈活的 3D 感知場景操控。
  • 圖像特徵點、投影變換與圖像拼接
    多個視角拍攝的圖像很顯然,不管我們是把左邊的圖像擺在上面,還是把右邊的圖像擺在上面,都會觀察到「對不齊」的現象(看看中間欄杆的斷裂縫):文藝復興時代投影變換剛剛被發現,所以類似上面的這種表現形式在那時候的畫作中經常出現:
  • 1500萬個標記圖像、2萬多個分類!如今的AI圖像分類器還是「睜眼瞎」
    計算機「眼中」的我,一個叼著菸斗的菸民比如,2009年首次推出ImageNet項目(圖像識別)的分類實驗結果「ImageNet Roulette」背後就隱藏著莫大的樂趣:它可以根據自身海量的數據圖片對人物、動物等實體照片進行分析、標記及識別等,未來可以讓這樣的一個標準識別機器人為你做一些滑稽的事情。
  • 去成博看莫奈之前,我們幫你解剖了《睡蓮》
    照相機的發明,改變了人們觀看事物的方法,在圖畫複製的年代,圖像已經喪失了它的權威,畫作不再是被少數人框起來納入收藏、高高在上嵌入牆中保存和佔有景觀的「保險箱」。面對自然景觀,荷塘月色、水波瀲灩、日出江花紅勝火、春來江水綠如藍,或者任意一棵繁花盛開的樹,任何一個人都能夠直觀地體驗審美情感,藝術品還有存在的必要嗎?
  • 如何學好圖像處理——從小白到大神?
    縱向來說,數字圖像處理研究的歷史相當悠久;橫向來說,數字圖像處理研究的話題相當廣泛。  數字圖像處理的歷史可以追溯到近百年以前,大約在1920年的時候,圖像首次通過海底電纜從英國倫敦傳送到美國紐約。圖像處理的首次應用是為了改善倫敦和紐約之間海底電纜發送的圖片質量,那時就應用了圖像編碼,被編碼後的圖像通過海底電纜傳送至目的地,再通過特殊設備進行輸出。
  • 一張圖像傳回後,還驚動了航天界?
    一張圖像傳回後,還驚動了航天界?人類對月球的嚮往從古代就有了,還為了寫下了很多精彩的神話故事。直到上個世紀美國的阿波羅號成功登月,人類才知道原來月球跟神話故事中有那麼大的區別,沒有生物更沒有嫦娥,即便是這樣,我們對月球的探索也從未停止。