暴力解剖GAN!MIT、港中文團隊GANpaint,一筆成畫不是夢

2021-01-08 新智元

新智元報導

來源:MIT

編輯:元子

【新智元導讀】MIT開發的GANpaint工具可以輕鬆修圖,允許用戶上傳任何照片進行編輯,而不會破壞其原始細節。除了幫助藝術家和設計師快速調整視覺效果外,研究人員表示,這項工作可能有助於計算機科學家識別「虛假」圖像。

當我們還沉浸在GauGAN憑藉幾根線條,就讓草圖秒變風景照的黑科技之時,MIT也帶來了一項類似的黑科技。

自從GAN誕生以來,一次一次創造著奇蹟:填充紋理、變臉易容。但這一次,這款名叫GANpaint的神器,簡單幾筆就能成畫。

麻省理工學院和IBM的團隊推出「GANpaint Studio」,允許用戶上傳任何照片,然後對照片進行創作,例如更改對象的大小或者添加全新的項目(如樹木和建築物),接下來這個系統可以自動生成逼真的攝影圖像。

除了幫助藝術家和設計師快速調整視覺效果外,研究人員表示,這項工作還可能有助於計算機科學家識別「虛假」圖像。

也難怪網友驚呼:「以後拆樓都不用費勁了!」

那麼這款神器如何操作呢?先奉上傳送門:

http://gandissect.res.ibm.com/ganpaint.html?project=churchoutdoor&layer=layer4

首先,在界面下方選擇底圖;其次,在左側選擇一個對象,如「草」、「門」、「天空」等等;然後選擇要進行的操作,例如「繪畫」、「刪除」等;最後,只需要在圖片中想要更改的區域塗抹幾筆即可。

「現在的機器學習系統就是黑盒子,我們並不總是知道如何改進,有點像你小時候通過拍打舊電視機來修正圖像不能顯示的bug。」論文主要作者、麻省理工學院計算機科學與人工科學博士生David Bau說。他將該項目描述為計算機科學家首次能夠實際「用神經元繪製神經網絡」。

設計師的福報

項目領導人、麻省理工學院教授Antonio Torralba認為該項目具有巨大的潛在應用。設計師和藝術家可以使用它來更快地調整視覺效果。想像一下,一位導演拍完戲後發現,背景中少一個對劇情很重要的道具!這個時候GANpaint Studio就可以來大顯身手了。

通過分析需要刪除的「人造」單元,GANpaint Studio還可用於改進和調試正在開發的其他GAN。除此之外,它還可以幫助研究人員更好地理解神經網絡及其底層結構。

一個意外的發現是系統實際上似乎已經學習了一些關於對象之間關係的簡單規則。它自己會通過某種方式,知道什麼東西應該出現在什麼地方,不應該出現在不屬於它的地方(例如天空中不應該出現窗戶)。

在不同的環境中,它可以創造出不同的視覺效果。例如,假設圖像中有兩個不同的建築物,我們需要為這兩個建築物添加兩個門,GANpaint Studio並不會粗暴的複製兩個相同的門上去,而是會添加兩扇不一樣的門。

「所有繪圖應用程式都將遵循用戶指令,但如果用戶命令將對象放在不合理的位置,我們可能決定不繪製任何內容」Torralba說。「這是一個具有強烈個性的繪圖工具,它打開了一個窗口,讓我們了解GAN如何學會代表視覺世界。」

「這項工作確實簡直令人興奮,讓我們直接看到GAN學習東西的方式,開始看起來有點像常識認知。」芬蘭阿爾託大學副教授Jaakko Lehtinen說,「我認為這種能力是擁有可以在人類世界中發揮作用的自主系統的關鍵基石,這種系統是無限的,複雜的,不斷變化的。」

找出「假」圖像

該團隊的目標是讓人們更好地控制 GAN 網絡。但是他們認識到,隨著性能的增加,濫用的可能性非常可怕,試想一下將這些技術用在醫療照片上將會多麼的可怕!論文共同作者朱俊彥表示,他相信更好地了解 GAN,包括 GAN 所犯的錯誤,這將有助於研究人員更好地消除假冒的照片。

「你需要先了解你的對手才能防禦它,」CSAIL的博士後朱俊彥說。「這種理解可能有助於我們更輕鬆地檢測假圖像。」

為了開發該系統,研究團隊首先確定了GAN內部與特定類型的對象(如樹木)相關的單元。然後,單獨測試這些單元,看看是否擺脫它們會導致某些物體消失或出現。重要的是,他們還確定了導致視覺錯誤(工件)的單元,並努力將其移除以提高圖像的整體質量。

IBM的研究科學家Hendrik Strobelt說:「每當GAN產生非常不切實際的圖像時,這些錯誤的原因以前就是一個謎。但現在我們發現這些錯誤是由特定的神經元觸發的,那麼就可以先停掉這個神經元,以提高圖像的質量。」

「這個系統為更好地理解GAN模型打開了一扇大門,這將有助於我們對GAN進行任何類型的研究,」Lehtinen說。

GANpaint憑什麼如此神奇?

生成對抗網絡(GANs)最近在許多實際應用中取得了令人印象深刻的結果,並且隨著樣本質量和訓練穩定性的提高,出現了許多GAN的變體。然而,對GAN的可視化和理解在很大程度上是缺失的。

因此,來自MIT、香港中文大學、IBM等學校/機構的David Bau、朱俊彥、Joshua B.Tenenbaum、周博磊等人發表論文,並在文中提出了GANpaint這款工具。他們將於下個月在洛杉磯舉行的SIGGRAPH會議上發表演講。

在這項工作中,研究人員提出了一個分析框架來在單元、對象和場景級別可視化和理解GAN:

首先,用基於分段的網絡剖分方法識別一組與對象概念密切相關的可解釋單元;然後,通過測量「幹預」的能力來量化可解釋單位的因果效應;最後,通過將發現的對象概念插入到新圖像中,以此來檢查這些單元與其周圍環境之間的關係。

研究人員的主要目標是分析如何通過GAN生成器的內部表徵,來對「樹」等對象進行編碼:

通過剖析(dissection)來表徵單元

使用幹預(intervention)測量因果關係

實驗結果

工作人員研究了在LSUN場景數據集上訓練的三種Progressive GAN的變體。為了對生成的圖像進行分割,我們使用一個最近的模型 (Xiao et al., 2018) 在ADE20K場景數據集上訓練。

該模型可以將輸入圖像分割為336個物體類,29個大物體和25個材質類。為了進一步識別專門用於對象部件的單元,我們將每個對象類c擴展為另外的對象部件類ct,cb,cl和cr,分別表示連接組件的邊界框的頂部,底部,左半部分或右半部分。。

診斷和改進GANS

框架不僅可以揭示GAN是如何成功地生成真實圖像的,也可以分析結果失敗的原因。

如圖8所示,圖8a顯示了幾個注釋單元,負責GAN結果中的visual artifacts;圖8b顯示了artifacts被成功移除,並且自由像素保持不變的改進的生成結果。

圖8: (a)兩個負責GAN結果中 visual artifacts的示例單元。總共有20個單元。通過消融這些單元,我們可以修復(b)中的artifacts,並顯著提高(c)中的視覺質量。

通過消融定位因果單元

圖9:測量在會議室圖像訓練的GAN中消融單元的效果

如圖10所示,雖然可以在會議室圖像中很好地移除窗戶,但是在其他場景中刪除窗戶則比較困難。

圖10:比較在五個場景類別訓練的GAN中消融20個窗戶單位的效果。

通過插入表徵上下文關係

也可以通過強制單元和插入這些功能到場景中的特定位置來學習GAN的操作。圖11顯示了在教堂場景中插入20層門單元的效果。

圖11:通過在表示中的一個像素處將20個causal units設置為固定的高值來插入 door units。

參考連結:

MIT:http://news.mit.edu/2019/teaching-artificial-intelligence-to-create-more-common-sense-visuals-0701

論文:https://arxiv.org/pdf/1811.10597v1.pdf

相關焦點

  • 朱俊彥團隊提出GAN壓縮算法:計算量減少20倍,GPU、CPU統統能加速
    為了解決這一問題,來自MIT、Adobe研究院和上海交通大學的團隊琢磨出了一個通用壓縮框架。有多強?預測可能的原因之一是,現有的生成器採用的圖像識別模型,可能不是圖像合成任務的最佳選擇。下面,作者展示了如何從現有的cGAN生成器中獲得更好的架構設計空間,並在該空間內執行神經架構搜索(NAS)。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    這項「造假神技」的創作範圍,已經從最初的手寫數字和幾百像素小渣圖,拓展到了壁紙級高清照片、明星臉,甚至藝術畫作。心癢難耐想趕快入門?通過自己動手、探索模型代碼來學習,當然是墜吼的~如果用簡單易上手的Keras框架,那就更贊了。
  • 異父異母的三胞胎:CycleGAN, DiscoGAN, DualGAN
    然而pix2pix的模型是在成對的數據上訓練的,也就是說,對於線條到貓的應用,我們訓練的時候就需要提供一對一對的數據:一個線條畫,和對應的真實的貓圖片。然而在很多情況下,我們並沒有這樣完美的成對的訓練數據。比如說如果你想把馬變成斑馬,並沒有這樣對應的一個馬對應一個斑馬。然而,馬的圖片和斑馬的圖片卻很多。所以這篇論文就是希望,能夠通過不成對的訓練數據,來學到變換。
  • 超全的GAN PyTorch+Keras實現集合
    /dualgan.py跨域圖像到圖像變換的條件生成網絡在近期取得了很大的進步。/implementations/dualgan/$ python3 dualgan.py --dataset_name facades如果當前地址為 Keras-GAN/,那麼我們需要使用 Keras 實現訓練:$ cd dualgan/$
  • 生成式對抗網絡GAN的高級議題
    可以說,條件合成最迷人的應用是Image2Text和Text2Image,它能夠將圖片翻譯成文字,反之亦然。這種應用影響深遠,如果不僅僅是用於分析醫學圖像來描述圖像的特徵,從而消除了醫生對圖像的主觀分析。這也是另一種方式使圖像可以純粹從單詞生成。
  • 如何使用GAN做一個禿頭生產器
    獲取模型  # 獲取GAN模型# paddlepaddle/models的倉庫裡含有其支持的所有gan模型!git clone https://gitee.com/paddlepaddle/models.git -b release/ 1.8!cp -r models/PaddleCV/gan/* .
  • 北京成好醫療郭昌灝自體脂肪填充效果不好?你可能填了「死」脂肪
    AAT全稱是Autogenous Adipose Tissue,中文翻譯是自體脂肪活細胞,俗稱為「活」脂肪,目前,任何一種自體脂肪填充術式都在想法設法讓脂肪活,因為只有活的脂肪細胞填充後,塑形效果才會形態美觀,觸感真實自然
  • 帶集成驅動和保護功能的高壓GaN FET在工業和電信應用中將功率密度...
    HQS=app-hvp-gan-ganfamily-pr-sa-20181030-cn ,,, 和 http://www.ti.com.cn/product/LMG3411R070-pr。
  • GAN(生成對抗網絡)萬字長文綜述
    上圖 b 中,一些離決策面比較遠的點,雖然被分類正確,但是這些並不是好的生成樣本。傳統 GAN 通常會將其忽略。PatchGAN:準確來說 PatchGAN 並不是用於穩定訓練,但這個技術被廣泛用於圖像翻譯當中,PatchGAN 相當於對圖像的每一個小 Patch 進行判別,這樣可以使得生成器生成更加銳利清晰的邊緣。
  • 萬字綜述之生成對抗網絡(GAN)
    PatchGAN:準確來說 PatchGAN 並不是用於穩定訓練,但這個技術被廣泛用於圖像翻譯當中,PatchGAN 相當於對圖像的每一個小 Patch 進行判別,這樣可以使得生成器生成更加銳利清晰的邊緣。
  • 港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南
    最近,香港中文大學周博磊等人提出了一種名為「SeFa」的方法,為該問題提供了更優解。SeFa 方法能夠識別出不同 GAN 模型的潛在語義,進而進行圖像編輯。港中文周博磊等人提出新方法「SeFa」,解釋 GAN 內部表徵以往的方法嚴重依賴於預定義的語義和標註樣本,存在局限性。
  • 哆啦A夢簡筆畫大全可愛,哆啦a夢一筆一畫教你畫,超簡單
    哆啦A夢是來自未來的機器貓,它非常的善良,也樂於幫助別人,就是因為心腸軟,所以每次大雄遇到困難的時候,哆啦A夢都不會盡全力去幫助他,小時候的我們都希望身邊能有一個這也溫暖的朋友吧!下面我們來具體教大家畫可愛的哆啦A夢簡筆畫,一起來學吧!
  • 萬字長文解讀GAN:從基本概念、原理到實際應用
    Paired two domain data成對圖像翻譯典型的例子就是 pix2pix,pix2pix 使用成對數據訓練了一個條件 GAN,Loss 包括 GAN 的 loss 和逐像素差 loss。而 PAN 則使用特徵圖上的逐像素差作為感知損失替代圖片上的逐像素差,以生成人眼感知上更加接近源域的圖像。
  • 韓松、朱俊彥等人提出GAN壓縮法:算力消耗不到1/9,現已開源
    項目連結:https://github.com/mit-han-lab/gan-compressionGAN 壓縮後的具體性能如何?因此,基於 GAN 和 cGAN 在圖像合成領域存在的這些問題,韓松團隊提出了 GAN 壓縮,這是一種通用壓縮方法,用於減少 GAN 的推理時間以及計算成本。同時,壓縮生成模型面臨兩個基本困難:GAN 訓練不穩定,尤其是在未配對的情況下;生成器與 CNN 不同,因此很難使用現有的 CNN 設計。
  • 「勇武組織」——禍港亂港暴力活動的「急先鋒」
    細數他們的罪惡歷史,以暴力方式實現「港獨」的險惡用心昭然若揭……2011年,香港嶺南大學前助理教授,有「港獨教父」之稱的陳雲,撰寫出版《香港城邦論》一書,提出「勇武」理念,宣揚「動武是除和平之外不可剝奪的最後手段」,吸引了不少本土勢力和「港獨」分子,被稱為「本土派」,經過傳播,「勇武」理念逐漸成為「港獨」激進分子的信條。
  • 乾貨| 直觀理解GAN背後的原理:以人臉圖像生成為例
    他希望是自己發現了 GAN 而不是 Ian Goodfellow。目前,人們利用 GAN 可以完成不同種類的生成任務,它能夠生成現實中的圖片,三維模型,視頻和其他更有價值的成果。面部的數學運算: DGGAN-code (https://github.com/Newmu/dcgan_code#arithmetic-on-faces)那麼添插圖片會怎樣呢?給定兩張圖片,它能生成從一張圖片轉化成另一張圖片這個過程的所有圖片。還有許多你能讓人印象非常深刻,不是嗎?
  • 用Keras搭建GAN:圖像去模糊中的應用(附代碼)
    因此生成器的輸入不是噪聲,而是模糊圖像。數據集來自GOPRO數據,你可以下載精簡版數據集(9GB),也可以下載完整版數據集(35GB)。其中包含了來自不同街道視角的人造模糊圖像,根據不同的場景將數據集分在各個子文件夾中。我們先把圖像分到 A (模糊)和 B (清晰)兩個文件夾。
  • 超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...
    港中文團隊提出的 SN(Switchable Normalization)解決了 BN 的不足。SN 在 ImageNet 大規模圖像識別數據集和 Microsoft COCO 大規模物體檢測數據集的準確率,還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN(Group Normalization)。原論文請參考 arXiv:1806.10779 和代碼 Github。