港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

2020-07-28 機器之心Pro

無監督條件下,GAN 模型潛在語義的識別似乎是一件非常具有挑戰性的任務。最近,香港中文大學周博磊等人提出了一種名為「SeFa」的方法,為該問題提供了更優解。

SeFa 方法能夠識別出不同 GAN 模型的潛在語義,進而進行圖像編輯。如下圖所示:

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

除了動漫以外,SeFa 方法還可以處理場景、人物、動物、物體等不同的圖像。

下圖展示了對「貓片」的操控效果:


港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南


貓姿勢的左右移動。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

貓姿勢的上下移動。需要注意的是,在圖像變換過程中,我們可以看到,還是有偽影的存在。

藉助 SeFa 方法,我們還可以調整車輛的形狀:

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

以及調整車輛方向:

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

更多效果展示,請戳以下視頻:

00:00/00:00倍速

接下來,我們來看該問題的難點以及 SeFa 方法的新穎之處。

如何解釋 GAN 的潛在空間?

生成對抗網絡(GAN)在圖像合成領域的應用已經十分廣泛。近期的一些研究表明,在學習合成圖像時,GAN 會自發地在潛在空間中表示出多種可解釋屬性,如用於人臉合成的性別特徵、用於場景合成的光照條件。通過正確識別這些語義,我們可以將 GAN 學習到的知識重新利用,合理地控制圖像生成過程,從而實現圖像編輯功能的更廣泛應用,如人臉操縱和場景編輯。

解釋 GAN 潛在空間的關鍵點在於找到與人類可理解屬性相對應的子空間。通過這種方法,將潛碼(latent code)向特定子空間的方向移動,即可對應地改變合成圖像的語義。然而,由於潛在空間的高維性以及圖像語義的多樣性,在潛在空間中尋找有效方向是極具挑戰性的。

現有的監督學習方法通常先隨機抽取大量潛碼,然後合成一組圖像,並使用一些預定義標籤進行圖像標註,最後利用這些標註樣本學習潛在空間中的分離邊界(separation boundary)。要想得到訓練該邊界的標籤,要麼引入預訓練語義預測器,要麼利用圖像的一些簡單統計信息。

港中文周博磊等人提出新方法「SeFa」,解釋 GAN 內部表徵

以往的方法嚴重依賴於預定義的語義和標註樣本,存在局限性。最近,來自香港中文大學的研究者提出了一種新的生成方法,不再將合成樣本作為中間步驟,而是通過直接探索 GAN 的生成機制來解釋其內部表徵

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

論文地址:https://arxiv.org/pdf/2007.06600.pdf

代碼地址:https://github.com/genforce/sefa

項目主頁:https://genforce.github.io/sefa/

具體而言,對於所有基於神經網絡的 GAN,第一步通常採用一個全連接層將潛碼輸入到生成器中,它提供了將潛在空間投影到變換空間(transformed space)的驅動力。這種變換實際上過濾了潛在空間中一些不重要的方向,從而突出了圖像合成的關鍵方向。

能夠識別這些重要的潛在方向,我們就能夠控制圖像生成過程,即編輯合成圖像的語義。

在這篇論文中,研究者提出了一種新穎而簡單的閉式方法「SeFa」,可用於 GAN 的潛在語義分解。現有方法通常使用三個步驟(採樣、標註和邊界搜索),而 SeFa 方法只需使用 GAN 模型學得的權重進行語義發現。

實驗結果表明,這一方法能夠通過非常快速和高效的實現(1 秒內),識別通用的潛在語義,在無監督條件下即可從不同類型的 GAN 模型中識別多種語義。具體方法可見論文。

下圖展示了一些操作實例。即使我們不知道圖像中對象的底層 3D 模型或姿態標籤,也仍然進行旋轉,並且該方法支持在 PGGAN、StyleGAN、BigGAN、StyleGAN2 等多個 GAN 模型中發現人類可理解的語義。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

SeFa 的實驗效果

研究者在多個 SOTA GAN 模型上進行大量實驗,以評估所提出方法的效果,這些模型包括 PGGAN、StyleGAN、BigGAN 和 StyleGAN2。這些模型在多個數據集上進行了訓練,包括人臉(CelebA-HQ 和 FF-HQ)、動漫人臉、場景和物體(LSUN)、街景和 ImageNet 等。為了對人臉進行定量分析,研究者在之前研究 [23] 的基礎上,使用 ResNet-50 在 CelebA 數據集上訓練了一個屬性預測器。

無監督基準的對比

下圖 3 展示了與基於採樣的無監督方法之間的定性對比。

可以看出,SeFa 的生成結果(b 行)更接近於監督方法 InterFaceGAN(c 行)所生成的結果。例如在 StyleGAN 上使用 PCA 編輯姿勢時,身份和髮型會發生變化(a 行)。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 3:語義定性對比。(a)基於採樣的無監督方法 [10];(b)該研究提出的閉式方法 SeFa;(c)監督方法 InterFaceGAN。

接下來是與基於學習的無監督方法的對比。

以下圖 4 為例,當使用 Info-PGGAN 進行編輯時,頭髮的顏色會發生變化。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 4:Info-PGGAN (a) 和 SeFa (b) 發現語義的定性對比。

監督方法對比和語義屬性分析

接下來,研究者對比了 SeFa 與監督學習 SOTA 方法 InterFaceGAN 在潛在語義發現方面的性能,具體而言從以下兩個角度進行分析:(a)在分離語義方面的區別,(b)識別語義的多樣性。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

表 2 展示了通過評估語義得分隨潛碼調整而發生的變化,對不同方法進行重新評分分析。每一行展示了將潛碼朝某個方向移動的結果。

在下圖 5 中,研究者將本文方法與監督方法 InterFaceGAN 進行對比。如圖 5 (a) 所示,SeFa 成功地識別了與發色、髮型和膚色這些要素對應的方向。同時該方法還可以識別更複雜的屬性 ,如圖 5 (b) 中的不同髮型。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 5:a)多樣化的語義,InterFaceGAN 因缺乏語義預測期而無法識別;b)無法用二元屬性描述的不同髮型。

隨後,研究者將 GAN 逆映射方法引入到這項工作中,以實現真實圖像的處理。具體而言,給定一個待編輯的目標圖像,我們首先將它投影到潛碼,然後使用發現的潛在語義來調整逆代碼。

如下圖 6 所示,該研究提出的閉式方法所發現的語義是足夠精確的,可以操縱真實的圖像。例如,研究人員設法在輸入圖像中添加或刪除眼鏡(圖 6 的第四列)。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 6:對真實圖像進行不同面部屬性的處理。所有語義都是用 SeFa 找到的,GAN 逆映射用於將作為目標的真實圖像投影回 StyleGAN 的潛在空間。

在其他 GAN 模型上的泛化表現

這部分驗證了 SeFa 算法的泛化能力,即應用到在不同數據集上訓練的各類 SOTA GAN 模型的效果。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 7:從基於風格的生成器中發現的層級語義。其中街景模型使用了 StyleGAN2 進行訓練,其他模型使用了 StyleGAN。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 8:從 BigGAN 中發現的多樣性語義,該模型在 ImageNet 上進行了有條件的訓練。這些語義被進一步用於處理不同類別的圖像。

相關焦點

  • 港中文周博磊變身up主,中文課程已上線
    最近,香港中文大學(CUHK)信息工程系助理教授周博磊就有了一個大膽的想法,他決定把自己每周的《強化學習》課程用中文在 B 站上進行直播。目前這門課程的第一課已經上線。機器之心經授權進行了整理。周博磊老師博士畢業於麻省理工學院,現任香港中文大學信息工程系助理教授,研究方向主要為機器感知和決策,重點是通過學習可解釋、結構化的表徵,使機器能夠在複雜的環境中感知、推理和行動。
  • 今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...
    目錄用於語義場景完成的3D門控遞歸融合用於大姿態人臉正面化的雙注意力GANUniversal-RCNN:基於可轉移圖R-CNN的通用目標檢測器用於圖像深度估計的無監督域自適應嵌套命名實體識別的神經分層模型用於語義場景完成的3D門控遞歸融合論文名稱:3D Gated Recurrent
  • 超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...
    雷鋒網 AI 科技評論:港中文最新論文研究表明目前的深度神經網絡即使在人工標註的標準資料庫中訓練(例如 ImageNet),性能也會出現劇烈波動。這種情況在使用少批量數據更新神經網絡的參數時更為嚴重。研究發現這是由於 BN(Batch Normalization)導致的。BN 是 Google 在 2015 年提出的歸一化方法。
  • 暴力解剖GAN!MIT、港中文團隊GANpaint,一筆成畫不是夢
    除了幫助藝術家和設計師快速調整視覺效果外,研究人員表示,這項工作可能有助於計算機科學家識別「虛假」圖像。當我們還沉浸在GauGAN憑藉幾根線條,就讓草圖秒變風景照的黑科技之時,MIT也帶來了一項類似的黑科技。自從GAN誕生以來,一次一次創造著奇蹟:填充紋理、變臉易容。但這一次,這款名叫GANpaint的神器,簡單幾筆就能成畫。
  • 港中文MMLab自步對比學習:充分挖掘無監督學習樣本
    一、背景簡介近年來,在無監督學習的浪潮下,無監督及領域自適應的目標重識別任務也逐漸受到大家的關注,在剛剛過去的ECCV 2020中,這個方向所發表的論文就有十餘篇。目標重識別 (Object Re-ID)包括行人重識別、車輛重識別等,旨在跨攝像機檢索和追蹤目標人物或車輛。重識別任務的關鍵之一是學習具有辨識性的特徵,並在多樣的條件變化下保持魯棒性。在如今深度學習盛行的時代,大規模數據集推動了目標重識別任務的快速發展,然而,領域差異及標註數據的高消耗等都成為了部署重識別算法中無法忽視的問題。
  • DeepMind爆出無監督表示學習模型BigBiGAN,GAN之父點讚!
    Andrej Karpathy也說:「無監督/自監督學習是一個非常豐富的領域,它將消除目前對大規模數據集的必要性.」總結而言,這篇論文展示了GAN可以用於無監督表示學習,並在ImageNet上獲得了最先進的結果。下面是BigBiGAN生成的一些重建樣本,可以看到,重建是傾向於強調高級語義,而不是像素級的細節。
  • GAN用於無監督表徵學習,效果依然驚人……
    其實在 GAN 的早期,它也是能用於無監督表徵學習的,只不過後來自編碼器等自監督學習有了更好的效果。在這篇論文中,研究者表示圖像生成質量的提升能大幅度提升表徵學習的性能。並且相比自編碼器等關注「底層細節」的模型,GAN 通過判別器能捕捉語義層面的差異,從而顯著提升效果。
  • 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的...
    左圖:人類演示    右圖:相應的機器人模擬在非常小的數據集上使用無監督學習是機器學習中最具挑戰性的場景之一為了使該方法可行,研究者使用了從ImageNet上進行圖像識別訓練的大型網絡的深度視覺特徵。這種深度視覺特徵對於語義概念是敏感的,能夠很好的提取語義概念,同時防止諸如外觀和照明等變量的幹擾。研究者使用這些功能來解釋用戶提供的演示,結果顯示從幾個演示中就可以以無監督的方式學習到獎勵函數,而無需額外訓練。
  • 英偉達、UC伯克利聯合研究:條件GAN高解析度圖像合成與語義編輯pix2pixHD(論文+代碼)
    pix2pixHD能夠利用條件GAN進行2048x1024解析度的圖像合成和處理,輸入語義標註圖生成接近真實的現實世界圖像,例如街景圖、人臉圖像等,並且只需簡單的操作即可修改和搭配圖像,效果優於pix2pix和CRN等先前的方法。
  • 2019 語義分割指南
    圖源:http://www.cs.toronto.edu/~tingwuwang/semantic_segmentation.pdf我們來看看一些涵蓋最先進的構建語義分割模型方法的研究論文,即:Weakly- and Semi-Supervised Learning
  • WHO最新指南:2019-nCoV相關重症感染臨床指南(中文首譯版)
    (中文首譯版) 引言 本文是WHO在2020年1月28日發布的最新版針對新型冠狀病毒的臨床指南,是2020年1月12日指南的更新版。分診:識別和分類嚴重急性呼吸道感染(SARI)患者 分診:在所有SARI患者首次至醫療單位就診(比如急診科)時,臨床醫生就應對其進行識別和分類。在【表1】所描述的情形下,應考慮nCoV是可能的病原體。分類患者並根據疾病的嚴重程度啟動緊急治療。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • 研究顯示冷鏈條件下新冠病毒可存活3周,進口凍肉或致跨境傳播
    該通報稱,這是「首次在實驗室外證實在冷鏈運輸特殊條件下新冠病毒可以在物品外包裝上存活較長時間,提示新冠病毒以冷鏈物品為載體具備遠距離跨境輸入的可能」。此前,來自新加坡和愛爾蘭的一個研究團隊也曾提出此種假設,並進行了實驗。
  • 「2018年全國知識圖譜與語義計算大會」開始徵文!
    CCKS2017 吸引了 500 餘名來自學術界和工業界的學者和研究人員參加。全國知識圖譜與語義計算大會已經成為國內知識圖譜、語義技術、連結數據等領域的核心會議,聚集了知識表示、自然語言理解、機器學習、資料庫、圖計算等相關領域的重要學者和研究人員。2018 年全國知識圖譜和語義計算大會將於 2018 年 8 月 15 日至 8 月 18 日在天津召開。
  • 人臉識別技術介紹和表情識別最新研究
    為提高人臉識別準確率,人臉校正可以儘可能的降低由於姿態和表情導致的人臉變化,獲取正面或者平靜狀態下的人臉照片。特徵提取利用不同的特徵,對圖片進行相似度的衡量和評價。人臉識別主要包括一對一或者一對多的應用場景,對目標人臉進行識別和驗證。人臉表達模型主要分為2D,2.5D,3D。2D人臉指的是RGB,灰度和紅外圖像,是確定視角下表徵顏色或紋理的圖像,不包括深度信息。
  • 超全的GAN PyTorch+Keras實現集合
    作者們展示了對抗自編碼器如何應用於半監督分類、圖像內容和風格解析、無監督聚類、降維算法和數據可視化等內容。作者還實現了一些實驗,並在生成建模和半監督分類任務中取得了很好的性能。在本論文的研究工作中,作者們介紹了生成對抗網絡的的條件約束版,即可以通過數據 y 來構建生成網絡,而我們期望生成器和判別器能加上約束條件。作者表示模型可以以類別標籤為條件生成 MNIST 手寫數字,同時還展示了如何使用該模型學習多模態模型,並提供了一個應用於圖像標註的簡單示例,他們展示了這種方法如何生成不屬於訓練標註的描述性標籤。
  • BERT-Flow | 文本語義表示新SOTA
    針對這個問題,作者首先分析了BERT句向量分布的性質,然後利用標準化流無監督地將BERT句向量的分布變換成更規整的高斯分布,實驗結果表明作者提出的BERT-flow在多項任務上取得了SOTA表現。「因此最理想的方法是在領域語料庫上無監督訓練的BERT生成的句向量可以直接用來有效地計算文本相似度」。但上面已經提到,實驗結果表明BERT句向量還不如簡單得多的GloVe句向量,似乎只有像SBERT那樣提供監督信息來"修正"BERT的參數,BERT才能生成可以直接用簡單的cosine相似度計算語義相似度的句向量。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    、分離圖像的風格和內容、無監督聚類、降維、數據可視化等方面。在論文中,研究人員給出了用MNIST和多倫多人臉數據集 (TFD)訓練的模型所生成的樣本。//arxiv.org/abs/1703.10593>論文原作者開源了Torch和PyTorch的實現代碼,詳情見項目主頁:https://junyanz.github.io/CycleGAN/DCGAN深度卷積生成對抗網絡模型是作為無監督學習的一種方法而提出的
  • 李航《統計學習方法》第二版上線,6 年耕耘增加無監督學習
    李航博士告訴機器之心,《統計學習方法》第二版新加了無監督學習方面的內容,並對第一版的監督學習方法做了一些修改。總體而言,第二版可以分為監督學習和無監督學習兩篇。從這兩大塊出發,基本上傳統機器學習的主要概念就能一步步掌握了。
  • 百度NLP主任架構師全面講解百度語義表示技術及最新進展
    相關技術包含語義表示、語義匹配、語義分析、多模態計算等。本文主要介紹百度在語義表示方向的技術發展和最新的研究成果艾尼(ERNIE),同時也會介紹工業應用價值很大、百度積累多年的語義匹配SimNet的相關內容,最後再談談未來的重點工作。