整體or 局部?阿里 CVPR 論文用全新幾何角度構建 GAN 模型

2021-01-10 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:本論文由阿里巴巴達摩院機器智能技術實驗室華先勝團隊與 UCF 齊國君教授領導的 UCF MAPLE 實驗室合作完成,被 CVPR 2018 收錄為 poster 論文。

從學術開發和企業活動上看,阿里巴巴達摩院機器智能技術實驗室在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有不錯的表現。實驗室分別在 SQuAD 和 KITTI 比賽中獲得第一名,近期在 AAAI 2018 上,達摩院機器智能技術實驗室共有 4 篇論文被錄用,在CVPR 2018上,也有多篇論文被錄用,成績斐然。

以下為論文介紹:

GAN 自誕生以來吸引了眾多相關的研究,並在理論、算法和應用方面取得了很多重大的突破。我們試圖從一個全新的幾何角度,用局部的觀點建立一種與之前經典 GAN 模型所採用的整體方法不同的理論和模型,並以此建立和半監督機器學習中 Laplace-Beltrami 算子的聯繫,使之不再局限於傳統的圖模型 (Graph) 方法,並在用少量標註樣本訓練深度學習模型上取得了優異的性能;同時,我們還展示了如果用 Localized GAN (LGAN) 對給定圖像在局部坐標系下進行編輯修改,從而獲得具有不同角度、姿態和風格的新圖像;我們還將進一步揭示如何從流型切向量獨立性的角度來解釋和解決 GAN 的 mode collapse 問題。

該工作由 UCF 齊國君教授領導的 UCF MAPLE 實驗室 (MAchine Perception and LEarning) 和阿里巴巴華先勝博士領導的城市大腦機器視覺研究組合作完成,並將發表在 CVPR 2018 上。

論文地址:https://arxiv.org/abs/1711.06020

GAN 和基於圖模型的半監督機器學習的關係

GAN 除了用來生成數據,我們認為一個非常重要的作用是:我們第一次有了一個比較理想的工具,可以用來表示和描述數據流型 (manifold)。之前,如果我們想表示流型,一般是藉助於一個圖模型(Graph)。在圖模型裡,我們用節點表示數據點,用邊表示數據直接的相似性。有了 Graph,我們可以定量計算數據點上函數的變化。比如,在分類問題中,我們感興趣的函數是分類函數,輸出的是數據點的標籤。有了基於 Graph 的流型,我們就可以建立一個分類模型:它輸出的分類標籤在相似樣本上具有最小的變化。這個就是一種平滑性的假設,是基於圖的半監督方法的核心假設。

上圖:基於圖的流型表示和半監督分類。

儘管這種基於圖的半監督方法取得了很大的成功,但是它的缺點也是很明顯的。當數據點數量非常巨大的時候,構建這樣一個 Graph 的代價會非常大。為了解決這個問題,Graph 為我們提供了一個很好的基礎。通過訓練得到的生成器 G(z),其實就是一個非常好的流型模型。這裡 z 就是流型上的參數坐標,通過不斷變化 z,我們就可以在高維空間中劃出一個流型結構。

有了這樣一個流型和它的描述 G,我們可以在數據流型上研究各種幾何結構。比如切向量空間、曲率,進而去定義在流型上,沿著各個切向量,函數會如何變化等等。好了,這裡 GAN 就和半監督學習聯繫起來了。以前我們是用 Graph 這種離散的結果去研究分類函數的變化,並通過最小化這種變化去得到平滑性假設。

現在,有了流型直接的參數化描述 G(z),我們就能直接去刻畫一個函數(比如分類問題中的分類器)在流型上的變化,進而去建立一個基於這種參數化流型的半監督分類理論,而非去藉助基於圖的流型模型。

具體來說,半監督圖流型中,我們常用到 Laplacian 矩陣來做訓練;現在,有了參數化的流型後,我們就可以直接定義 Laplace-Beltrami 算子,從而實現半監督的訓練。下面是基於這個方法在一些數據集上得到的結果。更多的結果可以參考我們的論文「Global versus Localized Generative Adversarial Networks「。

上表:在 SVHN, CIFAR-10 和 CIFAR-100 上的半監督學習效果。

用全局還是局部坐標來研究 GAN?

這裡,有個比較精細的問題。通常的 GAN 模型,得到的是一個全局的參數話模型:我們只有一個 z 變量去參數化整個流型。事實上,在數學上,這種整體的參數化王是不存在的,比如我們無法用一個參數坐標去覆蓋整個球面。這時我們往往要藉助於通過若干個局部的坐標系去覆蓋整個流型。

同時,使用局部坐標系的另一個更加實際的好處是,我們給定一個目標數據點 x 後,整體坐標系 G(z) 要求我們必須知道對應的一個參數坐標 z;而使用局部坐標系後,我們就直接可以在 x 附近去建立一個局部坐標系 G(x,z) 去研究流型周圍的幾何結構,而不用去解一個逆問題去去它對應的 z 了。這個極大地方便了我們處理流型上不同數據點。

上圖:流型的局部參數化表示。

沿著這個思路,我們可以利用參數化的局部坐標和它表示的流型來研究一系列問題。

1. 比較理論的研究可以專注於,有了這些局部參數表示,如何去定義出一整套黎曼流型的數學結構,比如局部的曲率,黎曼度量,和如果沿著流型去算測地線和兩個數據點之間的測地距離。

2. 從應用的角度,給定了一個圖像 x,用局部表示 G(x,z) 可以對這個 x 在它的局部領域中做各種編輯操作或者控制圖像的各種屬性,從而可以幫助我們生成想要的圖像;比如不同角度的人臉、人體姿態、物體,甚至不同風格、表現不同情感的圖像等等。這在安防、內容生成、虛擬實境等領域都會有廣泛的應用前景。

從幾何角度研究 Mode collapse 問題

當然,從幾何和流型參數化的角度還可以給出對 GAN 更深入的理解,比如對 mode collapse 問題。在 GAN 的相關研究中,mode collapse 是一個被廣泛關注的問題。有很多相關的論文在從不同角度來研究和解決這個問題。

而基於 Localized GAN 所揭示的幾何方法,我們可以從流型局部崩潰的角度來解釋和避免 GAN 的 mode collapse。具體來說,給定了一個 z,當 z 發生變化的時候,對應的 G(z) 沒有變化,那麼在這個局部,GAN 就發生了 mode collapse,也就是不能產生不斷連續變化的樣本。這個現象從幾何上來看,就是對應的流型在這個局部點處,沿著不同的切向量方向不再有變化。換言之,所有切向量不再彼此相互獨立--某些切向量要麼消失,要麼相互之間變得線性相關,從而導致流型的維度在局部出現缺陷(dimension deficient)。

為了解決這個問題,最直接的是我們可以給流型的切向量加上一個正交約束 (Orthonormal constraint),從而避免這種局部的維度缺陷。下圖是在 CelebA 數據集上得到的結果。可以看到,通過對不同的切向量加上正交化的約束,我們可以在不同參數方向上成功地得到不同的變化。

上圖:在給定輸入圖像的局部坐標系下對人臉的不同屬性進行編輯。

值得注意的是,儘管我們是從局部 GAN 的角度推導和實現了對切向量的正交化約束,這個思路和方法同樣適用於傳統的整體 GAN 模型。我們只需要在訓練整體 GAN 模型的同時,在每個訓練數據樣本或者一個 batch 的子集上也加上這個約束來求取相應的下降梯度就同樣可以訓練整體 GAN 模型;這個方向可以引申出未來的相關工作。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR 2018:阿里提出應用 LocalizedGAN 進行半監督訓練
    我們試圖從一個全新的幾何角度,用局部的觀點建立一種與之前經典GAN模型所採用的整體方法不同的理論和模型,並以此建立和半監督機器學習中Laplace-Beltrami算子的聯繫,使之不再局限於傳統的圖模型(Graph)方法,並在用少量標註樣本訓練深度學習模型上取得了優異的性能;同時我們還展示了如果用Localized GAN (LGAN)對給定圖像在局部坐標系下進行編輯修改,從而獲得具有不同角度、姿態和風格的新圖像
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    但是,由於生成的圖像和真實圖像的分布有所區別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。為了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標註的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標註信息。
  • 異父異母的三胞胎:CycleGAN, DiscoGAN, DualGAN
    居然竟是同一個模型。同一個世界同一個idea。當然啦,文章上還有一些不同,包括motivation,模型細節還有實驗上有些不同。任務這裡的任務是圖像到圖像的翻譯。如果大家看過去年一篇cvpr的論文,叫pix2pix的話,對這個任務就比較熟悉。就算你們不知道pix2pix,之前有一個很火的,可以把線條畫變成貓的網頁應用,就是用的pix2pix的算法。
  • 論文推薦唐新明:衛星雷射測高嚴密幾何模型構建及精度初步驗證
    衛星雷射測高嚴密幾何模型構建及精度初步驗證唐新明1,2, 李國元1,2
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    Wang, Russ Webb論文地址:https://arxiv.org/abs/1612.07828 論文簡介:隨著圖像領域的進步,用生成的圖像訓練機器學習模型的可行性越來越高,大有避免人工標註真實圖像的潛力。
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    在劉家瑛所分享的這篇文章中,其思路仍然延續去年文章的方法,即生成數據集,然後用生成的數據集來訓練模型。使用一個數學公式來表達帶有雨滴圖像的話,如圖中公式所示:2、模型框架在該論文中作者選擇使用 GAN 的方法,整個模型的框架如下圖所示:共包含三個部分,分別為:Generator(Attention-recurrent Network),Context Autoencoder 和 Dicriminator Network
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    它有效地利用了相關物體間的有用的上下文情境信息(contextual information),並且改進了目前最先進的主動定位模型(active localization models)論文:Neural Aggregation Network For Video Face Recognition簡介:傳統的深度學習方法在進行人臉識別時需要對每一幀都進行特徵提取,這樣的效率是很低的
  • CVPR2017精彩論文解讀:直接處理三維點雲的深度學習模型
    受採集設備以及坐標系影響,同一個物體使用不同的設備或者位置掃描,三維點的排列順序千差萬別,這樣的數據很難直接通過End2End的模型處理。2.點雲具有稀疏性。點雲的數據結構就是一些三維空間的點坐標構成的點集,本質是對三維世界幾何形狀的低解析度重採樣,因此只能提供片面的幾何信息。面對以上困難,來自史丹福大學的學者提出了PointNet,給出了自己的的解決方案。PointNet是第一種直接處理無序點雲數據的深度神經網絡。
  • 騰訊優圖CVPR中標論文:不靠硬體靠算法,暗光拍照也清晰
    他們提出基於深度學習優化光照的暗光下的圖像增強模型,用端到端網絡增強曝光不足的照片。而且不是像以前的工作那樣,直接學習圖像到圖像的映射,而是在新網絡中引入中間照明,將輸入與預期的增強結果相關聯,增強網絡從專家修飾的輸入/輸出圖像學習複雜的攝影調整的能力。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型 選自CVPR 2017 參與:Smith、路雪、蔣思源
  • 超全的GAN PyTorch+Keras實現集合
    它們都是按照原論文實現的,但模型架構並不一定完全和原論文相同,作者關注於實現這些論文最核心的思想,而並不確定所有層級的配置都和原論文完全一致。本文首先將介紹各種 GAN 的論文摘要,然後提供詳細論文和實現的地址。要使用 PyTorch 或 Keras 實現這些 GAN,我們首先需要下載兩個代碼倉庫,並安裝對應所需的依賴包。
  • GAN快速入門資料推薦:17種變體的Keras開原始碼,附相關論文
    通過自己動手、探索模型代碼來學習,當然是墜吼的~如果用簡單易上手的Keras框架,那就更贊了。一位GitHub群眾eriklindernoren就發布了17種GAN的Keras實現,得到Keras親爸爸Franois Chollet在Twitter上的熱情推薦。
  • GAN秒變肖像畫!清華劉永進提出APDrawingGAN,CVPR Oral(附微信小...
    在CVPR2019上,清華大學計算機系劉永進教授課題組提出了APDrawingGAN,為了更有效地學習不同面部區域的不同繪製風格,我們的GAN模型包括幾個專門針對不同面部特徵區域的局部網絡,和一個用於捕捉整體特徵的全局網絡。
  • Facebook 今年被 CVPR 收錄的論文都說了啥?
    本論文引入了 DeepSDF,即一個用於形狀類別表徵的學到的連續符號距離函數(SDF),它能夠基於局部和帶噪聲的 3D 輸入數據實現高質量形狀表徵、插值和補充。我們進行了一系列的消融實驗,這表明在防禦系統的魯棒性和精確性之間存在著權衡,大型圖像資料庫(包含數億圖像)對於獲得良好的性能至關重要,仔細構建圖像資料庫對於抵禦為規避防禦而定製的攻擊非常重要。
  • 輪廓檢測論文解讀 | Richer Convolutional Features| CVPR | 2017
    0 概述論文名稱:「Richer Convolutional Features for Edge Detection」論文連結:https://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_Richer_Convolutional_Features_CVPR_2017_paper.pdf
  • CVPR 2020 目標檢測論文精選
    Detection on Point Clouds這篇論文提出了一種基於圖卷積(gconv)的三維目標檢測層次圖網絡(hgnet)。這是通過建立模型的相對幾何位置來描述物體的形狀。SA-GConv 基於u型網絡捕捉多層次特徵。然後映射到相同的特徵空間的投票模塊並且用於生成建議。在下一步中,GConv基於建議推理模塊,利用方案來預測邊框。這裡是在sun rgb-d v1數據集上獲得的一些性能結果。
  • ECCV 2018 | 曠視科技提出GridFace:通過學習局部單應變換實現人臉...
    在這篇論文中,曠視科技提出的一種通過學習局部單應變換實現人臉校正的全新方法——GridFace。自然場景中,人臉識別面臨的現有挑戰之一是人臉幾何變形(facial geometric variations)。人臉在角度和對齊方面(由人臉檢測邊界框定位引入)的變形將從根本上影響人臉的表徵和識別的性能。
  • CVPR論文解讀:非常高效的物體檢測Mimic方法
    背景Mimic作為一種模型小型化的方法,Hinton在 Distilling the Knowledge in a Neural Network  一文中已經詳細定義並介紹過,但近些年來大部分有關於mimic的論文主要都是局限在較為簡單的classification 的任務中,而對於較為複雜一些的
  • 中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR...
    這種樣本不僅模擬了現實中的遮擋情況,而且對於模型來說是困難樣本,可以給模型的訓練提供動量,從而跳出局部極小點,減少模型的過擬合。實驗發現,原始的 ReID 模型識別訓練樣本時只關注一些局部的身體區域,加入新樣本訓練後的模型則可以同時關注到一些之前沒關注的身體區域,從而提高了模型在測試階段的魯棒性。
  • 華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構
    除此之外,研究人員還通過預測對稱概率圖來建模可能對稱的物體,與模型的其他組件進行端到端學習。實驗結果表明,這種方法可以非常準確地恢復人臉的3D形狀,單視場圖像中的貓臉和汽車,無需任何監督或事先的造型模型。在基準測試中,與另一種在2D圖像對應級別上使用監督的方法相比,我們證明了更高的準確性。