雷鋒網(公眾號:雷鋒網) AI 科技評論按:本論文由阿里巴巴達摩院機器智能技術實驗室華先勝團隊與 UCF 齊國君教授領導的 UCF MAPLE 實驗室合作完成,被 CVPR 2018 收錄為 poster 論文。
從學術開發和企業活動上看,阿里巴巴達摩院機器智能技術實驗室在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有不錯的表現。實驗室分別在 SQuAD 和 KITTI 比賽中獲得第一名,近期在 AAAI 2018 上,達摩院機器智能技術實驗室共有 4 篇論文被錄用,在CVPR 2018上,也有多篇論文被錄用,成績斐然。
以下為論文介紹:
GAN 自誕生以來吸引了眾多相關的研究,並在理論、算法和應用方面取得了很多重大的突破。我們試圖從一個全新的幾何角度,用局部的觀點建立一種與之前經典 GAN 模型所採用的整體方法不同的理論和模型,並以此建立和半監督機器學習中 Laplace-Beltrami 算子的聯繫,使之不再局限於傳統的圖模型 (Graph) 方法,並在用少量標註樣本訓練深度學習模型上取得了優異的性能;同時,我們還展示了如果用 Localized GAN (LGAN) 對給定圖像在局部坐標系下進行編輯修改,從而獲得具有不同角度、姿態和風格的新圖像;我們還將進一步揭示如何從流型切向量獨立性的角度來解釋和解決 GAN 的 mode collapse 問題。
該工作由 UCF 齊國君教授領導的 UCF MAPLE 實驗室 (MAchine Perception and LEarning) 和阿里巴巴華先勝博士領導的城市大腦機器視覺研究組合作完成,並將發表在 CVPR 2018 上。
論文地址:https://arxiv.org/abs/1711.06020
GAN 和基於圖模型的半監督機器學習的關係GAN 除了用來生成數據,我們認為一個非常重要的作用是:我們第一次有了一個比較理想的工具,可以用來表示和描述數據流型 (manifold)。之前,如果我們想表示流型,一般是藉助於一個圖模型(Graph)。在圖模型裡,我們用節點表示數據點,用邊表示數據直接的相似性。有了 Graph,我們可以定量計算數據點上函數的變化。比如,在分類問題中,我們感興趣的函數是分類函數,輸出的是數據點的標籤。有了基於 Graph 的流型,我們就可以建立一個分類模型:它輸出的分類標籤在相似樣本上具有最小的變化。這個就是一種平滑性的假設,是基於圖的半監督方法的核心假設。
上圖:基於圖的流型表示和半監督分類。
儘管這種基於圖的半監督方法取得了很大的成功,但是它的缺點也是很明顯的。當數據點數量非常巨大的時候,構建這樣一個 Graph 的代價會非常大。為了解決這個問題,Graph 為我們提供了一個很好的基礎。通過訓練得到的生成器 G(z),其實就是一個非常好的流型模型。這裡 z 就是流型上的參數坐標,通過不斷變化 z,我們就可以在高維空間中劃出一個流型結構。
有了這樣一個流型和它的描述 G,我們可以在數據流型上研究各種幾何結構。比如切向量空間、曲率,進而去定義在流型上,沿著各個切向量,函數會如何變化等等。好了,這裡 GAN 就和半監督學習聯繫起來了。以前我們是用 Graph 這種離散的結果去研究分類函數的變化,並通過最小化這種變化去得到平滑性假設。
現在,有了流型直接的參數化描述 G(z),我們就能直接去刻畫一個函數(比如分類問題中的分類器)在流型上的變化,進而去建立一個基於這種參數化流型的半監督分類理論,而非去藉助基於圖的流型模型。
具體來說,半監督圖流型中,我們常用到 Laplacian 矩陣來做訓練;現在,有了參數化的流型後,我們就可以直接定義 Laplace-Beltrami 算子,從而實現半監督的訓練。下面是基於這個方法在一些數據集上得到的結果。更多的結果可以參考我們的論文「Global versus Localized Generative Adversarial Networks「。
上表:在 SVHN, CIFAR-10 和 CIFAR-100 上的半監督學習效果。
用全局還是局部坐標來研究 GAN?這裡,有個比較精細的問題。通常的 GAN 模型,得到的是一個全局的參數話模型:我們只有一個 z 變量去參數化整個流型。事實上,在數學上,這種整體的參數化王是不存在的,比如我們無法用一個參數坐標去覆蓋整個球面。這時我們往往要藉助於通過若干個局部的坐標系去覆蓋整個流型。
同時,使用局部坐標系的另一個更加實際的好處是,我們給定一個目標數據點 x 後,整體坐標系 G(z) 要求我們必須知道對應的一個參數坐標 z;而使用局部坐標系後,我們就直接可以在 x 附近去建立一個局部坐標系 G(x,z) 去研究流型周圍的幾何結構,而不用去解一個逆問題去去它對應的 z 了。這個極大地方便了我們處理流型上不同數據點。
上圖:流型的局部參數化表示。
沿著這個思路,我們可以利用參數化的局部坐標和它表示的流型來研究一系列問題。
1. 比較理論的研究可以專注於,有了這些局部參數表示,如何去定義出一整套黎曼流型的數學結構,比如局部的曲率,黎曼度量,和如果沿著流型去算測地線和兩個數據點之間的測地距離。
2. 從應用的角度,給定了一個圖像 x,用局部表示 G(x,z) 可以對這個 x 在它的局部領域中做各種編輯操作或者控制圖像的各種屬性,從而可以幫助我們生成想要的圖像;比如不同角度的人臉、人體姿態、物體,甚至不同風格、表現不同情感的圖像等等。這在安防、內容生成、虛擬實境等領域都會有廣泛的應用前景。
從幾何角度研究 Mode collapse 問題當然,從幾何和流型參數化的角度還可以給出對 GAN 更深入的理解,比如對 mode collapse 問題。在 GAN 的相關研究中,mode collapse 是一個被廣泛關注的問題。有很多相關的論文在從不同角度來研究和解決這個問題。
而基於 Localized GAN 所揭示的幾何方法,我們可以從流型局部崩潰的角度來解釋和避免 GAN 的 mode collapse。具體來說,給定了一個 z,當 z 發生變化的時候,對應的 G(z) 沒有變化,那麼在這個局部,GAN 就發生了 mode collapse,也就是不能產生不斷連續變化的樣本。這個現象從幾何上來看,就是對應的流型在這個局部點處,沿著不同的切向量方向不再有變化。換言之,所有切向量不再彼此相互獨立--某些切向量要麼消失,要麼相互之間變得線性相關,從而導致流型的維度在局部出現缺陷(dimension deficient)。
為了解決這個問題,最直接的是我們可以給流型的切向量加上一個正交約束 (Orthonormal constraint),從而避免這種局部的維度缺陷。下圖是在 CelebA 數據集上得到的結果。可以看到,通過對不同的切向量加上正交化的約束,我們可以在不同參數方向上成功地得到不同的變化。
上圖:在給定輸入圖像的局部坐標系下對人臉的不同屬性進行編輯。
值得注意的是,儘管我們是從局部 GAN 的角度推導和實現了對切向量的正交化約束,這個思路和方法同樣適用於傳統的整體 GAN 模型。我們只需要在訓練整體 GAN 模型的同時,在每個訓練數據樣本或者一個 batch 的子集上也加上這個約束來求取相應的下降梯度就同樣可以訓練整體 GAN 模型;這個方向可以引申出未來的相關工作。
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。