GAN和蒙日-安培方程理論

2021-02-18 老顧談幾何

【2019年1月18-21日,丘成桐先生和老顧在哈佛大學數學科學與應用中心組織題為「人工智慧的幾何分析方法」的會議。會議對外免費開放,歡迎註冊參加。會議網址為:http://cmsa.fas.harvard.edu/geometric-analysis-ai/

會議邀請了許多AI領域的知名學者,例如

1. Tomaso Poggio: One of the pioneers in computational neural scence and neural computation. Many important work on the foundation of learning, vision and intelligence etc. Early work with Marr and Crick (who discovered double helix structure of DNA) lead to understanding of fly’s visual system.

2. Naftali Tishby: Information theorist, work mostly on machine learning theory. Proposed information bottleneck theory of deep learning.

3. Eric Xing: Research interested in probabilistic graphical model, Bayesian inference and deep learning. Started an important area of research in machine learning -- distance metric learning in his 2002 NIPS paper. Has PhD in Biology and CS (under Michael I Jordan and Richard Karp). Recently started a highly successful startup Pettum (a distributed machine learning platform attracting several series of investments with a total funds over $100M).

4. Yi Ma: Research interests in computer vision, object detection, and machine learning. His work on the mathematical theory of scene reconstruction from image sequences won the Marr prize (the highest prize in computer vision).

5. Alan Yuille: An important figure in the computational and statistical modeling of imaging. Work with Songchun Zhu on image parsing won the Marr prize.

6. Yingnian Wu: An important figure in the computational and statistical modeling of imaging. Won the Marr prize honorable metion twice: work with Songchun Zhu on texture modeling, and on deformable template.

7. Johannes Schmidt-hieber: Young statistician, but known for his deep statistical work on the inter-layer sparsity theory on the deep neural network. Frequent invited speaker to premier statistical conferences or workshops (I met him at the 2018 Columbia Statistics workshop).

等很多著名專家學者。歡迎註冊參加!

最近老顧收到很多讀者來信,絕大多數詢問對抗生成網絡的最優傳輸解釋,以及和蒙日-安培方程的關係。很多問題涉及到經典蒙日-安培方程理論,這裡我們從偏微分方程和幾何角度介紹一下蒙日-安培方程的理論,主要是解的存在性,唯一性。我們儘量用較為初等的方式來解釋。

深度學習的巨大成功可以歸結為自然數據所滿足如下兩個定則:1)流形分布律:同類自然數據滿足特定的概率分布,可以用概率分布來刻畫,其支集是高維數據背景空間中的低維流形;2)聚類分布律:同一數據中的不同子類表示成不同的概率分布;並且這些概率分布之間的距離足夠遠,使得這些子類可以被區分。因此,深度學習的核心任務包括:1)學習流形結構:即計算從流形到參數域的參數化映射(編碼、解碼映射);也計算流形之間的映射;2)概率分布變換:在特徵空間或者圖像空間中,計算兩種概率分布之間的距離,和兩種概率分布之間的變換。

概率分布之間的距離和變換可以用最優傳輸理論來解釋並計算。最優傳輸理論的基本問題如下:假設是歐氏空間中的開集,給定兩個概率測度,滿足總測度相等絕對連續。我們說一個映射是保測度的,如果對於一切波萊爾集合,都有

,

記為。給定傳輸代價函數,映射的傳輸代價等於

最優傳輸問題就是求所有保測度的映射中,使得傳輸代價最小者:

就是最優傳輸映射,對應的傳輸代價被稱為是的Wasserstein距離,展開來看:

.

從最優傳輸理論的觀點來看,1)對抗生成網絡中的生成器本質上是在計算最優傳輸映射;判別器本質上是在計算Wasserstein距離;2)Brenier理論揭示了在距離下,這兩個計算任務之間的等價性,從生成器的解可以解析地寫出判別器的解;3)最優傳輸映射有可能非連續,因此實踐中會出現模式坍塌(Mode Collapse)問題。

基於最優傳輸觀點,特別是幾何上的Alexandrov途徑,我們設計了新穎的生成模型,進行了初步試驗。這裡的幾何算法可以用硬體加速。詳細的討論請見深度學習和幾何(演講提要)。下面,我們用儘量初等的方法來介紹蒙日-安培方程弱解的存在性和唯一性。

        

圖1. 左幀非凸集,右幀凸集。

定義0(凸集)歐氏空間中的集合被稱為是凸集,如果對於一切,那麼聯結的直線段包含在中,

.

如圖1所示,左幀是非凸集,右幀是凸集。

圖2. 凸函數。

定義 1(凸函數)一個連續函數為嚴格凸函數,如果滿足不等式

   

或者等價的,

.

定義2(凸函數)一個函數是二階光滑函數,為嚴格凸函數,如果的海森矩陣正定(Hessian matrix)

引理 1:假設是凸函數,是一個正實數,那麼是凸函數,也是凸函數。

證明基於下面事實:正定矩陣之和、正定矩陣和正常數的數乘還是正定矩陣;或者用第一個定義。

圖3. 凸函數的次微分。

定義3(梯度映射)給定歐氏空間中的凸開集,是二階光滑函數,那麼映射 被稱為是梯度映射。

引理 2:給定歐氏空間中的凸開集,是二階光滑函數,,那麼梯度映射是微分同胚。

因為梯度映射的雅可比矩陣為函數的海森矩陣,海森陣正定,由隱函數定理,梯度映射局部是微分同胚;再由定義域的凸性和函數的正定性,我們可以導出全局同胚。

我們以二維為例,是二階光滑函數,,那麼其梯度映射為

.

例如,梯度映射為恆同自映射。

我們將光滑函數的梯度推廣到連續非光滑情形。

定義4(次微分)一個凸函數點的次微分(subdifferential)定義為集合

.

等價地,如果,那麼超平面

是函數的支撐平面(supporting  plane),即在,並且在

圖4. 勒讓德變換。

定義5(勒讓德變換)令是有界開凸集,是凸函數,其勒讓德(Legendre transform)變換定義為

圖4顯示了凸函數的勒讓德變換,其直觀思想如下:每一個支撐平面將空間分成上半空間和下半空間,所有的上半空間的交集,被稱為是所有支撐平面的上包絡,上包絡的邊界就是凸函數的圖(Graph),凸函數可以表示成所有支撐平面函數求上界:

,

由此,如果我們知道所有的支撐平面,我們可以重構原來的凸函數,如圖5所示。我們可以用勒讓德變換來表達所有的支撐平面,

圖5. 由支撐平面重構凸函數。

凸函數和其勒讓德變換彼此對稱,即勒讓德變換的勒讓德變換等於原來的凸函數,。因此圖4的兩個凸函數彼此對稱。圖4左側是一族支撐平面的上包絡構成的凸函數,支撐平面族為

其勒讓德變換是對偶點的凸包,對偶點族為

這裡,上包絡(upper envelope)和凸包(convex hull)操作都有成熟的計算幾何算法。

給定光滑凸函數,其梯度為,梯度映射 ;其勒讓德變換滿足,梯度映射

定義 6. (蒙日-安培測度)給定開集,和凸函數,函數決定的蒙日安培測度定義為:

這裡是波萊爾集合,歐氏空間的勒貝格測度為

蒙日-安培測度也可以理解為梯度映射誘導的拉回測度。考察平面上的可微映射,映射將面元映到

,

進一步

即拉回測度的密度函數等於映射的雅可比矩陣的行列式。那麼凸函數梯度映射的雅可比矩陣是函數的海森矩陣,記為。由此,蒙日-安培測度的公式為

蒙日-安培測度具有非常直觀而且重要的特性。

引理 3:給定凸函數 ,我們有

首先,我們考慮光滑情形:,由正定矩陣性質

我們得到引理(3)成立。一般情形,我們用磨光算子,,這裡是一系列光滑卷積核,那麼 ,這裡測度弱收斂

不等式成立。

圖6. 次微分的單調性。

引理 4:(次微分的單調性)令為開集,為有界開集,是凸函數,滿足條件

那麼 ,即

證明比較直觀,任何的支撐平面向下平移,成為的支撐平面。這一性質具有鮮明的幾何意義,如圖6所示,如果圖像的凸包包含圖像的凸包,則誘導的蒙日-安培測度大於誘導的蒙日-安培測度。

反之,如果誘導的蒙日-安培測度大於誘導的蒙日-安培測度,那麼我們也可以推出圖像的凸包包含圖像的凸包。

定理1(比較準則)令為開集,為有界開集,是凸函數,滿足條件

那麼在上,我們有

證明如下,首先我們定義凸函數

這裡我們選取,使得。定義,那麼在邊緣上有


用反證法,開集非空,於是對於,集合非空,因此

,

另一方面

所以有 ,矛盾。因此,假設錯誤,命題成立。

定義 7 (Alexandrov 解)令是定義在中的一個波萊爾測度,凸函數被稱為是蒙日-安培方程

的Alexandrov解,如果 

定義 8 (測度弱收斂)我們說定義在上的測度序列弱收斂到,如果對一切具有緊支集的連續函數,我們都有

.

記成 

定理2 (解的唯一性)令是有界開集,是連續函數,是定義在中的一個波萊爾測度,那麼迪利克雷(Dirichlet)問題

的解如果存在,則唯一。

用反證法,假設存在兩個解 ,則,並且 ,由比較原則,。對稱的,。因此,

我們可以得到迪利克雷問題弱解的穩定性如下:

定理3 (弱解的穩定性)令是一系列有界開集,是定義在上的波萊爾測度,是迪利克雷問題的解

假設 ,並且當時,,那麼在局部一致收斂到下面迪利克雷問題的唯一解

我們下面考察弱解的存在性。

定理4(弱解的存在性)令是有界開集,是定義在中的一個波萊爾測度,,那麼存在唯一的凸函數是迪利克雷(Dirichlet)問題的解

證明:我們用經典的Perron方法。

給定任意有限測度,都存在一系列狄拉克測度

弱收斂到。由弱解的穩定性,我們不妨設本身就是狄拉克測度,,這裡,並且

圖7. 錐函數。

如圖7,我們構造錐面函數 ,頂點在-1平面上,坐標為;底邊在0-平面上,曲線為。顯然,凸函數的蒙日-安培測度為狄拉克測度, 。進一步,我們選擇常數使得

.

那麼,

.

其蒙日-安培測度滿足


我們定義函數集合 ,如上面構造,是非空集合。並且如果,則。考察中所有函數最大者,即蒙日-安培測度最小者,我們有:, 容易看出就是所求的弱解。

具有傳輸代價的最優傳輸問題等價於蒙日-安培方程。

定理5.(Brenier)給定上的概率測度,滿足

那麼存在(依測度幾乎處處)唯一的最優傳輸映射,和下半連續的凸函數(Brenier勢能函數),Brenier勢能函數依測度幾乎處處可微,並且依測度幾乎處處 .

如果Brenier勢能函數光滑,我們得到,由此得到蒙日-安培方程:

,

在實際計算中,我們其實是在求Alexandrov解,即對一切波萊爾集合,都有

,

因為Brenier勢能函數幾乎處處可導,因此右端有意義。如果我們考慮的勒讓德對偶,則滿足

.

我們可以用變分法來求解這種蒙日-安培方程,具體方法請見以前的介紹(二)最優傳輸理論。

對抗生成模型(GAN model)可以用最優傳輸理論來解釋和計算,生成器等價於求解最優傳輸映射,判別器等價於計算Wasserstein距離,即最優傳輸映射的傳輸總代價。傳輸代價的Brenier理論將最優傳輸映射求解歸結為蒙日-安培方程的弱解。這裡我們用儘量初等的方法介紹了蒙日-安培方程弱解(Alexandrov 解)的存在性和唯一性,由此幫助大家奠定學習GAN模型的理論基礎。

除了理論嚴密清晰,白箱替代黑箱,從深度學習的實戰角度而言,用蒙日-安培方程的幾何解法計算最優傳輸映射來部分替代目前深度神經網絡生成模型方法,具有很多優點:

蒙日-安培方程的幾何解法歸結為凸優化問題,保證最優解的存在性和唯一性,不會停留在局部最優上面;

蒙日-安培方程的幾何解法具有明確的海森矩陣,可以用牛頓法進行優化,二階收斂。或者用超線性的擬牛頓法,效率遠高於線性的梯度下降法。

蒙日-安培方程幾何解法的誤差可以精確控制,採樣密度和逼近Brenier勢能函數的誤差模有確定關係,可以自適應條件採樣密度,以提高逼近精度。

算法設計具有層級(hirearchical)和自適應(self adaptive)特性,進一步提高效率。

蒙日-安培方程的幾何解法硬體友好,可以用目前的GPU並行實現。

實驗結果驗證了我們的看法,用這種方法從效率和生成質量而言,優於傳統方法。

蒙日-安培方程的正則性理論更加複雜,但是對於模式塌縮的理解非常關鍵。我們會在未來加以詳盡討論。

請長按下方二維碼,選擇 「識別圖中二維碼」即可關注。


【老顧談幾何】邀請國內國際著名純粹數學家,應用數學家,理論物理學家和計算機科學家,講授現代拓撲和幾何的理論,算法和應用。

相關焦點

  • 技術爆炸中的蒙日-安培方程
    在幾何光學中,蒙日-安培方程同時也是解決反射曲面、折射透鏡的設計問題的關鍵。在經濟理論和概率統計中,最優傳輸(Optimal Mass Transportation)理論的基礎也是蒙日-安培方程。近幾年來,依隨深度學習技術爆炸式發展,最優傳輸理論成為計算機科學領域的熱門,蒙日-安培方程理論開始實質性地滲入計算機科學的中心腹地。
  • GAN模式崩潰的理論解釋
    老顧和哈佛大學統計系的劉軍教授交流,劉教授告訴老顧最近有麻省理工的學者來哈佛尋求教職,求職學術演講的主題就是最優傳輸理論在深度學習中的應用。由此可以,深度學習的最優傳輸理論解釋逐漸被廣泛接受。在哈佛大學的數學科學與應用中心(Harvard CMSA),丘先生和老顧進一步探討深度學習中對抗生成網絡和蒙日-安培方程理論的關係。
  • ...但理論基礎仍非常薄弱,人工智慧需要一個可被證明的理論作為...
    我們還研究了圖上的薛丁格方程,定義了圖上的量子隧道概念。這些概念都是從物理上來的,被借用到圖上。假如我們在考慮有向圖,就是每個點、每個邊,給它一個方向,我們就可以將拓撲學整個引用到圖上去,定義了圖上的同調群。同調群可以用來研究圖上密切的關係和它的內容。現在我們來講講我們做的關於博弈理論的一個事情。進化圖論為表達種群結構提供了數學工具:頂點代表個體,邊代表個體的交互作用。
  • 丘成桐演講全文:工程上取得很大發展,但理論基礎仍非常薄弱,人工...
    5、數字幾何處理-幾何壓縮:蒙日-安培理論,幾何逼近理論下面我們來看計算機的幾何壓縮中的蒙日-安培理論以及幾何逼近理論。如何壓縮複雜幾何數據,同時保證幾誤差最小,保證黎曼度量、曲率測度、微分算子的收斂性,這些都是很重要的問題。
  • 蒙日圓與圓錐曲線結合的小科普
    後臺有人提到蒙日圓,今天做一個小科普,可以當成一個圓錐曲線小題中可以直接拿來用的二級結論,這些不屬於高中階段的數學定義定理有餘力能掌握當然最好,不知道也無關緊要,蒙日圓的結論和一些推論只能用在特定的小題中,大題中不能使用,所以出題人也不至於會編一道用高等數學結論就可以秒解的題目,這樣沒什麼意義
  • 麥克斯韋方程和規範理論的概念起源
    譯者按:著名物理學家楊振寧先生最近在《今日物理》(Physics Today)發表英文文章,以清晰的思維娓娓道來麥克斯韋的重要研究。楊振寧(諾貝爾物理學獎得主,清華大學高等研究院名譽院長)人們通常認為庫侖(Charles Augustin de Coulomb)、高斯(Carl Friedrich Gauss)、
  • 深度學習和幾何(演講提要)
    最優傳輸理論(Optimal Mass Transportation ),凸幾何(Convex Geometry),蒙日-安培方程(Monge-Ampere Equation)的交匯給出了生成模型的幾何觀點。
  • 楊振寧的理論是麥克斯韋方程的推廣,他是量子力學裡的麥克斯韋
    法國科學家安培認為,如果導線中的電流對羅盤指針施加了磁力,兩條這樣的導線也應該發生磁力相互作用,在一系列巧妙的實驗後,安培證明了以下定律:兩條長而直的平行電流之間的作用力和它們之間的距離成反比,與電流強度成正比。這是人類為了描述電磁現象在數學上跨出的第1步。
  • 純粹數學走出象牙塔:丘成桐和三維科技有何關係?
    Wasserstein距離的計算等價於解一個非常著名的非線性方程:實的蒙日-安培方程。大概在1997年春季,我曾到麻省理工學院人工智慧實驗室學習Horn教授的《機器視覺》課程。Horn教授是計算機視覺創始人David Marr的弟子,以「Shape from Shading」聞名於世。
  • 安培定律:奠定現代電磁學的理論基礎
    他進一步報告,可以通過彎曲的右手清晰表示出電流和電流激發磁場的磁感線方向間關係:(一)直線電流的安培定則用右手握住導線,讓伸直的大拇指所指的方向跟電流的方向一致,那麼彎曲的四指所指的方向就是磁感線的環繞方向。(二)環形電流的安培定則讓右手彎曲的四指和環形電流的方向一致,那麼伸直的大拇指所指的方向就是環形電流中心軸線上磁感線的方向。
  • 圓錐曲線的圓構型外準圓(蒙日圓)
    開號宗旨:為熱愛學習和研究的高中數學教師和教研員搭建學習交流平臺,提升教學能力,促進專業發展。本公眾號致力傳播數學文化,發表教研成果,交流教學經驗,探討數學問題,展示解題方法,分享教學資源,為服務高中教學作貢獻。
  • 專欄 看穿機器學習(W-GAN模型)的黑箱
    這學期,老顧在講授一門研究生水平的數字幾何課程,目前講到了2016年和丘成桐先生、羅鋒教授共同完成的一個幾何定理【3】,這個工作給出了經典亞歷山大定理(Alexandrov Theorem)的構造性證明,也給出了最優傳輸理論(Optimal Mass Transportation)的一個幾何解釋。
  • 1.20 安培!
    奧斯特1821年4月發現電流磁效應的實驗,令安培對於庫侖「電、磁沒有關係」的信條受到極大震動;精力集中研究兩周後就提出了磁針轉動方向和電流方向的關係及從右手定則的報告,這個定則被命名為安培定則;接著又提出了電流方向相同的兩條平行載流導線互相吸引,電流方向相反的兩條平行載流導線互相排斥,對兩個線圈之間的吸引和排斥也作了討論。
  • 創新人物|安培定律:奠定現代電磁學的理論基礎
    奧斯特發現的電流磁效應揭開了把電學和磁學聯繫起來的電磁學新篇章,奠定了近現代電磁學的實驗基礎。當年12月4日,安培在法國科學院的會議上報告了電流元相互作用的定律,即(一)兩個距離相近、強度相等、方向相反的電流對另一電流產生的作用力可以相互抵消;(二)在彎曲導線上的電流可被看成由許多小段的電流組成,它的作用就等於這些小段電流的矢量和;(三)當載流導線的長度和作用距離同時增加相同的倍數時,作用力將保持不變。
  • 三視圖的歷史不止有拿破崙好友——蒙日
    我國明代著名科學家宋應星所著的《天工開物》,是世界上第一部關於農業和手工業生產的綜合性著作,是中國古代一部綜合性的科學技術著作。亦或戰爭時期如何避免因破壞而導致的大量計算和複雜製圖? 都是大家需要面對的問題。面對這樣一個世紀難題,法國著名數學家,拿破崙的忘年之交蒙日迎難而上,在前人的基礎上發現了「畫法幾何」,為機械製造做出巨大貢獻。
  • 物理學家:安培
    物理學家:安培 12歲時就自學了微分運算和各種數學書籍,顯示出較高的數學天賦。為了能到裡昂圖書館去看接閱讀歐勒、伯努利等人的拉丁文原著,他還花了幾星期時間掌握了拉丁文。14歲時就鑽研了當時狄德羅和達蘭貝爾編的《百科全書》。沒有上過任何學校,依靠自學,他掌握了各方面的知識。1793年(18歲)因其父在法國大革命時期被殺,為了餬口他做了家庭教師。在讀了一本盧梭關於植物學的書以後,又重新燃起了他對科學的熱情。
  • 超能課堂(244):NVIDIA新架構名之源,電動力學的奠基者——安培
    ,讓他從小就在裡面博覽叢書,這些書籍激發起他對自然科學、數學和哲學的興趣,他對數學最著迷,安培從12歲開就開始學習高等數學,據他自己回憶說,他的所有數學知識在18歲的時候就已經基本完成了。1799年,24歲的他在裡昂擔任數學教師,並開始有系統地研究數學,1802年布爾格中央理工大學任命安培為物理和化學教授,期間發表了一篇論述賭博的數學理論,顯露出極好的數學根底,引起了社會上的注意。1804年他開始在新成立的巴黎綜合理工學院擔任教育工作,並在1807年成為那裡的數學教授。
  • 形象生動的電磁學中的重要定理:安培環路定理
    奧斯特剛剛發現了電和磁之間的關係,同時,有一位叫安培的法國人在擺弄著電線,他想深入的探究電流與其產生的磁場之間的關係。,排列方式如何,安培定理都適用,只要電流是恆定的,該定律就適用方程的左邊是迴路內的磁感應強度與夾角餘弦的積分,方程的右邊是一個常數與環路電流的乘積方程的含義是沿環路的總磁場與環路內的電流成正比,這個常數被稱為真空中的磁導率,你應該已經注意到方程的左邊是一個積分,你應該記得,只有對無限小求累和才會用到積分