【2019年1月18-21日,丘成桐先生和老顧在哈佛大學數學科學與應用中心組織題為「人工智慧的幾何分析方法」的會議。會議對外免費開放,歡迎註冊參加。會議網址為:http://cmsa.fas.harvard.edu/geometric-analysis-ai/
會議邀請了許多AI領域的知名學者,例如
1. Tomaso Poggio: One of the pioneers in computational neural scence and neural computation. Many important work on the foundation of learning, vision and intelligence etc. Early work with Marr and Crick (who discovered double helix structure of DNA) lead to understanding of fly’s visual system.
2. Naftali Tishby: Information theorist, work mostly on machine learning theory. Proposed information bottleneck theory of deep learning.
3. Eric Xing: Research interested in probabilistic graphical model, Bayesian inference and deep learning. Started an important area of research in machine learning -- distance metric learning in his 2002 NIPS paper. Has PhD in Biology and CS (under Michael I Jordan and Richard Karp). Recently started a highly successful startup Pettum (a distributed machine learning platform attracting several series of investments with a total funds over $100M).
4. Yi Ma: Research interests in computer vision, object detection, and machine learning. His work on the mathematical theory of scene reconstruction from image sequences won the Marr prize (the highest prize in computer vision).
5. Alan Yuille: An important figure in the computational and statistical modeling of imaging. Work with Songchun Zhu on image parsing won the Marr prize.
6. Yingnian Wu: An important figure in the computational and statistical modeling of imaging. Won the Marr prize honorable metion twice: work with Songchun Zhu on texture modeling, and on deformable template.
7. Johannes Schmidt-hieber: Young statistician, but known for his deep statistical work on the inter-layer sparsity theory on the deep neural network. Frequent invited speaker to premier statistical conferences or workshops (I met him at the 2018 Columbia Statistics workshop).
等很多著名專家學者。歡迎註冊參加!
最近老顧收到很多讀者來信,絕大多數詢問對抗生成網絡的最優傳輸解釋,以及和蒙日-安培方程的關係。很多問題涉及到經典蒙日-安培方程理論,這裡我們從偏微分方程和幾何角度介紹一下蒙日-安培方程的理論,主要是解的存在性,唯一性。我們儘量用較為初等的方式來解釋。
深度學習的巨大成功可以歸結為自然數據所滿足如下兩個定則:1)流形分布律:同類自然數據滿足特定的概率分布,可以用概率分布來刻畫,其支集是高維數據背景空間中的低維流形;2)聚類分布律:同一數據中的不同子類表示成不同的概率分布;並且這些概率分布之間的距離足夠遠,使得這些子類可以被區分。因此,深度學習的核心任務包括:1)學習流形結構:即計算從流形到參數域的參數化映射(編碼、解碼映射);也計算流形之間的映射;2)概率分布變換:在特徵空間或者圖像空間中,計算兩種概率分布之間的距離,和兩種概率分布之間的變換。
概率分布之間的距離和變換可以用最優傳輸理論來解釋並計算。最優傳輸理論的基本問題如下:假設是歐氏空間中的開集,給定兩個概率測度,滿足總測度相等,絕對連續。我們說一個映射是保測度的,如果對於一切波萊爾集合,都有
,
記為。給定傳輸代價函數,映射的傳輸代價等於
。
最優傳輸問題就是求所有保測度的映射中,使得傳輸代價最小者:
就是最優傳輸映射,對應的傳輸代價被稱為是和的Wasserstein距離,展開來看:
.
從最優傳輸理論的觀點來看,1)對抗生成網絡中的生成器本質上是在計算最優傳輸映射;判別器本質上是在計算Wasserstein距離;2)Brenier理論揭示了在距離下,這兩個計算任務之間的等價性,從生成器的解可以解析地寫出判別器的解;3)最優傳輸映射有可能非連續,因此實踐中會出現模式坍塌(Mode Collapse)問題。
基於最優傳輸觀點,特別是幾何上的Alexandrov途徑,我們設計了新穎的生成模型,進行了初步試驗。這裡的幾何算法可以用硬體加速。詳細的討論請見深度學習和幾何(演講提要)。下面,我們用儘量初等的方法來介紹蒙日-安培方程弱解的存在性和唯一性。
圖1. 左幀非凸集,右幀凸集。
定義0(凸集)歐氏空間中的集合被稱為是凸集,如果對於一切,那麼聯結的直線段包含在中,
.
如圖1所示,左幀是非凸集,右幀是凸集。
圖2. 凸函數。
定義 1(凸函數)一個連續函數為嚴格凸函數,如果滿足不等式
或者等價的,
.
定義2(凸函數)一個函數是二階光滑函數,為嚴格凸函數,如果的海森矩陣正定(Hessian matrix)
引理 1:假設是凸函數,是一個正實數,那麼是凸函數,也是凸函數。
證明基於下面事實:正定矩陣之和、正定矩陣和正常數的數乘還是正定矩陣;或者用第一個定義。
圖3. 凸函數的次微分。
定義3(梯度映射)給定歐氏空間中的凸開集,是二階光滑函數,那麼映射 被稱為是梯度映射。
引理 2:給定歐氏空間中的凸開集,是二階光滑函數,,那麼梯度映射是微分同胚。
因為梯度映射的雅可比矩陣為函數的海森矩陣,海森陣正定,由隱函數定理,梯度映射局部是微分同胚;再由定義域的凸性和函數的正定性,我們可以導出全局同胚。
我們以二維為例,,是二階光滑函數,,那麼其梯度映射為
.
例如,梯度映射為恆同自映射。
我們將光滑函數的梯度推廣到連續非光滑情形。
定義4(次微分)一個凸函數在點的次微分(subdifferential)定義為集合
.
等價地,如果,那麼超平面
是函數的支撐平面(supporting plane),即在上,並且在點。
圖4. 勒讓德變換。
定義5(勒讓德變換)令是有界開凸集,是凸函數,其勒讓德(Legendre transform)變換定義為
圖4顯示了凸函數的勒讓德變換,其直觀思想如下:每一個支撐平面將空間分成上半空間和下半空間,所有的上半空間的交集,被稱為是所有支撐平面的上包絡,上包絡的邊界就是凸函數的圖(Graph),凸函數可以表示成所有支撐平面函數求上界:
,
由此,如果我們知道所有的支撐平面,我們可以重構原來的凸函數,如圖5所示。我們可以用勒讓德變換來表達所有的支撐平面,
。
圖5. 由支撐平面重構凸函數。
凸函數和其勒讓德變換彼此對稱,即勒讓德變換的勒讓德變換等於原來的凸函數,。因此圖4的兩個凸函數彼此對稱。圖4左側是一族支撐平面的上包絡構成的凸函數,支撐平面族為
其勒讓德變換是對偶點的凸包,對偶點族為
這裡,上包絡(upper envelope)和凸包(convex hull)操作都有成熟的計算幾何算法。
給定光滑凸函數,其梯度為,梯度映射 ;其勒讓德變換滿足,梯度映射,
。
定義 6. (蒙日-安培測度)給定開集,和凸函數,函數決定的蒙日安培測度定義為:
這裡是波萊爾集合,歐氏空間的勒貝格測度為
。
蒙日-安培測度也可以理解為梯度映射誘導的拉回測度。考察平面上的可微映射,映射將面元映到,
,
進一步
即拉回測度的密度函數等於映射的雅可比矩陣的行列式。那麼凸函數梯度映射的雅可比矩陣是函數的海森矩陣,記為。由此,蒙日-安培測度的公式為
蒙日-安培測度具有非常直觀而且重要的特性。
引理 3:給定凸函數 ,我們有
首先,我們考慮光滑情形:,由正定矩陣性質
我們得到引理(3)成立。一般情形,我們用磨光算子,,這裡是一系列光滑卷積核,那麼 ,這裡測度弱收斂
不等式成立。
圖6. 次微分的單調性。
引理 4:(次微分的單調性)令為開集,為有界開集,是凸函數,滿足條件
那麼 ,即 。
證明比較直觀,任何的支撐平面向下平移,成為的支撐平面。這一性質具有鮮明的幾何意義,如圖6所示,如果圖像的凸包包含圖像的凸包,則誘導的蒙日-安培測度大於誘導的蒙日-安培測度。
反之,如果誘導的蒙日-安培測度大於誘導的蒙日-安培測度,那麼我們也可以推出圖像的凸包包含圖像的凸包。
定理1(比較準則)令為開集,為有界開集,是凸函數,滿足條件
那麼在上,我們有。
證明如下,首先我們定義凸函數
這裡我們選取,使得。定義,那麼在邊緣上有,
用反證法,開集非空,於是對於,集合非空,因此
,
另一方面
所以有 ,矛盾。因此,假設錯誤,命題成立。
定義 7 (Alexandrov 解)令是定義在中的一個波萊爾測度,凸函數被稱為是蒙日-安培方程
的Alexandrov解,如果 。
定義 8 (測度弱收斂)我們說定義在上的測度序列弱收斂到,如果對一切具有緊支集的連續函數,我們都有
.
記成 。
定理2 (解的唯一性)令是有界開集,是連續函數,是定義在中的一個波萊爾測度,那麼迪利克雷(Dirichlet)問題
的解如果存在,則唯一。
用反證法,假設存在兩個解 ,則,並且 ,由比較原則,。對稱的,。因此,。
我們可以得到迪利克雷問題弱解的穩定性如下:
定理3 (弱解的穩定性)令是一系列有界開集,是定義在上的波萊爾測度,是迪利克雷問題的解
假設 ,並且當時,,,那麼在內局部一致收斂到下面迪利克雷問題的唯一解
我們下面考察弱解的存在性。
定理4(弱解的存在性)令是有界開集,是定義在中的一個波萊爾測度,,那麼存在唯一的凸函數是迪利克雷(Dirichlet)問題的解
證明:我們用經典的Perron方法。
給定任意有限測度,都存在一系列狄拉克測度
弱收斂到,。由弱解的穩定性,我們不妨設本身就是狄拉克測度,,這裡,並且。
圖7. 錐函數。
如圖7,我們構造錐面函數 ,頂點在-1平面上,坐標為;底邊在0-平面上,曲線為。顯然,凸函數的蒙日-安培測度為狄拉克測度, 。進一步,我們選擇常數使得
.
那麼,
.
其蒙日-安培測度滿足
我們定義函數集合 ,如上面構造,是非空集合。並且如果,則。考察中所有函數最大者,即蒙日-安培測度最小者,我們有:, 容易看出就是所求的弱解。
具有傳輸代價的最優傳輸問題等價於蒙日-安培方程。
定理5.(Brenier)給定上的概率測度,,滿足
那麼存在(依測度幾乎處處)唯一的最優傳輸映射,和下半連續的凸函數(Brenier勢能函數),Brenier勢能函數依測度幾乎處處可微,並且依測度幾乎處處 .
如果Brenier勢能函數光滑,我們得到,由此得到蒙日-安培方程:
,
在實際計算中,我們其實是在求Alexandrov解,即對一切波萊爾集合,都有
,
因為Brenier勢能函數幾乎處處可導,因此右端有意義。如果我們考慮的勒讓德對偶,則滿足
.
我們可以用變分法來求解這種蒙日-安培方程,具體方法請見以前的介紹(二)最優傳輸理論。
對抗生成模型(GAN model)可以用最優傳輸理論來解釋和計算,生成器等價於求解最優傳輸映射,判別器等價於計算Wasserstein距離,即最優傳輸映射的傳輸總代價。傳輸代價的Brenier理論將最優傳輸映射求解歸結為蒙日-安培方程的弱解。這裡我們用儘量初等的方法介紹了蒙日-安培方程弱解(Alexandrov 解)的存在性和唯一性,由此幫助大家奠定學習GAN模型的理論基礎。
除了理論嚴密清晰,白箱替代黑箱,從深度學習的實戰角度而言,用蒙日-安培方程的幾何解法計算最優傳輸映射來部分替代目前深度神經網絡生成模型方法,具有很多優點:
蒙日-安培方程的幾何解法歸結為凸優化問題,保證最優解的存在性和唯一性,不會停留在局部最優上面;
蒙日-安培方程的幾何解法具有明確的海森矩陣,可以用牛頓法進行優化,二階收斂。或者用超線性的擬牛頓法,效率遠高於線性的梯度下降法。
蒙日-安培方程幾何解法的誤差可以精確控制,採樣密度和逼近Brenier勢能函數的誤差模有確定關係,可以自適應條件採樣密度,以提高逼近精度。
算法設計具有層級(hirearchical)和自適應(self adaptive)特性,進一步提高效率。
蒙日-安培方程的幾何解法硬體友好,可以用目前的GPU並行實現。
實驗結果驗證了我們的看法,用這種方法從效率和生成質量而言,優於傳統方法。
蒙日-安培方程的正則性理論更加複雜,但是對於模式塌縮的理解非常關鍵。我們會在未來加以詳盡討論。
請長按下方二維碼,選擇 「識別圖中二維碼」,即可關注。
【老顧談幾何】邀請國內國際著名純粹數學家,應用數學家,理論物理學家和計算機科學家,講授現代拓撲和幾何的理論,算法和應用。