如何在黎曼流形上避開鞍點?本文帶你了解優化背後的數學知識

2021-01-07 機器之心Pro

機器之心原創

作者:Joshua Chou編輯:Joni Zhong翻譯:魔王

在一篇名為《Escaping from saddle points on Riemannian manifolds》的論文中,來自華盛頓大學、加州大學伯克利分校的研究人員深入探索了優化問題的細節,這對理解機器學習底層的數學知識非常重要。本文是對該論文的解讀。

引言「優化」通常是指將函數最大化或最小化,而函數的集合通常表示遵循約束條件的可選擇範圍。我們可以通過對比集合內不同的函數選擇來確定哪個函數是「最優」的。學習是模型迭代地學習最小化某個誤差函數或者最大化某個獎勵函數的過程。拿用於分類任務的簡單線性回歸為例,誤差函數是模型輸出和數據真值輸出之間的均方差,學習過程即找出線性函數 y = a^Tx + b 的係數 a_i 和 b_i,以最小化 y(模型輸出)和 y*(真值輸出)間的誤差。例如,學習(即優化)通常使用梯度下降算法通過反向傳播來迭代進行。在每一次迭代中,係數 a_i 和 b_i 都是(所有可能 a_i 和 b_i 值集合中的)一個選擇,算法將學習到能夠最小化誤差函數的下一組係數。因此,模型的學習過程歸根結底還是優化問題。論文《Escaping from saddle points on Riemannian manifolds》深入探索了優化問題的細節,這對理解機器學習的底層數學知識非常重要。在經典的最小化任務中,基於梯度的優化方法是尋找局部極小值的最常用方法。「陷入鞍點」問題就出現在基於梯度的優化方法中。優化問題旨在尋找能使目標函數達到局部極小值的駐點,而鞍點是不能達到局部極小值的駐點。因此,了解如何識別並避開鞍點至關重要。這篇論文介紹了一種新方法,能夠針對滿足流形約束的目標函數識別並避開鞍點。設置該論文考慮在平滑流形 M 上最小化非凸平滑函數:

其中 M 是一個 d 維平滑流形,f 是二次可微函數,Hessian 符合 ρ-Lipschitz。為此類問題尋找全局最小值是一項挑戰,而這篇論文利用一階優化方法找出近似的二階駐點(達到局部極小值)。在抵達駐點時,作者引入一種方法來識別該駐點是鞍點還是局部極小值。此外,作者提出一種方法來避開鞍點,並嘗試將目標函數收斂至局部極小值。

隨著越來越多的應用被建模為大規模優化問題,較簡單的一階方法變得越來越重要。因此,該論文使用一階方法處理非凸問題,並查看其效果。具體而言,作者對黎曼流形上的非凸問題執行優化。背景知識在深入了解該論文之前,我們先要理解一些底層數學概念。理想情況下,這篇論文要求讀者對高斯幾何有基礎了解,即三維歐幾裡德空間中曲線和表面的幾何。此外,微分幾何的知識也很重要。不過,我會嘗試解釋這篇論文中某些術語的意義。每個平滑的 d 維流形 M 都局部微分同胚於 R^n。M 中每個點周圍都有一個平坦的(小型)鄰域。因此,它遵循 R^n 上的歐幾裡德度量。從視覺上來看,這意味著 M 中的每個點周圍都有一個曲率為零的小型鄰域和歐幾裡德度量。接下來,我們需要了解可微流形 M 在 M 內的點 x 處的切空間 TxM。切空間是一個維度與 M 相同的向量空間。讀者需要了解這個概念:在標準 R^n 中,點 x ∈ R^n 處的切向量 v 可解釋為:對圍繞 x 局部定義的實值函數執行的一階線性可微運算。而這一點可以泛化至流形設置中。現在我們來看黎曼流形。黎曼流形具備黎曼度量。黎曼度量為我們提供了每個切空間上的標量積,可用于衡量流形上曲線的角度和長度。它定義了距離函數,並自然而然地將流形轉換為度量空間。假設讀者了解曲率這一概念,我們來看黎曼曲率張量(Riemann curvature tensor)和黎曼流形的截面曲率。我們可以把黎曼曲率張量理解為流形的曲率,這與我們對曲率的直觀理解是一致的。曲率讀者可以在標準來源中找到截面曲率的定義,其思路是向平面分配曲率。切空間中平面 p 的截面曲率與初始方向在 P 中的測地線(geodesic)所掠過表面的高斯曲率成正比。直觀上,這是一個穿過給定平面的二維切片,你需要度量其二維曲率。符號該論文關注平滑的 d 維黎曼流形 (M,g),該流形使用黎曼度量 g。點 x ∈ M 的切空間是 TxM。鄰域被定義為:Bx(r) = { v ∈ TxM, ||v|| ≤ r },即以 0 為中心、半徑 r 位於切空間 TxM 內的球。在任意點 x ∈ M,度量 g 自然地推導出切空間 < · , · > : TxM x TxM → R 上的內積。黎曼曲率張量用 R(x)[u, v] 來表示,其中 x ∈ M,u, v ∈ TxM。截面曲率是 K(x)[u, v],x ∈ M, u, v ∈ TxM,其定義如下:

該論文用 d(x, y) 表示 M 中兩個點之間的距離(根據黎曼度量得出)。測地線 γ : R → M 是一條等速曲線,其長度等於 d(x, y),即測地線是連接 x 和 y 的最短路徑。指數映射 Exp_x (v) 將 v ∈ TxM 映射到 y ∈ M,則存在測地線 γ,使 γ(0) = x,γ(1) = y,(d/dt)γ(0) = v。這個概念很難理解,讀者可以按照下面的方法理解指數映射。將指數映射看作沿著切向量 v 的方向將點 x 推動一小段距離。如果我們可以將該點沿著測地線 γ 推動 1 個距離單位,那麼我們將到達點 y。另一個理解方式是投影。假設點 p1 的坐標為 (x_1, y_1, z_1),z_1 = 0,即 p1 在 x-y 平面上。向 p1 添加向量 p2 (x_2, y_2, z_2),其中 z_2 不等於 0,即 p3 = p1+p2。現在,使用投影定理,將 p3 投影回 x-y 平面得到 p4。根據投影定理,p4 與 p1 間的距離最短。測地線即球面或其他曲面或流形上兩點之間的最短路線。指數映射類似於該示例中的投影算子。主要算法在黎曼流形上執行優化的主要算法如下所示:

算法 1 看起來很嚇人,但是作者給出的總結對於理解該算法機制很有用。算法 1 按照以下步驟運行:

算法 1 依賴流形的指數映射,對於易於計算指數映射的情況很有用(而多種常見流形的指數映射是容易計算的)。作者用可視化的方式進行了展示:

圖 1:鞍點位於球面上的函數 f。函數 f 的定義是:f(x) = (x_1)^2 (x_2)^2 + 4(x_3)^2,如圖 1 所示。該算法在 x_0 處進行初始化,x_0 是鞍點。在其切空間中向 x_0 添加噪聲,然後計算指數映射,將點 x_0 映射回流形上的點 x_1。然後算法運行黎曼梯度下降,並在 x* 處停止,x* 即局部極小值。主定理背後的概念該算法背後的思路很簡單,但底層證明較為複雜。我嘗試簡要直觀地解釋結果並提供一些見解。詳細證明及相關文獻參見原論文。假設該論文作出了多項假設,前兩個假設關於 f,最後一個假設關於 M:

簡要來講,利普希茨連續是連續性的定量版本。給出 x 和 y 之間的距離 d(x,y),則利普希茨函數對 f(x) 和 f(y) 之間的距離設置定量上限。如果 C 是 f 的利普希茨值,則該距離至多為 C×d(x, y)。假設 1 和假設 2 是梯度和 Hessian 的標準利普希茨條件,即常數 β 和 ρ 分別描述梯度和 Hessian 在「最糟糕情況下」的分離情況。這些假設主要是為了確保梯度和 Hessian 可微分。類似地,假設 3 對 M 的截面曲率設置了上限。直觀來看,該假設旨在確保指數映射不會無限增大。例如,對於點 x∈M,其切空間 TxM 和 x 周圍的曲率是極大的。TxM 中點的指數映射 Exp_x (v) 可能得到點 y∈M,y 距離 x 非常遠。這樣算法就沒用了,因為該算法僅希望稍微離開鞍點到達另一個點,以便避開鞍點,向另一個駐點前進。主定理主定理如下所示。本質上,該定理確保目標函數(向駐點收斂)的下降速率。證明策略是,經過特定次數的迭代後,當逼近鞍點時,該函數的值大概率會下降。

上圖看起來比較複雜,我們可以從中得到以下信息:

大 O 符號和步長規則都與 β 相關,就此我們可以得出:梯度的利普希茨常數 β 越大,算法收斂時間就越長。ρ 與參數 直接相關,擾動後的黎曼梯度下降(perturbed Riemannian gradient descent)算法將以 1/(2 ^2) 的速率避開鞍點。流形的維度是影響 的另一個參數。我們可以看到 d 以對數的方式影響收斂速率。該論文的證明策略是,經過特定次數的迭代後,當逼近鞍點時,該函數的值大概率會下降。作者進一步證明,完成擾動和執行算法的 T 步後,如果迭代仍然遠離鞍點,則函數會下降。結論該論文研究了受限優化問題,即對滿足多個流形約束條件和一些關於 f(x) 假設的函數 f(x) 執行最小化。該研究證明,只要函數和流形具備恰當的平滑度,則擾動黎曼梯度下降算法能夠避開鞍點。

相關焦點

  • 算法優化之道:避開鞍點
    實踐當中,許多流行的優化技術都是基於一階導的優化算法:它們只觀察梯度信息,並沒有明確計算Hessian矩陣。這樣的算法可能會陷入鞍點之中。在文章的剩下部分,我們首先會介紹,收斂於鞍點的可能性是很大的,因為大多數自然目標函數都有指數級的鞍點。然後,我們會討論如何對算法進行優化,讓它能夠嘗試去避開鞍點。
  • 學界 | Michael Jordan新研究官方解讀:如何有效地避開鞍點
    論文地址:https://arxiv.org/abs/1703.00887 非凸優化中一個核心問題是如何避開鞍點。其中 xt 是需優化的變量在第t步的值,η是步長。當優化函數是凸函數的情況下,GD已經有了非常好的理論解釋;但當優化函數非凸時,已有的研究要少得多。我們僅知道在非凸優化中,GD 可以快速收斂到駐點(∇f(x)=0 的點),這些駐點可能是局部最小點,但也可能是毫無用處的局部最大點或鞍點。
  • 兩道黎曼函數考題和黎曼的故事
    黎曼仿照傳統的微分幾何定義流形上兩點之間的距離、流形上的曲線、曲線之間的夾角。並以這些概念為基礎,展開對維流形幾何性質的研究。在維流形上他也定義類似於高斯在研究一般曲面時刻劃曲面彎曲程度的曲率。他證明他在維流形上維數等於三時,歐幾裡得空間的情形與高斯等人得到的結果是一致的,因而黎曼幾何是傳統微分幾何的推廣。
  • 阿蒂亞是如何證明黎曼猜想的?-數學,黎曼猜想,阿提亞...
    (不是很好理解為什麼上帝要特別選擇這個數字來作為黎曼猜想的答案?為什麼不選1/3或者1/7?難道是因為2是第一個素數嗎?)在我看來1/2它不具備那種「廣義協變性」。如果在黎曼猜想中,出現的常數不是1/2,而是圓周率,那會讓我覺得這個事情要優美一些。現在出現的卻是1/2,這無疑讓人覺得黎曼猜想不是一個涉及到宇宙本質的猜想,而僅僅是一個比較粗糙的數學半成品。
  • 最具獨創精神的數學家:黎曼
    黎曼引入流形和微分流形的概念,把維空間稱為一個流形,維流形中的一個點可以用個可變參數的一組特定值來表示,而所有這些點的全體構成流形本身,這個可變參數稱為流形的坐標,而且是可微分的,當坐標連續變化時,對應的點就遍歷這個流形。黎曼仿照傳統的微分幾何定義流形上兩點之間的距離、流形上的曲線、曲線之間的夾角。並以這些概念為基礎,展開對維流形幾何性質的研究。
  • 神經網絡逃離鞍點
    在本文中,我們將討論非凸優化時,可能遇到的各種類型的極值點。我們將看到在許多情況下,基於梯度下降方法的一些簡單直覺可以使我們能夠在多項式時間內達到非凸優化的局部最小值。當梯度不為0時,選擇足夠小的η就能在每一步取得一定的進展。梯度為零的點是極值點。當優化遇到極值點,梯度下降法會停住。對於凸函數,極值點就是全局最優值。
  • 阿蒂亞是如何證明黎曼猜想的?159年的未解之謎解決了麼?
    宇宙中可能還存在比黎曼猜想更基礎的更重要的數學現象。「牛」論文的參考文獻阿蒂亞在證明黎曼猜想的論文中提到了另外一篇參考文獻,這個參考文獻被叫做「文獻2」,這個文獻的題目是「精細結構常數」。阿蒂亞是不管物理學家如何想,因為作為數學家,他有他自己的想法。阿蒂亞認為,精細結構常數應該像圓周率一樣,具有同樣的數學上的意義。在阿蒂亞的「精細結構常數」的論文中,阿蒂亞寫到,在18世紀中葉,數學家歐拉發現了圓周率與歐拉自然常數以及虛數單位i之間存在一個關係。
  • 純粹數學走出象牙塔:丘成桐和三維科技有何關係?
    回到哈佛後,我連夜編程,實現了基於黎曼映照的局部參數化方法。第二天清晨,當我將西洋棋的棋盤格紋理圖像貼在三維人臉曲面上(見圖2),展示給丘成桐院士看時,丘院士異常激動,連聲叫到:「這真的是黎曼映照,真的是黎曼映照!」我連忙問:「如何將這種方法推廣到拓撲複雜曲面?如何實現全局方法?」丘院士思索片刻,斬釘截鐵地說:「要用Hodge指標定理!」
  • 【關注夏季學期】新世紀人才論壇:鄧少強談「陳省身與黎曼的對話」
    南開大學數學科學學院鄧少強教授帶來了題為「陳省身與黎曼對話」的專題講座。雖然整場講座圍繞兩位數學大師思想精髓展開,但少見深奧的數學公式與推理,言語之間也十分淺顯易懂,受到了學生和市民的歡迎。  6點半,講座準時開始,偌大的教室裡坐著的,有頭髮花白的老教授,也有帶著孩子「長見識」的市民。大家帶著好奇,也帶著尊敬。鄧少強個子不高,微胖的體型顯示出沉穩的氣質。
  • SGD過程中的噪聲如何幫助避免局部極小值和鞍點?
    來自 UC Berkeley RISELab 的本科研究員 Noah Golmant 發表博客,從理論的角度分析了損失函數的結構,並據此解釋隨機梯度下降(SGD)中的噪聲如何幫助避免局部極小值和鞍點,為設計和改良深度學習架構提供了很有用的參考視角。
  • 北大教授「手把手」,教你如何學好數學-虎嗅網
    強開性猜想的解決首先,數學一般是這樣的,講這個猜想,先要講它是關於什麼的一個猜想。它的研究對象被稱為乘子理想層,它是n維複流形上的乘子理想層。這個乘子理想層的定義是複流形上的全純函數芽層的一個子層,滿足加權的L2可積性條件,這是局部可積的一個條件。這個權,是複流形上的一個多次調和函數。
  • 那個很愛物理學的數學家阿蒂亞去世了 在他背後有這些精彩故事
    阿蒂亞非常傷心,所以看起來他後來證明黎曼猜想的工作也許有背後的動機——紀念他去世的妻子。證明黎曼猜想,對阿蒂亞來說,也許是一個愛情故事。雖然阿蒂亞並沒有真的證明黎曼猜想,但阿蒂亞絕不是普通數學家,他曾經擔任英國皇家學會主席,而且還得過數學界的最高獎——菲爾茲獎。
  • 黎曼,他對素數有著迷人的依戀
    然而,有一個關鍵性人物被忽視了,那便是十九世紀的天才數學家伯恩哈德·黎曼,他建立的黎曼幾何學是廣義相對論的基石,同時他還提出了迄今為止數學領域最負盛名的黎曼猜想。巧合的是,這幾座城鎮恰好都與本文主人公黎曼有著密切的關聯。黎曼在漢諾瓦和呂訥堡念的中學,而于爾岑是離他出生地和度過童年時光的兩個小村最近的火車站。即便黎曼時代不通火車,這裡也是他去往哥廷根求學的必經之地。火車在日落時分抵達,靠站後我下車去拍攝了站牌,在那短促的幾分鐘裡,我滿腦子都是黎曼。
  • 現代數學七大難題之一——黎曼猜想
    質數的定義簡單得可以在中學甚至小學課上進行講授,但它們的分布卻奧妙得異乎尋常,數學家們付出了極大的心力,卻迄今仍未能徹底了解。黎曼論文的一個重大的成果,就是發現了質數分布的奧秘完全蘊藏在一個特殊的函數之中,尤其是使那個函數取值為零的一系列特殊的點對質數分布的細緻規律有著決定性的影響。
  • 蔡天新:黎曼,他對素數有著迷人的依戀
    他還提出了數學領域最負盛名的黎曼猜想,數學領域最後一個「百事通」、哥根廷數學學派的希爾伯特彌留之際曾說,假如五百年以後自己能復活,最想知道的是:「黎曼猜想是否已經被證明?」巧合的是,這幾座城鎮恰好都與本文主人公黎曼有著密切的關聯。黎曼在漢諾瓦和呂訥堡念的中學,而于爾岑是離他出生地和度過童年時光的兩個小村(他的父親是村裡的牧師)最近的火車站。即便黎曼時代不通火車,這裡也是他去往哥廷根求學的必經之地。火車在日落時分抵達,靠站後我下車去拍攝了站牌,在那短促的幾分鐘裡,我滿腦子都是黎曼。
  • 優化背後的數學基礎
    ,本文是一份基礎指南,旨在從數學的角度深入解讀優化器。有了它,你就可以將訓練網絡的時間壓縮在幾天內,而不是數十億年間。下文將從數學角度深入研究優化器,並了解它們是如何完成這一看似不可能的任務的。優化的基礎我們從簡單的地方開始。假設要最大化單變量函數。(在機器學習中,通常以最小化損失函數為目標,不過最小化就等同於最大化函數的負值。)
  • 【學術風暴】從黎曼猜想看數學難題的前生今世
    從黎曼猜想看數學難題的前生今世上一期學術君帶大家了解了世界級數學難題黎曼猜想以及阿蒂亞爵士證明黎曼猜想的事件始末。今天,繼續和學術君一起來透過黎曼猜想,看一看歷史上那些名聲斐然的數學猜想吧!ꉂヾ(✿゚▽゚)ノ黎曼猜想與密碼學的關係就在最近關於黎曼猜想的討論如火如荼地進行時,另一場關於密碼安全的風波隨之而來,學術君和大家一樣好奇黎曼猜想與密碼安全的關係。下面讓我們一起來看看前段時間網上流傳的言論。
  • 丘成桐評論阿蒂亞爵士的黎曼猜想證明:沒看到啟發意義
    著名美籍華裔數學家,也是首位華裔菲爾茲獎得主,現為哈佛大學數學講席教授。丘成桐主要從事分析幾何領域的研究,他對卡拉比猜想和正能定理的證明,對數學和物理學都影響深遠。1982 年,丘成桐與阿蒂亞在 Durham 參加微分幾何的會議。Dirk Ferus 圖首先說明,我不是數論或是黎曼函數的專家。我只能從我自己的經驗來回答你的問題。
  • 如何讓全球銀行都破產,你只需要攻克黎曼猜想
    有人問過希爾伯特一個問題,說:「如果你沉睡了幾百年,然後醒過來,你想幹什麼?」希爾伯特說,「我想問問有人把黎曼猜想證出來了嗎?我太想知道了」。如何讓全球銀行破產,是全球經濟大蕭條,還是戰爭摧毀了文明?都不是,你只需要破解黎曼猜想。
  • 你需要了解黎曼猜想的這幾點
    本文授權轉載自清華大學小五爺園(二次轉載或合作請聯繫 ye5@tsinghua.edu.cn鑑於這篇文章尚未通過同行評議,一些學者對此次證明仍存在質疑;但無論如何,本次證明使得這個1859年提出的古老猜想再次引發了數學界和吃瓜群眾界的熱烈討論。