如何在黎曼流形上避開鞍點?本文帶你了解優化背後的數學知識

2021-01-10 機器之心Pro

機器之心原創

作者:Joshua Chou編輯:Joni Zhong翻譯:魔王

在一篇名為《Escaping from saddle points on Riemannian manifolds》的論文中,來自華盛頓大學、加州大學伯克利分校的研究人員深入探索了優化問題的細節,這對理解機器學習底層的數學知識非常重要。本文是對該論文的解讀。

引言「優化」通常是指將函數最大化或最小化,而函數的集合通常表示遵循約束條件的可選擇範圍。我們可以通過對比集合內不同的函數選擇來確定哪個函數是「最優」的。學習是模型迭代地學習最小化某個誤差函數或者最大化某個獎勵函數的過程。拿用於分類任務的簡單線性回歸為例,誤差函數是模型輸出和數據真值輸出之間的均方差,學習過程即找出線性函數 y = a^Tx + b 的係數 a_i 和 b_i,以最小化 y(模型輸出)和 y*(真值輸出)間的誤差。例如,學習(即優化)通常使用梯度下降算法通過反向傳播來迭代進行。在每一次迭代中,係數 a_i 和 b_i 都是(所有可能 a_i 和 b_i 值集合中的)一個選擇,算法將學習到能夠最小化誤差函數的下一組係數。因此,模型的學習過程歸根結底還是優化問題。論文《Escaping from saddle points on Riemannian manifolds》深入探索了優化問題的細節,這對理解機器學習的底層數學知識非常重要。在經典的最小化任務中,基於梯度的優化方法是尋找局部極小值的最常用方法。「陷入鞍點」問題就出現在基於梯度的優化方法中。優化問題旨在尋找能使目標函數達到局部極小值的駐點,而鞍點是不能達到局部極小值的駐點。因此,了解如何識別並避開鞍點至關重要。這篇論文介紹了一種新方法,能夠針對滿足流形約束的目標函數識別並避開鞍點。設置該論文考慮在平滑流形 M 上最小化非凸平滑函數:

其中 M 是一個 d 維平滑流形,f 是二次可微函數,Hessian 符合 ρ-Lipschitz。為此類問題尋找全局最小值是一項挑戰,而這篇論文利用一階優化方法找出近似的二階駐點(達到局部極小值)。在抵達駐點時,作者引入一種方法來識別該駐點是鞍點還是局部極小值。此外,作者提出一種方法來避開鞍點,並嘗試將目標函數收斂至局部極小值。

隨著越來越多的應用被建模為大規模優化問題,較簡單的一階方法變得越來越重要。因此,該論文使用一階方法處理非凸問題,並查看其效果。具體而言,作者對黎曼流形上的非凸問題執行優化。背景知識在深入了解該論文之前,我們先要理解一些底層數學概念。理想情況下,這篇論文要求讀者對高斯幾何有基礎了解,即三維歐幾裡德空間中曲線和表面的幾何。此外,微分幾何的知識也很重要。不過,我會嘗試解釋這篇論文中某些術語的意義。每個平滑的 d 維流形 M 都局部微分同胚於 R^n。M 中每個點周圍都有一個平坦的(小型)鄰域。因此,它遵循 R^n 上的歐幾裡德度量。從視覺上來看,這意味著 M 中的每個點周圍都有一個曲率為零的小型鄰域和歐幾裡德度量。接下來,我們需要了解可微流形 M 在 M 內的點 x 處的切空間 TxM。切空間是一個維度與 M 相同的向量空間。讀者需要了解這個概念:在標準 R^n 中,點 x ∈ R^n 處的切向量 v 可解釋為:對圍繞 x 局部定義的實值函數執行的一階線性可微運算。而這一點可以泛化至流形設置中。現在我們來看黎曼流形。黎曼流形具備黎曼度量。黎曼度量為我們提供了每個切空間上的標量積,可用于衡量流形上曲線的角度和長度。它定義了距離函數,並自然而然地將流形轉換為度量空間。假設讀者了解曲率這一概念,我們來看黎曼曲率張量(Riemann curvature tensor)和黎曼流形的截面曲率。我們可以把黎曼曲率張量理解為流形的曲率,這與我們對曲率的直觀理解是一致的。曲率讀者可以在標準來源中找到截面曲率的定義,其思路是向平面分配曲率。切空間中平面 p 的截面曲率與初始方向在 P 中的測地線(geodesic)所掠過表面的高斯曲率成正比。直觀上,這是一個穿過給定平面的二維切片,你需要度量其二維曲率。符號該論文關注平滑的 d 維黎曼流形 (M,g),該流形使用黎曼度量 g。點 x ∈ M 的切空間是 TxM。鄰域被定義為:Bx(r) = { v ∈ TxM, ||v|| ≤ r },即以 0 為中心、半徑 r 位於切空間 TxM 內的球。在任意點 x ∈ M,度量 g 自然地推導出切空間 < · , · > : TxM x TxM → R 上的內積。黎曼曲率張量用 R(x)[u, v] 來表示,其中 x ∈ M,u, v ∈ TxM。截面曲率是 K(x)[u, v],x ∈ M, u, v ∈ TxM,其定義如下:

該論文用 d(x, y) 表示 M 中兩個點之間的距離(根據黎曼度量得出)。測地線 γ : R → M 是一條等速曲線,其長度等於 d(x, y),即測地線是連接 x 和 y 的最短路徑。指數映射 Exp_x (v) 將 v ∈ TxM 映射到 y ∈ M,則存在測地線 γ,使 γ(0) = x,γ(1) = y,(d/dt)γ(0) = v。這個概念很難理解,讀者可以按照下面的方法理解指數映射。將指數映射看作沿著切向量 v 的方向將點 x 推動一小段距離。如果我們可以將該點沿著測地線 γ 推動 1 個距離單位,那麼我們將到達點 y。另一個理解方式是投影。假設點 p1 的坐標為 (x_1, y_1, z_1),z_1 = 0,即 p1 在 x-y 平面上。向 p1 添加向量 p2 (x_2, y_2, z_2),其中 z_2 不等於 0,即 p3 = p1+p2。現在,使用投影定理,將 p3 投影回 x-y 平面得到 p4。根據投影定理,p4 與 p1 間的距離最短。測地線即球面或其他曲面或流形上兩點之間的最短路線。指數映射類似於該示例中的投影算子。主要算法在黎曼流形上執行優化的主要算法如下所示:

算法 1 看起來很嚇人,但是作者給出的總結對於理解該算法機制很有用。算法 1 按照以下步驟運行:

算法 1 依賴流形的指數映射,對於易於計算指數映射的情況很有用(而多種常見流形的指數映射是容易計算的)。作者用可視化的方式進行了展示:

圖 1:鞍點位於球面上的函數 f。函數 f 的定義是:f(x) = (x_1)^2 (x_2)^2 + 4(x_3)^2,如圖 1 所示。該算法在 x_0 處進行初始化,x_0 是鞍點。在其切空間中向 x_0 添加噪聲,然後計算指數映射,將點 x_0 映射回流形上的點 x_1。然後算法運行黎曼梯度下降,並在 x* 處停止,x* 即局部極小值。主定理背後的概念該算法背後的思路很簡單,但底層證明較為複雜。我嘗試簡要直觀地解釋結果並提供一些見解。詳細證明及相關文獻參見原論文。假設該論文作出了多項假設,前兩個假設關於 f,最後一個假設關於 M:

簡要來講,利普希茨連續是連續性的定量版本。給出 x 和 y 之間的距離 d(x,y),則利普希茨函數對 f(x) 和 f(y) 之間的距離設置定量上限。如果 C 是 f 的利普希茨值,則該距離至多為 C×d(x, y)。假設 1 和假設 2 是梯度和 Hessian 的標準利普希茨條件,即常數 β 和 ρ 分別描述梯度和 Hessian 在「最糟糕情況下」的分離情況。這些假設主要是為了確保梯度和 Hessian 可微分。類似地,假設 3 對 M 的截面曲率設置了上限。直觀來看,該假設旨在確保指數映射不會無限增大。例如,對於點 x∈M,其切空間 TxM 和 x 周圍的曲率是極大的。TxM 中點的指數映射 Exp_x (v) 可能得到點 y∈M,y 距離 x 非常遠。這樣算法就沒用了,因為該算法僅希望稍微離開鞍點到達另一個點,以便避開鞍點,向另一個駐點前進。主定理主定理如下所示。本質上,該定理確保目標函數(向駐點收斂)的下降速率。證明策略是,經過特定次數的迭代後,當逼近鞍點時,該函數的值大概率會下降。

上圖看起來比較複雜,我們可以從中得到以下信息:

大 O 符號和步長規則都與 β 相關,就此我們可以得出:梯度的利普希茨常數 β 越大,算法收斂時間就越長。ρ 與參數 直接相關,擾動後的黎曼梯度下降(perturbed Riemannian gradient descent)算法將以 1/(2 ^2) 的速率避開鞍點。流形的維度是影響 的另一個參數。我們可以看到 d 以對數的方式影響收斂速率。該論文的證明策略是,經過特定次數的迭代後,當逼近鞍點時,該函數的值大概率會下降。作者進一步證明,完成擾動和執行算法的 T 步後,如果迭代仍然遠離鞍點,則函數會下降。結論該論文研究了受限優化問題,即對滿足多個流形約束條件和一些關於 f(x) 假設的函數 f(x) 執行最小化。該研究證明,只要函數和流形具備恰當的平滑度,則擾動黎曼梯度下降算法能夠避開鞍點。

相關焦點

  • 算法優化之道:避開鞍點
    實踐當中,許多流行的優化技術都是基於一階導的優化算法:它們只觀察梯度信息,並沒有明確計算Hessian矩陣。這樣的算法可能會陷入鞍點之中。在文章的剩下部分,我們首先會介紹,收斂於鞍點的可能性是很大的,因為大多數自然目標函數都有指數級的鞍點。然後,我們會討論如何對算法進行優化,讓它能夠嘗試去避開鞍點。
  • 揭秘建築形式背後的數學邏輯|黎曼|扎哈|拓撲|幾何學_網易訂閱
    數學中的幾何邏輯為建築師的創作提供了無盡的可能性。本期設計對建築設計中幾種常用的幾何邏輯做簡單介紹,希望可以幫助大家理解蘊藏在建築設計背後的數學邏輯。  1  黎曼幾何  黎曼幾何是德國數學家G.F.B. 黎曼19世紀中期提出的幾何學理論。
  • 【黎曼猜想證明過程詳解】阿蒂亞如何證明「世紀難題」?
    宇宙中可能還存在比黎曼猜想更基礎的更重要的數學現象。阿蒂亞是不管物理學家如何想,因為作為數學家,他有他自己的想法。阿蒂亞認為,精細結構常數應該像圓周率一樣,具有同樣的數學上的意義。在阿蒂亞的「精細結構常數」的論文中,阿蒂亞寫到,在18世紀中葉,數學家歐拉發現了圓周率與歐拉自然常數以及虛數單位i之間存在一個關係。所以,他希望找到歐拉的這個關係在四元數領域到底有沒有類似的關係。
  • 阿蒂亞是如何證明黎曼猜想的?159年的未解之謎解決了麼?
    (不是很好理解為什麼上帝要特別選擇這個數字來作為黎曼猜想的答案?為什麼不選1/3或者1/7?難道是因為2是第一個素數嗎?)在我看來1/2它不具備那種「廣義協變性」。如果在黎曼猜想中,出現的常數不是1/2,而是圓周率,那會讓我覺得這個事情要優美一些。現在出現的卻是1/2,這無疑讓人覺得黎曼猜想不是一個涉及到宇宙本質的猜想,而僅僅是一個比較粗糙的數學半成品。
  • 數學珠峰之黎曼假設
    我們對黎曼假設的正確性如此深信不疑,以至於要想扭轉這一觀點的話,需要徹底改變我們的數學世界觀。而那些基於黎曼假設為真所生成的定理都將灰飛煙滅。 最重要的是,證明黎曼假設意味著數學家能夠通過有力的依據,快速確認 100 位素數,或者其他他們想要選擇的任意位素數。你可能會理直氣壯地反問:「這與我何幹?」
  • 黎曼猜想將揭謎底 百萬獎金 千條數學命題成立的條件
    在這個世界上有很多人數給人類帶來最新的知識,也有很多猜想還未被證實,但依舊有很多人在研究。    著名數學家、菲爾茲獎和阿貝爾獎雙料得主、89歲的阿蒂亞爵士宣布,於當地時間9月24日上午9:45-10:30(北京時間24日15:45-16:30),在海德堡獲獎者論壇的演講中公布他對「黎曼猜想」的證明。    「黎曼猜想」是德國數學家黎曼於159年前提出的,由於其內容過於精神,本文不加以贅述。
  • 黎曼猜想被證明了?很可能只是逗大家玩-數學,黎曼猜想 ——快科技...
    然而,根據我們目前的了解,Atiyah爵士極有可能是在自娛自樂逗大家玩……圖源3blue1brown大家應該還聽說過黎曼函數揭示了素數的精細分布規律,限於本文作者學識有限這裡暫不介紹,有興趣的同學歡迎自行百度盧昌海的《黎曼猜想漫談》。黎曼猜想證明的進度黎曼的這篇論文發表於1859年。當時的數學家不怎麼喜歡發論文,他們發表的成果只是自己所有研究中的經過深思熟慮、有充足的論據支撐的一小部分。
  • 那個很愛物理學的數學家阿蒂亞去世了 在他背後有這些精彩故事
    這還不夠,阿蒂亞在德國海德堡的做黎曼猜想證明的講演現場,他展示的ppt的第一頁也寫著「紀念莉莉」的字樣,並且附有莉莉的照片。莉莉是阿蒂亞的妻子,全名是Lily Brown。她是阿蒂亞的同學,他們之間有60年的婚姻生活,但在一年前的2018年5月,莉莉去世了。阿蒂亞非常傷心,所以看起來他後來證明黎曼猜想的工作也許有背後的動機——紀念他去世的妻子。
  • 理解最偉大的數學猜想——黎曼猜想
    本文參加百家號#科學了不起#系列徵文賽。昨天寫了一篇文章,證明了所有自然數之和等於-1/12,太神奇了!所有自然數之和等於-1/12!我證明給你看!很多小夥伴留言:老胡你真是胡說科學、混淆視聽、怎麼可能、邏輯錯誤……同學們都很厲害,但是大家比較謙虛,很少能說出問題的關鍵,這裡涉及到一個非常著名的數學猜想:黎曼猜想,和一個數學概念:解析延拓!
  • 「黎曼猜想」|攸關數字未來
    ——「解決黎曼假設,你就會變得聲名顯赫。但如果你已經聲名顯赫,你就有可能變得臭名昭著。」德國柏林時間9月24日上午9點45分,菲爾茲獎與阿貝爾獎雙料得主、英國皇家學會院士麥可·阿蒂亞爵士在德國海德堡舉行的海德堡獎諾貝爾獎獲得者論壇上,講述了他對黎曼猜想的證明。而在演講之前,阿蒂亞爵士就已經意識到了自己公布此次證明的風險。
  • 丘成桐評論阿蒂亞爵士的黎曼猜想證明:沒看到啟發意義
    著名美籍華裔數學家,也是首位華裔菲爾茲獎得主,現為哈佛大學數學講席教授。丘成桐主要從事分析幾何領域的研究,他對卡拉比猜想和正能定理的證明,對數學和物理學都影響深遠。1982 年,丘成桐與阿蒂亞在 Durham 參加微分幾何的會議。Dirk Ferus 圖首先說明,我不是數論或是黎曼函數的專家。我只能從我自己的經驗來回答你的問題。
  • 黎曼猜想有多難 - CSDN
    但是……你怎麼知道下一個p是什麼?若你能提出一個論點或公式(甚至僅在任何給定的數列中)能預測到下一個素數是什麼,你的名字就會與人類思想中最偉大的成就之一永遠聯繫在一起,與牛頓、愛因斯坦和哥德爾比肩。如果能解決素數為何表現出如此的性質,你就永遠不用再做任何事情了,永遠。引言歷史上曾有多位數學巨匠研究過素數的性質。
  • 如何讓全球銀行都破產,你只需要攻克黎曼猜想
    有人問過希爾伯特一個問題,說:「如果你沉睡了幾百年,然後醒過來,你想幹什麼?」希爾伯特說,「我想問問有人把黎曼猜想證出來了嗎?我太想知道了」。如何讓全球銀行破產,是全球經濟大蕭條,還是戰爭摧毀了文明?都不是,你只需要破解黎曼猜想。
  • 你需要了解黎曼猜想的這幾點
    本文授權轉載自清華大學小五爺園(二次轉載或合作請聯繫 ye5@tsinghua.edu.cn鑑於這篇文章尚未通過同行評議,一些學者對此次證明仍存在質疑;但無論如何,本次證明使得這個1859年提出的古老猜想再次引發了數學界和吃瓜群眾界的熱烈討論。
  • 三個數理知識的清單,幫助你理解數學物理
    13517 如何選總統?  14318 走出迷宮  15119 蓋茨翻煎餅  16220 小便器優選法  170參考文獻  180《你不可不知的50個數學知識》這是一本數學科普書。作者通過50 篇短文,介紹了數學的起源、π 及斐波那契數列的神秘意義、相對論、混沌理論、數獨、複利、費馬大定理、黎曼猜想等偉大的思想和系統。內容豐富多彩,生動有趣。讓讀者為其深深著迷。本書適合於對數學感興趣的各個層次的讀者閱讀。
  • 【學術風暴】從黎曼猜想看數學難題的前生今世
    從黎曼猜想看數學難題的前生今世上一期學術君帶大家了解了世界級數學難題黎曼猜想以及阿蒂亞爵士證明黎曼猜想的事件始末。今天,繼續和學術君一起來透過黎曼猜想,看一看歷史上那些名聲斐然的數學猜想吧!ꉂヾ(✿゚▽゚)ノ黎曼猜想與密碼學的關係就在最近關於黎曼猜想的討論如火如荼地進行時,另一場關於密碼安全的風波隨之而來,學術君和大家一樣好奇黎曼猜想與密碼安全的關係。下面讓我們一起來看看前段時間網上流傳的言論。
  • 《流形上的幾何、分析與計算》項目舉行2017年度總結會
    《流形上的幾何、分析與計算》項目舉行2017年度總結會 2018-02-02 數學與系統科學研究院 流形是有理連通的猜想、解決了Lyons-Peres猜想、提出了正交約束優化新算法框架
  • 黎曼幾何學習筆記(二):基本概念(1)
    2 基本概念2.1 黎曼度量定義2.1.1: 流形上的黎曼度量稱作黎曼流形命題2.1.1: 任意流形上都存在黎曼度量.Proof. 在每個坐標卡上定義局部度量, 再利用單位分解的存在性線性組合起來即可.
  • 揭秘建築形式背後的數學邏輯!
    黎曼19世紀中期提出的幾何學理論。黎曼幾何是非歐幾何的一種,亦稱「橢圓幾何」。數學上的黎曼幾何可以看做是歐式幾何的推廣,與歐氏幾何最主要的區別在於公理體系中採用了不同的平行公理(在黎曼幾何學中不承認平行線的存在。基本規定是:在同一平面內任何兩條直線都有公共點(交點);直線可以無限延長,但總的長度是有限的)。
  • 現代數學七大難題之一——黎曼猜想
    質數的定義簡單得可以在中學甚至小學課上進行講授,但它們的分布卻奧妙得異乎尋常,數學家們付出了極大的心力,卻迄今仍未能徹底了解。黎曼論文的一個重大的成果,就是發現了質數分布的奧秘完全蘊藏在一個特殊的函數之中,尤其是使那個函數取值為零的一系列特殊的點對質數分布的細緻規律有著決定性的影響。