本文於2020年發表於《中國科學:數學》雜誌。作者為鄂維南(普林斯頓大學、北京大數據研究院)、馬超(普林斯頓大學)和吳磊(普林斯頓大學)。英文論文PDF文件下載請在本公眾號回復關鍵詞「機器學習連續視角」。
摘要在經典數值分析的影響下,我們提出了一個連續的機器學習形式,將其作為變分法和微分積分方程中的一個問題。我們證明了傳統的機器學習模型和算法,如隨機特徵模型、兩層神經網絡模型和殘差神經網絡模型,都可以表示成(以比例形式)對應連續形式的離散化的特例。我們還提供了從這種連續形式自然產生的新模型,例如基於流的隨機特徵模型,以及新算法,例如平滑粒子方法和譜方法。我們討論了如何在這個框架下研究泛化誤差和隱式正則化問題。
提綱 4.2 基於流模型的Pontryagin最大值原理討論這裡提出的連續視角提供了一種更抽象的機器學習的思考方式。重點關注函數的表示、變分法問題和連續梯度流。特徵和神經元作為對象出現在這些連續問題的特殊離散化中。
我們從這個思考過程中至少學到了兩件事。一方面,我們可以不藉助神經元的概念來討論機器學習,實際上除了神經網絡模型之外,還有很多算法和模型。另一方面,我們也看到了為什麼神經網絡(淺層和深層)是不可避免的選擇:它們是最簡單的連續梯度流模型的最簡單粒子方法離散化(分別用於基於積分變換和基於流的表示)。
經典數值分析的一個主要主題是提出更好的模型和算法的設計原則。本著這種精神,我們可以為連續機器學習方法提出以下一組原則:
2.風險泛函應該是好泛函。即使不是凸的,它們也應該具有凸泛函的許多特徵。好的一點是,如果我們從連續模式開始,離散化模型很可能不會被離散效應導致的局部極小所困擾。3.不同的梯度流是很好的流,即相關範數應在流上變現良好。這裡相關範數指與特定表示相關的範數(例如,基於積分變換的表示的Barron範數)。我們認為如果遵循這組設計原則,所得到的模型和算法將以一種相當健壯的方式運行,而當前的機器學習模型往往敏感地依賴於超參數的選擇。
當前機器學習算法中的一些微妙之處,僅僅是從一個連續的角度來看待就已經可以被理解了。例如,非常深的全連接網絡應該會引起問題,因為它們沒有很好的連續極限[35]。
英文論文PDF文件下載請在本公眾號回復關鍵詞「機器學習連續視角」。
Long-press QR code to transfer me a reward
創作不易 需要鼓勵
As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.