這是谷歌和斯坦福最新的一項合作研究綜述報告,發表在物理學的頂級期刊「凝聚態物理年鑑」(Annual Review of Condensed Matter Physics)。作者:Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
本公眾號將對本報告進行翻譯,分6次發布僅供參考。對英文原報告感興趣請在本公眾號回復關鍵詞「深度學習統計力學」。
深度神經網絡最近在機器學習方面取得了顯著的成功,這就對其成功背後的理論原理提出了深刻的問題。例如,這樣的深層網絡可以計算什麼?我們如何訓練他們?信息是如何通過它們傳播的?為什麼他們泛化能力很好?我們怎麼能教他們想像呢?
我們回顧了最近的工作,其中的物理分析方法植根於統計力學已經開始提供這些問題的概念見解。這些見解產生了深度學習與各種物理和數學主題之間的聯繫,包括隨機曲面、自旋玻璃、幹擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來都有著豐富的強耦合相互作用的歷史,而統計力學和深度學習交叉點的最新進展表明,這些相互作用只會加深未來的發展。
系列預告深度學習統計力學(I) :深度學習中的基礎理論問題深度學習統計力學(IV) :深層網絡的信號傳播和初始化深度學習統計力學(VI) :通過概率模型進行「深度想像」1 介紹深層神經網絡具有多個隱含層[1],在許多領域都取得了顯著的成功,從機器視覺[2]、語音識別[3]、自然語言處理[4]、強化學習[5],到神經科學[6、7]、心理學[8、9]和教育[10]中對動物和人類自身建模。然而,深層神經網絡的成功方法仍然是一門高度實踐的藝術,包含了許多啟發,而不是一門精確的科學。這給理論科學帶來了令人興奮的挑戰和機遇,使其能夠建立一種成熟的深神經網絡理論。這種理論在深度學習中足以指導廣泛的工程設計選擇。儘管我們目前還遠遠沒有任何這樣成熟的理論,但最近出現的統計力學和深度學習一系列交叉工作已經開始為深度網絡如何學習和計算提供理論見解,還提出了由這些理論見解驅動的新的和改進的深度學習方法。
我們對這些工作進行綜述,它們建立在統計力學和機器學習[11-15]之間長期而豐富的相互作用歷史的基礎上。有趣的是,正如我們下面討論的,這項工作在統計力學和深入學習之間建立了許多新的橋梁。在本節其餘部分中,我們將為機器學習的兩種主要分支提供框架。第一種是有監督學習,它涉及到從樣本中學習輸入輸出映射的過程。第二種是無監督學習,它涉及到學習和挖掘數據中隱藏的結構模式的過程。有了這兩個框架,我們在第1.3節中介紹本綜述中討論的幾個深入學習的基本理論問題,以及它們與統計力學相關的各種主題的聯繫。
1.1 有監督學習的總體框架圖像分類是有監督學習的一個典型例子。在圖像分類問題中,需要學習從圖像的像素表示到該圖像的類標籤(例如貓、狗)的映射。為了學習這個映射,在一組圖像及其正確的類標籤上訓練一個神經網絡。這稱為有監督學習問題,因為在訓練過程中,網絡會得到正確的類標籤。事實上,深度學習如此普及的一個開創性進展就是深度網絡在圖像分類方面的重大突破[2]。
形式化地,最簡單的
其中
有監督學習任務可以表示為可能的輸入
其中損失函數
也即正確的答案
1.2 無監督學習的總體框架除了學習輸入輸出映射,機器學習的另一個關鍵分支是無監督學習,涉及複雜數據結構的建模和理解。例如,我們如何描述自然圖像、聲音和語言的結構?如果我們能夠精確地對這些複雜數據的概率分布建模,那麼我們就可以生成自然數據,以及糾正圖像採集[16]、語音記錄[17]或人類語言生成[4]中的錯誤。
當然,圖像和聲音等複雜數據的分布不能用數學方法來描述,但我們通常可以得到
例如每個
無監督學習的目標是通過調整一簇分布
這種學習的原理是修改
當找到一個好的模型
有趣的是,選擇
1.3 深度學習中的基礎理論問題有了上述有監督和無監督學習的最小框架,我們現在可以介紹深度學習領域的基本理論問題,以及如何用統計物理學的觀點闡明這些問題。在有監督方面,我們討論了四個問題。
首先,深度
我們在第二節中通過把有序和混沌之間的動態相變聯繫來解決這個問題。第二,很多最小化公式(3)的訓練誤差的方法使用(隨機)梯度下降來降低參數
第三,在使用梯度下降最小化
第四,雖然很多學習算法最小化公式(3)中的
在無監督方面,理論發展還不是很成熟。在第6節中我們介紹與平衡態力學(如自由能最小化)和非平衡態統計力學(如Jarzynski等式和不可逆過程中的熱耗散)有關的深層無監督學習的工作。