深度學習與統計力學(I) :深度學習中的基礎理論問題

2021-01-15 數據科學人工智慧

這是谷歌和斯坦福最新的一項合作研究綜述報告,發表在物理學的頂級期刊「凝聚態物理年鑑」(Annual Review of Condensed Matter Physics)。作者:Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli  


本公眾號將對本報告進行翻譯,分6次發布僅供參考。對英文原報告感興趣請在本公眾號回復關鍵詞「深度學習統計力學」。

深度神經網絡最近在機器學習方面取得了顯著的成功,這就對其成功背後的理論原理提出了深刻的問題。例如,這樣的深層網絡可以計算什麼?我們如何訓練他們?信息是如何通過它們傳播的?為什麼他們泛化能力很好?我們怎麼能教他們想像呢?

我們回顧了最近的工作,其中的物理分析方法植根於統計力學已經開始提供這些問題的概念見解。這些見解產生了深度學習與各種物理和數學主題之間的聯繫,包括隨機曲面、自旋玻璃、幹擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。事實上,統計力學和機器學習領域長期以來都有著豐富的強耦合相互作用的歷史,而統計力學和深度學習交叉點的最新進展表明,這些相互作用只會加深未來的發展。

系列預告深度學習統計力學(I) :深度學習中的基礎理論問題深度學習統計力學(IV) :深層網絡的信號傳播和初始化深度學習統計力學(VI) :通過概率模型進行「深度想像」1 介紹

深層神經網絡具有多個隱含層[1],在許多領域都取得了顯著的成功,從機器視覺[2]、語音識別[3]、自然語言處理[4]、強化學習[5],到神經科學[6、7]、心理學[8、9]和教育[10]中對動物和人類自身建模。然而,深層神經網絡的成功方法仍然是一門高度實踐的藝術,包含了許多啟發,而不是一門精確的科學。這給理論科學帶來了令人興奮的挑戰和機遇,使其能夠建立一種成熟的深神經網絡理論。這種理論在深度學習中足以指導廣泛的工程設計選擇。儘管我們目前還遠遠沒有任何這樣成熟的理論,但最近出現的統計力學和深度學習一系列交叉工作已經開始為深度網絡如何學習和計算提供理論見解,還提出了由這些理論見解驅動的新的和改進的深度學習方法。

我們對這些工作進行綜述,它們建立在統計力學和機器學習[11-15]之間長期而豐富的相互作用歷史的基礎上。有趣的是,正如我們下面討論的,這項工作在統計力學和深入學習之間建立了許多新的橋梁。在本節其餘部分中,我們將為機器學習的兩種主要分支提供框架。第一種是有監督學習,它涉及到從樣本中學習輸入輸出映射的過程。第二種是無監督學習,它涉及到學習和挖掘數據中隱藏的結構模式的過程。有了這兩個框架,我們在第1.3節中介紹本綜述中討論的幾個深入學習的基本理論問題,以及它們與統計力學相關的各種主題的聯繫。

1.1 有監督學習的總體框架

圖像分類是有監督學習的一個典型例子。在圖像分類問題中,需要學習從圖像的像素表示到該圖像的類標籤(例如貓、狗)的映射。為了學習這個映射,在一組圖像及其正確的類標籤上訓練一個神經網絡。這稱為有監督學習問題,因為在訓練過程中,網絡會得到正確的類標籤。事實上,深度學習如此普及的一個開創性進展就是深度網絡在圖像分類方面的重大突破[2]。

形式化地,最簡單的

其中

有監督學習任務可以表示為可能的輸入

其中損失函數

也即正確的答案

1.2 無監督學習的總體框架

除了學習輸入輸出映射,機器學習的另一個關鍵分支是無監督學習,涉及複雜數據結構的建模和理解。例如,我們如何描述自然圖像、聲音和語言的結構?如果我們能夠精確地對這些複雜數據的概率分布建模,那麼我們就可以生成自然數據,以及糾正圖像採集[16]、語音記錄[17]或人類語言生成[4]中的錯誤。

當然,圖像和聲音等複雜數據的分布不能用數學方法來描述,但我們通常可以得到

例如每個

無監督學習的目標是通過調整一簇分布

這種學習的原理是修改

當找到一個好的模型

有趣的是,選擇

1.3 深度學習中的基礎理論問題

有了上述有監督和無監督學習的最小框架,我們現在可以介紹深度學習領域的基本理論問題,以及如何用統計物理學的觀點闡明這些問題。在有監督方面,我們討論了四個問題。

首先,深度 我們在第二節中通過把有序和混沌之間的動態相變聯繫來解決這個問題。

第二,很多最小化公式(3)的訓練誤差的方法使用(隨機)梯度下降來降低參數 這個誤差曲面的形狀是怎樣的?我們何時能夠下降到低訓練誤差點? 我們將在第三節解決這些問題,並與淬火無序的能量景觀的統計力學建立了各種聯繫,包括隨機高斯場、自旋玻璃和幹擾等現象。實際上

第三,在使用梯度下降最小化 如何選擇隨機初始化來加速後續的梯度下降? 在第四節中,我們將展示使用隨機深網絡信號傳播的理論可以為好的初始化提供線索,並與隨機矩陣理論、自由概率和泛函路徑積分中的主題建立聯繫。

第四,雖然很多學習算法最小化公式(3)中的 什麼時候能夠獲得小的泛化誤差,特別是在參數數量 我們將在第5節中討論這個問題,並與隨機矩陣譜中的相變、自由場理論和接觸粒子系統等主題建立聯繫。

在無監督方面,理論發展還不是很成熟。在第6節中我們介紹與平衡態力學(如自由能最小化)和非平衡態統計力學(如Jarzynski等式和不可逆過程中的熱耗散)有關的深層無監督學習的工作。

相關焦點

  • 綜述 | Google-斯坦福發布~深度學習統計力學
    例如,這樣的深度網絡可以計算什麼?我們如何訓練它們?信息是如何通過它們傳播的?為什麼它們可以泛化?我們如何教它們想像?我們回顧了最近的工作,其中物理分析方法植根於統計力學已經開始提供這些問題的概念上的見解。這些見解產生了深度學習與各種物理和數學主題之間的聯繫,包括隨機景觀、旋轉玻璃、幹擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學。
  • 深度| 理解深度學習中的卷積
    文章高級部分通過流體力學量子力學等解釋卷積的做法在我看來有點激進,這些領域恐怕比卷積更深奧,所以只需簡略看看即可。以下是正文:卷積現在可能是深度學習中最重要的概念。正是靠著卷積和卷積神經網絡,深度學習才超越了幾乎其他所有的機器學習手段。但卷積為什麼如此強大?它的原理是什麼?在這篇博客中我將講解卷積及相關概念,幫助你徹底地理解它。
  • 一個簡單的深度學習模型,帶你深度了解背後原理
    全文共4431字,預計學習時長9分鐘深度學習是目前在實際數據科學應用中最流行的模型之一。從圖像到文本,再到語音/音樂等領域,它都是一個有效的模型。隨著使用量的上升,快速且可擴展地實現深度學習變得至關重要。Tensorflow等深度學習平臺的興起可以幫助簡化開發人員的實現方式。
  • 深度學習中權重衰減的偶然效應
    權重衰減無疑是深度學習的一個重要組成部分。這似乎是一個簡單方法的典型例子,其有效性經久不衰。然而,如果我們仔細觀察,就會發現一個巨大的驚喜:權重衰減在深度學習中的有效性更多地歸功於偶然性,而不是它最初的理論基礎。
  • 深度學習在統計機器翻譯和會話中的應用 |微軟IJCAI2016演講PPT
    編碼器-解碼器基礎方法是:一個編碼器RNN進行閱讀和將一個源句子編碼到固定長度的矢量中,一個解碼器RNN從編碼器矢量中輸出可變長度的翻譯,最後編碼器-解碼器RNNs聯合學習文本,優化目標可能性。排列和翻譯的聯合學習SMT編碼器-解碼器模型存在一個問題問題:壓縮源信息到一個固定長度矢量中,使得RNN很難複雜長句子。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。符號模型是自然科學的語言。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。
  • 「深度學習與統計學理論」研討會成功舉辦
    作為近年來人工智慧發展最迅猛的領域之一,深度學習通過分層網絡獲取分層次的特徵信息,除了在圖像、語音等領域裡獲得了比較成功的應用之外,也為統計學理論的研究創新打開了新的契口。2020年11月19日上午,由北京大學光華管理學院商務統計與經濟計量系主辦的「深度學習與統計學理論」研討會在北大光華成功舉辦。
  • 深度學習中的NumPy基礎
    默認情況下,在轉換 DataFrame 時,返回數組的 dtype 將是 DataFrame 中所有類型的公共 dtype。NumPy 數組專門用於處理數學問題。這個庫包含了一些數學輔助函數,這些函數可以讓你在不需要自己快速寫入的情況下完成這些計算。
  • 深度學習助力數據壓縮,一文讀懂相關理論
    2、基於深度學習的數據壓縮深度學習的引入有效解決了傳統方法存在的問題。壓縮過程為了從原始數據中學習 G、B 和 E,將每個分量參數化為深度神經網絡,並通過隨機梯度下降(SGD)求解相應的優化問題。如前所述,G*可以通過 WGAN 或 WAE 學習。由於 WAE 框架自然的包含了一個編碼器,它能保證潛在空間 Z 的結構易於編碼,而使用 WGAN 則不具有這樣的特性。
  • 深度學習和機器學習的線性代數入門
    在模型構建過程中,我們經常設計各種概念,例如維數災難、正則化、二進位、多分類、有序回歸等。神經元是深度學習的基本單位,該結構完全基於數學概念,即輸入和權重的乘積和。至於Sigmoid,ReLU等等激活函數也依賴於數學原理。
  • 深度學習筆記:深度學習——AlphaGo阿爾法狗
    它主要的原理就是深度學習。深度學習為其提供了可能。AlphaGo主要包括三個組成部分:蒙特卡洛搜索樹(MonteCarlo tree search,MCTS)估值網絡(Value network)策略網絡(Policy notebook)AlphaGo的一個大腦——策略網絡,通過深度學習在當前給定棋盤條件下,預測下一步在哪裡落子。
  • 深度學習與強化學習
    隨著 DeepMind 公司的崛起,深度學習和強化學習已經成為了人工智慧領域的熱門研究方向。
  • 反思深度學習與傳統計算機視覺的關係
    大量有關深度學習的成功或失敗事例給我們上了寶貴的一課,教會我們正確處理數據。在這篇文章中,我們將深入剖析深度學習的潛力,深度學習與經典計算機視覺的關係,以及深度學習用於關鍵應用程式的潛在危險。視覺問題的簡單與複雜首先,我們需要就視覺/計算機視覺問題提出一些看法。
  • 一文詳解深度學習中的Normalization:BN/LN/WN
    為什麼需要 Normalization——深度學習中的 Internal Covariate Shift 問題及其影響2. Normalization 的通用框架與基本思想——從主流 Normalization 方法中提煉出的抽象框架3.
  • Michael I. Jordan 撰文:不要被深度學習一葉障目不見泰山
    雷鋒網 AI 科技評論按:正如大家討論人工智慧時經常把它和機器學習甚至深度學習近似等價,工業界和學術界的許多研究、開發人員們也往往過於關注深度學習,忽略了實際上範圍更廣的機器學習和人工智慧領域還有許多有價值的問題等待研究。
  • 識字中的深度學習
    一些生字在課本中以隨文識字的方式呈現,並進行了字音、字形、字義方面的設計,充分發揮了語境識字的強大功能。同時,將漢字的筆畫、偏旁及筆順規則等相關基本知識穿插在每一個單元中,在課本要求掌握的生字上方都標註了筆順,在要寫的生字旁明確標註新出現的筆畫,在每一課的識字環節增設部首學習專欄,讓學生學會運用字理識字析詞,有助於學生形成良好的認字和寫字習慣。統編教材更加關注識字的基礎學習。
  • 李沐《動手學深度學習》第一章:機器學習簡介
    《動手學深度學習》是一本深度學習在線書,其使用 Apache MXNet 的最新 gluon 接口來演示如何從 0 開始實現深度學習的各個算法。作者利用 Jupyter notebook 能將文檔、代碼、公式和圖形統一在一起的優勢,提供了一個交互式的學習體驗。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    雷鋒網 AI 科技評論按:2019 年底、2020 年初,許多機器學習界活躍的教授、研究員們投身參與了一場的突如其來的討論:深度學習是什麼?在過去十年洶湧而來的深度學習浪潮中,大家對深度學習在應用中體現出的各種特點已經非常熟悉了,但畢竟深度學習的理論仍未建立完善。
  • 深度學習與圖像識別 圖像檢測
    來源:http://blog.csdn.net/omenglishuixiang1234/article/details/53305842  點擊閱讀原文直接進入主要做了基於深度學習的圖像識別與檢測的研究,下面是一些整理內容1、深度學習的優勢(1)從統計,計算的角度看,DL