雙下降真實發生,UW教授用統計學解釋偏差-方差權衡,LeCun轉推

2020-12-14 機器之心Pro

偏差—方差之間的權衡判讀對機器學習來說是非常重要的。在深度學習研究中,可能會遇到雙下降現象,認為這有悖於偏差—方差權衡。本文通過一個統計學的例子,對偏差—方差權衡展開了形象的解讀。

選自Twitter,作者:Daniela Witten,機器之心編譯,編輯:陳萍、杜偉

8 月初,華盛頓大學統計學與生物統計學教授 Daniela Witten 在推特上發帖介紹了「偏差 - 方差權衡」與「雙下降」之間的關係。這個帖子一經發出便收穫了很多點讚與轉發。

AI 大咖 Yann LeCun 也轉發了該貼,他高度稱讚了 Daniela Witten 教授對「雙下降」現象的解讀。LeCun 寫道:「這是對雙下降現象非常直觀的解釋。當模型能力『恰好』能夠產生零訓練誤差時,該現象導致測試誤差達到峰值。並且,峰值不會出現在多層網絡中,因為它們呈現隱式正則化。」

Daniela Witten 教授的解讀究竟有哪些獨到之處呢?她開篇是這樣介紹的:「還記得偏差—方差權衡嗎?它意味著模型在中等程度靈活性條件下表現良好。圖中可以看到 U 形測試誤差曲線。我們試圖找到靈活性的『最佳點』(Sweet Spot)」。

獨到的偏差 - 方差權衡解讀

上文中的 U 型測試誤差曲線基於以下公式:

隨著靈活性的增加,(平方)偏差減少,方差增加。「sweet spot」需要權衡偏差和方差,即具有中等程度靈活性的模型。

偏差 - 方差權衡不成立嗎?

過去的幾年中,尤其是在深度學習領域,已經出現雙下降現象。當你繼續擬合越來越靈活且對訓練數據進行插值處理的模型時,測試誤差會再次減小!

在深度學習的背景下,這一點似乎尤為突出(不過,正如我們看到的,這種情況在其他地方也會發生)。到底是怎麼回事?偏差—方差權衡是否成立?教科書都錯了嗎?或者是深度學習的魔力?

深度學習的雙下降現象,偏差 - 方差權衡成立

在這篇帖子裡,Daniela Witten 教授給出了合理的解釋。為了理解深度學習的雙下降現象,她列舉了一個與深度學習無關的簡單示例:自然三次樣條曲線(natural cubic spline)。

首先介紹一下什麼是樣條曲線?本質上,這是一種擬合模型 Y=f(X)+epsilon 的方法,f 是非參數的,由非常光滑的分段多項式構成。

為了擬合樣條曲線,Daniela 等人創建了一些基函數,然後通過最小二乘法將響應(response)Y 擬合到基函數上。所用基函數的數量與樣條曲線的自由度(degrees of freedom, DF)相同。基函數基本形式如下:

假設 n=20(X, Y),並且想用樣條曲線 Y = f(X)+ epsilon 估計 f(X)(此處 f(X)= sin(X)) 。

首先,Daniela 等人擬合了一個 4DF 的樣條曲線。n=20 時的觀測值為灰色小圓點,f(x) 為黑色曲線,擬合函數為淺藍色曲線。

然後擬合了一個 6DF 的樣條曲線。

接著嘗試擬合 20DF 的樣條曲線,這不是一個好主意。因為得到了 n=20 的觀測值,所以為了擬合 20DF 的樣條曲線,需要用 20 個特徵來運行最小二乘法!結果顯示在訓練集上零誤差,但在測試集上誤差非常大!這些糟糕的結果也非常符合偏差 - 方差權衡的預測。

雖然在 20DF 的測試結果非常差,但 Daniela 等人還是進行了 n=20,p=36DF 時的最小二乘法擬合。

這時 p>n,解是不唯一的。為了在無窮多個解中進行選擇,Daniela 等人選擇了「最小」範數擬合:係數平方和最小的那個(使用了大家最喜歡的矩陣分解 SVD,以實現輕鬆計算)

下圖為 n=20,p=36DF 的擬合結果。

欣慰的是,結果並沒有預期的那麼糟。下圖對比了 20DF 和 36DF 的結果,可見 36DF 的結果比 20DF 要好一點。這是什麼原因呢?

下圖是訓練誤差和測試誤差曲線,兩者的變化曲線差別非常大。以虛線為分界線,當 p>n 時,為什麼測試誤差(暫時)減少?這難道就是偏差 - 方差權衡所指的對立面嗎?

Daniela 等人給出了合理的解釋:關鍵在於 20DF,n=p 時,只有一個最小二乘擬合的訓練誤差為零。這種擬合會出現大量的振蕩。

但是當增加 DF,使得 p>n 時,則會出現大量的插值最小二乘擬合。最小範數的最小二乘擬合是這無數多個擬合中振蕩最小的,甚至比 p=n 時的擬合更穩定。

所以,選擇最小範數最小二乘擬合實際上意味著 36DF 的樣條曲線比 20DF 的樣條曲線的靈活性差。

現在,如果在擬合樣條曲線時使用了脊懲罰(ridge penalty),而不是最小二乘,結果會怎麼樣呢?這時將不會有插值訓練集,也不會看到雙下降,而且會得到更好的測試誤差(前提是正確的調整參數值!)

總結

所以,這些與深度學習有何關係?當使用(隨機)梯度下降法來擬合神經網絡時,實際上是在挑選最小範數解!因此,樣條曲線示例非常類似於神經網絡雙下降時發生的情況。

因此雙下降是真實發生的,並不是深度學習魔法。通過統計 - ML 和偏差 - 方差權衡可以理解它。一切都不是魔法,只是統計在發揮作用。

原文連結:

https://threadreaderapp.com/thread/1292293102103748609.html

相關焦點

  • 社工統計學雜記3:單變量、雙變量、多變量分析
    同樣,很多社工學人經常對統計學望而卻步,就是因為被各種名稱唬住了。今天熙子老師跟大家用簡單的語言,跟大家聊聊統計分析的基本概念:那就是單變量,雙變量及多變量分析。對連續變量的描述側重於集中趨勢和變異度,前者包括平均數、中位數(也稱50百分位數)、眾數,後者包括標準差、方差、平方和、全距。對離散變量的描述多用百分比。雙變量的分析關注兩個變量(主要是因變量和解釋變量)之間的關係。最常用的有檢驗兩個連續變量相互關係的協方差和相關係數,以及檢驗兩個離散變量相互關係的列聯表和卡方分析。
  • 數據分析必備——統計學入門基礎知識
    統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。 但是,統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識,對於具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從數據到結論》等專業書籍。 統計學分為描述性統計學和推斷性統計學。
  • 【華泰金工林曉明團隊】不同協方差估計方法對比分析
    樣本協方差是真實協方差的漸進無偏估計,但觀測樣本較少時估計誤差大  多元正態分布假設下,樣本協方差是真實協方差矩陣的漸進、無偏估計量,當觀測樣本足夠長時,樣本協方差會收斂到真實協方差矩陣;只有當觀測長度相比於資產維度不夠時,才需要引入複雜協方差估計方法。
  • 如何用Excel做方差分析
    我們可以用一種新型的檢驗——F檢驗來檢驗兩個樣本之間的方差齊性。為了運用這一檢驗,我們必須假定這兩個樣本都是從正態分布的母體中抽取的。我們檢驗的假設是:為了檢驗這些假設,我們從母體1中選擇了包含n1個觀察值的樣本,從母體2中選擇了包含n2個觀察值的樣本。
  • 方差分析F檢驗結果如何解讀?
    數據的誤差用平方和來表示,總的平方和可以稱為是總方差。那麼總方差依據系統誤差和隨機誤差分解為組間方差與組內方差。 以最簡單的單因素方差分析為例,大家看看方差分析中涉及到的統計計算:
  • 小知識:高斯概率分布的數學解釋
    我們世界中的各種物理過程都表現出一定程度的隨機性,這種隨機性經常用在自然和社會科學中所代表的不明的隨機變量來表示。標準偏差的較大值將要求x值與平均值相差較遠,從而明顯降低y值。另一方面,當標準偏差較小時,x值與平均值的微小偏差將使y值更快地趨向於零。如果繪製幾個不同標準差的曲線圖形,以查看均值和標準差的影響作用,如下圖所示。
  • 教程| 從特徵分解到協方差矩陣:詳細剖析和實現PCA算法
    機器之心編譯參與:蔣思源本文先簡要明了地介紹了特徵向量和其與矩陣的關係,然後再以其為基礎解釋協方差矩陣和主成分分析法的基本概念,最後我們結合協方差矩陣和主成分分析法實現數據降維。本文不僅僅是從理論上闡述各種重要概念,同時最後還一步步使用 Python 實現數據降維。首先本文的特徵向量是數學概念上的特徵向量,並不是指由輸入特徵值所組成的向量。
  • 統計學 5 個基本概念,你知道多少?
    1 特徵統計 特徵統計可能是數據科學中最常用的統計學概念。它是你在研究數據集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特徵統計並且在代碼中實現都是非常容易的。
  • 統計學知識大梳理(終極篇)
    學過統計的人,當看到這樣的數字的時候,就會多問幾個為什麼,就能明白數字背後的真實含義了。用數據說話,讓你的說服力爆表。現在職場上的人們,誰不要給領導匯報工作,或者團隊之間討論問題。當你匯報和討論的時候,光說,「我覺得」,「我保證」,「根據我的經驗」,這些個詞太沒有信服力了。必須說數據,擺事實。利用清晰的數據傳達具有強有力說服的信息。
  • 方差檢驗專題及常見問題 - CSDN
    >提示:以下是本篇文章正文內容,下面案例可供參考一、假設檢驗假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法,是分析統計數據、構建統計模型進行決策支持的基石。這種假設叫科學假設,用統計學術語表示時叫研究假設,也叫備擇假設,記作H 1 。與研究假設對立的是零假設,或稱原假設、虛無假設,記作 H 0。2. 原假設與研究假設的關係:3. 區分兩種假設一般有等於(=)號的作為 原假設4. 假設檢驗統計決策的原理假設檢驗統計決策的原理是「小概率事件原理」。
  • spss協方差分析
    什麼是協方差分析?協方差分析又稱「共變量分析」,是方差分析的引申和擴大。基本原理是將線性回歸與方差分析結合起來,調整各組平均數和 F 檢驗的實驗誤差項,檢驗兩個或多個調整平均數有無顯著差異,以便控制在實驗中影響實驗效應(因變量)而無法人為控制的協變量(與因變量有密切回歸關係的變量)在方差分析中的影響。好吧,聽不懂。簡單舉個例子來說:有一項研究,想知道男生和女生在跑步後的心率是否有差異。
  • 自由度統計學和計量經濟學
    統計學上的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。統計學上的自由度包括兩方面的內容:  首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n.
  • 數據分析中常犯的18個統計學錯誤,請務必跳過這些坑
    在數據分析的過程中我們經常會用到很多的統計學知識,但有很多統計學知識經常有人用錯,從而導致分析結果不盡如人意,今天就給大家列舉了18個容易錯的統計學知識點,建議大家收藏留著以後慢慢看:1. 變量之間關係可以分為兩類:函數關係:反映了事物之間某種確定性關係。
  • 精益六西格瑪管理-假設檢驗-單因子方差分析
    這類問題可以用方差分析的方法來解決。為了表述方便,這裡先給出在以後實驗設計中經常會遇到的幾個概念因子對指標有影響的因素稱為因子,通常情況下,我們約定用大寫字母來表示因子。單因子方差分析的模型假設在一個實驗中只考察一個因子A,它有r個水平,在每一水平下進行m次重複實驗,其結果用yi1, yi2,……yim(i=1,2,…..r)表示。記第i水平下的數據和為Ti,數據均值為y-bar(i),總的均值為y-bar。此時共有n=rxm個數據。常常把數據列成表格形式。
  • StatQuest生物統計學專題 - p值
    檢驗此時的p值,單尾檢驗0.03,是顯著的,然而雙尾檢驗卻是0.06,怎麼辦,辛辛苦苦做來的實驗數據,不就是為了獲得顯著性?是否應該直接選用單尾檢驗?statquest-II-1先看一下此例子中單尾檢驗和雙尾檢驗的含義,單尾檢驗是用於檢驗新療法是不是好於對照療法,而雙尾檢驗是用於檢驗新療法是「好於」、「壞於」還是「無統計學差異於」對照療法。
  • 實戰:用Python實現隨機森林
    因為有Scikit-Learn這樣的庫,現在用Python實現任何機器學習算法都非常容易。實際上,我們現在不需要任何潛在的知識來了解模型如何工作。雖然不需要了解所有細節,但了解模型如何訓練和預測對工作仍有幫助。比如:如果性能不如預期,我們可以診斷模型或當我們想要說服其他人使用我們的模型時,我們可以向他們解釋模型如何做出決策的。
  • 精益六西格瑪管理-假設檢驗-兩因子方差分析
    假定不同條件下墊片的斷裂強度分別服從等方差正態分布。問:不同生產線即不同文圖對墊片的斷裂強度均值有無顯著影響,如果有影響,那麼在什麼條件下墊片的斷裂強度達到最大?設在Ai與Bj條件下的實驗結果用yij來表示,他們相互獨立,Ai水平下的均值用y-bar(i*)標誌(行平均),Bj水平下的均值用y-bar(*j)表示(列平均),總的數據均值用y-bar表示。類似於單因子方差分析,可以進行平方和分解,知識現在數據的總偏差平方和SST可以分解稱三項。其中,SSA, SSB, Sse分別稱為因子A, 因子B及誤差的偏差平方和。