雙下降真實發生,UW教授用統計學解釋偏差-方差權衡,LeCun轉推

2020-12-11 機器之心Pro

偏差—方差之間的權衡判讀對機器學習來說是非常重要的。在深度學習研究中,可能會遇到雙下降現象,認為這有悖於偏差—方差權衡。本文通過一個統計學的例子,對偏差—方差權衡展開了形象的解讀。

選自Twitter,作者:Daniela Witten,機器之心編譯,編輯:陳萍、杜偉

8 月初,華盛頓大學統計學與生物統計學教授 Daniela Witten 在推特上發帖介紹了「偏差 - 方差權衡」與「雙下降」之間的關係。這個帖子一經發出便收穫了很多點讚與轉發。

AI 大咖 Yann LeCun 也轉發了該貼,他高度稱讚了 Daniela Witten 教授對「雙下降」現象的解讀。LeCun 寫道:「這是對雙下降現象非常直觀的解釋。當模型能力『恰好』能夠產生零訓練誤差時,該現象導致測試誤差達到峰值。並且,峰值不會出現在多層網絡中,因為它們呈現隱式正則化。」

Daniela Witten 教授的解讀究竟有哪些獨到之處呢?她開篇是這樣介紹的:「還記得偏差—方差權衡嗎?它意味著模型在中等程度靈活性條件下表現良好。圖中可以看到 U 形測試誤差曲線。我們試圖找到靈活性的『最佳點』(Sweet Spot)」。

獨到的偏差 - 方差權衡解讀

上文中的 U 型測試誤差曲線基於以下公式:

隨著靈活性的增加,(平方)偏差減少,方差增加。「sweet spot」需要權衡偏差和方差,即具有中等程度靈活性的模型。

偏差 - 方差權衡不成立嗎?

過去的幾年中,尤其是在深度學習領域,已經出現雙下降現象。當你繼續擬合越來越靈活且對訓練數據進行插值處理的模型時,測試誤差會再次減小!

在深度學習的背景下,這一點似乎尤為突出(不過,正如我們看到的,這種情況在其他地方也會發生)。到底是怎麼回事?偏差—方差權衡是否成立?教科書都錯了嗎?或者是深度學習的魔力?

深度學習的雙下降現象,偏差 - 方差權衡成立

在這篇帖子裡,Daniela Witten 教授給出了合理的解釋。為了理解深度學習的雙下降現象,她列舉了一個與深度學習無關的簡單示例:自然三次樣條曲線(natural cubic spline)。

首先介紹一下什麼是樣條曲線?本質上,這是一種擬合模型 Y=f(X)+epsilon 的方法,f 是非參數的,由非常光滑的分段多項式構成。

為了擬合樣條曲線,Daniela 等人創建了一些基函數,然後通過最小二乘法將響應(response)Y 擬合到基函數上。所用基函數的數量與樣條曲線的自由度(degrees of freedom, DF)相同。基函數基本形式如下:

假設 n=20(X, Y),並且想用樣條曲線 Y = f(X)+ epsilon 估計 f(X)(此處 f(X)= sin(X)) 。

首先,Daniela 等人擬合了一個 4DF 的樣條曲線。n=20 時的觀測值為灰色小圓點,f(x) 為黑色曲線,擬合函數為淺藍色曲線。

然後擬合了一個 6DF 的樣條曲線。

接著嘗試擬合 20DF 的樣條曲線,這不是一個好主意。因為得到了 n=20 的觀測值,所以為了擬合 20DF 的樣條曲線,需要用 20 個特徵來運行最小二乘法!結果顯示在訓練集上零誤差,但在測試集上誤差非常大!這些糟糕的結果也非常符合偏差 - 方差權衡的預測。

雖然在 20DF 的測試結果非常差,但 Daniela 等人還是進行了 n=20,p=36DF 時的最小二乘法擬合。

這時 p>n,解是不唯一的。為了在無窮多個解中進行選擇,Daniela 等人選擇了「最小」範數擬合:係數平方和最小的那個(使用了大家最喜歡的矩陣分解 SVD,以實現輕鬆計算)

下圖為 n=20,p=36DF 的擬合結果。

欣慰的是,結果並沒有預期的那麼糟。下圖對比了 20DF 和 36DF 的結果,可見 36DF 的結果比 20DF 要好一點。這是什麼原因呢?

下圖是訓練誤差和測試誤差曲線,兩者的變化曲線差別非常大。以虛線為分界線,當 p>n 時,為什麼測試誤差(暫時)減少?這難道就是偏差 - 方差權衡所指的對立面嗎?

Daniela 等人給出了合理的解釋:關鍵在於 20DF,n=p 時,只有一個最小二乘擬合的訓練誤差為零。這種擬合會出現大量的振蕩。

但是當增加 DF,使得 p>n 時,則會出現大量的插值最小二乘擬合。最小範數的最小二乘擬合是這無數多個擬合中振蕩最小的,甚至比 p=n 時的擬合更穩定。

所以,選擇最小範數最小二乘擬合實際上意味著 36DF 的樣條曲線比 20DF 的樣條曲線的靈活性差。

現在,如果在擬合樣條曲線時使用了脊懲罰(ridge penalty),而不是最小二乘,結果會怎麼樣呢?這時將不會有插值訓練集,也不會看到雙下降,而且會得到更好的測試誤差(前提是正確的調整參數值!)

總結

所以,這些與深度學習有何關係?當使用(隨機)梯度下降法來擬合神經網絡時,實際上是在挑選最小範數解!因此,樣條曲線示例非常類似於神經網絡雙下降時發生的情況。

因此雙下降是真實發生的,並不是深度學習魔法。通過統計 - ML 和偏差 - 方差權衡可以理解它。一切都不是魔法,只是統計在發揮作用。

原文連結:

https://threadreaderapp.com/thread/1292293102103748609.html

相關焦點

  • 乾貨 :教你用Python來計算偏差-方差權衡
    衡量一個機器學習模型的性能,可以用偏差和方差作為依據。一個高偏差的模型,總是會對數據分布做出強假設,比如線性回歸。而一個高方差的模型,總是會過度依賴於它的訓練集,例如未修剪的決策樹。我們希望一個模型的偏差和方差都很低,但更多情況下我們需要在二者之間做出權衡。在選擇和調整模型時,「偏差-方差權衡」是一個非常有用的概念。
  • 協方差(covariance)與相關係數(2)|統計學專題
    將配對的數據用藍色的小圓點表示,並使用直線展示gene x與gene y表達水平之間的相關趨勢。基於該趨勢,可以用gene x預測gene y的可能取值範圍,也可用gene y預測gene x的可能取值範圍。
  • 《生物統計學》部分名詞解釋/簡答匯總
    隨機誤差也稱為抽樣誤差或偶然誤差,它是由於試驗中許多無法控制的偶然因素所造成的試驗結果與真實結果之間的差異,是不可避免的。隨機誤差可以通過試驗設計和精心管理設法減小,但不能完全消除。系統誤差也稱為片面誤差,是由於試驗處理以外的其他條件明顯不一致所產生的有傾向性的或定向性的偏差。
  • 為什麼樣本方差要除以n-1?
    因此,這次我對林澤民教授的文章的解讀,我是咀嚼嚼爛之後,統一換成我們內地的叫法。這樣讀者閱讀起來就不容易頭暈!首先,學過統計學的童鞋,都學過這樣1個公式,就是樣本方差我相信肯定有讀者和我一樣問過,為啥代表樣本的方差分母是n-1?我也相信你肯定被回答過,這是因為自由度的緣故。
  • 信號處理中的平均偏差,標準偏差和方差
    量化偏差時,我的第一個直覺是找到每個數據點與平均值之間的距離,然後計算所有這些距離的平均值。這將為您提供平均偏差(也稱為平均絕對偏差),即,值偏離中心趨勢的典型量。這是數學語言中的平均偏差: 方差和標準偏差在電氣工程中,平均偏差的問題在於我們正在平均電壓(或電流)差,因此我們在幅度範圍內進行操作。噪聲現象的本質是,在分析噪聲時,我們強調幅度上的功率,因此,我們需要一種在功率範圍內運行的統計技術。幸運的是,這很容易實現。功率與電壓或電流的平方成正比,因此,我們要做的就是在求和和求平均值之前將差項平方。
  • 數據分析統計學基礎
    統計學在數據分析的地位不言而喻,作為數據分析師必備入門基礎知識,小編本次推文,就給大家介紹幾種在統計學中常見的假設檢驗。
  • 理解Bias(偏差),Error(誤差),和Variance(方差)的區別和聯繫?
    在概率論和統計學中方差是衡量隨機變量或一組數據時離散程度的度量。以上就是我對Bias(偏差),Error(誤差),和Variance(方差)的一些簡單理解,圖全是截取自李宏毅的PPT中。最近聽機器學習課程時聽到這三個概念一開始有點模糊。感覺沒理解透,所以自己又查了點資料,消化了一下,然後做了個筆記。
  • 分享丨如何正確區分誤差、不確定度、精密度、準確度、偏差、方差?
    由於系統誤差和隨機誤差是兩個性質不同的量,前者用標準偏差或其倍數表示,後者用可能產生的最大誤差表示。數學上無法解決兩個不同性質的量之間的合成問題。因此,長期以來誤差的合成方法上一直無法統一。這使得不同的測量結果之間缺乏可比性。測量不確定度為「表徵合理地賦予被測量之值的分散性,與測量結果想聯繫的參數」。
  • 統計學中離散變量與連續變量 - CSDN
    (2)條件單獨時間在給定區間內隨機、獨立地發生,給定區間可以是時間或空間。一直該區間內的時間平均發生的次數(或者叫做發生率),且為有限數值。該時間平均發生次數通常用希臘字母λ表示。(3)表示X∼Po(λ)給定區間內發生r次時間的概率是:(4)計算公式期望:E(X)=λ方差:Var(X)=λ離散型概率分布這一節的標引內容轉載自[小野仙蹤]的《概率論與統計學:離散型和連續型隨機變量的概率分布》,https://zhuanlan.zhihu.com/p/38224194;
  • SPSS超詳細教程:雙因素方差分析(Two-way ANOVA)
    因為沒有可以替代雙因素方差分析的非參數檢驗方法,我們只能對比數據轉換前後的模型,判斷直接採用雙因素方差分析是否合理;  (4) 選擇更穩健的雙因素方差模型。  3.2.4 假設6:任一分類都具有等方差性  任一分類都具有等方差性是雙因素方差分析的基本假設,可以通過Levene方差齊性檢驗完成。
  • 為什麼樣本方差的分母是 n-1?
    而偏差稅這個詞和智商稅不一樣,不論我們的智商高低,人人都會有偏見,事事都會出偏差,這個稅每個人都在交。例如,股票市場上的散戶,迷信中醫和保健品的大爺大媽,輕信謠言的吃瓜群眾,……,幾乎無人可以倖免,都在為樣本偏差付出代價。推薦一個TED演講《為什麼應該熱衷於統計學》。看完就知道人們對這個世界的偏差有多大了。
  • 統計學必知:標準差&方差
    如果說期望表示的是分布的中心位置,那麼方差就是分布的離散程度。方差越大,說明隨機變量取值越離散。      數學上,我們用方差來代表一組數據或者某個概率分布的離散程度。可見,方差是獨立於期望的另一個對分布的度量。兩個分布,完全可能有相同的期望,而方差不同,正如我們上面的箭靶。
  • 【科研加油站】SPSS操作之雙因素方差分析(Two-way ANOVA)
    也有研究者存在質疑,既然交互項沒有統計學意義,是否還需要在模型中保留交互項?考慮到研究樣本推論總體的可信性,我們仍建議在雙因素方差模型中保留交互項,供大家參考。那麼針對不同的雙因素方差模型,我們應該如何解釋主效應結果呢?
  • 如何理解統計學中的「估計」,用Excel來幫助你學習
    估計涉及使用樣本數據來估計某個未知的母體參數的值,比如母體平均值、母體比例,或母體方差。估計量是指用來估計母體參數的量數,例如,我們使用樣本平均值來估計母體平均值。用樣本方差來估計母體方差以及用樣本比例來估計母體比例。
  • 方差分析應用
    那麼如果不是兩組樣本,而是三組(或以上)的樣本,想要比較組間均數時,就要用方差分析了。下面還是用例子來說話吧~一年級開學了,這個班級的小朋友來自三個區縣,比較三個區縣(分組)小朋友的身高。SPSS中建的資料庫如下:Group為分組,x為每個學生的身高。
  • 統計學:如何檢驗方差齊性?
    常用的方法有:方差比、Hartley檢驗、Levene檢驗、BF法、Bartlett檢驗。方差比顧名思義就是兩組方差的比,用較大一組的方差除較小一組的方差,最後得到一個F值,然後根據F值的大小來判斷兩組之間的方差是否相等。F值越大,則認為兩組方差越不相等。
  • 為什麼理想和現實總存在偏差?關鍵就是兩個字:概率
    這其中的關鍵是,如何解釋真實情況和理想中的概率之間的偏差。我們還看這個實驗,事實上,如果試驗次數N比較大,那中間就是一個大鼓包,然後快速下降,兩旁幾乎是零,這也就是說事件A發生的次數在N*p左右的可能性極大,其它的可能性極小。相反,如果總次數N比較小,中間的鼓包就比較平緩,兩頭的值雖然小,但不會是零,其實難以判定事件A到底發生了多少次。
  • Graphpad 科學統計:美味的包子和方差分析
    graphpad能夠直接完成正態分布檢驗。T檢驗就不是這麼牛逼了,所以,我今天給大家帶來分析三組及以上數據差異性的方法——方差檢驗。以上便是方差分析的分類,看著這麼多的分類,再想想T檢驗,是不是有種噁心的感覺?別慌,韜老鐵給你細細道來。      方差分析,又叫ANOVA(阿諾娃),它為什麼取了這個寒磣的名字的?
  • 醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析
    這期厲害了,統計學方法的靈魂,大家一起來聽劉嶺教授說一說方差分析。除去沒有顯著意義的比較組外,其餘各比較組間差異均有統計學意義(顯著性水準=0.05)。本例第1亞集表示對照組與藥物組間差異無統計學意義;第2亞集表示鍛鍊組與藥物組間差異無統計學意義;而對照組與鍛鍊組間差異有統計學意義。
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學是機器學習算法的基礎。重要的是了解各種機器學習算法背後的技術,進而知道如何以及何時使用它們。那麼統計學到底是什麼?統計學是一門與數據收集、分析、解釋和表示有關的數學科學。方差:它描述了一個隨機變量與其期望值的差異,需要計算偏差的平方。偏差是每個元素與平均值之間的差異。