ML/DL重要基礎概念:偏差和方差

2021-01-19 數據科學家聯盟
0x00 前言

在機器學習中,過擬合和欠擬合都會使訓練好的機器學習模型在真實的數據中出現錯誤。我們可以將錯誤分為偏差(Bias)方差(Variance)兩類。下面就來看看偏差和方差的定義、產生原因以及二者之間如何權衡。

0x01 偏差和方差的定義

偏差和方差的定義如下:

偏差(bias):偏差衡量了模型的預測值與實際值之間的偏離關係。例如某模型的準確度為96%,則說明是低偏差;反之,如果準確度只有70%,則說明是高偏差。

方差(variance):方差描述的是訓練數據在不同迭代階段的訓練模型中,預測值的變化波動情況(或稱之為離散情況)。從數學角度看,可以理解為每個預測值與預測均值差的平方和的再求平均數。通常在模型訓練中,初始階段模型複雜度不高,為低方差;隨著訓練量加大,模型逐步擬合訓練數據,複雜度開始變高,此時方差會逐漸變高。

也可以通過下面的圖片直觀理解偏差和方差:

如左下角的「打靶圖」,假設我們的目標是中心的紅點,所有的預測值都偏離了目標位置,這就是偏差;在右上角的「打靶圖」中,預測值圍繞著紅色中心周圍,沒有大的偏差,但是整體太分散了,不集中,這就是方差。

以上四種情況:

低偏差,低方差:這是訓練的理想模型,此時藍色點集基本落在靶心範圍內,且數據離散程度小,基本在靶心範圍內;低偏差,高方差:這是深度學習面臨的最大問題,過擬合了。也就是模型太貼合訓練數據了,導致其泛化(或通用)能力差,若遇到測試集,則準確度下降的厲害;高偏差,高方差:這是訓練最糟糕的情況,準確度差,數據的離散程度也差。0x02 模型誤差

模型誤差 = 偏差 + 方差 + 不可避免的誤差(噪音)。一般來說,隨著模型複雜度的增加,方差會逐漸增大,偏差會逐漸減小,見下圖:

0x03 偏差方差產生的原因

一個模型有偏差,主要的原因可能是對問題本身的假設是不正確的,或者欠擬合。如:針對非線性的問題使用線性回歸;或者採用的特徵和問題完全沒有關係,如用學生姓名預測考試成績,就會導致高偏差。

方差表現為數據的一點點擾動就會較大地影響模型。即模型沒有完全學習到問題的本質,而學習到很多噪音。通常原因可能是使用的模型太複雜,如:使用高階多項式回歸,也就是過擬合。

有一些算法天生就是高方差的算法,如kNN算法。非參數學習算法通常都是高方差,因為不對數據進行任何假設。

有一些算法天生就是高偏差算法,如線性回歸。參數學習算法通常都是高偏差算法,因為對數據有跡象。

0x04 偏差與方差的權衡

偏差和方差通常是矛盾的。降低偏差,會提高方差;降低方差,會提高偏差。

這就需要在偏差和方差之間保持一個平衡。

以多項式回歸模型為例,我們可以選擇不同的多項式的次數,來觀察多項式次數對模型偏差&方差的影響:

多項式次數模型複雜度方差偏差過/欠擬合低低低高欠擬合中中中中適度高高高低過擬合

下面是多項式次數對訓練誤差/測試誤差的影響:

多項式次數模型複雜度訓練誤差測試誤差低低高高中中中低高高低高

關於解決方差和偏差的問題中:

我們要知道偏差和方差是無法完全避免的,只能儘量減少其影響。

在避免偏差時,需儘量選擇正確的模型,一個非線性問題而我們一直用線性模型去解決,那無論如何,高偏差是無法避免的。有了正確的模型,我們還要慎重選擇數據集的大小,通常數據集越大越好,但大到數據集已經對整體所有數據有了一定的代表性後,再多的數據已經不能提升模型了,反而會帶來計算量的增加。而訓練數據太小一定是不好的,這會帶來過擬合,模型複雜度太高,方差很大,不同數據集訓練出來的模型變化非常大。最後,要選擇合適的模型複雜度,複雜度高的模型通常對訓練數據有很好的擬合能力。

其實在機器學習領域,主要的挑戰來自方差。處理高方差的手段有:

0xFF 總結

偏差衡量了模型的預測值與實際值之間的偏離關係,主要的原因可能是對問題本身的假設是不正確的,或者欠擬合。方差描述的是模型預測值的變化波動情況(或稱之為離散情況),模型沒有完全學習到問題的本質,通常原因可能是使用的模型太複雜,過擬合。

參數或者線性的算法一般是高偏差低方差;非參數或者非線性的算法一般是低偏差高方差。所以我們需要調整參數來去衡量方差和偏差的關係。


Long-press QR code to transfer me a reward

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • ML基礎:協方差矩陣!
    在翻譯sklearn文檔 2.無監督學習部分過程中,發現協方差矩陣幾乎貫穿整個章節,但sklearn指導手冊把協方差部分放在了這一章節偏後的部分,作為機器學習一個基礎概念,在這篇文章中,想把協方差矩陣的相關知識以及主要應用。統計學中常用平均值,方差,標準差等描述數據。
  • 谷歌工程師講解ML和DL中的正則化技術
    對減少ML和DL模型訓練所需的計算時間和工時的技術的簡單而全面的解析。概述:現在,隨著行業開始接受「人工智慧」作為預測公司成功的重要組成部分,機器學習和深度學習技術正在進入公司的職位清單。訓練損失為零但測試損失增加的地方了解偏差-方差折衷和正則化的需求:偏差是數學上函數的期望值和實際值之間的差。
  • 分享丨如何正確區分誤差、不確定度、精密度、準確度、偏差、方差?
    在日常分析測試工作中,測量誤差、測量不確定度、精密度、準確度、偏差、方差等是經常運用的術語,它直接關係到測量結果的可靠程度和量值的準確一致。如何區分這些概念呢?一起來看看吧!傳統的方法多是用精密度和準確度來衡量。但是,通常說的準確度和誤差只是一個定性的、理想化的概念,因為實際樣品的真值是不知道的。而精密度只是表示最終測定數據的重複性,不能真正衡量其測定的可靠程度。
  • 理解Bias(偏差),Error(誤差),和Variance(方差)的區別和聯繫?
    其實通過這個我感覺可以更容易的理解這個概念,我們知道Bias是受算法模型的複雜度決定的,假設下圖的紅線是我們給出的模型,藍色的點就是樣本,這是一個最簡單的線性模型,這個時候Bias就可以通過這些藍色的點到紅線沿Y軸的垂直距離來反映(即真實值與模型輸出的誤差),距離越大說明Bias越大,也說明擬合度更低。在概率論和統計學中方差是衡量隨機變量或一組數據時離散程度的度量。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    幾個非常常見的統計學概念,簡單粗暴的基礎概念,初步理解。方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 方差與標準差:衡量數據的離散程度
    方差和標準差是統計和概率中重要參數科學家發現了現實中很多情況,如果只用平均值沒有任何參考意義,甚至會誤導決策的判斷,歷史上由羅納德
  • 教程| 從特徵分解到協方差矩陣:詳細剖析和實現PCA算法
    機器之心編譯參與:蔣思源本文先簡要明了地介紹了特徵向量和其與矩陣的關係,然後再以其為基礎解釋協方差矩陣和主成分分析法的基本概念,最後我們結合協方差矩陣和主成分分析法實現數據降維。本文不僅僅是從理論上闡述各種重要概念,同時最後還一步步使用 Python 實現數據降維。首先本文的特徵向量是數學概念上的特徵向量,並不是指由輸入特徵值所組成的向量。
  • 急性腎損傷概念和診斷標準的變遷
    和Beall 提出「擠壓症候群」的概念;「ARF」的概念於1951年首次正式提出,隨後被廣泛應用。鑑於此,近年來國際腎臟病、急救和重症醫學界提出用AKI 來取代ARF 的概念,並試圖建立統一的AKI 診斷和分類標準。AKI 的概念及診斷標準的變化經歷了以下幾個階段:1.
  • 方差的計算公式 方差和標準差公式等
    方差的計算公式,方差和標準差公式,方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 方差的計算公式 平方差及方差和標準差公式
    方差的計算公式   方差和標準差公式 方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 機器學習從入門到進階丨統計學習的關鍵概念
    這些都是學習和準備未知測試的過程或者工具。 機器學習也使用類似的概念進行學習。數據一般是有限的,因此在使用數據時需要謹慎。這個假設引入了偏差誤差。假設是一致的,即將1加到輸出。這意味著Raj的模型低偏差; Raj的模型導致輸出始終與實際相距1。這意味著他的模型具有低方差; Bob的模型輸出結果毫無規律,他的模型輸出與實際值偏差很大。
  • 均值和方差
    對一次抽樣獲得的所有樣本值,我們可以用均值來評估個體某個特徵的大小,用方差來評估此次抽樣樣本值的波動性。假設抽樣所獲得的n個樣本值為那麼其樣本均值定義為又稱為算術平均值,可用於評估個體的某項特徵的大小。當樣本值普遍較大時,求出的均值就會比較大。樣本方差定義為即先求出每個樣本值與均值的差值的平方,然後再求出其均值。
  • 概念理解:通俗的「過擬合與欠擬合」直觀解釋
    ,並解釋了方差與偏差的概念,並介紹了克服模型過擬合與欠擬合的方法——驗證集。在數據科學中,過擬合模型被解釋為在訓練集上具有高方差(high variance)和低偏差(low bias),導致新測試數據泛化能力不佳。我們可以用學習英語的過程來簡化「過擬合」概念的理解。我們要建立的模型是如何使用英語進行交流。我們的訓練數據是莎士比亞的全部作品,我們的測試集是在紐約與人交流。
  • 常用數據分析方法:方差分析及實現!
    方差分析是一種常用的數據分析方法,其目的是通過數據分析找出對該事物有顯著影響的因素、各因素之間的交互作用及顯著影響因素的最佳水平等。本文介紹了方差分析的基礎概念,詳細講解了單因素方差分析、雙因素方差分析的原理,並且給出了它們的python實踐代碼。
  • 2020年考研數學複習之概率論與數理統計的基礎基本概念
    小編整理了概率論與數理統計基本概念這一部分的總結,希望能夠給準備考研的同學一點點幫助。概率論與數理統計這一部分內容是研究生考試中,廣大考生感到困難同時又是非常重要的一部分。數理統計部分在考研真題形式和所佔比重相對固定,題型一般都是兩個選擇題,一個填空題和兩個解答題總共是34分。縱觀近十年來的考研真題,每年考研數學一的第23題(最後一道壓軸題)都是數理統計的題目。
  • 測量不確定度基礎知識
    六、合成標準不確定度 合成標準不確定度定義為「當測量結果是由若干個其他量的值求得時,按其他各量的方差或(和)協方差算得的標準不確定度」。 合成標準不確定度是測量結果標準差的估計值,用符號uC表示。
  • 誤區解讀:ML和DL之間的區別和使用情況
    但是,在機器學習和深度學習的定義和用例方面,市場上存在很多混淆,現在讓我們來澄清一下混淆。  ·人工智慧(AI)是模擬和模仿計算機系統和機器中的智能人類行為的研究。  ·機器學習是AI的一個子領域,它使用算法將AI概念應用到計算系統中。計算機識別並根據數據模式採取行動,隨著時間的推移學習提高其準確性,無需明確的編程機器學習背後的分析,如預測編碼、集群和視覺熱圖。
  • 方差分析時方差不齊次怎麼辦?
    各處理條件下樣本來自正態分布總體、樣本方差相同即方差齊次,這是方差分析兩個極其重要的前提條件。此處最容易遇到的問題是:不滿足正態性,或者方差不齊時怎麼辦?今天小兵給讀者夥伴們精選兩篇文章來解答這個問題。真的!單因素方差分析你用錯了!↑點擊上方文章標題,閱讀原文。
  • 最直觀的方差分析(ANOVA) 術語大全
    基礎概念非常清晰明了,有豁然開朗之感。文章來源:https://zhuanlan.zhihu.com/p/1131480221. 方差分析ANOVA詞意:analysis of variance,取單詞的前兩個字母組合而成。2. 方差分析的統計學分析基礎是F分布。
  • 單因素方差分析
    (一)單因素方差分析概念理解步驟  是用來研究一個控制變量的不同水平是否對觀測變量產生了顯著影響。這裡,由於僅研究單個因素對觀測變量的影響,因此稱為單因素方差分析。這些問題都可以通過單因素方差分析得到答案。  單因素方差分析的第一步是明確觀測變量和控制變量。例如,上述問題中的觀測變量分別是農作物產量、婦女生育率、工資收入;控制變量分別為施肥量、地區、學歷。  單因素方差分析的第二步是剖析觀測變量的方差。方差分析認為:觀測變量值得變動會受控制變量和隨機變量兩方面的影響。