機器學習中常用的5種回歸損失函數

2021-01-14 機器學習研究組訂閱號


「損失函數」是機器學習優化中至關重要的一部分。L1、L2損失函數相信大多數人都早已不陌生。那你了解Huber損失、Log-Cosh損失、以及常用於計算預測區間的分位數損失麼?這些可都是機器學習大牛最常用的回歸損失函數哦!



機器學習中所有的算法都需要最大化或最小化一個函數,這個函數被稱為「目標函數」。其中,我們一般把最小化的一類函數,稱為「損失函數」。它能根據預測結果,衡量出模型預測能力的好壞。


在實際應用中,選取損失函數會受到諸多因素的制約,比如是否有異常值、機器學習算法的選擇、梯度下降的時間複雜度、求導的難易程度以及預測值的置信度等等。因此,不存在一種損失函數適用於處理所有類型的數據。這篇文章就講介紹不同種類的損失函數以及它們的作用。


損失函數大致可分為兩類:分類問題的損失函數和回歸問題的損失函數。在這篇文章中,我將著重介紹回歸損失。


本文出現的代碼和圖表我們都妥妥保存在這兒了:https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/05_Loss_Functions.ipynb


分類、回歸問題損失函數對比








均方誤差(MSE)是最常用的回歸損失函數,計算方法是求預測值與真實值之間距離的平方和,公式如圖。


下圖是MSE函數的圖像,其中目標值是100,預測值的範圍從-10000到10000,Y軸代表的MSE取值範圍是從0到正無窮,並且在預測值為100處達到最小。


MSE損失(Y軸)-預測值(X軸)







平均絕對誤差(MAE)是另一種用於回歸模型的損失函數。MAE是目標值和預測值之差的絕對值之和。其只衡量了預測值誤差的平均模長,而不考慮方向,取值範圍也是從0到正無窮(如果考慮方向,則是殘差/誤差的總和——平均偏差(MBE))。


MAE損失(Y軸)-預測值(X軸)






簡單來說,MSE計算簡便,但MAE對異常點有更好的魯棒性。下面就來介紹導致二者差異的原因。


訓練一個機器學習模型時,我們的目標就是找到損失函數達到極小值的點。當預測值等於真實值時,這兩種函數都能達到最小。


下面是這兩種損失函數的python代碼。你可以自己編寫函數,也可以使用sklearn內置的函數。



<pre style="margin: 0px; padding: 0px; max-width: 100%;box-sizing: border-box !important; word-wrap: break-word !important; color: rgb(51, 51, 51); font-size: 17px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: 0.544000029563904px; line-height: 27.2000007629395px; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; widows: 1; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">true: Array of true target variablepred: Array of predictionsdef mse(true, pred):return np.sum((true - pred)**2)def mae(true, pred):return np.sum(np.abs(true - pred))also available in sklearnfrom sklearn.metrics import mean_squared_errorfrom sklearn.metrics import mean_absolute_error</pre>




下面讓我們觀察MAE和RMSE(即MSE的平方根,同MAE在同一量級中)在兩個例子中的計算結果。第一個例子中,預測值和真實值很接近,而且誤差的方差也較小。第二個例子中,因為存在一個異常點,而導致誤差非常大。


左圖:誤差比較接近 右圖:有一個誤差遠大於其他誤差

從圖中可以知道什麼?應當如何選擇損失函數?


MSE對誤差取了平方(令e=真實值-預測值),因此若e>1,則MSE會進一步增大誤差。如果數據中存在異常點,那麼e值就會很大,而e²則會遠大於|e|。


直觀上可以這樣理解:如果我們最小化MSE來對所有的樣本點只給出一個預測值,那麼這個值一定是所有目標值的平均值。但如果是最小化MAE,那麼這個值,則會是所有樣本點目標值的中位數。眾所周知,對異常值而言,中位數比均值更加魯棒,因此MAE對於異常值也比MSE更穩定。


然而MAE存在一個嚴重的問題(特別是對於神經網絡):更新的梯度始終相同,也就是說,即使對於很小的損失值,梯度也很大。這樣不利於模型的學習。為了解決這個缺陷,我們可以使用變化的學習率,在損失接近最小值時降低學習率。


而MSE在這種情況下的表現就很好,即便使用固定的學習率也可以有效收斂。MSE損失的梯度隨損失增大而增大,而損失趨於0時則會減小。這使得在訓練結束時,使用MSE模型的結果會更精確。


根據不同情況選擇損失函數

如果異常點代表在商業中很重要的異常情況,並且需要被檢測出來,則應選用MSE損失函數。相反,如果只把異常值當作受損數據,則應選用MAE損失函數。



這裡L1損失和L2損失只是MAE和MSE的別稱總而言之,處理異常點時,L1損失函數更穩定,但它的導數不連續,因此求解效率較低。L2損失函數對異常點更敏感,但通過令其導數為0,可以得到更穩定的封閉解。


二者兼有的問題是:在某些情況下,上述兩種損失函數都不能滿足需求。例如,若數據中90%的樣本對應的目標值為150,剩下10%在0到30之間。那麼使用MAE作為損失函數的模型可能會忽視10%的異常點,而對所有樣本的預測值都為150。


這是因為模型會按中位數來預測。而使用MSE的模型則會給出很多介於0到30的預測值,因為模型會向異常點偏移。上述兩種結果在許多商業場景中都是不可取的。


這些情況下應該怎麼辦呢?最簡單的辦法是對目標變量進行變換。而另一種辦法則是換一個損失函數,這就引出了下面要講的第三種損失函數,即Huber損失函數。


Huber損失,平滑的平均絕對誤差

Huber損失對數據中的異常點沒有平方誤差損失那麼敏感。它在0也可微分。本質上,Huber損失是絕對誤差,只是在誤差很小時,就變為平方誤差。誤差降到多小時變為二次誤差由超參數δ(delta)來控制。當Huber損失在[0-δ,0+δ]之間時,等價為MSE,而在[-∞,δ]和[δ,+∞]時為MAE。


Huber損失(Y軸)與預測值(X軸)圖示。真值取0


這裡超參數delta的選擇非常重要,因為這決定了你對與異常點的定義。當殘差大於delta,應當採用L1(對較大的異常值不那麼敏感)來最小化,而殘差小於超參數,則用L2來最小化。





使用MAE訓練神經網絡最大的一個問題就是不變的大梯度,這可能導致在使用梯度下降快要結束時,錯過了最小點。而對於MSE,梯度會隨著損失的減小而減小,使結果更加精確。


在這種情況下,Huber損失就非常有用。它會由於梯度的減小而落在最小值附近。比起MSE,它對異常點更加魯棒。因此,Huber損失結合了MSE和MAE的優點。但是,Huber損失的問題是我們可能需要不斷調整超參數delta。






Log-cosh是另一種應用於回歸問題中的,且比L2更平滑的的損失函數。它的計算方式是預測誤差的雙曲餘弦的對數。


Log-cosh損失(Y軸)與預測值(X軸)圖示。真值取0

優點:對於較小的x,log(cosh(x))近似等於(x^2)/2,對於較大的x,近似等於abs(x)-log(2)。這意味著『logcosh』基本類似於均方誤差,但不易受到異常點的影響。它具有Huber損失所有的優點,但不同於Huber損失的是,Log-cosh二階處處可微。


為什麼需要二階導數?許多機器學習模型如XGBoost,就是採用牛頓法來尋找最優點。而牛頓法就需要求解二階導數(Hessian)。因此對於諸如XGBoost這類機器學習框架,損失函數的二階可微是很有必要的。


XgBoost中使用的目標函數。注意對一階和二階導數的依賴性


但Log-cosh損失也並非完美,其仍存在某些問題。比如誤差很大的話,一階梯度和Hessian會變成定值,這就導致XGBoost出現缺少分裂點的情況。

Huber和Log-cosh損失函數的Python代碼:







在大多數現實世界預測問題中,我們通常希望了解預測中的不確定性。清楚預測的範圍而非僅是估計點,對許多商業問題的決策很有幫助。


當我們更關注區間預測而不僅是點預測時,分位數損失函數就很有用。使用最小二乘回歸進行區間預測,基於的假設是殘差(y-y_hat)是獨立變量,且方差保持不變。


一旦違背了這條假設,那麼線性回歸模型就不成立。但是我們也不能因此就認為使用非線性函數或基於樹的模型更好,而放棄將線性回歸模型作為基線方法。這時,分位數損失和分位數回歸就派上用場了,因為即便對於具有變化方差或非正態分布的殘差,基於分位數損失的回歸也能給出合理的預測區間。


下面讓我們看一個實際的例子,以便更好地理解基於分位數損失的回歸是如何對異方差數據起作用的。


****分位數回歸與最小二乘回歸****

左:b/wX1和Y為線性關係。具有恆定的殘差方差。

右:b/wX2和Y為線性關係,但Y的方差隨著X2增加。(異方差)


橙線表示兩種情況下OLS的估值

分位數回歸。虛線表示基於0.05和0.95分位數損失函數的回歸


附上圖中所示分位數回歸的代碼:

https://github.com/groverpr/Machine-Learning/blob/master/notebooks/09_Quantile_Regression.ipynb

****理解分位數損失函數****


如何選取合適的分位值取決於我們對正誤差和反誤差的重視程度。損失函數通過分位值(γ)對高估和低估給予不同的懲罰。例如,當分位數損失函數γ=0.25時,對高估的懲罰更大,使得預測值略低於中值。

γ是所需的分位數,其值介於0和1之間。

分位數損失(Y軸)與預測值(X軸)圖示。Y的真值為0

這個損失函數也可以在神經網絡或基於樹的模型中計算預測區間以下是用Sklearn實現梯度提升樹回歸模型的示例。

使用分位數損失(梯度提升回歸器)預測區間


上圖表明:在sklearn庫的梯度提升回歸中使用分位數損失可以得到90%的預測區間。其中上限為γ=0.95,下限為γ=0.05。







為了證明上述所有損失函數的特點,讓我們來一起看一個對比研究。首先,我們建立了一個從sinc(x)函數中採樣得到的數據集,並引入了兩項人為噪聲:高斯噪聲分量ε〜N(0,σ2)和脈衝噪聲分量ξ〜Bern(p)。


加入脈衝噪聲是為了說明模型的魯棒效果。以下是使用不同損失函數擬合GBM回歸器的結果。



連續損失函數:



D:分位數損失函數。將一個平滑的GBM擬合成有噪聲的sinc(x)數據的示例:G:具有Huber損失的平滑GBM,且δ={4,2,1};H:具有分位數損失的平滑的GBM,且α={0.5,0.1,0.9}。




仿真對比的一些觀察結果:


最後,讓我們將所有損失函數都放進一張圖,我們就得到了下面這張漂亮的圖片!它們的區別是不是一目了然了呢~


想要了解更多資訊,請掃描下方二維碼,關注機器學習研究會

                                          


轉自: 機器學習算法與Python實戰

相關焦點

  • 機器學習大牛最常用的5個回歸損失函數,你知道幾個?
    大數據文摘出品編譯:Apricock、睡不著的iris、JonyKai、錢天培「損失函數」是機器學習優化中至關重要的一部分。L1、L2損失函數相信大多數人都早已不陌生。那你了解Huber損失、Log-Cosh損失、以及常用於計算預測區間的分位數損失麼?這些可都是機器學習大牛最常用的回歸損失函數哦!
  • 機器學習初學者都應該知道的5類回歸損失函數
    /5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0翻譯:石頭機器學習中的所有算法都依賴於最小化或最大化一個函數,我們稱之為「目標函數」。
  • 入門| 機器學習中常用的損失函數你知多少?
    選自towards data science作者:Ravindra Parmar機器之心編譯參與:李詩萌、王淑婷本文作者將常用的損失函數分為了兩大類:分類和回歸。然後又分別對這兩類進行了細分和講解,其中回歸中包含了一種不太常見的損失函數:平均偏差誤差,可以用來確定模型中存在正偏差還是負偏差。
  • 機器學習經典損失函數比較
    我們常常將最小化的函數稱為損失函數,它主要用于衡量模型的預測能力。在尋找最小值的過程中,我們最常用的方法是梯度下降法,這種方法很像從山頂下降到山谷最低點的過程。 雖然損失函數描述了模型的優劣為我們提供了優化的方向,但卻不存在一個放之四海皆準的損失函數。損失函數的選取依賴於參數的數量、局外點、機器學習算法、梯度下降的效率、導數求取的難易和預測的置信度等方面。
  • 機器學習之模型評估(損失函數)
    >「目標函數」,它是模型評估的重要指標損失函數一般分為回歸問題和分類問題回歸問題最常用的是均方誤差(MSE)和平均絕對誤差機器學習的模型評估,主要包括兩部分:損失函數是性能度量的一個部分,而損失函數又分很多種,因此單獨作為一篇介紹損失函數。機器學習中的所有算法都依賴於最小化或最大化一個函數,我們稱之為「目標函數」。
  • 機器學習算法中的7個損失函數的詳細指南
    介紹想像一下-你已經在給定的數據集上訓練了機器學習模型,並準備好將它交付給客戶。但是,你如何確定該模型能夠提供最佳結果?是否有指標或技術可以幫助你快速評估數據集上的模型?當然是有的,簡而言之,機器學習中損失函數可以解決以上問題。
  • Python機器學習算法中的7個損失函數的詳細指南
    介紹想像一下-你已經在給定的數據集上訓練了機器學習模型,並準備好將它交付給客戶。但是,你如何確定該模型能夠提供最佳結果?是否有指標或技術可以幫助你快速評估數據集上的模型?當然是有的,簡而言之,機器學習中損失函數可以解決以上問題。損失函數是我們喜歡使用的機器學習算法的核心。但大多數初學者和愛好者不清楚如何以及在何處使用它們。
  • 每天五分鐘機器學習:線性回歸算法的常用損失函數的介紹
    本文重點在上一節課程中講解了線性回歸中的假設函數,本節課程將學習一下損失函數,損失函數的意義是幫助我們把最好的直線模型與我們的數據相擬合。房價預測的例子數據集假設函數是這樣的線性函數形式:θ(x) =θ0 + θ1x。其中θ0 和 θ1,便是直線在軸上的截距和斜率。
  • 入門機器學習之線性回歸
    什麼是回歸分析在客觀世界中普通存在著變量之間的關係,變量之間的關係一般來說可以分成確定性關係和不確定關係,確定性關係是說變量之間的關係是可以用函數關係來表示的,另一種不確定性關係即所謂相關關係。首先給出一些概念和常用的符號,在不同的機器學習書籍中可能有一定的差別。
  • 你了解機器學習中的線性回歸嗎
    你了解機器學習中的線性回歸嗎 AI科技大本營 發表於 2020-02-24 14:03:34 機器學習中的線性回歸是一種來源於經典統計學的有監督學習技術。
  • 理解損失函數(代碼篇)機器學習你會遇到的「坑」
    全文共1950字,預計學習時長4分鐘在上一節,我們主要講解了替代損失(Surrogate loss)由來和性質,明白了機器學習中損失函數定義的本質,我們先對回歸任務總結一下常用的損失函數:均方誤差(MSE):
  • 機器學習算法中的概率方法
    摘要本文介紹機器學習算法中的概率方法。概率方法會對數據的分布進行假設,對概率密度函數進行估計,並使用這個概率密度函數進行決策。本文介紹四種最常用的概率方法:線性回歸 (用於回歸任務)、對數機率回歸 (用於二分類任務)、Softmax 回歸 (用於多分類任務) 和樸素貝葉斯分類器 (用於多分類任務)。
  • 深度學習中常見的損失函數
    在深度學習分類任務中,我們經常會使用到損失函數,今天我們就來總結一下深度學習中常見的損失函數。運用Log損失函數的典型分類器是logistic(邏輯)回歸算法。為什麼邏輯回歸不用平方損失呢?原因在於平方損失函數是線性回歸在假設樣本是高斯分布的條件下推導得到的(為什麼假設高斯分布?其實就是依據中心極限定理)。
  • softmax 損失函數 & 參數更新詳解
    softmax進階多分類 - 基礎理解softmax多分類實現圖解softmax 損失函數產生及理解對參數求偏導推導及更新要點回歸:邏輯回歸二分類用sigmoid變換成預測單個「概率」,損失函數為交叉熵,用梯度下降求解參數wbsoftmax多分類用softmax
  • 機器學習中的激活函數綜合指南
    ReLU系列在前一節中,我們了解了為什麼需要激活以及它們解決了哪些問題。此外,我們注意到所有層都需要激活函數是獨立的。對於所有普通層,通常使用ReLU系列的激活。在類似ReLU系列的激活中,使用其中一種而不是另一種並沒有特定的理由。在實踐中,只需要循環嘗試十幾個epochs,看看哪個執行得最好。
  • 【乾貨】機器學習中的五種回歸模型及其優缺點
    【IT168 技術】線性和邏輯斯蒂(Logistic)回歸通常是是機器學習學習者的入門算法,因為它們易於使用和可解釋性。然而,儘管他們簡單但也有一些缺點,在很多情況下它們並不是最佳選擇。實際上存在很多種回歸模型,每種都有自己的優缺點。  在這篇文章中,我們將介紹5種最常見的回歸算法及特點。
  • 機器學習的線性回歸分析
    打開APP 機器學習的線性回歸分析 是DRR啊 發表於 2020-01-23 17:33:00 概述 線性回歸是利用數理統計中回歸分析
  • 【機器學習基礎】用Python畫出幾種常見機器學習二分類損失函數
    在二分類的監督學習中,支持向量機、邏輯斯諦回歸與最大熵模型、提升方法各自使用合頁損失函數、邏輯斯諦損失函數、指數損失函數,分別寫為:
  • 如何在Keras中創建自定義損失函數?
    Karim MANJRA 發布在 Unsplash 上的照片keras 中常用的損失函數如上所述,我們可以創建一個我們自己的自定義損失函數;但是在這之前,討論現有的 Keras 損失函數是很好的。Keras 中的自定義損失函數可以以我們想要的方式提高機器學習模型的性能,並且對於更有效地解決特定問題非常有用。例如,假設我們正在構建一個股票投資組合優化模型。在這種情況下,設計一個定製損失函數將有助於實現對在錯誤方向上預測價格變動的巨大懲罰。
  • 簡單粗暴理解與實現機器學習之邏輯回歸:邏輯回歸介紹、應用場景...
    作者 | 汪雯琦責編 | Carol來源 | CSDN 博客學習目標知道邏輯回歸的損失函數知道邏輯回歸的優化方法知道sigmoid函數知道邏輯回歸的應用場景應用LogisticRegression實現邏輯回歸預測知道精確率、召回率指標的區別知道如何解決樣本不均衡情況下的評估了解