通過三個直觀步驟理解ROC曲線

2021-01-15 deephub

ROC曲線是一個分類模型效果好壞評判的的可視化表示。

在這篇文章中,我將分三個步驟頭開始構建ROC曲線。

步驟1:獲取分類模型預測

當我們訓練一個分類模型時,我們得到得到一個結果的概率。在這種情況下,我們的例子將是償還貸款的可能性。

概率通常在0到1之間。價值越高,這個人就越有可能償還貸款。

下一步是找到一個臨界值,將概率分類為「會償還」或「不會償還」。

在圖1的例子中,我們選擇了0.35的閾值:

所有達到或超過這個門檻的預測,都被歸類為「會償還」所有低於這個閾值的預測,被歸類為「不會償還」

然後我們看看這些預測是正確的還是錯誤的。有了這些信息,我們可以建立一個混淆矩陣。

所有真正積極的方面,那些真正回報的人,都是藍點。

如果他們被歸類為「會償還」,我們有一個真正的積極(TP)如果他們被歸類為「不會償還」,我們就有了一個假陰性(FN)

所有的負的,那些沒有償還的,是紅點。

如果他們被歸類為「不會償還」,我們就有了一個真正的負資產(TN)如果他們被分類為「將償還」,我們有一個假陽性(FP)

步驟2:計算真陽性率和假陽性率

到目前為止,我們已經對所有的預測進行了分類,我們知道這些分類是否正確。有了這些,我們將計算下面兩個指標:

真陽性率(TPR):從過去所有「償還」的人,我們正確分類的百分比是多少假陽性率(FPR):從所有過去「沒有償還」的人,我們有多少百分比的錯誤分類

我們可以在圖3中看到這些計算的公式。

下面,在圖4的第二個圖中,我們可以看到我們的原始示例在0.35的閾值處。此時,我們

正確分類90%的陽性,那些「回報」(TPR)40%的負面評價,那些「沒有償還」的人(FPR)

我們可以看到,TPR和FPR的結果隨著閾值的增大而降低。如果我們看第一個,閾值為0

所有陽性均正確分類,因此TPR = 100%所有的陰性均被誤分類,因此FPR = 100%

在最後一個圖的例子中,閾值為1:

所有陽性均誤診,因此TPR = 0%所有陰性均正確分類,因此FPR = 0%

總的來說,我們可以看到這是一種取捨。當我們提高閾值時,我們會更好地對消極因素進行分類,但這是以錯誤地對更多積極因素進行分類為代價的

步驟3:繪製每個截止點的TPR和FPR

為了繪製ROC曲線,我們需要計算多個不同閾值的TPR和FPR(這一步包含在所有相關庫中,如scikit-learn)。

對於每個閾值,我們在x軸上繪製FPR值,在y軸上繪製TPR值。然後我們用一條線把這些點連接起來。就是這樣!

下面的圖5中,我們可以看到ROC曲線上的每個點是如何代表某一分類在給定截斷點處的FPR和TRP。

注意,1處的閾值是如何引出第一個點(0,0)而0處的閾值是如何引出最後一個點(1,1)的。

曲線下覆蓋的面積稱為曲線下面積(AUC)。這是用來評價一個分類模型的性能。AUC越高,模型在區分類方面就越好。

這意味著在一個理想的世界中,我們希望我們的線覆蓋大部分左上方的圖形,以獲得更高的AUC。

作者:Valeria Cortez

相關焦點

  • Time-dependent ROC 曲線
    來自---真實世界大數據分析系列|ROC曲線與Time-dependent ROC 曲線對於常規的ROC曲線,在之前的筆記(理解ROC和AUC)中對其原理做了簡單的介紹,而time-dependent ROC曲線的原理與常規的ROC曲線比較類似,前者相比後者多了時間因素,以便我們可以根據不同時間節點繪製不同的ROC曲線本質上ROC曲線可以根據靈敏度和特異度兩個指標來繪製的
  • 機器學習中的AUC-ROC曲線
    我們可以嘗試通過為每個對應於閾值的點生成混淆矩陣來理解此圖,並討論分類器的性能:A點是敏感性最高,特異性最低的地方。這意味著所有的正類點被正確分類,所有的負類點被錯誤分類。事實上,藍線上的任何一點都對應於真正例率等於假正例率的情況。這條線上的所有點都對應於屬於正類的正確分類點的比例大於屬於負類的錯誤分類點的比例的情況。
  • 收益率曲線三因子模型的一個直觀定義
    本文根據收益率曲線的幾何特徵,提出了收益率曲線三因子模型的一個直觀定義,並從四個維度對直觀定義方法與經典三因子模型進行了實證比較,結果顯示,直觀定義方法均表現較優,其對收益率曲線的刻畫更加精細。本文還闡述了收益率曲線三因子的影響因素及三因子之間的非線性關係,並運用支持向量機(SVM)技術對未來利率走勢進行預測,其結果也優於傳統線性模型。
  • ROC曲線應該怎麼看?
    Roc曲線,也稱「受試者工作特徵曲線」,或者感受性曲線,拋開這寫難記的名字不談,今天主要來談談它的用法以及如何解讀。應用場景ROC曲線主要是用於X對Y的預測準確率情況。ROC曲線ROC曲線圖是反映敏感性與特異性之間關係的曲線。
  • 數據挖掘之模型評估(均方誤差、精確率、召回率及ROC曲線的含義)
    回歸評估指標在前面的文章中我們講解了線性回歸算法的推導過程,從中可以看出,回歸問題就是建立一個關於自變量和因變量關係的函數,通過訓練數據得到回歸函數中各變量前係數的一個過程。那麼模型的好壞就體現到用這個建立好的函數預測得出的值與真實值的差值大小(即誤差大小),如果差值越大,說明預測的越差,反之亦然。那麼對於回歸問題來說,都有哪些具體的誤差指標呢?
  • roc指標如何解讀 散戶們要注意以下幾點
    近期,A股市場一直在波動不定,為了掌握好股票的買賣點,作為股民都需要通過相對應的股票分析指標來分析股票的走勢。這裡小編我就給大家介紹一下roc指標的相關內容,看看roc指標如何解讀?提醒散戶們要注意以下幾點分析方法。
  • 直觀理解KKT條件
    本文不對數學公式進行詳細推導,而是從直觀上對KKT條件進行理解。當然KKT條件與拉格朗日乘子是相關聯的,看完本文後,可以參閱相關資料。無約束優化問題的極值(函數的最大值/最小值)通常發生在斜率為零的點上。
  • 一文讀懂AUC-ROC
    英文原文:https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5在機器學習中,性能測量是一項重要任務。當涉及到分類問題時,我們依靠AUC  -  ROC曲線來做性能評測。當我們需要檢查或可視化多類分類問題的性能時,我們使用AUC(曲線下面積)和ROC(接收器操作特性)曲線。
  • ROC曲線的繪製與解讀
    www.graphpad-prism.cn受試者工作特徵曲線(receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映著相同的感受性,它們都是對同一信號刺激的反應,只不過是在幾種不同的判定標準下所得的結果而已。
  • 一文帶你徹底理解ROC曲線和AUC值
    ,那麼他是假有病,也叫假陽性(FP)一個人沒得病,醫生檢查結果也說他沒病,那麼他是真沒病,也叫真陰性(TN)這四種結局可以畫成2 × 2的混淆矩陣:FN、TP、FP、TN可以這樣理解:第二個字母(N或P)是醫生說的,第一個字母(T或F)是對醫生說法的肯定(真沒病真陰TN,真有病真陽TP)或否定(假有病假陽FP,假沒病假陰FN)。
  • 用ROC曲線解析預測模型
    二進位類的混淆矩陣(正=沒有CAD,負= CAD)曲線的解剖ROC曲線的優點在於它是一種易於理解的圖形工具,可應用於您創建的任何預測模型。以下是曲線的基礎知識:軸:靈敏度和誤報率首先,我們需要為情節創造空間。通過將靈敏度與1-特異性(或假陽性率)作圖來建立ROC曲線。預測概率現在我們需要繪製一些東西。
  • 多個時間點的ROC曲線還可以這樣畫!
    之前介紹了用ggplot2來定製多個時間點的ROC曲線那個圖可能更好看,容易和ggplot2系列的圖一起組合。這個圖在模型構建裡面經常出現,模型構建必須有預測的終點,即生存事件,假如團隊能夠有一批擁有生存時間,而且臨床資料都齊全的患者數據,那麼可以做的事情就很多了。
  • PS曲線速成教學 快速理解PS曲線工作原理 沒有什麼高深的知識
    看看圖:在"曲線"面板上,有個叫做"通道"的下拉菜單,點擊之後,會看到四個選項,分別是:"RGB、紅、綠、藍",你一定要知道的概念是,我們的數碼照片,是色光三原色RGB色彩模式,也就是紅綠藍三種原色構成。除了這三個單獨顏色的通道,還有一個叫做"RGB"的複合通道,也就是把紅綠藍三個顏色組合在一起的通道總成,它是專門用來控制畫面亮度的。
  • roc指標參數設置 該指標的計算公式一覽
    不同的指標有不同的含義,當然有炒股的人肯定要了解不同指標了,ROC指標一般指變動率指標,屬於反趨勢指標之一了,那麼roc指標參數設置是怎麼樣的呢?該指標最佳的設置是哪些?我們一起來看看!
  • 如何用SPSS繪製ROC曲線
    ROC曲線相信大家都不太陌生,多多少少都聽說過。ROC曲線在臨床上的主要功能就是幫助大家尋找一個比較可靠的指標去診斷某種疾病。今天我們就來給大家演示一下具體的操作。     案例:(本案例的數據結果尚未發表論文,就以字母代替了)。
  • Bézier curve | 貝茲曲線 |貝塞爾曲線知多少
    簡單理解,伯恩斯坦多項式可以用來證明,在[ 0, 1 ] 區間內所有的連續函數都可以用多項式來逼近,並且收斂性很強,也就是一致收斂。再簡單點,就是一個連續函數,你可以將它寫成若干個伯恩斯坦多項式相加的形式,並且,隨著 n→∞,這個多項式將一致收斂到原函數,這個就是伯恩斯坦斯的逼近性質。- 複雜公式的圖形化 -1959年。
  • roc指標選股公式 該指標的計算方法如何
    ROC指標一般指變動率指標,那麼這roc指標選股公式怎麼樣?還有roc指標的計算方法如何?我們一起來看看!roc指標選股公式 roc指標是以當日的收盤價和N天前的收盤價比較,通過計算股價某一段時間內收盤價變動的比例
  • 聯合診斷ROC分析及曲線下面積的比較
    01基礎知識ROC曲線分析是評價指標診斷能力的重要方法。疾病的診斷通常比較複雜,只依靠單一指標往往效果不佳,很多時候需要多個指標聯合才能做出診斷。評價不同指標聯合診斷的能力,可以通過比較各自的ROC曲線下面積實現。
  • 「科普掃盲」貝塞爾曲線
    (多數理論公式是建立在大量且系統的數學建模基礎之上研究的規律性成果)根據這個算法,就可以實現通過很少的控制點,去生成複雜的平滑曲線,也就是貝塞爾曲線。貝賽爾曲線的數學理論:既然貝賽爾曲線的本質是通過數學計算公式去繪製平滑的曲線,那就可以通過數學工具進行實際求證以及解釋說明。當然對其進行數學求證就沒必要了,因為這些偉大的數學家們已經做過了,這裡只是解釋說明:● 步驟一:在平面內選3個不同線的點並且依次用線段連接。如下所示..
  • 理解隨機森林:基於Python的實現和解釋
    決策樹是隨機森林的構建模塊,本身是一種相當直觀的模型。基尼不純度和決策樹構建可能有些難以理解,所以首先我們構建一個決策樹,然後我們通過一些簡單的數學來進行解釋。如果你理解了單個決策樹、bagging 決策樹、特徵的隨機子集,那你就可以很好地理解隨機森林的工作方式了。隨機森林組合了數百或數千個決策樹,並會在稍有不同的觀察集上訓練每個決策樹(數據點是可重複地抽取出來的),並且會根據限定數量的特徵分割每個樹中的節點。