點擊我愛計算機視覺標星,更快獲取CVML新技術
本文來自於純真學者出神入化公眾號。
英文原文:
https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5
在機器學習中,性能測量是一項重要任務。當涉及到分類問題時,我們依靠AUC - ROC曲線來做性能評測。當我們需要檢查或可視化多類分類問題的性能時,我們使用AUC(曲線下面積)和ROC(接收器操作特性)曲線。它是檢查任何分類模型性能的最重要的評估指標之一。AUC有時也被寫為AUROC(接收器工作特性下的區域),本篇文章我們將著重於回答以下問題:
1.什麼是AUC - ROC曲線?
2.定義AUC和ROC曲線中使用的術語。
3.如何推測模型的性能?
4.靈敏度,特異性,FPR和閾值之間的關係。
5.如何使用AUC-ROC曲線進行多類別分類?
什麼是AUC-ROC 曲線?
AUC - ROC曲線是在各種閾值設置下的分類問題的性能測量方法。 ROC是概率曲線,AUC表示可分離性的程度。它告訴我們有關模型區分的能力。 AUC越高,模型越好,將0預測為0,將1預測為1。AUC越高,模型越好區分疾病患者和無疾病患者。用TPR對FPR繪製ROC曲線,其中TPR在y軸上,FPR在x軸上。
定義一些術語
True Positive Rate/Recall/Sensitivity
Specificity
False Positive Rate
一個優秀的模型具有接近1的AUC,這意味著它具有良好的可分離性。一個糟糕的模型的AUC接近0,這意味著它具有最差的可分離性度量。事實上,這是對結果的顛倒。它將0預測為1,將1預測為0。當AUC為0.5時,意味著模型沒有任何類別分離能力。
進一步用圖形來解釋:ROC是概率曲線。因此,讓我們繪製這些概率的分布:
(注意:紅色分布曲線是陽性分類(患有疾病的患者),綠色分布曲線是陰性分類(沒有疾病的患者))。
這是一個理想的情況。當兩條曲線完全不重疊時,模型具有理想的可分離性度量。它完全能夠區分TP和TN。
當兩個分布重疊時,我們引入類型1和類型2錯誤。根據閾值,我們可以最小化或最大化它們。當AUC為0.7時,意味著該模型有70%的可能區分正類和負類。
下面是最糟糕的情況。當AUC約為0.5時,模型沒有區分正類和負類的辨別能力。
當AUC大約為0時,模型實際上是對類進行了顛倒。這意味著,模型將負類預測為正類,反之亦然。
如何用AUC-ROC 曲線做多類別分類?
在多類別模型中,我們可以使用One vs ALL方法為N個數字類繪製N個AUC-ROC曲線。因此,例如,如果你有三個名為X,Y和Z的類,你將有一個針對Y和Z分類的X的ROC,針對X和Z分類的Y的另一個ROC,以及針對Y和X分類的Z的第三個ROC 。
加群交流
關注各種神奇的計算機視覺技術,歡迎加入52CV專業討論群,掃碼添加CV君拉你入群,
(請務必註明:52CV)
喜歡在QQ交流的童鞋,可以加52CV官方QQ群:702781905。
(不會時時在線,如果沒能及時通過驗證還請見諒)
長按關注我愛計算機視