AUC 的缺陷是什麼?

2021-02-19 阿澤的學習筆記
連結:https://zhuanlan.zhihu.com/p/92792702

翻譯自:

難得的好文。

目前普遍認為接收器工作特性(Receiver Operating Characteristic,ROC)曲線下的面積 ——AUC 是評估分類模型準確性的標準方法。它避免了在閾值選擇過程中假定的主觀性,當連續的概率得到的分數被轉換為二分類標籤時,通過總結整體模型表現,其衡量模型區分正負樣本的性能優於通過閾值來判斷的其他方法(比如準確率、召回率等)。在這篇手稿中,我們回顧了這一度量的一些特點,並將其作為模型結果的準確性的比較度量,對其可靠性提出了質疑。我們不建議使用 AUC 出於五個原因:

(1) 忽略了預測的概率值和模型的擬合優度;(舉個例子,假設某個模型對 「1」 類樣本輸出的概率都是 0.51,對 「0」 類樣本輸出的概率均為 0.49,此時 AUC 是 1,但是二元交叉熵非常大,因為預測結果和真實標籤之間的誤差太大);根據 auc 的公式我們可以知道 auc 對於具體的概率值不敏感,它的計算過程事先會把概率值轉化為 rank 排序,所以 auc 永遠只對排序敏感對具體的概率指不敏感:

舉個例子,假設有 10000 個樣本,5000 個正樣本,5000 個負樣本,此時我們對 5000 個正樣本的預測概率為 0.2,對 5000 個負樣本的預測概率為 0.3,此時 auc 為 1,但是模型的擬合優度非常差,二元交叉熵慘不忍睹,看起來完全就是沒有擬合完全的情況。

(2) AUC 反應了太過籠統的信息。無法反應召回率、精確率等在實際業務中經常關心的指標

看了原文,大意就是,比如我們在安全監測中,對查全率非常看重,對查準率倒是無所謂,反正儘量把恐怖分子查出來,即使錯誤檢查了很多正常人也只是浪費點時間而已而恐怖事件相比不值一提,但是 auc 反應的是模型對正負樣本的區分能力,在一些情況下無法滿足建模的真實需求。

(3) 對 FPR 和 TPR 兩種錯誤的代價同等看待;這一點和第二點雷同,基本的意思就是當用戶對不同類別的預測準確率有不同程度的需求時,auc 不能很好的滿足這個需求。

(4) 它沒有給出模型誤差的空間分布信息(我們不知道模型預測錯誤的具體情況,比如哪一類預測的錯誤多,比如整體錯誤的分布情況等等,舉個例子,我們通過對不同類別錯誤預測的概率和真實標籤的誤差進行畫圖可以了解到模型對哪一類樣本預測錯誤率高對哪一類樣本預測的精度高,從而有針對的對特徵工程、樣本權重等進行優化,但是 auc 無法反應這類信息),AUC 只關注正負樣本之間的排序,並不關心正樣本內部,或者負樣本內部的排序,這樣我們也無法衡量樣本對於好壞客戶的好壞程度的刻畫能力;

(5) 最重要的一點,AUC 的 misleading 的問題:

如圖,modelA 和 modelB 的 ROC 曲線下面積 AUC 是相等的,但是兩個模型在不同區域的預測能力是不相同的,所以我們不能單純根據 AUC 的大小來判斷模型的好壞。

相關焦點

  • AUC的一般計算和近似計算方式
    import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import roc_curve, auc# Calculate 'True Positive Rate' and 'False Positive Rate
  • AUC和線上點擊率指標不一致問題分析
    已經高於基線,上線後ctr表現也由於基線,但是基於線上實際反饋的打點日誌,深度學習的模型的auc要明顯低於基線。但以前的模型迭代auc是可以和線上ctr對應的。這個問題比較奇怪,一般情況下,因為線上樣本存在bias,將新模型同時去測試基線流量和實驗流量時,實驗流量的auc會略高於基線流量。可以這樣理解,新的模型的增量是帶來了一些新的好樣本,但是如果直接去評估基線的數據,由於推薦或排序的數據是動態反饋的,這部分的好樣本就沒有了,auc會偏低。但我們的實驗情況恰恰是相反的。
  • 機器學習備忘錄 | AUC值的含義與計算方法
    可以看出,使用 scikit-learn 工具提供的 roc_auc_score 函數計算 AUC 值相當簡單,只需要提供樣本的實際標籤和預測值這兩個變量即可,大大方便了我們的使用,真心感謝這些開源軟體的作者們!總的來說, AUC 值就是一個用來評價二分類模型優劣的常用指標, AUC 值越高通常表明模型的效果越好,在實際使用中我們可以藉助軟體包的相應函數進行快速計算。
  • 為什麼是AUC值而不是GSEA來挑選轉錄因子呢
    0.0640565             cisbp__M4240geneListName   0.02816458             scertf__macisaac.ACE2geneListName       0.03124153> 挑選統計學顯著的motifauc
  • 一文讀懂AUC-ROC
    英文原文:https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5在機器學習中,性能測量是一項重要任務。當涉及到分類問題時,我們依靠AUC  -  ROC曲線來做性能評測。當我們需要檢查或可視化多類分類問題的性能時,我們使用AUC(曲線下面積)和ROC(接收器操作特性)曲線。
  • 機器學習中的AUC-ROC曲線
    目錄什麼是敏感性和特異性?預測概率AUC-ROC曲線是什麼?AUC-ROC曲線是如何工作的?Python中的AUC-ROC用於多類分類的AUC-ROC什麼是敏感性和特異性?混淆矩陣:從混淆矩陣中,我們可以得到一些在前面的文章中沒有討論過的重要度量。讓我們在這裡談談他們。
  • 日語文字的致命缺陷是什麼?
    但是就是這麼一個熱門小語種,卻存在著致命的缺陷。一個鮮明的特點哪怕沒有學過日語的同學幾乎都毫無例外地發現,日語的書寫系統有一個鮮明的特點:裡面摻雜有大量的漢字。傳統上來說,這被認為是古代日語書寫的殘留。
  • 原發性免疫缺陷病病因是什麼?患上這種疾病,會有什麼臨床表現?
    小童有淋巴增殖的情況,會讓多種促炎症細胞因子增高,都代表小童有免疫系統固有的缺陷問題。01原發性免疫缺陷病是什麼,它的發病原因是什麼?1、什麼是是原發性免疫性缺陷?原發免疫缺陷病為罕見疾病,與遺傳有關,多發生於嬰幼兒,反覆感染,嚴重威脅生命。由於部分病例可得到有效治療,因此及時診斷仍然十分重要。
  • 遺傳性蛋白S缺陷症吃什麼食物好?
    遺傳性蛋白S缺陷症屬常染色體顯性遺傳性易栓症,分純合子型和雜合子型,臨床上以Ⅰ型雜合子居多,主要表現為靜脈血栓形成。如果不幸患了遺傳性蛋白S缺陷症的話,日常生活中應該多多選擇如下這幾樣食材:雞蛋營養豐富,深受廣大主婦青睞,雞蛋又叫做雞卵、雞子,是母雞所產的卵,它的外有一層硬殼,內則有氣室、卵白及卵黃部分。富含膽固醇,營養豐富,一個雞蛋重約50克,含蛋白質7克。雞蛋蛋白質的胺基酸比例很適合人體生理需要、易為機體吸收,利用率高達98%以上,營養價值很高,是人類常食用的食物之一。
  • 換燈泡觸電會死嗎 燈泡有什麼常見的主要缺陷
    在燈泡的使用過程中,要考慮一些基本的問題,包括安裝的問題以及燈泡可能存在的缺陷,做好有效的安全防護準備。下面就是介紹換燈泡觸電會死嗎,希望大家能夠關注燈泡有什麼常見的主要缺陷,掌握正確的使用方法,燈泡使用過程中才會有保障,沒有經驗的情況下,不能夠自己去安裝燈泡。
  • 這兩個極其聰明的男主,說明了什麼叫沒有缺陷就是最大的缺陷
    綾小路清隆雖然有著超乎常人的智慧與發達的頭腦,在各種的一切上都有著完美的發揮,但正是因為如此,在整個高度育成高中裡,綾小路清隆可以說是最完美的人,但也是缺陷最大的人。因為他會為了完成目的而不會考慮周圍的人的感受,可以說是沒有一絲感情可言。
  • 造成出生缺陷的三個原因
    造成出生缺陷的三個原因  出生缺陷對孩子會有哪些危害?  患有嚴重出生缺陷的孩子,可能還沒生下來就死在媽媽肚子裡,或生出來以後很快死亡;有的即使活下來了也會留下後遺症,造成終生殘疾;較輕的出生缺陷,有的可以進行治療或手術,但可能會留下後遺症。有出生缺陷的孩子,不僅身體上受到很大影響,其家庭遭受的精神打擊會更大。  孩子最容易得的出生缺陷有哪些?
  • AOI 顏色及缺陷檢測系統
    AOI 測試作用AOI(Automated Optical Inspection)的全稱是自動光學檢測,在生產過程中,對電池片的外觀缺陷和顏色進行分選。NO 2.4.4 電池片缺陷檢測1. 缺陷檢測原理通過模板匹配法,這是一種基本的識別方法,研究某一特定對象物的圖案位於圖像的什麼地方,進而識別對象物。2.
  • 漲知識 齒輪組合狀態缺陷
    反之,若一對嚙合齒輪的齒數存在公約數,例如33、21,可知約數分別為1、3、11(1×3×11=33),1、3、7(1×3×7=21),二者公約數為3。假設其中一個齒由於製造、硬質顆粒等原因發生局部缺陷,在嚙合一段時間後,將導致一對齒輪上每相鄰3齒規律性地出現缺陷(如下圖紅點),而其它齒則不受影響。
  • 射線檢驗常見缺陷圖集及分析
    1、圓形缺陷定義:長寬比小於等於3的非裂紋、未焊透和未熔合缺陷。圓形缺陷包括氣孔、塊狀夾渣、夾鎢等缺陷。2、條形缺陷定義:不屬於裂紋、未焊透和未熔合的缺陷,當缺陷的長寬比大於3時,定義為條狀缺陷,包括條渣和條孔。
  • 等離子弧焊接時常見的缺陷是什麼
    等離子弧焊在焊接過程中也會出現問題,常見的缺陷有:咬邊咬邊是指由於焊接參數選擇不當或操作方式不正確,沿著焊縫表面與母材交界處的母材部位產生的溝槽或凹陷。其產生的原因主要有:首先是電流過大,採用大電流可以提高焊接速度,但焊接速度的上限應以不出現咬邊為基準。再者是焊槍噴嘴軸線與焊縫的對中型不好,即焊槍向焊縫的一側傾斜。
  • 工藝參數對微溝槽缺陷形成的影響並改進微溝槽缺陷
    多晶矽刻蝕中的另一種現象:微溝槽缺陷(microtrench defect)也顯得越發重要。該現象會造成器件的大面積漏電,嚴重殺傷每一個管芯,造成矽片的報廢。作者通過相關試驗,從工藝參數的角度對微溝槽缺陷的形成和控制做了討論,對主要工藝參數對微溝槽缺陷的影響作了分組實驗,為優化工藝參數來徹底防止微溝槽缺陷提供必要的指導。