AUC的一般計算和近似計算方式

2021-01-18 推薦系統與計算廣告

ROC曲線的橫軸是FPRate,縱軸是TPRate分類器給出預測的概率之後,我們需要設定已給閾值來把各個預測值劃分為預測為正/負。即,小於等於這個閾值的所有樣本預測為負,大於這個閾值的樣本預測為正。

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import roc_curve, auc
# Calculate 'True Positive Rate' and 'False Positive Rate' of each thresholdscores = np.array([ 0.95, 0.9, 1, 0.9, 0.9, 0.8, 0.8, 0.7, 0.7, 0.7, 0.7, 0.6, 0.6, 0.6, 0.6, 0.5, 0.5, 0.5, 0.5, 0.4, 0.3, 0.3, 0.3, 0.3, 0.2, 0.2, 0.0, 0.2, 0.1, 0.11])true_values = np.array([0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1])fpr, tpr, thresholds = roc_curve(true_values, scores, pos_label=1)d = {'Threshold': thresholds, 'True Positive Rate': tpr, 'False Positive Rate': fpr}metric_table = pd.DataFrame(d, columns = ['Threshold', 'True Positive Rate', 'False Positive Rate'])metric_table

roc_auc = auc(fpr, tpr)plt.figure()plt.plot(fpr, tpr, color='red',         lw=2, marker='o',         label='ROC curve (area = %0.2f)' % roc_auc)x = [0, 1]y = [0, 1]plt.plot(x, y, color='black', lw=2, linestyle='--')plt.xlim([0.0, 1.0])plt.ylim([0.0, 1.05])plt.xlabel('False Positive Rate')plt.ylabel('True Positive Rate')plt.title('ROC Curve')plt.legend()plt.grid(alpha=0.2)plt.show()

AUC就是ROC曲線下的面積,在這個例子中就算出來就是0.63.

相關焦點

  • 機器學習備忘錄 | AUC值的含義與計算方法
    通常很多的機器學習工具都封裝了模型指標的計算,當然也包括 AUC 值。可以看出,使用 scikit-learn 工具提供的 roc_auc_score 函數計算 AUC 值相當簡單,只需要提供樣本的實際標籤和預測值這兩個變量即可,大大方便了我們的使用,真心感謝這些開源軟體的作者們!
  • AUC和線上點擊率指標不一致問題分析
    AUC和線上點擊率指標不一致問題分析 原標題:AUC和線上點擊率指標不一致問題分析蘑菇街搜索、推薦排序算法owner,大規模機器學習從業者
  • sin27°的近似計算
    主要內容:詳細介紹通過微分法、泰勒展開法計算sin27°近似值的主要思路和步驟。主要公式:1.sin(a+b)=sinacosb+cosasinb,2.y=sinx,則y=cosx,即dy=cosxdx。方法一:微分法計算∵(sinx)=cosx∴dsinx=cosxdx.
  • AUC 的缺陷是什麼?
    我們不建議使用 AUC 出於五個原因:(1) 忽略了預測的概率值和模型的擬合優度;(舉個例子,假設某個模型對 「1」 類樣本輸出的概率都是 0.51,對 「0」 類樣本輸出的概率均為 0.49,此時 AUC 是 1,但是二元交叉熵非常大,因為預測結果和真實標籤之間的誤差太大);根據 auc 的公式我們可以知道 auc 對於具體的概率值不敏感,
  • 用導數和微分做近似計算,不僅要求結果,還要講內涵
    第三步:把微分集合展開回到函數y=x^3的圖形,從x=2到x=2.02,變化是很小的,在區間[2,2.02]上各點的導數可以看作是近似相等的,那我們可以取x=2上的導數f'(2)來替代整個區間上各點的導數,然後無限個無窮小Δx→0合併成一個自變量的微增量Δx=0.02。
  • ROC和AUC介紹以及如何計算AUC
    這篇文章簡單介紹ROC和AUC的特點,以及更為深入地,討論如何作出ROC曲線圖以及計算AUC。ROC曲線需要提前說明的是,我們這裡只討論二值分類器。對於分類器,或者說分類算法,評價指標主要有precision,recall,F-score,以及我們今天要討論的ROC和AUC。下圖是一個ROC曲線的示例。
  • 為什麼是AUC值而不是GSEA來挑選轉錄因子呢
    首先批量計算AUC值如果是單細胞轉錄組數據裡面,每個單細胞都是有一個geneLists,那麼就是成千上萬個這樣的calcAUC分析,非常耗費計算資源和時間,就需要考慮並行處理,我們這裡暫時不需要,所以直接 nCores=1 即可。
  • 計算專欄#多尺度模型力學實踐中的一般方法
    (以上的內容是連續介質力學和非線性力學的一些基本內容,本文不做詳細介紹。) 在多尺度模型中,小尺度的計算一般有兩種方式為大尺度連續體模擬提供能量形式:第一種方式是本構方程由小尺度的計算得到,即通過小尺度的計算得到的數據來擬合出大尺度計算的本構關係(這種方法多見於順序多尺度模型)。
  • 房產證面積計算方式?尺寸和面積如何計算?
    據悉,房產證上的土地面積計算,是由開發商委託有資質的測繪隊(一般是房管局的測繪隊)進行實地測量的。房產證面積計算的結果,最終由套內建築面積和公共部位與公用房屋分攤建築面積兩部分構成。計算全部建築面積的範圍1、房屋按其外牆勒腳以上結構的外圍水平面積計算,多層房屋的建築面積按各層建築面積之和計算。2、假層、閣(暗)樓和斜面結構屋面其室內淨高在2.00m以上(含2.00m)的部分,按其投影面積計算。
  • 符號和數值混合計算的領軍人
    聽起來如此神通而陌生的計算方式,又是哪位偉大的數學家賦予了它如此生機勃勃的靈魂呢? 數學王國是奇妙的,翻開數學史,有許許多多的數學家,他們仿佛天上的繁星,在數學王國的天空閃閃發光。可我們不難發現,其中女性的名字寥寥無幾。女數學家甚至比女王還要少。
  • 比熱容的概念和計算
    比熱容的計算   設有一質量為m的物體,在某一過程中吸收(或放出)熱量ΔQ時,溫度升高(或降低)ΔT,則ΔQ/ΔT稱為物體在此過程中的熱容量(簡稱熱容),用C表示,即C=ΔQ/ΔT。用熱容除以質量,即得比熱容c=C/m=ΔQ/mΔT。對於微小過程的熱容和比熱容,分別有C=dQ/dT,c=1/m*dQ/dT。
  • 一篇入門計算電磁學
    基於射線的方法通常用光 的傳播方式來近似電磁波的行為,考慮射向平面後的反射、經過邊緣、尖劈和曲面後的繞射。當然這些方法都是高頻近似方法,主要適用於那些目標表面光滑,其細 節對於工作頻率而言可以忽略的情況。同時,它們對於近場的模擬也不夠精確。另一方面,基於電流的方法一般通過求解目標在外界激勵下的感應電流進而再求解感 應電流產生的散射場,而真實的場為激勵場與散射場之和。
  • 機器學習:基於sklearn的AUC的計算原理
    每次選取一個不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點。這樣一來,我們一共得到了20組FPR和TPR的值,將它們畫在ROC曲線的結果如下圖:將截斷點依次取值為score值將截斷點依次取值為0.1, 0.35, 0.4, 0.8時,計算TPR和FPR的結果。 3.1. 截斷點為.01說明只要score>=0.1,它的預測類別就是正例。 此時,因為4個樣本的score都大於等於0.1,所以,所有樣本的預測類別都為P。
  • 模型評估中的AUC是怎麼計算的?
    【2RR/(P+R)=20.40.4/(0.4+0.4)=1】AUC & ROCAUC是一個模型評價指標,只能用於二分類模型的評價,對於二分類模型,還有損失函數(logloss),正確率(accuracy),準確率(precision),但相比之下AUC和logloss要比accuracy和precision用的多,原因是因為很多的機器學習模型計算結果都是概率的形式,那麼對於概率而言
  • 模具彈簧的正確計算方式和推演過程
    模具中用得最多、最需要注意的是頂針板復位彈簧和滑塊限位彈簧,當彈簧作為輔助開模時,沒有太多的限制。為保證頂針板能順利復位,復位彈簧在預壓狀態下的彈力應大於頂針板自重的 2.5 倍。滑塊使用彈簧限位時,天側滑塊應取滑塊自重的2~2.5 倍數值,其他方向滑塊,彈簧預壓狀態的彈力不小於滑塊自重即可。
  • 優化表面積計算方法而得計算公式
    立體圖形的表面積,是指覆蓋該立體圖形的所有面的面積的和。在小學數學中,只研究長方體、正方體和圓柱體的表面積,圓錐的表面積計算不作學習要求。
  • 視角含義及計算方式
    這篇文章將嘗試以作者希望得到的解釋方式來進行講述視角含義及計算方式,並儘量減少數學方面概念。 為何視角對眼動追蹤研究如此重要眼動追蹤過程中到處都可以見到視角這個概念。 顯然,對視角概念的基本理解(以及能夠在屏幕像素和視角之間進行轉換)對於眼動追蹤研究非常有幫助,基本思想如下所示(垂直方向)。花表示的視角(θ)用紫色的雙向箭頭指示。視角計算計算該角度的幅值涉及一些非常基本的數學運算——特別是一些三角函數,在學校可能學習過這些知識。
  • 如何計算電機功率與電纜配線直徑詳細計算方式
    如何計算電機功率與電纜配線直徑詳細計算方式 易水寒 發表於 2018-11-17 10:38:35 一、電機功率與配線直徑計算 首先要計算100KW負荷的線電流
  • FEKO計算中減少內存的方法
    PO和UTD屬於高頻方法,PO只考慮一次場的貢獻,存儲量為O(N),UTD不需要對目標表面剖分,所以內存不是求解的困難。當然,各種方法有其適用的範圍,如果精確方法不能求解的問題,可考慮採用近似的方法降低對內存的需求以解決。技巧主要有兩點,一是對稱性,二是迭代求解的預條件的設置。
  • 曲柄軸扭矩的計算
    計算扭矩的基本公式?分別在曲柄連杆系統和遊梁系統中,取力矩平衡可得:曲柄連杆系統:遊梁系統:消去Fp,可求得複合平衡條件下的矩計算公式:其中:曲柄平衡抽油機,Wb=0,扭矩計算公式計算最大扭矩公式?由於扭矩是隨曲柄轉角的變化而變化,計算很麻煩,而在應用分析中,常常只需要知道曲柄軸的最大扭矩,因此多採用近似計算公式或經驗公式計算最大扭矩。(1) 計算最大扭矩的近似公式?