對模型預測涉及的兩個內容,真實值(Actual Values)和預測值(Predicted Values)進行統計,放在R裡,即是table 對真實值和預測值的展示;
一般,我們經常涉及的是二分類情況下的混淆矩陣:
Actual<-c(1,1,0,0,1,1,1)
Predicted<-c(1,0,1,1,0,1,1)
table(Actual,Predicted)
Predicted
Actual 0 1
0 0 2
1 2 3
這裡的評價即預測+真實的縮寫,所謂預測即T/F,真實即P/N;
TP-true positive 真陽性
TN-true negative 真陰性
FP-false positive 假陽性(也稱Type I Error)
FN-false negative 假陰性(也稱Type II Error)
3. Accuracy/Precision/Sensitivity/Specificity/F1-Score4. AUC & ROCROC(Receiver Operator Characteristic)一般在二分類問題中對分類器進行評價;
AUC(Area Under Curve)ROC曲線的曲線下面積;
一般,分類器輸出的結果為score,設定閾值後,基於score是否大於閾值,可進行類似0/1判定,基於預測值和實際值,即計算得到此分類器該閾值的Sensitivity(真陽性率)和1-Specificity(假陽性率)。
library(pROC)
plot(roc(response,predictor),print.auc=TRUE,plot=TRUE,legacy.axes=T)
【參考】:
1.https://www.analyticsvidhya.com/blog/2020/12/decluttering-the-performance-measures-of-classification-models/