先看四個概念定義:
TP,True Positive:真正例是指模型將正類別樣本正確地預測為正類別。
FP,False Positive:假正例是指模型將負類別樣本錯誤地預測為正類別
TN,True Negative:真負例是指模型將負類別樣本正確地預測為負類別。
FN,False Negative:假負例是指模型將正類別樣本錯誤地預測為負類別。
谷歌機器學習課程案例:
關於腫瘤惡性和良性判斷:
接下來試著計算以下模型的準確率,該模型將 100 個腫瘤分為惡性或良性:
準確率是一個用於評估分類模型的指標。通俗來說,準確率是指我們的模型預測正確的結果所佔的比例。
準確率為 0.91,即 91%(總共 100 個樣本中有 91 個預測正確)。
在 100 個腫瘤樣本中,91 個為良性(90 個 TN 和 1 個 FP),9 個為惡性(1 個 TP 和 8 個 FN)。
在 91 個良性腫瘤中,該模型將 90 個正確識別為良性。這很好。不過,在 9 個惡性腫瘤中,該模型僅將 1 個正確識別為惡性。
雖然 91% 的準確率可能乍一看還不錯,但如果另一個腫瘤分類器模型總是預測良性,那麼這個模型使用我們的樣本進行預測也會實現相同的準確率(100 個中有 91 個預測正確)。換言之,我們的模型與那些沒有預測能力來區分惡性腫瘤和良性腫瘤的模型差不多。
所以,當數據集的分類不平衡情況下,不能單一使用 Accuracy(準確率)這個指標。
精確率指標嘗試回答以下問題:在被識別為正類別的樣本中,確實為正類別的比例是多少?
精確率的定義如下:
接下來計算一下案例中腫瘤的精確率:
該模型的精確率為 0.5,也就是說,該模型在預測惡性腫瘤方面的正確率是 50%。如果模型的預測結果中沒有假正例,則模型的精確率為 1.0。
召回率嘗試回答以下問題:在所有正類別樣本中,被正確識別為正類別的比例是多少?
召回率的公式如下:
來計算一下腫瘤分類器的召回率:
該模型的召回率是 0.11,也就是說,該模型能夠正確識別出所有惡性腫瘤的百分比是 11%。
F1分數(F1 Score),是統計學中用來衡量二分類模型精確度的一種指標。它同時兼顧了分類模型的精確率和召回率。F1分數可以看作是模型精確率和召回率的一種加權平均,它的最大值是1,最小值是0。1代表模型的輸出最好,0 代表模型的輸出結果最差。
F1 Score 公式如下:
在二分類模型評估中,為了平衡這幾個指標,通常只評估 F1 Score,只選擇 F1 Score 最高的模型。