entropy是用於表示二元分類器的誤差,而cross entropy則用於表示多元分類器的誤差。
對於一個用的測試樣本的元分類器,那麼cross entropy的計算公式如下:
比如一個三元分類問題,有兩個測試樣本,第一個樣本:
預測出來的概率為,實際標籤為,寫成one-hot的形式是;
第二個樣本:
預測出來概率為,實際標籤為,one-hot的形式為
那麼cross-entropy為
LogLoss是越小越好,至於多小是好,並沒有統一標準。這個要根據實際問題來看。我參加過兩個用LogLoss做標準的比賽,一個比賽的第一名是0.01左右,另外一個是0.4左右。用其他數據的LogLoss作為自己模型的標準,參考意義不大。
假如我們現在有個訓練集,100萬個數據點,其中10萬個為陽性,那麼總體上每個樣本為1的概率可近似認為是0.1。通常來說,測試集的分布是非常接近於訓練集的,那麼測試集中大概有10%的樣本為陽性。如果我們預測測試集中每個樣本為1的概率都為0.1,那麼logloss會是多少呢?
假如總體分布是每個樣本以的概率p為陽性,我們預測每個樣本為陽性的概率都為p,那麼logloss 是多少呢?
很顯然
所以最差的情況就是,樣本正好是一半陽性一半陰性,此時你按照上面方面預測(亂猜)出的logloss是0.693。換句話說,只要loglss是在0.693以上,就基本說明了模型是失敗的。