不管你是不是年薪30W的算法工程師,都要了解這幾個模型評估指標

2020-12-05 程式設計師青青

在機器學習領域,對模型的評估非常的重要,只有選擇與問題相匹配的評估方法,才能更好的模型訓練和模型選擇的時候出現的問題,才能更好的對模型進行迭代優化。

模型評估主要分為離線評估和在線評估。針對分類、排序、回歸、序列預測等不同類型的機器學習問題,模型評估指標的選擇也有所不同。知道每種評估指標的精確定義、有針對性的選擇合適的評估指標、根據評估指標的反饋進行模型的調整,這些都是機器學習在模型評估階段的關鍵問題,也是一名合格的算法工程師應該具備的基本功。

模型評估指標反映模型效果。在預測問題中,要評估模型的效果,就需要將模型預測結果f(X)和真實標註的Y進行比較,評估指標定義為f(X)和Y的函數:

score = metric(f(X),Y)

模型的好壞是相對的,在對比不同的模型效果時,使用不同評估指標往往會導致不同的結論。

通常離線評估使用的是機器學習評估指標,在線評估使用的是業務指標。如果離線指標和在線指標不同,則可能會出現離線指標變好而在線指標變差的現象。所以,在一個新的問題開始的初期,都會進行多輪模型迭代,來探索與線上業務指標一致的線下指標,儘可能是線下指標的變化趨勢與線上指標一致。沒有一個跟線上一致的線下指標,那麼這個線下指標沒有參考價值,想判斷模型是否有效,只能線上實驗,這樣就成本太高了。

1 分類問題模型評估指標:

我們先看混淆矩陣

其中,TP表示實際標籤為正,預測標籤也為正,FP表示實際標籤為負,預測標籤卻為正,TN表示實際標籤為負,預測標籤也為負,FN表示實際標籤為正,預測標籤卻為負,樣本總數=TP+FP+FN+TN

準確率(acc) = (TP+TN)/(TP+FP+FN+TN)

精確率(P)=TP/(TP+FP)

召回率(R)=TP/(TP+FN)

ROC與AUC:

ROC中文名稱接收者操作特徵(Receiver Operating Characteristic),ROC曲線不需要設定閾值,縱坐標是真正率,橫坐標是假正率

真正率(TPR)=TP/(TP+FN)

假正率(FPR)=FP/(FP+TN)

AUC是ROC曲線下的面積,取值越大說明模型越可能將正樣本排在負樣本前面。

對數損失(Logistics Loss,logloss)是對預測概率的似然估計:logloss = -logP(Y|X),對數損失最小化本質上是利用樣本中的已知分布,求解導致這種分布的最佳模型參數,使這種分布出現的概率最大。logloss衡量的是預測概率分布和真實概率分布的差異性,取值越小越好。與AUC不同,logloss對預測概率敏感。

2 回歸問題模型評估指標:

平均絕對誤差,也叫L1範數損失,公式:MAE = 1/N·Σ|Yi-Pi|,其中,N為樣本數,Yi為第i條樣本的真實值,Pi為第i條樣本的預測值。模型使用MAE作為損失函數是對數據分布的中值進行擬合。但某些模型如XGBoost必須要求損失函數有二階導數,所以不能直接優化MAE.

均方根誤差的公式:RMSE =√( 1/N·Σ|Yi-Pi|2),RMSE代表的是預測值與真實值差值的樣本標準差。和MAE對比,RMSE對大誤差樣本有更大的懲罰,但它對離群點敏感,健壯性不如MAE。模型使用RMSE作為損失函數是對數據分布的平均值進行擬合。

3 排序問題模型評估指標

平均準確率均值(MAP)和 歸一化貼現累計收益(NDCG),感興趣的可以查閱相關資料。

相關焦點

  • 11個重要的機器學習模型評估指標
    全文共8139字,預計學習時長16分鐘構建機器學習模型的想法應基於建設性的反饋原則。你可以構建模型,從指標得到反饋,不斷改進,直到達到理想的準確度。評估指標能體現模型的運轉情況。評估指標的一個重要作用在於能夠區分眾多模型的結果。
  • Netflix推薦系統模型的快速線上評估方法——Interleaving
    有經驗的算法工程師肯定非常清楚,在一個模型的開發周期中,佔工作量大頭的其實是特徵工程和模型評估及上線的過程。在機器學習平臺已經非常成熟的現在,模型結構的實現和調整反而僅僅是幾行代碼的事情。所以如果能夠將模型評估和線上 AB Test 的效率提高,那一定是大大解放算法工程師效率的事情。
  • 0經驗拿30W年薪, 自從學會大數據, 電話被500強HR打爆了!
    課程亮點  在本次課程中,你將了解:  大數據行業人才需求趨勢及用人標準  0基礎掌握大數據倉庫模型並實戰演練  頂尖公司大數據崗位技能及如何做求職準備常見的數據崗位有大數據工程師、數據挖掘工程師、數據分析師、商業分析師、數據科學家等。
  • 機器學習模型評估指標Python代碼示例
    我們什麼時候評估我們的機器學習模型呢?答案不是只有一次。通常,我們在實際的數據科學工作流中兩次使用機器學習模型驗證指標:模型比較:為您的任務選擇最佳機器學習(ML)模型模型改進:調整超參數為了更清楚地了解這兩者之間的區別,讓我通過機器學習(ML)實現的工作流程來解釋。
  • 一文讀懂二元分類模型評估指標
    推薦閱讀時間:10min~12min文章內容:解讀二元分類模型各種評估指標在分類模型中,有很多關於模型性能的評估指標(evaluation metric),比如 accuracy、precision、recall、f1-score、roc、auc、prc 等等。這裡慢慢梳理下這些指標的含義以及用途。
  • 渠道評估模型:用更少的錢帶來更優質的量
    所以無論是機器刷還是人刷的現象超乎你的想像,加上後期留存、GMV、UGC、有效行為等等問題,需要多維度因素評估渠道質量。什麼是好渠道,什麼是壞渠道,不是簡簡單單的留存高、用戶行為好、成本低或者是GMV高就能說這個渠道質量好,怎樣綜合考慮渠道質量,今天就給大家介紹渠道評估模型。模型就以困難模式下的諮詢類渠道拉新為例講解,我相信這類渠道評估模型要是玩明白了,其他類型平臺應該是得心應手。
  • 二分類模型評估指標:Accuracy、Recall、Precision、F1-Score
    準確率是一個用於評估分類模型的指標。在 91 個良性腫瘤中,該模型將 90 個正確識別為良性。這很好。不過,在 9 個惡性腫瘤中,該模型僅將 1 個正確識別為惡性。雖然 91% 的準確率可能乍一看還不錯,但如果另一個腫瘤分類器模型總是預測良性,那麼這個模型使用我們的樣本進行預測也會實現相同的準確率(100 個中有 91 個預測正確)。
  • BIM工程師年薪究竟多少
    年薪一般在6-8萬元左右。 BIM專業工程師 不僅在技術方面是佼佼者,而且都是相關專業知識背景畢業。他們具備專業資質,技術成熟,在企業與團隊中有著非常重要的話語權,甚至可以左右BIM在企業中的推廣。在BIM行業中屬於金字塔頂端人才。
  • 從模型到部署,FPGA該怎樣加速廣告推薦算法
    機器之心專欄作者:雪湖科技 梅碧峰在這篇文章裡你可以了解到廣告推薦算法 Wide and deep 模型的相關知識和搭建方法,還能了解到模型優化和評估的方式。我還為你準備了將模型部署到 FPGA 上做硬體加速的方法,希望對你有幫助。閱讀這篇文章你可能需要 20 分鐘的時間。早上起床打開音樂 APP,會有今日歌單為你推薦一些歌曲。
  • 機器學習中評估分類模型性能的10個重要指標
    在這篇文章中,我們將學習10個最重要的模型性能度量,這些度量可用於評估分類模型的模型性能。有些指標更適合但不是另一個,反之亦然。類似地,概率場景有不同於類標籤的模型性能度量。下面是流程圖,這是一個完美的總結,也是這篇文章的一個完美的前言,我們將在最後再次回顧這個流程圖,以確保我們了解所有的指標。Confusion Matrix我們從一個開發數據集開始,同時構建任何統計或ML模型。把數據集分成兩部分:訓練和測試。
  • 想了解機器學習?你需要知道的十個基礎算法
    一些有關機器學習常見的例子有:Netflix基於你以前看過的電影再給你做出影片的推薦,或者亞馬遜根據你以前買過的書籍再給你進行圖書推薦。如果想了解更多有關機器學習的知識,要從哪裡開始呢?作者第一次入門是在哥本哈根海外交流時選了一門有關人工智慧的課程。
  • 數據挖掘之模型評估(均方誤差、精確率、召回率及ROC曲線的含義)
    我們都知道,數據挖掘最終的目的就是建立業務模型,然後投入到實際中做一些分類或者預測的事情,但是這個模型做的好不好,我們總要評價吧?這就需要我們對建立的模型做評估,然後根據評估指標和實際的業務情況決定是否要發布這個模型,那麼常用的模型評估指標有哪些呢?他們之間的聯繫又是什麼呢?
  • 大規模主題模型:對Spark LDA算法的改進
    這些問題都能夠被話題模型所解答,它是分析文檔集所涵蓋話題類別的一種技術。本文將要討論Spark 1.4和1.5使用強大的隱含狄利克雷分布 (Latent Dirichlet Allocation,LDA)算法對話題模型的性能提升。
  • 【全自動機器學習】ML 工程師屠龍利器,一鍵接收訓練好的模型
    現在,有一項工作希望讓這些過程自動化,只需一個按鈕,就能讓你得到訓練好的模型,這就是「自動機器學習」(autoML)。而自動機器學習的兩大工具,Auto-weka 有可視化界面,只需輕點滑鼠就能完成訓練工作,auto-sklearn 也僅需數行代碼便可構建可用的模型。操作如此簡單,還不用擔心訓練後的模型不 work,是不是很值得上手試驗一番?
  • 十大步驟幫你有效使用預測分析算法
    了解下面這些步驟可以幫助你為分析項目打下堅實基礎。越來越多的企業開始使用預測分析算法。描述性分析一般提供一種視角,讓你了解已經發生了什麼,而與之相比,預測分析則試圖發現未來事件,例如,識別那些潛在的客戶。但為了充分利用預測模型,在使用先進的分析工具,建立新的或改進業務流程和其他企業變動之間,分析團隊需要找到一個平衡點。
  • 年薪30W+,易學懂的人卻很少,最近這個職業火了……
    兩者都同屬於人工智慧的範疇,但深度學習是基於仿生學,是目前最像人類的人工智慧技術。因此,深度學習行業崗位能夠在短時間內迅速火起來,小編一點都不覺得意外。你甚至可以在沒有任何深度學習理論基礎,不懂Python程式語言的前提下,使用LabVIEW調用TensorFlow進行深度學習模型的訓練,完成業內高精準的機器視覺產品檢測,是迄今為止,自動化或網際網路行業提供的一套最新的、也是最有效的解決方案。 ▪ 如果你想投身AI人工智慧行業,卻苦於不知從何入手?
  • 微軟、優步,老工程師告訴你哪些數據結構和算法最重要
    另有一位工程師決定為聯繫人列表實現插入排序算法。2013 年,Skype 實現了聯網,網絡用戶呈爆炸式增長,而且用戶數還在持續增長。因此這位工程師認為用插入排序按照用戶姓名來構建聯繫人列表,性能會更佳。關於為什麼不單單使用默認排序算法這一問題,我們也經過了反覆討論。最後結論是,使用默認排序算法需要對實現進行適當的測試和相應基準測試,這可能需要更多的工作。
  • 在機器學習回歸問題中,你應該使用哪種評估指標?
    如果你像我一樣,你可能會在你的回歸問題中使用R平方(R平方)、均方根誤差(RMSE)和均方根誤差(MAE)評估指標,而不用考慮太多。儘管它們都是通用的度量標準,但在什麼時候使用哪一個並不明顯。R方(R)R代表模型所解釋的方差所佔的比例。R是一個相對度量,所以您可以使用它來與在相同數據上訓練的其他模型進行比較。
  • 《輪到你了》大Boss即將揭曉,十位算法工程師分析的結果是…
    作為AI圈技(ba)術(gua)流(dang),我們專門找來十位算法大佬讓他站在 AI 的角度預測一下兇手,答案竟然是......(文末揭曉)一天死一個,年度最燒腦《輪到你了》故事發生在日本的一座公寓裡,新婚夫婦菜奈和翔太搬進了公寓的新房,幸福甜蜜的兩人對新生活充滿期待。
  • 教你看清真實TPS PlatON定義標準性能評估模型
    為在規範、完整、嚴謹、可用的評估方法指導下對PlatON展開性能測試,PlatON定義了一套標準的性能評估模型以及基準測試過程,用以對區塊鏈系統的性能進行標準化的評估。在PlatON測試網歷次性能測試中,均沿用了此標準化性能評估模型,我們與社區成員一起在測試網上進行了各種功能測試、異常測試、安全測試、治理演練與各種環境下的壓力測試,目前PlatON已在測試網環境下和仿真環境下分別完成了四次壓力測試,並取得了第一手測試數據。下面我們簡述標準的性能評估模型的組成及任務。