想完成天氣、欺詐預測?先搞對度量標準再說吧

2021-01-08 讀芯術

全文共3271字,預計學習時長6分鐘

選擇合適的度量標準去解決分類問題,可以讓我們更好地了解模型,讓模型更快地實現自我優化,並獲得更多面向業務的結果。比如:

解決模稜兩可的問題

天氣預報、股價預測、信用欺詐檢測等都試圖通過建立數據模式來解決一個看似模糊的問題。我們往往試圖找出觀測數據和觀測目標標籤之間的關係,並進一步利用發現的這些關係進行預測。

那麼,我們發現的數據和預測目標之間關係的質量如何呢?

求函數近似值

在所有有可能的數據下,每一個事件都是可預測的,因此每一個目標觀測都可以用一個函數來解釋,這個函數採用了正確的預測值集。

f(AllPredictors)->yorf(AllPredictors) gives target

我們試圖找到一個函數g,與f值非常近似。由於有時沒有所有預測變量和所有的觀測值,因此不可能找到函數f本身。所以發現:

g(Some subset ofPredictors) -> y [Correct in most cases]

g與f的近似程度如何?

「g與f的近似程度」將取決於我們的預測器,以及我們的學習算法。

我們有兩個問題,第一:函數近似程度有多高?第二:在數據和目標之間找到的關係有多好?度量標準會回答這些問題。

一個好的指標來預測第二天的降雨情況

我們每天都會對第二天進行預測。比如我們經常會預測明天是否會下雨?需要帶傘嗎?

假設只有87天下雨,278天沒下雨。我們可以預測這些天中下雨天有42天。但總的來說,預測有122天要下雨。87天中有42天是正確的,278天中有278-80=198天,42+198=240天。所以正確率為240/365或65%。但如果我們的目的是保護用戶不被淋溼,那麼我們失敗了87-42=45次。有一半的雨都沒料到。所以,雖然65%的時間是正確的,但仍然有45天被淋溼,只在42天沒被淋溼。

所以,使用的指標(總誤差的百分比)是否是問題的正確指標?請看下面2個案例:

案例1:避開下雨天:客戶基於你的預測來計劃外出。也許你可以用另一種方法衡量?就像「檢測到%雨天」和「N天之前的TTL /預測」一樣,由於我們的用戶希望能避開下雨天,如果我們能檢測到大多數雨天就更好了。此外,在這種情況下,提前提供預測(第二個度量標準)以供用戶計劃也很重要。我們在努力優化兩者。

案例2:通勤交通路線選擇:在這裡你可以預測每小時的情況並且不需要查找所有下雨天,更重要的是大部分時間都要正確,因此用戶(或地圖應用程式)可以在大多數時間選擇正確的路線。這裡「整體的正確時間百分比」確實是一個很好的指標。

由此可見,成功的機器學習解決方案不僅需要定義精度、召回、準確度。指標可能還需要考慮重要的業務因素,例如應該何時進行預測?需要預測多長時間?(需求預測域)算法需要多長時間等等。

本文重點研究了分類問題的一個子集——偏差標籤分類問題。在這些問題中,目標標籤不是均勻分布的。示例本身存在偏差,其中正標籤(下雨)僅為87,而負標籤為278個,偏差為1:3。

像信用欺詐這樣的問題有很多偏差,99%的例子是負標籤(非欺詐),只有1%是正標籤(欺詐)。因此,諸如準確性、精確度、召回之類的通用指標無法達到目的。此外,許多組織都有一套關於精確、召回的概念(90%精確度,95%召回率)。但對於這些偏重類的問題,這些數字大多是無法實現的。因此,正確的問題是:機器學習模型能否提供商業價值?指標應反映此問題。

可用於分類問題的度量標準

本文提供了當前流行的scikit庫中可用的分類指標列表。下面是從最好到最差的排序(關於偏差問題):

敏感度分數

特異性分數

精確度

召回

平衡準確度

準確性

F1得分

AUC-ROC

精確召回曲線下的平均精度/面積

不平衡/偏差問題的分類度量行為

我們將人工創建一些數據然後將偏差分為正面和負面兩類。接下來,使用分類算法和一些指標來檢查指標對增加的偏差的反應。

理想情況下,如果沒有對模型進行微調或對數據進行重新採樣,合適的指標應該是從好到壞。另一方面,不考慮偏差的指標將不會顯示出很大的變化,甚至可能隨著變差的增大而增大。

首先看看不平衡的數據是什麼樣的,使用scikit的make_moons api函數。

激活不平衡圖代碼

當增加不平衡時的結果為:

不平衡增加

接下來看看在不斷增加的不平衡下各種指標是怎樣的。

生成數據

接下來,定義一個連續構建模型的函數。

模型構建器函數

最後,編寫了一個遍布於各種不平衡值以及我們提供的指標的函數,並繪製了指標與不平衡的關係圖。

繪製指標與不平衡的函數

此處使用了np.logspac來生成不平衡值。這有助於生成更多接近0的值,更少接近1的值。第8行的函數調用不平衡數據,這是一個自定義函數,可以在同一文件夾的lib.py中找到。其他自定義函數在同一個文件中。

最後,來運行它。使用F1、準確性、召回和精確性作為度量標準。

度量與不平衡-I

觀察結果如下:

準確性對不平衡一點也不敏感,而精度、召回和F1對不平衡敏感。

接下來,嘗試一些其他指標。我們定義了兩個新的指標:precision@recall=75和recall@precision=75,因此我們將recall/precision保持在一個設定的閾值,然後檢查不平衡是如何影響其他指標的。

指標與不平衡 - II

注意,所有這些指標都對不平衡很敏感。為了改進,需要調整模型。另一方面,準確度對不平衡不敏感,因此呈現出良好性能的虛假舒適畫面。這是因為隨著偏差的增加,預測最頻繁出現的類別將呈現高精度。在1:99的偏差情況下(1個正偏差和99個負偏差),如果預測結果總是負的,那麼99%是準確的。準確度=正確預測數/總示例數。

最後將AUC-ROC和平均精度與準確度進行比較。

指標與不平衡性 - III

注意,AUC-ROC對不平衡不敏感。因此,如果數據集有偏差,那麼AUC-ROC就不是一個很好的指標。來找出其中的原因。

關於AUC-ROC對不平衡不敏感的解釋

ROC曲線和術語

對於不同的閾值(0-1),ROC曲線呈現出真陽性與假陽性。隨機猜測的最小值可能是0.5。

讓我們看看它對增加不平衡有什麼作用。

我們想證明的是:隨著不平衡的增加,TPR和FPR保持不變。Eq 1: TPR = TP/(TP+FN)

隨著不平衡的增加,TPR將基本保持不變,因為它取決於對正偏差例子進行的錯誤分類。如果算法的檢測性為90%,那麼TPR = 90 /(90+ 10)= 0.9,即TPR不依賴於偏差,而僅依賴於算法檢測正偏差的程度。

Eq 2: FPR =FP/(TN+FP)

有趣的是,隨著偏差的增加,我們將會得到更多的FP,假設算法將每100個負偏差例子中的1個歸類到正偏差裡面(FP),那麼當偏差值較高時,我們得到的負偏差將比正偏差多很多,也將得到很多FP。但在這裡不考慮FP,考慮的是FPR。注意TN的分母,真負值(TN)也會因負偏差類別的增加而增加。因此,FPR也保持不變。

鑑於兩個方程式在直觀上是相同的,因此AUC-ROC對偏差不敏感也就不足為奇了。

使用派生指標解決不平衡/偏差問題

建議根據需求使用以下兩種方法之一。

Precision@Recall=x or FPR@Recall=x

Recall@Precision=x

為什麼有用?

舉一個欺詐檢測的例子,如果想檢測95%的欺詐,那麼召回率= 0.95,現在你要確保沒有太多的FP。精度= TP /(TP + FP),因此請提高精度,降低FP。你在公式中修復了x,所以你對召回有所了解,現在通過不斷召回來優化模型,以提高精度或降低FPR。

同樣的,比如說癌症的藥物管理(化療)。要確保沒有這種疾病的人不會開這種藥物,因為它對健康有巨大的影響。醫院認為診斷的錯誤率只有千分之一。或者精度=999/(999+1)=0.999。所以精度是固定的,現在你的模型必須增加檢測/召回。因此,recall@precision=0.999是一個很好的度量標準。

除了使用這些特定問題的派生度量之外,指標還可以由多個約束條件組成。例如,在談到的降雨預報問題中,你可以有一個像Precision@Recall=0.8,Duration=7Days的指標,即你想要檢測80%的雨天,並在至少7天之前預測到降雨。通過這些約束條件,你也能優化精度。

選擇正確的度量標準時要注意的事項

基於問題和度量的數學性質

如果分布存在偏差,則準確性和AUC-ROC不是優選。最好使用Precision / Recall或某些派生度量。

基於商業效用

在這種情況下,派生指標是優選,因為它們最適合用於商業案例。我們在上面展示了Precision@ Recall = x和Recall @ Precision = x如何很好地編碼業務需求。

為什麼不使用曲線下面積/f1得分/AP作為度量

僅供參考:這只是一個觀點。

請注意,當精度和召回互換時,F1可以是相同的值。設精度= 0.9,召回= 0.3,然後f1 =0.45,將它們互換,並設召回= 0.9,精度= 0.3,結果仍然是f1 = 0.45。現在,如果將f1作為模型指標,那麼精度和召回的值是多少呢?貴公司是否準備好接受這兩個值了呢?他們能理解嗎?

至於AP/AUC-ROC,它們也有類似的情況,即曲線下的面積可能相同,因為兩個外觀非常不同的曲線優化方式各不相同。

注意:

· 不要將AUC-ROC、PR曲線區域(平均精度分數)等用於業務報告。

· 不要在報告中使用像F1 Score這樣複雜的指標。

· 使用派生度量標準,這樣可以輕鬆地輕鬆捕獲業務的精髓。

· 如果數據不平衡,請不要使用準確性或auc-roc。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

相關焦點

  • 想愉快的留學,先學會這7個奇怪的度量單位們再說 | 美帝生存指南
    華氏度攝氏度怎麼轉換,feet、inch傻傻分不清楚,在美帝生存如果不能玩轉這些單位簡直是寸步難行,今天,編者就將帶領即將奔赴美帝的你來攻克即將面對的「度量單位搞不清楚綜合症」讓你的美帝生活不再艱難!所以今天筆者想通過這篇文章來介紹一下美國的度量衡單位,方便初到美國或者即將出發前往美國的小夥伴們,也順便自己存一份在手機裡,祭奠來美國三年依舊算不清楚單位的腦子。
  • 機器學習模型的度量選擇一
    類似地,每個機器學習模型都試圖使用不同的數據集來解決目標不同的問題,因此,在選擇度量標準之前了解背景是很重要的。最常用的度量在第一篇博客中,我們將只討論回歸中的度量。回歸度量大多數博客都關注分類指標,比如精確性、召回率、AUC等。為了改變這一點,我想探索各種指標,包括回歸中使用的指標。
  • 這些奇葩的度量單位
    得利於秦始皇統一度量衡,中國在秦朝的時候就有了度量標準。但英國直到中世紀,依然沒有一個準確的度量標準。比如說1英寸最早的定義是「拇指的寬度」。後來愛德華二世覺得這玩意兒太不嚴肅,就改為「一穗大麥上最大的三粒麥子相接的長度」。還別說,1英尺就是一隻腳的長度,1碼是亨利一世伸直手臂後鼻尖到指尖的長度。
  • 中國古代度量衡單位換算和來歷都在這兒了
    首先說,度量衡是說了三個東西:度:長度的標準量:體積標準衡:重量標準理工男一看,馬上就不幹了----體積不就是長度的衍生嘛,這不科學啊。而作為度量用的,是帶殼的小米顆粒,用常見的顆粒作為標準進行統計,有沒有點兒大數據的意思?這個時候,就定了,100個黍的縱向長度就是1尺!稍等,這尺怎麼就冒出來了呢?
  • 《中國現代化報告2020》聚焦世界現代化的度量衡
    該書是國際歐亞科學院院士、中國科學院中國現代化研究中心主任、中國現代化戰略研究課題組組長何傳啟研究員及其團隊完成的第19部年度報告,是「十三五」國家重點圖書出版規劃項目。 何傳啟表示,世界現代化的度量衡的提出和建立,標誌著現代化科學走向成熟,現代化研究從定性研究走向定量研究,從闡釋性描述走向規範化和標準化分析;世界現代化的度量衡是現代化進程的度量衡,也是現代化領域的一種計量和標準體系。 何傳啟介紹說,《中國現代化報告2020》聚焦世界現代化的度量衡,主要包括五項內容: 一是現代化進程的度量衡研究。
  • 現代化究竟應該怎樣「度量」?中科院專家給出解答
    「人類生活離不開度量衡,世界現代化需要度量衡。」11月26日,《中國現代化報告2020》專家座談會在京舉行。論及度量衡,國際歐亞科學院院士、中國科學院中國現代化研究中心主任、中國現代化戰略研究課題組組長何傳啟如是說。
  • 氣象科普|天氣預報如何預測天氣?
    小據帶你了解天氣預報如何預測天氣吧~古人如何預測天氣01在我國古代,從夏商周時期開始,就已經有了明確的農業生產的記載。根據二十四節氣以及長期觀測總結出來的經驗,出現了許多如:「天上魚鱗般,曬穀不用翻」「朝霞不出門,晚霞行千裡」的天氣諺語。根據史料記載,到漢代時,人們已經開始試著用一些科學的方式來預測天氣了。
  • 天氣預報準不準?——關於概率預測
    我總覺得小時候的天氣預報比較科學,該說啥說啥,明天中到大雨三級風,鏗鏘有力,擲地有聲,至於下不下那再說。現在可好,降水概率60%,這叫啥態度,報不準你可以說不一定,啥叫60%?那到底是下雨還是不下雨?有沒有人也這樣質疑過?
  • C#使用ML.Net完成人工智慧預測
    方案示例數據Label特徵分類預測銷售異常產品銷售數據產品銷售額月份預測網站評論的情緒網站評論數據標籤(負面情緒為 0,正面情緒為 1)評論、年份預測信用卡欺詐交易信用卡數據類(存在欺詐性為 1,否則為 0)金額,V1-V28(匿名處理後的特徵)預測 GitHub 存儲庫中的問題類型GitHub 問題數據區域標題、描述值預測預測計程車費用價格計程車費數據車費行程時間、
  • 天氣預報是如何預測的?
    我們觀看或收聽了這麼多年的天氣預報,但你不一定知道天氣預報是怎麼來的。首先,我們要搞明白什麼是天氣預報?天氣預報(測)或氣象預報(測)是使用現代科學技術對未來某一地點地球大氣層的狀態進行預測。當今的天氣預報主要是使用收集大量的數據(氣溫、溼度、風向和風速、氣壓等),然後使用目前對大氣過程的認識(氣象學)來確定未來空氣變化。
  • 談談美國(英制)度量衡
    歸根究底,還是不同的度量很惹得禍。這不免讓筆者想到了我國古代戰國時期,各個國家使用不同的度量衡,大大阻礙了各國的交流。因此,從促進文化與商業交流的角度,了解另一個國家的度量衡還是重要的。      總體來說,當今世界主流度量衡單位大致分為兩大正營。
  • 追查MAC欺詐
    對於無線網絡上的MAC欺詐來說,在確定冒名頂替者的位置時會遇到一個問題,那就是如何從網絡角度區分假冒設備與合法設備。同乙太網一樣,基於802.11系列標準的無線設備,通過MAC地址確定自己在網絡上的唯一身份。然而,在多數作業系統中,改變無線接口的MAC地址易如反掌。這樣一來,即便MAC欺詐可以被檢測到,也很難確定假冒設備的位置。
  • 農村俗話說:「有雨山戴帽,無雨山沒腰」,預測天氣神準!
    現在我們出門前都會習慣性掏出兜裡的手機看看天氣,市面上越來越多的天氣APP,讓我們都快忘了以前的人們是怎麼判定接下來的天氣了。其實在以前科技不怎麼發達的時候,我們廣大的勞動人民除了根據「24節氣」來預測天氣以外,基本都是靠對生活、農耕事物等的細心觀察,然後把自己觀察到的周邊環境再結合上當時的天氣情況變化,最終他們就總結出來了豐富的關於「預測天氣」的諺語,經過大家口口相傳,實際驗證,有的「預測天氣」的諺語堪比現在的天氣預報呢。
  • 《流放之路》.6欺詐低血烈風雷球BD怎麼搭配 欺詐低血烈風雷球BD推薦
    BD思路,比如這次給大家介紹的3.6欺詐低血烈風雷球BD,那麼具體該怎麼弄呢?下面就跟小編一起了解下吧... 流放之路3.6欺詐低血烈風雷球BD推薦,全新的3.6版本,而隨著新的升華天賦出現,也出現了很多新的BD思路,比如這次給大家介紹的3.6欺詐低血烈風雷球BD,那麼具體該怎麼弄呢?下面就跟小編一起了解下吧。
  • 假冒大嘴猴搞港版促銷 商家行為構成惡意欺詐
    原標題:假冒大嘴猴搞港版促銷 商家行為構成惡意欺詐   商家打商標擦邊球讓消費者難辨真假   近日,一個聲稱是「大嘴猴」服裝新品的推廣會出現在市內某廣場附近。記者採訪了其中一位正在選購的女士,該女士表示:「促銷商品的款式和『大嘴猴』非常像,而且樓上就有『大嘴猴』的專櫃,不可能在這個位置賣假貨吧?」隨後,這個女士消費129元購買了一條短褲。   隨後,記者以顧客的身份向銷售人員諮詢時,銷售人員明確地向記者表示:「我們是『大嘴猴』正品,是『港版大嘴猴』。是得到美國公司授權的,在中國生產的。現在只做幾天的新品促銷,過幾天我們就漲價了。
  • ARK 「DFC·先做再說」活動,看行業大咖如何創造改變!
    五年來,ARK Design 與近 100 家優秀的合作夥伴並肩前行,完成了 100+ 項目的產品設計,近 80% 的設計在產品中落地實現,其中 80% 的客戶是 ARK Design 的回頭客。到現在為止,超過十億用戶在使用 ARK Design 參與設計的產品和服務。在未來,ARK 創新諮詢將在「先做再說」的道路上繼續前行。
  • 先看看I型文明有多厲害再說吧
    可以看到,按照這種設定,III型文明就應該是宇宙中的頂級文明了,筆者認為,在討論III型文明之前,我們還是先看看I型文明有多厲害再說吧。也就是說,對於I型文明而言,地震、火山、海嘯、極端天氣、全球變暖這些通通不是問題,他們可以把自己的行星打造成一個「天堂」,只要自己的行星還在,I型文明就可以一直生存下去。
  • 美國人堅持使用英制度量衡,造就了多少不便?
    這兩種度量衡系統佔據的範圍有多大呢?看圖圖片上紅色區域使用英制,黃色混合使用兩種,而藍色使用公制。也就是說,英制單位這種過時的系統,早已半邊身體入土為安——但另一半身體卻在美國大地上吆喝著「我還能再活500年」。
  • 反欺詐乾貨丨複雜網絡及其應用簡介
    而新的節點在加入網絡時會傾向於與有更多連接的節點相連,例如新網頁一般會有到知名的網絡站點的連接,新加入社群的人會想與社群中的知名人士結識,新的論文傾向於引用已被廣泛引用的著名文獻,新機場會優先考慮建立與大機場之間的航線等等。這種「富者更富」的效應就是一些現實世界網絡增長模式的特徵。
  • 樂視手機想成功?先顛覆小米模式再說吧
    筆者認為,樂視手機如果想長期發展,在技術上不必太過超前,只要做好長期規劃即可,單純追求技術的拉風,無法保證用戶的忠誠度,技術只要略高於當下主流手機即可,關鍵是各項服務的黏度上,如何讓用戶用了就離不開,才是顛覆的根本核心所在,方案比手機技術本身更重要,樂視整體生態要發揮作用。但是,如果這樣,樂視超級手機無疑是平凡無奇的,更不可能顛覆市場。