AUC和線上點擊率指標不一致問題分析

2021-01-09 東方體育

AUC和線上點擊率指標不一致問題分析

原標題:AUC和線上點擊率指標不一致問題分析蘑菇街搜索、推薦排序算法owner,大規模機器學習從業者

最近我們在嘗試深度學習模型,離線的auc已經高於基線,上線後ctr表現也由於基線,但是基於線上實際反饋的打點日誌,深度學習的模型的auc要明顯低於基線。但以前的模型迭代auc是可以和線上ctr對應的。

這個問題比較奇怪,一般情況下,因為線上樣本存在bias,將新模型同時去測試基線流量和實驗流量時,實驗流量的auc會略高於基線流量。

可以這樣理解,新的模型的增量是帶來了一些新的好樣本,但是如果直接去評估基線的數據,由於推薦或排序的數據是動態反饋的,這部分的好樣本就沒有了,auc會偏低。但我們的實驗情況恰恰是相反的。 分析gauc指標

第一反應是auc這個指標失真了,由於排序是個性化的,不同用戶之間的排序結果不可比,不同用戶的負樣本的得分可能比正樣本高,導致全局AUC指標失真。

舉個例子:假設有兩個用戶A和B,每個用戶都有10個商品,10個商品中有5個是正樣本,我們分別用A+,A-,B+,B-來表示兩個用戶的正樣本和負樣本。也就是說,20個商品中有10個是正樣本。假設模型預測的結果大小排序依次為A+,A-,B+,B-。如果把兩個用戶的結果混起來看,AUC並不是很高,因為有5個正樣本排在了後面,但是分開看的話,每個用戶的正樣本都排在了負樣本之前,AUC應該是1。顯然,分開看更容易體現模型的效果,這樣消除了用戶本身的差異。

考慮到用戶的每個樣本之間的差異,一般將樣本權重加到auc係數上去,這樣計算更為合理。前面這種情況發生的前提是:兩個用戶的排序預測結果相互幹擾,也就是分數越相對集中,正負樣本在不同用戶之間差異越大,導致線上的排序效果看似降低,但每個用戶的auc計算不受幹擾,各項線上指標並未降低。

我們採用了阿里提出來的gauc定義:

再統計後的指標如下:

我們發現了gauc後,diff變小了,但是還是基線高,說明gauc和ctr也不一致。 用戶分數分布

可以看到,auc分布中,實驗無點擊的曝光用戶數量增加,在auc[0,0.1]區間基線auc較差。考慮到用戶auc為0的用戶數量,曝光並不多,

相關焦點

  • AUC 的缺陷是什麼?
    我們不建議使用 AUC 出於五個原因:(1) 忽略了預測的概率值和模型的擬合優度;(舉個例子,假設某個模型對 「1」 類樣本輸出的概率都是 0.51,對 「0」 類樣本輸出的概率均為 0.49,此時 AUC 是 1,但是二元交叉熵非常大,因為預測結果和真實標籤之間的誤差太大);根據 auc 的公式我們可以知道 auc 對於具體的概率值不敏感,
  • 機器學習備忘錄 | AUC值的含義與計算方法
    我們參看下維基百科上的定義:在信號檢測理論中,接收者操作特徵曲線( receiver operating characteristic curve ,或者叫 ROC 曲線)是一種坐標圖式的分析工具,用於 (1) 選擇最佳的信號偵測模型、捨棄次佳的模型。通常很多的機器學習工具都封裝了模型指標的計算,當然也包括 AUC 值。
  • 需要重點關注的SEM幾個數據分析常用指標!
    在推廣中,在帳戶後臺有非常多的數據報告和指標。這其中,哪些是有用的哪些又是沒用的呢?先說下需要常關注的一些重點指標和指標分析:1、展現不管是搜索也好信息流也好,展現是第一環節,我們首要就是擴大展現。但這並不等於說,展現越大越好,最終還是要看效果。如果你效果不好,光展現很好也沒有用,畢竟推廣是看轉化,不是看曝光。
  • AUC的一般計算和近似計算方式
    import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import roc_curve, auc# Calculate 'True Positive Rate' and 'False Positive Rate
  • SEM數據分析常用指標,這些要重點關注!
    先說下需要常關注的一些重點指標和指標分析:不管是搜索也好信息流也好,展現是第一環節,我們首要就是擴大展現。但這並不等於說,展現越大越好,最終還是要看效果。如果你效果不好,光展現很好也沒有用,畢竟推廣是看轉化,不是看曝光。而且單純只看展現,那麼可以全帳戶智能匹配。總結一句話,追求高展現,但不過分追求。
  • 淘寶運營基礎知識如何查看淘寶主圖點擊率?如何提高點擊率?
    淘寶主圖點擊率是非常重要的一個因素,是門檻石。點擊率是搜索權重運營的基礎,沒有點擊率就沒有意義,淘寶給到我們的是展示,並不能直接給我們帶來訪客。不對的,瀏覽量是訪問的次數,一個人訪問10次就是10個瀏覽量,但是只記為1個點擊量如果有了解學習過淘寶運營基礎知識的就知道,點擊率可以通過直通車測試來獲得,設置好創意後,開始推廣,直通車報表是有展現量和點擊數,通過這兩個數就可以計算出點擊率直通車的點擊率和自然搜索訪客的點擊率還是有一定的差距,但是不大,所以我們一般認為直通車點擊率就是淘寶主圖的點擊率其他地方暫時沒有辦法計算出點擊率
  • 為什麼是AUC值而不是GSEA來挑選轉錄因子呢
    首先批量計算AUC值如果是單細胞轉錄組數據裡面,每個單細胞都是有一個geneLists,那麼就是成千上萬個這樣的calcAUC分析,非常耗費計算資源和時間,就需要考慮並行處理,我們這裡暫時不需要,所以直接 nCores=1 即可。
  • 一文搞定風控模型6大核心指標(附代碼)
    接下來,本文從如下5個模塊為讀者朋友們介紹如何利用Python實現這些指標數據。from sklearn.metrics import roc_auc_score, roc_curvedef get_auc(ytrue, yprob):    auc = roc_auc_score(ytrue, yprob)    if auc < 0.5:        auc = 1 - auc
  • 機器學習中的AUC-ROC曲線
    雖然它只適用於二值分類問題,但我們將在最後看到如何擴展它來評估多類分類問題。我們還將討論敏感性(sensitivity )和特異性(specificity )等主題,因為這些是AUC-ROC曲線背後的關鍵主題。目錄什麼是敏感性和特異性?預測概率AUC-ROC曲線是什麼?AUC-ROC曲線是如何工作的?
  • 一文讀懂AUC-ROC
    英文原文:https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5在機器學習中,性能測量是一項重要任務。當涉及到分類問題時,我們依靠AUC  -  ROC曲線來做性能評測。當我們需要檢查或可視化多類分類問題的性能時,我們使用AUC(曲線下面積)和ROC(接收器操作特性)曲線。
  • 伺服器性能指標 負載(Load)分析及問題排查
    平常的工作中,在衡量伺服器的性能時,經常會涉及到幾個指標,load、cpu、mem、qps、rt等。每個指標都有其獨特的意義,很多時候在線上出現問題時,往往會伴隨著某些指標的異常。
  • 視覺信息助力廣告點擊率預估-京東廣告團隊技術論文入圍KDD2020
    模型迭代升級進入快車道,業務指標顯著增長。模型建模出現新的細分方向,同時,模型建模迭代也推動自研機器學習平臺9N的升級。京東將精力更多的放在用戶刻畫、預估商品刻畫、用戶和商品關係的建模上,同時致力於發現模型應用中的使用短板,解決模型規模、學習效率、參數更新實時性等關鍵技術問題: Multi task DCN主要解決了兩個問題。
  • 視覺信息助力廣告點擊率預估——京東廣告團隊技術論文入圍KDD2020
    模型迭代升級進入快車道,業務指標顯著增長。模型建模出現新的細分方向,同時,模型建模迭代也推動自研機器學習平臺9N的升級。京東將精力更多的放在用戶刻畫、預估商品刻畫、用戶和商品關係的建模上,同時致力於發現模型應用中的使用短板,解決模型規模、學習效率、參數更新實時性等關鍵技術問題:l Multi task DCN主要解決了兩個問題。
  • Epsilon:2012-Q3營銷郵件的打開率和點擊率微升,觸髮式郵件依舊...
    相比2011-Q2時11.7%的點擊率,觸髮式郵件的點擊率已經連續4個季度下降,達到9.7%。儘管如此,觸髮式郵件的平均點擊率仍然是商業促銷郵件的兩倍還多。2012-Q3,觸髮式郵件的非跳出率始終保持在相對理想的94.7%,略低於商業促銷郵件的96.1%2/3的新用戶不活躍
  • SEM競價不會分析數據,只會浪費更多錢!
    今天我們一起來分析如何玩轉SEM數據分析。(本文主要以教育培訓行業為例,工具以BDP為例)數據分析角度本文將從3個角度入手,分別是:總體分析、關鍵詞分析、地域分析。其中分析的主要指標有:點擊率、諮詢轉化率、線索轉化率、投入產出比、平均點擊價格等。
  • ROC和AUC介紹以及如何計算AUC
    這篇文章簡單介紹ROC和AUC的特點,以及更為深入地,討論如何作出ROC曲線圖以及計算AUC。ROC曲線需要提前說明的是,我們這裡只討論二值分類器。對於分類器,或者說分類算法,評價指標主要有precision,recall,F-score,以及我們今天要討論的ROC和AUC。下圖是一個ROC曲線的示例。
  • 一文讀懂二元分類模型評估指標
    推薦閱讀時間:10min~12min文章內容:解讀二元分類模型各種評估指標在分類模型中,有很多關於模型性能的評估指標(evaluation metric),比如 accuracy、precision、recall、f1-score、roc、auc、prc 等等。這裡慢慢梳理下這些指標的含義以及用途。
  • XRD分析常見問題(上)
    XRD(X 射線衍射)是目前研究晶體結構(如原子或離子及其基團的種類和位置分布,晶胞 形狀和大小等)最有力的方法。XRD特別適用於晶態物質的物相分析。晶態物質組成元素或基團如不相同或其結構有差異,它們的衍射譜圖在衍射峰數目、角度位置、相對強度次序以至衍射峰的形狀上就顯現出差異。
  • SPSS方法|主成分分析:降低指標維度,使複雜問題簡單化
    主成分分析是將多個指標化為少數幾個不相關的綜合指標,並對綜合指標按照一定的規則進行分類的一種多元統計分析方法。這種分析方法能夠降低指標維數,濃縮指標信息,將複雜的問題簡化,從而使問題分析更加直觀有效。目前,這種方法已經在經濟等領域中得到廣泛的應用,選好數據就可以利用SPSS進行主成分分析。本次數據選取陝甘寧蒙晉生態環境指標做生態環境評價分析。