推薦系統「體檢」:如何評估推薦系統的「健康」狀況?

2020-12-14 人人都是產品經理

為了自己的健康去體檢,推薦系統也有自己的健康指標,不同的業務、不同的場景、不同的階段都有不同的指標,所以選擇好的評估指標以及合適的評估方式,才能讓推薦系統更加「健康」。那麼,如何評估推薦系統的「健康」狀況?

推薦系統從海量數據中挖掘用戶喜歡的內容,滿足用戶的需求。要想做到「千人千面」的同時,又能做到「精準推薦」,一個健康的推薦系統是必不可少的。

就像為了自己的健康去體檢,推薦系統也有自己的健康指標,不同的業務、不同的場景、不同的階段都有不同的指標,所以選擇好的評估指標以及合適的評估方式,才能讓推薦系統更加「健康」。

推薦系統的常見指標

推薦系統的評價指標,要從解決實際問題的角度來思考,好的推薦系統,不僅要保證自身的「健康」,還要滿足服務平臺、用戶等多方面的需求。

圖1:推薦系統基礎流程

1. 用戶角度

用戶最重要的需求是更方便、更快速的發現自己喜歡的產品,為了滿足用戶的需求,推薦系統可以從以下幾個方面評估。

準確度:準確度更多的是用戶主觀感受,評估的是推薦的物品是不是用戶喜歡的,比如推薦的視頻,用戶觀看了,推薦的商品,用戶加入購物車或者購買了,都可以用來衡量用戶的喜好程度。驚喜度:推薦的物品讓用戶有耳目一下的感覺,可以給用戶帶來驚喜。比如推薦用戶想不起來名字的音樂、電影,或者用戶知道功能不知道名字的商品等等,這種推薦和用戶的歷史興趣不一定相似,但是用戶很滿意,超出了用戶的預期。新穎性:給用戶推薦沒有接觸過的東西,推薦出的商品不一定是用戶喜歡的,但是可以提升用戶的探索欲望,從而獲取更完整的用戶興趣。多樣性:人的興趣往往是多種多樣的,給用戶推薦多種類目的物品,可以挖掘用戶新的興趣點,拓寬用戶的興趣範圍來提升用戶的推薦體驗。

2. 平臺角度

平臺方給用戶提供物品或者信息,不同平臺獲取利潤的方式不同,有的通過會員盈利,有的通過商品盈利,大部分的平臺都會通過廣告賺錢。

所以對於平臺方來說商業目標是最重要的目標之一,通常來說有兩類值得關注,一個是內容滿意度,一個是場景轉化率。

1)內容滿意度

業務場景不同,內容滿意度的指標也隨之變化,主要是通過用戶對產品的不同行為了來衡量,下圖的例子分別說明了不同領域的內容滿意度的一些衡量指標。

圖2:內容滿意度評價指標

2)場景轉化率

轉化率是比較直觀的指標,給用戶進行推薦,是希望用戶對推薦的內容有所行動,比如常見的點擊行為、點讚行為等。

pv點擊率(點擊量/pv):比較經典的指標,能粗略的衡量轉化效果,但是少數用戶貢獻大量的點擊會掩蓋這個指標的真實性。uv點擊率(點擊率/uv):與pv點擊率相比,該指標不會因為重複瀏覽某個產品而受影響,能記錄用戶在一個完整周期的點擊效果。曝光點擊率(點擊量/曝光次數):比較適合信息流這種支持上拉/下拉翻頁的產品,曝光次數隨著用戶刷屏次數增加而變大,能更真實的記錄每一屏的轉化情況。uv轉化率(轉化次數/點擊量):衡量用戶的轉化情況,能把多大比例的用戶從一個場景轉化到另一個場景去。比如視頻App首頁,一般用戶在點擊某個視頻後,會進入詳情頁繼續操作,而不是返回首頁,用uv轉化率更加合理。人均點擊次數(點擊量/點擊uv數):每個用戶點擊的次數,與uv轉換率相輔相承,可以評價用戶的深度,uv轉化率評價用戶的寬度。*註:pv:訪問頁面的次數;uv:訪問頁面的人數。

推薦系統的離線評估

推薦系統的評價指標除了上面提到的用戶角度和平臺角度之外,還有推薦系統自身的評估。

推薦系統從接收數據到產生推薦結果,再根絕推薦結果的影響重新修正自身。所以本質上是一個閉環系統,在這個閉環中,離線部分的工作主要是通過學習訓練以及其他策略規則進行召回,主要的以下的評估指標。

圖3:推薦系統評價階段

1. 準確度

準確度的評估主要是評估推薦算法模型的好壞,為選擇合適的模型提供決策支持。

推薦系統也像其他機器學習一樣,把數據劃分為訓練集和測試集,使用訓練集學習訓練模型,通過測試集來衡量誤差以及評估準確度。根據推薦系統的目的不同,準確度的衡量也有不同的指標。

分類問題:比如點擊、不點擊或者喜歡、不喜歡就可以看成分類問題,分類問題的指標主要是精確度(Precision)和召回率(Recall),精確度描述的是推薦結果有多少是用戶喜歡的。

而召回率描述的是用戶喜歡的產品,有多少是推薦系統推薦的。當然,我們希望這兩個指標都越大越好。但是實際情況,都需要平衡這兩個指標的關係,所以常用的F-指標就是一種常用的平衡二者關係的計算方式。

評分預測:對產品進行評分,比如電影評分,常用的準確度指標主要有均方根誤差(RMSE)、MAE(平均絕對誤差),二者之間主要是計算方式的差別,都是描述算法的預測評分和產品真實評分之間的差距。

排序問題:分類和評分預測問題,只是把可以推薦的產品篩選出來,但是並不包含展示給用戶的順序,我們當然希望把用戶最可能「消費」的產品放在前面,這就需要排序指標。

其中最常見的離線指標是AUC,簡單的說,AUC代表的是隨機挑選一個正樣本和一個負樣本,正樣本排在負樣本前邊的概率。所以當算法能更好的把正樣本排在前邊的時候,就是一個好的算法模型。

其他常見的算法指標,比如MAP,描述的是推薦列表中,和用戶相關的產品在推薦列表中的位置得分,越靠前得分越大,MRR是按照相關產品的排名的倒數作為準確度,NDGG描述的是推薦列表中每一個產品的評分值的累加。同時考慮每個產品的位置,最後進行歸一化,在同一標準上評價不同的推薦列表。

2. 覆蓋率

覆蓋率描述的是推薦出的產品佔總產品的比例,除了產品之外,類目、標籤也可以用覆蓋率來評價。

3. 多樣性

用戶的興趣不是一成不變的,而且有些產品的用戶不止一個,同一用戶的興趣也會受到時間段、心情、節日等多種音速的影響。所以推薦時要儘量推薦多樣的產品。在具體的多樣性評價上,可以通過對產品聚類,在推薦列表中插入不同類別的產品來提高多樣性。

4. 時效性

不同產品的時效性是不同的,比如電商類需要的時效性不是很高,但是新聞、資訊、短視頻這類產品,就需要很高的時效性。所以針對不同產品甚至產品下不同的類目,設置不同的時效性,也是提高推薦質量的途徑之一。

推薦系統的在線評估

在線評估大致可以分為兩個階段:一個是用戶觸發推薦服務;另一個是用戶產生行為這兩個階段。

1. 觸發推薦服務

穩定性:系統的穩定性對於用戶的體驗至關重要,怎樣能針對不同的場景持續穩定的提供推薦服務,是推薦系統最重要的指標之一,提高推薦效果,也要在保證系統穩定性的前提下去進行優化。高並發:當某個時間點有大量用戶訪問,或者用戶規模很大時,推薦系統能否扛住高並發的壓力也是一個很大的挑戰。所以設計一個高並發的系統,了解不同接口的高並發能力,做好充分的壓力測試,也是推薦系統能否穩定提供服務的重要內容。響應時間:響應時間衡量用戶是否能夠及時得到推薦反饋,響應時間會受到多種因素的影響,比如網絡情況、伺服器、資料庫等,可以通過監控請求的時長,做好超時報警。同時在生產推薦結果時優化計算方式、簡化生產過程,儘可能的規避響應時間帶來的影響。

2. 產生行為

這一階段主要是用過用戶產生行為,通過收據分析用戶的行為日誌進行相關指標的評價。這一階段更多的是考慮平臺角度,從商業化指標以及用戶行為指標等方面進行評價。

比如轉化率、購買率、點擊率等都是常見的行為指標,一般用戶行為符合漏鬥模型(例如,推薦曝光-點擊-閱讀-分享),通過漏鬥模型可以直觀的描述不同階段之間的轉化,提升用戶在不同階段之間的轉化。

圖4:用戶行為漏鬥模型

AB測試

在線評估通常會結合AB測試,當有新的算法或者策略上線時,通過AB測試,在同一指標下,對比新舊算法的差異,只有當新算法有明顯優勢時,才會取代舊的算法。

圖5:AB測試流程

1. 什麼是AB測試

AB測試的本質是對照試驗,其來源於生物醫學的雙盲測試,通過給兩組病人不同的藥物,來確定藥物是否有效。

在推薦系統中,AB測試也採用了類似的概念:將不同的算或者策略,在同一時間維度,分別在兩組或者多組組成成分相同的用戶群體內進行線上測試,分析各組的用戶行為指標,得到可以真正全流量上線的算法或者策略。

2. AB測試的常見做法

AB測試應該怎樣進行呢?其中最重要的是「控制變量」、「分流測試」和「規則統一」。

控制變量:AB測試必須是單變量的,變量太多,變量之間會產生幹擾,很難找出各個變量對結果的影響程度。在推薦系統中,AB測試的唯一變量就是推薦算法或者策略。

分流測試:AB測試作為對照試驗,自然有實驗組和對照組。通常狀況下會對用戶進行分流,很多用戶都會訪問同一個app或者web多次。所以根據用戶進行分流是一個很好的方案,在對用戶進行分流時,可以通過用戶ID,設備號或者瀏覽器cookie。

對於未登錄用戶來說,跨設備訪問app或者web,就會產生不同的標識。所以對於未登錄用戶,最好能保持實驗組和對照組有相同的比例。

不同的用戶在一次瀏覽過程中,體驗的應該是一個方案,同時需要注意不同流量之間的人數,大多數情況希望所有用戶平均分配。

規則統一:在控制變量和分流測試的前提下,針對不同的流量,應該制定相同的評價指標,才能得到準確的對比效果。

本文由 @達觀數據 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 一文帶你了解推薦系統架構
    對用戶而言,每一次行為反饋都在不斷地完善自己的數字軀體(用戶畫像),而系統的興趣探索行為,也在進一步給這幅畫像補充更多維度。一、搜索與推薦的關聯初步了解推薦系統架構,有助於我們理解信息是如何匹配給用戶的,用戶的選擇又是如何影響後續信息分發過程的。
  • 移動新聞客戶端個性化推薦系統的用戶評價指標研究
    個性化推薦系統是解決信息過載問題的一個有效辦法。目前學界與業界對推薦系統的研究大多關注推薦系統的技術算法,偏向技術導向,而以用戶心理體驗為視角的研究相對較少。評估推薦系統的質量過於強調算法的準確性,而忽略了從用戶角度出發的消費者心理體驗,並缺乏一個通用的推薦系統評價指標體系,這不利於推薦系統的優化和改進。
  • 深入理解YouTube推薦系統算法
    ,通過比賽讓我對推薦系統有了較為淺顯的認識,賽後也是打算系統的學習這方面的內容,此後我也會將【推薦系統】作為一個系列板塊進行更新,主打經典推薦算法的原理,相信每一篇都值得反覆研究。在此這之前YouTube還有三篇介紹YouTube視頻推薦的論文,如果將這四篇串在一起,也就組成了YouTube推薦系統不斷發展改進的一個縮影。
  • 《因果科學周刊》第4期:因果賦能推薦系統
    bias 的研究,也就是推薦系統出現的各種偏差讓其推薦非預期的 Item。推薦系統的任務被經典地定義為預測用戶的偏好和用戶評分。然而,它本質上是要回答一個反事實問題:「如果我們『強迫』用戶去看電影,評分會是多少?」 如何使用觀測數據正確的訓練推薦算法,甚至評估(NOT A/B 測試)評估推薦系統的性能,使用因果推理 debias 成為其中一個非常 Promising 的方向(Wang Y., 2019, Sharma A., 2015)。
  • 《王者榮耀》健康系統如何解除 健康系統解除方法
    導 讀 微信王者榮耀健康系統是限制未成年玩家的遊戲時間的系統,那玩家成年後怎麼解除呢,下面小編來為大家詳細介紹一下
  • 「構建企業級推薦系統系列」深度學習在推薦系統中的應用
    國際著名的推薦系統會議RecSys從2016開始專門組織關於深度學習的會議,深度學習在推薦圈中越來越受到重視。本文試圖對深度學習在推薦系統中的應用進行全面介紹,不光介紹具體的算法原理,還會重點講解作者對深度學習技術的思考及深度學習應用於推薦系統的當前生態和狀況,我會更多地聚焦深度學習在工業界的應用。
  • 新型AI可通過跟蹤眼球運動來評估癌症患者的心理健康狀況
    打開APP 新型AI可通過跟蹤眼球運動來評估癌症患者的心理健康狀況 IEEE電氣電子工程師 發表於 2021-01-11 09:06:13
  • 推薦系統中的常用算法
    ,我們給出了推薦系統的一般框架。很明顯,推薦方法是整個推薦系統中最核心、最關鍵的部分,很大程度上決定了推薦系統性能的優劣。目前,主要的推薦方法包括:基於內容推薦、協同過濾推薦、基於關聯規則推薦、基於效用推薦、基於知識推薦和組合推薦。
  • 網爆:推薦系統的112條實戰經驗
    >阿里跨域點擊率預估混合興趣模型深度樹匹配技術演進:TDM->JTM->BSAT阿里新一代算法 JTM:如何優化大規模推薦?騰訊Angel:深度學習在騰訊廣告推薦系統中的實踐如何提升微信看一看推薦混排的長期收益?
  • 被算法「投餵」的時代,內容行業如何對抗系統推薦?
    原創 刺蝟公社編輯部 刺蝟公社 收錄於話題#騰訊新聞1#Contech大會1好奇心未被滿足,系統推薦需要「進化」。不願受系統「牽制」,不少和小陸一樣警惕的用戶開始思考「如何對抗推薦系統」。企鵝智庫最新發布的《數字內容產業趨勢報告2020-2021》也發現一個有意思的現象:從內容的價值認同來看,用戶對於平臺算法推薦的內容並非持有最高的信任度;從內容的二次傳播來看,用戶會對帶有「人」身份識別的信任度碾壓了對機器的依賴。
  • 腳鬥娃國際兒童運動中心X-Future評估系統
    X-Future評估系統是腳鬥娃國際兒童運動中心針對3歲及以上兒童專門設計的動作發展與運動素質綜合評測系統。目前已擁有自主研發的半自動化評估軟體,測評過程在評估師的主導下完成,輸入測試結果即可自動生成評估報告。依據受試者的選擇可分別形成圖文並茂的單項報告或綜合報告。
  • 中國科學院數學與系統科學研究院
    中國科學院數學與系統科學研究院關於2021級推薦免試研究生選拔工作的通知 中國科學院數學與系統科學研究院由四個研究所(數學研究所、應用數學研究所、系統科學研究所、計算數學與科學工程計算研究所)整合而成,是國內最具影響的數學與系統科學研究生培養基地。
  • 成年人健康體適能評估:檢後健康管理的入口
    家康天下所推行的:檢-宣-教-行,四步健康管理方案,從健康體適能評估入手,根據分析解讀後的體適能健康評估報告,可為測試者提供定製化、個性化的健康管理服務,通過線上、線下相結合的服務通過評估與管理,讓客戶能得到健康的改善,這才是成年人健康體適能評估的最終目的。
  • 推薦系統:冷啟動問題的兩種解決方案
    概述任何機器學習算法都是以數據為基礎的,推薦系統也不例外,甚至比一般的文本分類、語音識別、圖像識別等領域需要的數據更多;推薦系統往往需要的是源源不斷的數據來促進推薦效果向著更好的方向前進。那麼對於新用戶或者極不活躍的用戶來說,數據豐富程度會比較匱乏,推薦模型效果也往往表現的會很差,這個問題如何解決呢?方案一:看作MBA問題一個賭徒,要去搖老虎機,走進賭場一看,一排老虎機,外表一模一樣,但是每個老虎機吐錢的概率可不一樣,他不知道每個老虎機吐錢的概率分布是什麼,那麼想最大化收益該怎麼整?
  • 好文推薦:美食系統文,星際,傲嬌小系統
    今天為大家推薦的是美食系統文,星際,女主向。穿越的地方還是未來星際的一個荒無人煙的星球上,綁定了美食系統。與其說是一個美食系統,不如說是一個無所不能的超市,因為它沒有一本菜譜,全是女主做成成品,它再收錄。星球上只有她、一個能量不足的美食系統和一個已經被銷毀但不知道什麼原因又復活的機器人。
  • 豐車鯨準價系統:二手車價格評估系統
    不同的品牌都有專業的二手車價格評估師。為了方便二手車經銷商快速識別二手車的狀況,並結合實時市場價格,為二手車經銷商和二手車評估師提供更專業的二手車價格參考,豐車網編輯為所有人共享一個二手車價格評估系統-豐車鯨準價系統。
  • 擁有10 億月活躍用戶的 Instagram 是怎麼設計內容推薦系統的?
    Ig2vec 預測帳戶內容相似性的功能演示對於每一個版本的嵌入,我們訓練一個僅根據嵌入預測一組帳戶主題的分類器;通過將預測主題與保留集中帳戶的人工標記主題進行比較,我們就可以評估嵌入如何捕獲主題相似度。
  • 《環世界》1.1版本電力系統如何布局 1.1版本電力系統布局推薦
    環世界1.1版本電力系統如何布局?
  • 系統門窗一線品牌排行推薦
    那麼,針對目前五花八門的系統門窗品牌,小編給大家介紹一下系統門窗一線品牌排行推薦(排名不分先後)一、穗福門窗(系統門窗一線品牌)穗福門窗專注研發斷橋鋁門窗產品多年,近年對於產品不斷往系統門窗方向升級,無論是性能還是外觀都贏得了好評。同時,也獲得媒體多年評選鋁合金門窗十大品牌稱號。
  • 使用Python構建一個推薦系統需要幾步
    絕不會推薦用戶過去從未購買或不喜歡的產品。因此,如果用戶過去僅觀看或喜歡動作電影,則系統將僅推薦動作電影。這是構建引擎的一種非常狹窄的方法。為了改進這種類型的系統,我們需要一種算法,該算法不僅可以根據內容來推薦商品,還可以根據用戶的行為來推薦商品。