渠道質量評估模型

2021-02-13 騰訊大講堂
| 導語  獲客是大多數的商業場景下的重中之重,高效的獲客在節省成本和用戶質量提升方面的重要性不必再贅述。實際業務場景中,我們面臨的是獲客質量,獲客量級和獲客成本之間的博弈,其中兩個方面的正向提升必然會導致另一方面的負向。在這三個維度中,量級和成本是天然的比較好衡量的,而質量則是一種更複雜更綜合也更長期的維度,對質量的準確衡量,就顯得尤為重要,本文希望結合日常工作中我對騰訊業務場景的理解,通過一些框架性的說明,來為大家構建評估模型提供一些思路。



獲客是大多數的商業場景下的重中之重,高效的獲客在節省成本和用戶質量提升方面的重要性不必再贅述。實際業務場景中,我們面臨的是獲客質量,獲客量級和獲客成本之間的博弈,其中兩個方面的正向提升必然會導致另一方面的負向。在這三個維度中,量級和成本是天然的比較好衡量的,而質量則是一種更複雜更綜合也更長期的維度,對質量的準確衡量,能為業務優化建立一套清晰的標尺,也能為優化提供方向。在多種獲客手段中,新用戶渠道採買屬於其中非常重要的一種,具有高花費和可追蹤的特徵,故下文中僅針對新用戶渠道獲客進行說明。

常見的渠道優化鏈路如下:

首先基於增長模型,拆解年度DAU或時長目標和進行成本預估

其次基於渠道質量,渠道量級,成本單價等進行渠道預算分配

再然後通過渠道歸因流程監控和渠道異常識別模型對渠道進行風險防控

最後針對每個具體的渠道類型進行優化

本文中對質量評估、異常識別、歸因監控進行詳細說明,對渠道優化進行簡單提及

渠道質量監控是一套系統化的工程,需要聯動產品,數倉,分析師,數據工程,運營等共同從業務流程和數據流程上進行建設和維護。通常情況下,渠道質量監控需要滿足以下幾個條件:

標準清晰:也即是渠道的好與不好最終具體指向什麼樣的目標?比如DAU,時長,用戶收益等,多指標的優化容易讓人迷惑,並且可能存在相互矛盾的情況,通常情況下在監控初期就應該明確下來,並保持不變

快速反饋:質量監控的本質是通過用戶的短期行為來判斷長期表現,這樣才能在最短的時間內快速發現渠道異常以及合理評估渠道質量。為了同時兼顧準確性和時效性,可採用多段式監控方式,一來對能快速定位到問題的渠道儘早預警來進行優化調整,而難以識別的渠道進行更長期的觀察;二來可以通過長期的質量評估來校準短期質量評估模型

穩定可靠:質量監控最終產出的結果需要處於相對穩定的狀態(因為真實的渠道質量是長期處於相對穩定的狀態),所以在建模過程中,需要特別注意防止過擬合

細節保密:對渠道質量評估和渠道異常識別的模型細節需要保密,因為渠道本身涉及到結算花費等,如果過多暴露細節可能導致渠道作弊的風險

長期迭代:渠道風控涉及到攻防,隨著作弊和刷量手段的日新月異,需要定期對模型進行維護和更新

比較常用的監控流程如下:

   

短期渠道質量評估

短期指標通常在T+1或者T+2輸出,優點是可以快速評估各渠道的好壞而不需要等待很長時間,缺點是評估較淺層也比較難以洞察用戶的長期表現

Step1.指標選取

關鍵行為分:關鍵行為代表新用戶來產品後,觸發的某些關鍵動作。通常有兩種方式來選取關鍵特徵。第一種方法是梳理產品邏輯和用戶路徑,基於產品理解選取某些關鍵行為,類似於行為漏鬥,比如隱私頁授權,新用戶引導,首頁到達,關鍵內容等等。另一種方式是盤點用戶首次啟動app的關鍵行為,根據行為的滲透率以及留存的提升度(觸發該行為的用戶留存-未觸發該行為的用戶留存)來篩選出關鍵行為。

消費分:消費分值各類反應用戶消費水平的指標,比如vv數,時長等

互動分:點讚,收藏,評論,關注等

用戶構成:增長通常的兩類用戶觸達手段:挽回(老用戶回流)和擴列(拓展新用戶)。我們有時候會發現某些渠道上用戶質量特別好,但並不說明這個渠道質量真的好,一個可能是這個渠道的換機用戶很多(用戶換了新手機後重新下載了app),所以說這實際上是用戶的自發回流,一味地對這類渠道擴大投放可能會造成對免費用戶量的擠壓從而導致成本的浪費。我們在做產品擴列的時候 ,比如需要主打某一類人群,這時候我們需要對這類人群佔比較高的渠道進行加權,即使用戶表現並不是最好,也需要給與較高的得分。

歸因得分:歸因方式有很多,比如基於imei,idfa等的精確歸因,還有基於ip,UA等的模糊歸因。如果某些渠道模糊歸因太高,可能存在異常風險(有些渠道由於自身特殊性,僅有模糊歸因,不在這個得分的討論範圍之內)

Step2.指標篩選

在渠道質量評估初期,我們手上可能有一大堆的指標,最終究竟用哪些指標,需要進行指標篩選,通常 有以下幾種方式:

Step3.權重打分

層次分析法(AHP)

專家打分法

基於線性回歸輸出的參數作為權重打分依據

Step4.結果呈現

長期渠道質量評估(LTV預測)

LTV可以通過各種各樣的方式進行擬合,但是有三個點需要特別注意:

LTV視具體的用途需要來評估是否要把渠道和用戶終端機型等固有特徵加到模型中,這些特徵加入到模型中固然可以增加模型的準確性,如果以準確性作為唯一的評估指標,那麼這樣做沒有問題。如果要根據得分對最終的渠道做評估優化,我們應當避免採用這些特徵,而是僅根據用戶的行為屬性進行建模,雖然可能會損失部分的準確性,但更能有效反映渠道的好壞變化(也即是說,我們不對用戶做先入為主的判斷,不關心用戶的來源渠道和機型,僅根據用戶的表現來給分)。

用短期的用戶行為預估長期的LTV基本很難做到準確,而長期的用戶行為周期太長,容易讓渠道優化失去先機,一種比較好的辦法是同時構建兩個模型:1.短期模型,通過用戶前3-10天的數據預測未來1個月的表現;2.長期模型:根據用戶1個月的數據預測未來1年的行為表現;3.根據兩個模型的結果可以校準模型,也可能能發現某些渠道的異常表現。

關注LTV的分布,常見的LTV分布是60%-70%的用戶未來不會再產生LTV,而剩餘的少量用戶的LTV分布近似正態分布,如下圖所示,這種分布對建模是一種挑戰,需要提前對LTV的分布有比較清晰的認知。對這種情況可以採用分段擬合,比如分類+回歸模型進行建模。

圖片來源:A DEEP PROBABILISTIC MODEL FOR CUSTOMER LIFETIME VALUE PREDICTION

LTV擬合思路一:基於留存曲線進行擬合

以具體的渠道的留存曲線作為樣本點來進行留存曲線的擬合,這樣的好處是易於實現,壞處是沒法對渠道進行進一步按照廣告創意等的自由拆解,每一次維度發生變化,就要重新建模,每個渠道都是單獨的模型,難以復用。

基於留存曲線的擬合需要注意兩個點:

可能出現的幾種擬合結果如下:

LTV擬合思路二:基於用戶明細進行擬合

單用戶的長期LTV會受到隨機性的影響,不過一旦將用戶聚集到渠道等粒度上,結果還是相對準確的,並且這樣的結果支持多個維度的組合分析,從頭到尾只需要構建一套模型。模型的預測手段很多,這裡不再贅述,僅對模型的評估進行一些說明。模型評估除了常用的MSE,決定係數等之外,還需要關注的幾個指標是:

斯皮爾曼等級相關係數

在LTV的預測中,某些時候,相比於精度,我們更關注渠道的排序問題,也即是確實把末尾10%的渠道預測為了末尾的10%,頭部的10%的渠道預測為了頭部的10%,假設這樣一個極端場景,每個渠道的LTV均預測低了5%,這對整體渠道投放預算的優化調整幾乎是沒有影響的。所以在評估的時候,我們需要關注這樣的指標。

而斯皮爾曼等級相關係數是反映兩組變量之間聯繫的密切程度,它和相關係數r一樣,取值在-1到+1之間,所不同的是它是建立在等級的基礎上計算的。正適合這樣的場景

基尼係數(Gini Coefficient)和分位數圖(Decile Chart)

由於投放涉及到網際網路公司大量的預算,一直是作弊的重災區,而當前的作弊手段又五花八門,想了解常見的作弊手段可參考劉鵬的文章:

網際網路廣告作弊十八般武藝(上):https://mp.weixin.qq.com/s/ss_jsOJ9Etp9obwRGEsvgw

網際網路廣告作弊十八般武藝(下):https://mp.weixin.qq.com/s/Ut0_yj2YoPMwEAokNDPv5g

作弊的識別除了要依賴反作弊團隊專業的作弊識別技術外,分析師還需要做什麼呢?分析師的優勢在哪裡呢?

分析師的優勢在於:對渠道的結算邏輯,渠道歸因邏輯,用戶激活,用戶站內承接,用戶後續表現有一套完整清晰的認識,這些優勢最終可以應用在以下幾個地方:

明確哪些渠道,哪些結算方式是作弊的重災區,以及究竟是媒體作弊還是代理商作弊?

撞庫過程中,哪些指標異常可以反映付費渠道在搶佔免費量,這時候即使付費渠道質量很好,結果也是不可信的,以及歸因過程中,從ip,imei等更多維度上,也能看出一些問題。

哪些行為指標之間是強相關的,如果在某些渠道上,這些指標並不相關,甚至負相關,說明該渠道可能存在問題

一個正常的留存曲線是什麼樣的?比如某些渠道前10天表現特別好,10天後突然變差,這種情況分析師可以識別,但是反作弊比較難識別,這種情況可能由於積分牆導致,需要引起注意,否則會對投放預算造成強誤導。

用戶的正常行為是什麼樣的?用戶的異常行為是什麼樣的?

具體判斷細節一來根據業務不同有很強的個性化特徵,二來這些識別手段公開後可能導致模型失效,因此不再做過多說明

 在對渠道質量進行準確評估並且識別出異常渠道後,我們來到了渠道優化環節,渠道優化一方面需要調整預算,另一方面涉及到具體渠道的優化細節。各個渠道由於結算方式的不同,而導致優化邏輯截然不同:

比如預裝本質上屬於一種合約廣告,按照裝機量進行收費,優化的邏輯就是給出準確的裝機建議,並且做好預裝的調起和承接工作

再比如幾大主要的應用商店廠商比如華米OV應用商店是無法拆解付費免費量的,就會導致應用商店的用戶質量看起來很高,但其實可能是虛假繁榮

還有很多時候SEM的目標在於找出大量的低成本長尾詞來獲客,而信息流專注於投放素材的優化和調整,並且具有較強的時效性

隨著現在大數據技術的日益發展,RTA,RTB等這些技術應用越來越多,很多媒體也開始採用OCPX的手段來做廣告的自動優化。投放工作開始逐漸朝著產品化的方向發展,分析師在具體渠道的優化上需要做的事情越來越少,而需要用一種更宏觀的視角來做全局的優化調整。

具體的各個渠道的優化細節以及當前廣告行業的發展可參考:《計算廣告》、《廣告數據定量分析:如何成為一位厲害的廣告優化師》這兩本書

直播插件體系設計

喜歡本文?快點「在看」支持一下↓↓

相關焦點

  • 谷歌提出可量化評估NLG模型性能的BLEURT指標
    為便於研究團隊評估不同 NLG 模型的性能,搜索巨頭谷歌(Google)特地提出了一個名叫 BLEURT 量化指標。通常情況下,我們可以通過人工和自動化流程來評估 NLG 模型,比如雙語評估學習(BLEU)。前者的缺點是太費人力,後者的優勢是具有更高的準確性。
  • 如何建立評估模型:好的商業就是好的設計嗎?
    那如何構建起評估模型呢?信息處理的第二階段——刺激信息刺激著我們以往的認知模型當我們與界面的互動過程中,信息在感官器官編碼,開始進入我們的神經元,這個信息會激活與接收的信息相關的信息,提取記憶與調動你以前的認知模型進行評估,這個界面的交互過程所帶給你的信息刺激量=動機/成本。
  • 企業信息化:信息系統建設的價值評估模型
    7) 系統數據是否能夠確保完整,以及能夠確保質量?  8) 企業各級人員對信息系統所體現的管理思想和管理方法的接受,包括企業文化是否發生變化,銷售、市場、服務人員的工作方式是否發生變化,績效考核方法是否發生變化等等。
  • 機器學習模型評估和超參數調優實踐
    在這篇文章中,我們將詳細探討如何評估機器學習模型結果,以及優化超參數的最佳實踐。模型評估就像學生為考試複習一樣,機器學習模型在準備完成預期任務之前必須經過一個學習和訓練的過程。這種訓練將使它能夠從實際數據中歸納和派生模式,但是我們如何評估我們的模型是否提供了數據的良好表示呢?
  • 微眾銀行全新升級WeUX指數,幫助銀行量化用戶體驗評估
    微眾銀行表示,對銀行用戶體驗的評估,不能停留在個人經驗主義階段,行業需要的是用戶體驗的量化工具。  據介紹,微眾銀行 · 銀行用戶體驗聯合實驗室在2018年首次發布了WeUX指數,2019年,以金融產品滿意度模型為理論基礎,實驗室從5個維度升級了WeUX指數。
  • 我國區域投資環境評估及監測指標體系與模型的構建
    本文以投資環境評估為指導,在借鑑國內外投資環境研究成果基礎上建立了一套區域投資環境評估指標體系及模型與方法,其目的在於:為國內外各類投資者更加準確、全面地認識各地區的具體投資環境狀況,進而選擇最佳投資地點,做出正確投資決策提供評估參考依據;為各地政府部門科學地評估、比較和監測區域投資環境的變化,全面客觀地把握未來投資環境的發展態勢,進而積極有效地營造符合國際慣例的優質、高效的投資環境提供重要參考以及建議和思路
  • 作者評分模型:刺激用戶,獲取高質量內容
    若僅從PV、UV角度來看,也顯得不那麼公平,但如果加上新增粉絲數、點讚數、完度率、評論數等因素綜合評估的話,那麼標題黨就不會那麼吃香了。再加上反作弊指標,作弊刷量作者便無處遁形。在講模型之前,我們通過兩個家喻戶曉的遊戲(評分模型成功案例),來分析如何刺激用戶提供更多、更高質量的遊戲(作品)。
  • AAAI 2020|計算所&微信AI:改進訓練目標,提升非自回歸模型翻譯質量...
    NAT:非自回歸模型,AR:自回歸模型造成非自回歸模型翻譯效果較差的一個主要原因為其訓練時所用的交叉熵損失函數不準確。一方面,詞級別的交叉熵損失對每個位置的預測結果進行獨立評估,難以建模序列依賴關係;另一方面,交叉熵損失要求模型的預測結果與參考譯文嚴格對齊,否則就難以評估模型的翻譯質量。
  • 產品和渠道提升增量模型
    >
  • 關於租賃飛機退租機務評估模型的探討
    本文是從維修成本的角度出發,評價退租飛機的價值評估。在此不對經營效果和風險做過多的評價。3.退租評估模型3.1模型的假設條件本模型假設在收入及共同成本因素不變,在考慮貨幣時間價值的情況下,選擇現值成本較低的方案。
  • 方法論:用AARRR模型做數據分析
    二、常見的數據分析框架:AARRR模型AARRR模型是所有產品經理都要了解的一個數據模型。著名的《增長黑客》裡面的數據分析基礎,也是以這個模型為基礎的。這個模型將數據分析分成了五個大的模塊,我們依據這個模型,把每一個模塊劃分出更細分的維度,羅列出影響每一個維度的變變量,整理出一些表格,這些表格就成了我們做數據分析的基礎。下面以APP為例詳細分析下這個AARRR模型:1. 獲取部分:獲取部分一般需要評估的維度有:渠道的獲客數量、獲客質量等。
  • 不管你是不是年薪30W的算法工程師,都要了解這幾個模型評估指標
    在機器學習領域,對模型的評估非常的重要,只有選擇與問題相匹配的評估方法,才能更好的模型訓練和模型選擇的時候出現的問題,才能更好的對模型進行迭代優化。模型評估主要分為離線評估和在線評估。針對分類、排序、回歸、序列預測等不同類型的機器學習問題,模型評估指標的選擇也有所不同。
  • 波特五力模型(Porter’s Five Forces Model)詳解
    波特五力模型主要關注行業的競爭以及市場的吸引力。吸引力在這裡主要提及的是整個行業的利潤率,五力模型中的五力包括一些能夠影響公司服務消費者能力以及公司盈利能力的五種因素,任何一力的變化都需要公司對所處的市場進行重新評估。在同一行業中,影響競爭性環境的五力包括:潛在進入者,消費者討價還價能力,供應商的討價還價能力,替代品以及行業內的競爭者。
  • 【魏慶:14個產品、渠道提升增量模型!】
    在這個時候更需要廠商去下功夫做產品、深耕渠道,只有做足每一個細節,才會在競爭激烈的市場環境中保持優勢。產品線管理增量模型關鍵詞:反思本品,對比競品,尋找空白,關注渠道需求,關注市場特點1.反思本品:發揮本品優勢。
  • 教輔類報紙出版質量綜合評估結果公布
    5月25日,新聞出版總署在京召開教輔類報紙管理工作會議,對教輔類報紙2011年度出版質量綜合評估情況予以通報。從評估結果看,67種參加評估的報紙依據得分被劃分為4級。  為貫徹中央領導建立報刊市場化退出機制的工作要求,解決長期以來報刊資源分散、只生不滅、產業結構失衡的問題,激活報刊業的市場活力和競爭力,新聞出版總署於2011年正式啟動報刊分類評估工作,並根據中央領導對「中小學教輔類報紙泛濫」問題的一系列重要批示及教輔類報紙存在的問題,率先對全國教輔類報紙進行了出版質量綜合評估。
  • 股指期貨風險評估及VaR模型的應用
    二 VaR模型的應用  VaR是國際上新近發展起來的一種卓有成效的風險量化技術,是當今西方金融機構和工商企業廣泛採用的風險管理模型。VaR是JP摩根公司用來計量市場風險的產物。近年來,VaR被引入信用風險管理領域,在金融風險控制、機構業績評估以及金融監管等方面被廣泛運用。
  • 探索主題模型可解釋性問題
    二是基於人文語料庫訓練的LDA主題模型需要有良好的質量,這是解釋和論證的基礎,那麼,可否建立評估模型質量的計算方法?本項工作就是從主題模型的解釋學視角首次進行這樣的嘗試。  作為機器學習輔助人文研究的一種新工具,LDA主題模型具有良好的質量,就意味著訓練出的詞語集簇(主題)具有可解釋性,使人們容易判斷和解釋其意義。
  • 交叉驗證:評估模型表現 - CDA數據分析師
    註明:本文章所有代碼均來自scikit-learn官方網站在實際情況中,如果一個模型要上線,數據分析員需要反覆調試模型,以防止模型僅在已知數據集的表現較好,在未知數據集上的表現較差。即要確保模型的泛化能力,它指機器學習對新鮮樣本的適應能力。只有保證模型的泛化能力,模型的構建才有意義。
  • 客戶滿意度測評模型~常用的5個模型
    服務型企業滿意度評價模型三、客戶滿意度指數模型1、美國顧客滿意度指數模型ACSI美國顧客滿意度指數模型ACSIACSI是一種衡量經濟產出質量的宏觀指標,是以產品和服務消費的過程為基礎,對顧客滿意度水平的綜合評價指數
  • 中指大數據拿地系統之土地評估模型
    傳統意義上的土地評估,包括市場比較法、假設開發法、基準地價法。隨著中國房地產行業的飛速發展,局部地區土地價格受到房價的過快上漲而過快增長,同時也在周邊產生了一些「」,使得基準地價法更遠的偏離了土地的實際價格。假設開發法通過房價逆推回土地價格,更具有其得天獨厚的實踐應用價值;而傳統的市場比較法也可以側面的反應出該區域土地的價格水平。