總舵主教你打造數據模型,精準預測 LTV! (內附Excel模型)

2021-02-14 Chek遊戲出海總舵主

上一期本舵主和大家講解了為什麼價值營銷才是新王道,強調了LTV(用戶終身價值)的重要性。立馬就有小夥伴跑來請教,說希望知道如何精準預測LTV,以便調整之後的營銷策略。

 

舵主我向來辦事靠譜,已經把教材都整理好了,這一期就會手把手教大家打造數據模型,對LTV進行精準預測,更會把當中用到的excel數據表和數據模型免費送給大家,傾囊相授、絕不藏私。

 

今天的課程乾貨滿滿,事不宜遲,我們趕緊開始吧!

累積初期數據,為預測LTV奠定基礎


不同的遊戲,LTV的時長和觀察單位都有所不同,我們根據遊戲的輕重度進行了簡單分類,方便大家參考。

 

 

無論是哪一類遊戲,我們都必須先獲得一定的LTV數據作為基礎,才能對後續的LTV進行預測。大家可以通過第三方後臺或自己的BI後臺獲得LTV數據,如果沒有這些後臺也不要緊。只要您接入了Facebook的SDK數據(即安裝了應用事件付費點),在正確回傳相應的事件及價值的情況下,便能夠在Facebook Analytics的後臺通過lifetime value統計功能,了解每一周新獲取的玩家數量及累積的付費情況,最長可以查看過去90天的數據。

  

統計好相應的LTV數據後,可以設置較為合適的時間窗,跟著下圖所示的三個步驟,把數據導出來。

  

選取合適數據,打造模型

 

接下來就要利用導出的這些數據來預測LTV。預測LTV的方法有很多,今天我們要給大家介紹的,是某手遊海外推廣客戶在實踐中親證有效的方法,為方便大家理解,我們會使用一個模擬案例來進行說明。

 

首先要對導出的數據進行篩選,第一要確保獲得足夠的數據,其次則要確保數據在變化時的穩定性。

 

以上圖為例,最上面那一行的日期是以周為單位,第二行藍色的cohort size則是指這周獲取的新玩家數量;最左邊0到16那列綠色數字指的是新玩家進行遊戲的周數,旁邊第二列的黑色數字則指上面日期內獲取的新玩家在開始遊戲後相應周數的LTV。比如6月17日到22日有2280名新玩家,他們剛開始遊戲的付費值為1.19元/美元,到了第1周付費值則累積至2.56元/美元。

 

如圖所示,由於6月23日至29日以及6月30日至7月6日這兩周數據前面的跳躍幅度較大,累積增長情況不夠穩定,為免影響預測結果的精確度,我們決定不使用這兩周的數據。

 

選取好數據之後,如何把數據輸入到模版上去呢?

  

以上圖為例,在去掉不穩定數據後,我們一共獲得8組玩家的數據樣本,輸入到圖中標黃的位置,然後分別選取每組玩家前四周的付費數據(即在excel表格的Training中輸入4),用於預測第14周的pLTV(預測玩家終身價值)(即在excel的p of pLTV中輸入14)。 

 

由於我們提供的數據裡已經包括了第14周的真實LTV,可供參照,所以這個模型還可以計算預測結果和實際數據之間的誤差,並進行誤差修正,讓這個模型更為精確、智能。

 

由於第1到第8組是根據每周時間的推移不斷遞增的,在這個表格裡,第8組(cohort 8)的玩家是最新獲取的,因此我們需要把Latest Cohort設置為8,讓模型知道這組數據是最新的。為什麼要這麼做,我們下面就會講解到。

 

使用三種函數模型,找到最佳配

 

我們可以使用三種不同的函數曲線(包括冪函數、對數函數和線性函數)來預測LTV,找到最搭配的函數建立LTV模型。這三種函數也包含在了我們提供的excel當中,方便大家使用。

 

上圖則是使用這三種模擬函數預測的LTV變化曲線和實際數據曲線的對比一覽圖 (此數據純屬虛構,旨在提供一個概念)。

為了對比三種模擬函數孰優孰劣,我們需要介紹兩個概念——誤差線和標準差

  

誤差線:


由於我們是以8組玩家在前4周的數據為基礎對LTV進行預測,在這8組數據當中,每一種模擬函數預測的LTV和實際數據都存在誤差,將8組實際數據組和模擬函數的誤差值照時間順序排序之後,就可以連成一條線(如上圖右邊所示),這條線就是誤差線。

標準線:


把所有誤差值取絕對值後相加,就能夠得到標準差。標準差越小,說明這個模型越趨近於零誤差,能夠預測出來的LTV也就更加精確。

 

誤差線和標準差這兩個指標有助於我們選取一個相對更為精準的LTV預測模型。

  

 

以剛剛的三組函數模型為例,觀察下圖可發現,對比線性函數(Linear)、對數函數(Log)和冪函數(Power)三條函數曲線,對數函數的誤差線更為流暢平滑,加上對數函數的標準差也是最低的,說明對數函數模型是最佳選擇。當然在其他案例中,平滑的誤差線不一定同時完美具備最低的標準差,這時還是得參考以上的考量順序。

 

 

為LTV模型選擇最佳修正值

 

模型和實際數據之間難免會存在誤差,所以必須要對預測的數據進行修正。接下來,我們就要講解如何為LTV模型選擇最佳修正值。

 

 

在這個例子當中,由於對數函數主要是因為曲線明顯流暢平滑而獲選,所以我們使用了最新誤差(Latest Error) 來進行修正。

 

總結實踐步驟

 

最後我們再總結一下如何在實踐中使用今天分享的LTV模型,主要包括如下圖所示的四個方面。

 

選擇用於模擬的周數(在我們的例子當中即前4周),以及希望預測LTV的周數(即第14周)

輸入希望預測LTV的前幾周數據(即前4周的數據),然後套用三種函數模型對之後的LTV進行預測,便會得到圖中間下方pLTV那組數據,而圖中間上方則是三個函數的誤差表現,在我們的案例當中選擇的是曲線最為流暢平滑的對數函數(Log)。

選擇較為理想的修正值,在例子中使用的是最新誤差(Latest Error)。

最後便能得到修正後的預測付費值pLTV:以對數函數這組數據為例,第14周的pLTV在修正後,從原先的31.3變成了40.3,而下面的Optimistic和Pessimistic這兩行則分別代表了預測付費值pLTV的大致波動範圍,即最高可能會升到47.8,最低則可能跌至34.9。

根據pLTV,實時調整營銷策略

 

通過科學模型精準預測LTV,我們便能對玩家終身價值的變化趨勢有更為深刻的了解,從而更好地指導及調整營銷策略。

 

如果預測付費值pLTV 強勁: 表示用於獲取玩家的成本極可能會給您帶來更高的收益,因此可以拿出更多預算進行營銷,搶佔市場,包括:

 

如果預測付費值pLTV較弱: 證明營銷策略可能存在一定問題,要適當調整,包括:

立即掃描下方二維碼,下載文中案例所使用的數學模型的excel文件,供您參考,建立起最適合自己的LTV預測模型。

相關焦點

  • 重磅揭秘:谷歌電影票房預測模型
    【數盟倡導「數據創造價值」,致力於打造最卓越的數據科學交流平臺,為企業、個人提供最卓越的服務】近日,谷歌公布了一項重要研究成果 – 電影票房預測模型
  • 【數據模型】邏輯回歸模型預測股票漲跌
    說明股票的歷史數據與未來的數據相關性很小,利用監督式學習方法很難準確預測未來股市的情況,這也是符合常識的。不過作為算法的應用教程,我們還是試一下。2、訓練並測試邏輯回歸模型邏輯回歸模型是廣義線性回歸模型的一種,因此函數是glm(),但必須加上參數family=binomial。
  • 灰色預測模型
    一般用GM(1,1)模型,即一階的一個變量的微分方程。GM(1,1)建模步驟:生成灰色數列(數據處理):這一步的目的是增加數據的平滑度,更容易發現數據的內在規律。數據檢驗: 這一步是為了檢驗數據是否有指數的變化趨勢,不滿足的話,預測結果巨差。需要做適當的變換處理。還是不行的話,說明這個數據集不適合用灰色預測模型。
  • 用隱馬爾科夫模型來預測股價走勢
    HMM解決的三個問題:一是概率計算問題,已知模型和觀測序列,計算觀測序列出現的概率,該問題求解的方法為向前向後法;二是學習問題,已知觀測序列,估計模型的參數,該問題求解的方法為鮑姆-韋爾奇算法三是預測問題(解碼問題),已知模型和觀測序列,求解狀態序列,該問題求解的方法為動態規劃的維特比算法。
  • DSGE模型的條件預測
    Dyanre 可以使用非常簡單的語言,幫助你將你的非常複雜的經濟學理論模型,也即將 DSGE 模型轉換為程序,並以不同的程式語言來執行完成,以此來對模型來進行求解、估計和仿真。由於Matalb 是一個商業軟體,限於版權問題,Dynare其實還有 Octave 版本,Octave 是一個開源軟體,目前已經得到了很好的發展,相信在今後會同樣會得到更好的發展。
  • 迎接5G時代,遠傳電信藉助AI預測模型動態優化網絡流量
    遠傳與微軟合作的重要成果之一,包含共同研發的 AI 網絡流量預測模型,可以精準預測未來一周中每15分鐘內核心基站、二級基站以及 OTT 服務的流量,實現網絡流量的智能動態配置。遠傳一直致力於為用戶提供多元化、豐富的優質體驗和創新應用服務。
  • 當模型預測控制遇見機器學習
    其不同之處在於,如圖所示,PID控制器使用通過傳感器採集到的被控對象當前的和過去的狀態來控制執行器動作,而MPC控制器基於被控對象當前的狀態,利用控制器內部簡化的被控對象物理模型來預測被控對象在接下來一段時域內,一系列執行器動作作用下的行為軌跡。
  • 雙十一數據預測:二次多項式回歸模型 | CorpusTalk
    雙十一數據預測:二次多項式回歸模型 | CorpusTalk雷蕾  博士 教授 [華中科大外國語學院]CorpusTalk |
  • 不同階段計算LTV的方法和模型!
    舉例,假如你有一個新的流量來源在前7天有0.5美元的ARPU,正常來說你能在前7天看到1美元,那麼新的流量來源就是你正常LTV的一半。這非常直觀,實際上改預測方法也被許多先進的模型支持。該計算方式有兩步:算出7天內收益數據間的比率將同樣的比率用到LTV中舉例:7天內收益比率  * LTV = 0.95 * 2.5 = 2.38
  • 用Excel進行供應鏈數據分析:如何判斷正態分布
    前幾集連結如下用Excel進行供應鏈數據分析:ABC 法詳解(附視頻)用Excel進行供應鏈數據分析:生成月度銷售數據(附視頻)用Excel進行供應鏈數據分析:獲取外部數據(附視頻)用Excel函數實現庫存分析、控制和預測用Excel函數實現庫存分析和供應鏈預測
  • 北京大學王亞沙:新冠肺炎傳播預測模型
    北京大學王亞沙帶來報告《新冠肺炎傳播預測模型》。北京大學王亞沙的報告視頻王亞沙,博士、北京大學軟體工程國家工程研究中心副主任、教授、博士生導師,中國計算機學會高級會員、普適計算專委會常委、國家大數據標準委員會技術專題組組長。
  • 推薦模型之DeepMCP模型
    特徵首先通過Embedding層轉換為對應的Embedding,然後將特徵進行橫向拼接輸入到DNN中,最後在輸出層通過sigmoid函數來生成預測的點擊率,損失函數使用logloss。全連接網絡的最後一層的激活函數是tanh而不是relu,主要是因為採用relu的話,最後一層的數據會包括很多零值,這會使得計算得到的matching score更趨近於零。
  • 手把手教你用seq2seq模型創建數據產品(附代碼)
    以這種方式處理標題,是因為我們希望我們的模型知道標題的第一個字母何時將要出現,並且學習預測短語的結尾應該在哪裡。下一節討論模型結構的時候你將進一步理解這麼做的原因。定義模型的結構在典型的分類和回歸模型中,除非伴隨著大量的可視化和故事講述,否則預測本身並非那麼有趣。然而,如果你可以訓練一個模型來總結一段由自然語言寫成的文本,那麼預測本身就是向觀眾展示你已經學會從自然語言中提取有意義的特徵的好方法——如果預測結果是好的,預測本身看起來就會很神奇。
  • AI攻佔實時天氣預測?谷歌命名MetNet,實力吊打物理預測模型!
    此網絡模型專門用於降水預報,可以預測未來8小時內高精度降水概率分布地圖,解析度1千米,時間步長2分鐘;預測結果超越目前最好的基於物理模型的數值算法 (High Precision Rapid Refresh-HRRR)。
  • 深度學習多種模型評估指標介紹 - 附sklearn實現
    8、常用分類指標confusion_matrixSklearn中confusion_matrix函數混淆矩陣是機器學習中總結分類模型預測結果,混淆矩陣是展示了真實數據的正負類別和模型預測的分類的正負的類別(可以是多分類
  • 27歲華裔小夥搞出美國新冠最準預測模型,一人幹翻專業機構,彭博:Superstar
    憑一己之力,僅用一周時間打造的新冠預測模型,準確度方面碾壓那些數十億美元、數十年經驗加持的專業機構。他就是Youyang Gu,擁有 MIT 電氣工程和計算機科學碩士學位,以及數學學位。他的模型,甚至被著名數據科學家、fast.ai創始人Jeremy Howard高度評價道:唯一看起來合理的模型。他是唯一一個真正查看數據,並且做得正確的人。不僅如此,他的模型還被美國疾控中心採用。到底是個怎樣的預測模型?時間點要追溯到去年年初。
  • Kaggle:一套完整的網站流量預測模型
    今天給大家推薦的是一個名叫Kaggle的網站流量預測項目,本項目採用Python語言開發,可以給大家的流量預測建模提供一些思路。
  • 模型預測控制介紹
    尿素裝置合成段的控制在各種石化和化工廠中食品加工機電系統暖通空調系統(樓宇控制)目標函數:狀態跟蹤  ,輸入跟蹤 約束:模型、輸入約束、狀態約束讀取當前狀態 計算最優控制序列實施序列的第一個元素(多變量是向量)LQR和MPC:當預測時域趨於無窮且忽略約束時
  • 一種高可靠的周時間序列預測基線模型
    我們提出一種預測方法,利用最新的預測技術、預測組合和全球模型,可作為該領域的強大基線。我們的方法使用了四種專門適用於預測每周數據的基本預測模型:全局回歸神經網絡模型、Theta、三角Box-Cox ARMA季節性趨勢(TBATS)和動態諧波回歸ARIMA (DHR-ARIMA)。然後使用套索回歸疊加方法對這些數據進行優化組合。我們在6個數據集上評估我們的方法對一組最先進的每周預測模型的性能。
  • 用 Python 為時間序列預測創建 ARIMA 模型
    完成本教程後,您將了解:1、關於ARIMA模型使用的參數和模型所做的假設。2、如何使ARIMA模型適合數據並使用它來進行預測。3、如何根據時間序列問題配置ARIMA模型。自回歸整合移動平均模型ARIMA模型是一類用於分析和預測時間序列數據的統計模型。