本文以「策略產品如何進行效果評估」為討論對象,認為可以在不同階段,結合用戶反饋、埋點、AB測等方法進行評估。
新人產品經理要切記從「定性思維」轉變到「定量思維」。特別是策略產品,要在整個產品生命周期裡進行實時的數據監控。
那麼一個新策略要怎麼進行效果的預測和評估呢,以下是我的一些思考感悟,希望能幫助到大家。
在說策略衡量指標之前我們要先了解策略是如何誕生的?策略具有以下四個要素:
下面可以以一個例子具體說明四要素的具體應用:
feed流智能推薦策略
1. 待解決問題:針對不同的用戶提供更為恰當、更感興趣的信息推薦。
2. 輸入:
3. 計算邏輯:通過對這個不同輸入賦予不同的權重,設置一個多因素的公式最終得到用戶喜愛度這種量化的指標。
4. 輸出
通過對四要素的理解,我們可以將建立衡量指標的意義抽象為以下幾點:
策略產品有別於和端接觸密切的用戶產品,其主要目的是提高性能,提升準確率,所以端上的感知和反饋就未必有其他類型產品顯著,因此建立更為準確的衡量指標更顯得尤為重要。
(1)<CPO投訴>
CPO投訴主要是用戶對產品體驗萌生不滿情緒,通過網站或進線客服等方式對產品做出投訴。
CPO投訴的特徵是以負面反饋為主,樣本量小,重要性高。我們在進行策略優化和迭代時,主要目的是在保證滿足用戶基本需求的基礎上(即能用,好用)增加個性化體驗(即好用)。而CPO反映給我們的通常是一些Badcase,即產品連用戶基本需求都滿足不了,所以是需要我們著重注意的。
優點:對Badcase的定位和分析可以幫助我們迅速定位到策略的不足之處,進而快速止損。
缺點:
例子:
比如司機在開網約車的時候發現導航存在繞路現象被乘客舉報,打電話給平臺投訴,希望平臺給予賠償。可能你認為查一下歷史log,如果是我們的問題就給予賠償,並從中發現優化點就OK了。
而真實的情況可能是這樣的:
改進方向:
(2)<用戶反饋>
用戶反饋主要通過調查問卷、用戶調研等形式開展。和CPO投訴不同,用戶反饋的互動性更強,更能得到不同用戶的特徵感受,且用戶反饋傳遞的是正面和負面的信息兼而有之,其樣本量也比CPO投訴要大。
優點:強互動性,通過和不同群體用戶的對話可以幫助發現他們不同的訴求,便於我們完善輸入指標和規則,也可以幫助明確我們解決問題的定位是否準確。
缺點:
例子:
我們想衡量一個feed流智能推薦新算法是否好用,於是邀請了小張來做用戶調研。
小張的用戶畫像是一個在網際網路公司的軟體工程師,平時的愛好是在休息時間看看NBA,小張抱怨feed流每天給他推薦的都是女友喜歡看的吃播,他懷疑是由於女友有時候用他手機看吃播造成的。
這時我們的產品經理可能就認為是歷史觀看賦的權重太大且粗糙了,要給短時長內的歷史觀看視頻賦予給小的權重,於是回去修修改改了好久。
但實際上可能這個策略的賦權是沒有問題的,每天推給小張的也是大量的體育新聞,只是偶爾有一個吃播推送,但是在不喜歡吃播的小張眼裡這條推送就顯得無比「耀眼」,所以給出了錯誤的反饋。
改進點:
(3)<Case分析>
case分析實際上是這上述兩者發揮作用的最重要的一部分,也是在策略迭代中要不斷進行的一個工作,下面舉個例子來說明case分析是如何幫助我們進行指標的衡量的
例子:
還是用feed流智能推薦距舉例:
48歲的趙叔叔抱怨每天給她推送的都是哪個明星又結婚了離婚了,這是他的愛人黃阿姨喜歡看的東西,但是他根本不知道這些明星是誰,他只是想看看新聞。
我們通過case分析,發現給信息標籤中熱度匹配情況賦予的值太高了,但是貿然的賦值低也不太好,於是我們考慮到通過人群標籤來指導熱度匹配情況的賦值,比如年輕人可能更喜歡明星八卦,就可以儘量賦值高些。年齡稍微大些的人呢,可能對此不太感興趣,就可以賦值低一點。女生可能更喜歡女團,就可以賦值高一些;男生更喜歡籃球,就可以儘量將體育類賦值高些。
通過上述例子我們可以看出,case分析會幫助我們更為準確的分析多因素,並且將其粒度變得更細,面對不同場景下不同用戶賦予更為準確的權重,得到更為準確的計算規則。
(1)<埋點統計>
埋點就是指在開發過程中,RD小哥哥寫在代碼裡的一些「感知器」,我們會給埋點設置一定的觸發時機(比如命中了XXX策略,點擊了XXX按鈕),和搜集數據屬性(比如用戶id,觸發時間等)。於是這些埋點便可以在我們設定的時機將我們希望其上傳過來的數據以log的形式源源不斷的發送過來。
在我們進行指標選取時首先要明確我們需求解決的問題,優化的點是哪?這個問題回答的越小而具體,指標就會建立的越明確,以下是兩個例子:
例子一:
背景:車輛在行駛過程中偏離規劃道路這一情況被稱為「偏航」,假設我們這個新策略是為了讓導航更快的感知到車輛的偏航。
指標:我們可以將指標量化為【偏航識別距離】和【偏航識別時間】。
觸發/結束時機:這個結果是瞬時的,需要在每次偏航時提供給我(即進行一次記錄)。
例子二:
背景:我們設定了新策略是讓視頻智能推薦變得更準確。
指標:我們可以將指標量化為【用戶點擊首頁視頻的次數】和【用戶點擊視頻後觀看的時長】等等。
觸發/結束時機:這是一個持續性的事件我期望設置的事件開始是【用戶首次進入app】和【用戶返回主頁】,那麼事件的結束是【用戶退出app】和【用戶切入後臺】和【用戶在搜索欄進行搜索】和【用戶進行手動刷新】等。
所以總結來看如何設置一個埋點只需要回答兩個問題,即我想在什麼時間獲取到信息?以及我想獲取的信息是什麼?
埋點的設置可以參考以下表格:
我們可以總結埋點的優缺點。
優點:不必擔心樣本量和準確性,數據是不會騙人的;便於分析case的佔比情況。
缺點:
改進點:埋點的主要問題是和端的互動性差,可以將埋點分析和用戶調查、case分析等結合起來。
(2)<AB測試>
AB是PM在進行策略效果衡量時一種常用的手段,簡單來說就是為同一個目標制定兩種解決方案(一般為新策略和舊策略),通過用戶的使用情況,數據呈現來分析哪個策略是更優的。
一般可以選擇幾個實驗城市進行AB測的放量,即保證了樣本量是足以消除掉個體差異和其他因素幹擾的,也可以有效控制流量保證風險的可控性。
AB實驗示例:
1. 城市選擇:一般選擇特徵和該策略待優化點一致的無其他實驗的城市。
2. 分組依據:為了保證流量的獨立性,即A組和B組沒有交集,一般選用手機倒數第二位來進行AB分組。
3. 時間選擇:且為了避免假期或者不同工作日影響,一般AA階段和AB階段都要在一周及以上,避開節假日(春節、端午等,不指周六日)。
優點:AB測可以很好的解決樣本量的問題,通過數據的對比和數據顯著性檢驗來準確衡量策略的收益。
缺點:
改進點:可以利用<分片AB實驗>的方式加強樣本的隨機性。即一定時間內實驗城市所有流量都用A策略,經過一段時間後翻轉所有流量都用B策略,經過不斷的翻轉來實現AB的切換,在進行數據統計的時候不是根據AB組進行,而是根據AB事件進行。
(3)<階段性放量>
階段性放量實際上並不是一種策略收益衡量方式,而是為了保證策略上線穩定性而進行的一種灰度放量模式。在進行階段性放量時pm要時時進行埋點數據的監控,並依次進行放量計劃的調整或者叫停。
總的來看策略性產品效果衡量是以【埋點統計】為主,【用戶主觀感受】為輔,因為其主要面向提升產品性能,提高準確性,雖說最本質的目的是為了提升用戶體驗,但是端上感知並不一定明顯,所以如果過於依賴用戶主觀感受的話可能會導致結果不準確。
而埋點統計是大數據下的產物,也就是說只有在需求上線且樣本量多的情況才能反映出其準確性,有效的消除掉個體的影響和其他因素的幹擾,但是新需求上來就全量或者大面積放量肯定是不行的,所以在不同的階段下進行的效果衡量和評估是不同的。
階段一:未上線——通過離線數據集進行的埋點統計
以我實習過的偏航為例,在上線一個新策略之前一般RD會在離線數據集上進行新策略的「試用」,即通過一些歷史軌跡進行回放觀察其在新策略上的表現,如果這個表現是正向且符合預期的,一般才會正式上線。
階段二:小流量上線——AB測進行數據比較+用戶反饋
離線階段認為此策略可以上線後,一般還是會保守的先上線一部分用戶(一般是用戶反饋體驗群、產品組裡的用戶)和實驗城市,通過搜集他們的主觀感受和實驗城市的AB組數據衡量一定流量下新策略的表現並進行下一步放量計劃的制定。
階段三:隨機放量——埋點數據為主,用戶反饋為輔
在此階段一般會制定相關的放量計劃,這時的流量一般就比較大了,用戶的埋點數據也更為真實可信,所以以埋點數據為主,進行實施的監控,直到全量。
本文由 @Crystal 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自 Unplash,基於 CC0 協議