本周研究的一個問題是數據分析,這可能是研究這麼多個問題花時間最長的一次了,可能得有十幾個小時,看了之前整理在收藏夾的幾十篇文章,可能得有幾十萬字,然後整理成這一篇,準確的說算不上原創,只能算東抄一點西抄一點。
獲取那幾十篇文章,關注後回覆:數據分析
文章會按照下面結構來寫
一、數據分析包括哪些方面
1.1 數據規劃
1.1.1 制定產品目標
1.1.2 定義產品數據指標
1.1.3 構建產品數據指標體系
1.1.4 提出產品數據需求
1.2 數據採集
1.2.1 數據上報
1.2.2 數據採集與接入
1.2.3 數據存儲
1.2.4 數據調度與運算
1.2.5 獲取數據
1.3 數據分析
1.3.1 觀測和分析數據
1.3.2 數據可視化
1.3.3 產品評估與數據應用
1.4 總結,如下圖
二、幾個方面著重介紹
2.1 數據指標體系搭建
2.1.1 數據指標體系是什麼
在業務環境中,通常單個數據指標無法完成對整體業務的描述。這個時候就需要同時使用多個相關指標了,而這多個相關的又相互獨立的指標所構成的統一整體,即為指標體系。」對比單個數據指標,數據指標體系具有結構化、流程化、體系化等特點。數據指標體系將多個數據指標有基結合,從多方面全面衡量業務單元,在構成數據指標體系的各數據指標之間又相互獨立,完全窮盡。 如果說數據指標是磚。那麼,數據指標體系則是由磚搭建而成房屋模型。
打個簡單的比方:如網際網路行業的運營活動,每個運營活動的上線都會有業務背景和目的,為什麼要做活動(WHY),要做什麼樣的活動(WHAT),活動要做怎麼做(HOW),什麼時候做(WHEN),活動的目標用戶是誰(WHO),要投入多少資源(HOW MUCH),預期要達到什麼效果……這些內容最後會構成運營活動的評估體系,反應在數據上就是運營團隊的指標體系。
2.1.2 什麼是好的數據指標(北極星指標,OMTM)
數據指標與目標相關性比較密切,能用來衡量目標的期望值準確性與穩定性,以長期穩定的準確的反應目標結果可持續性的,持續性表現在,口徑的統一以及長期可用上。比較性的,適合橫向與縱向的對比,如果能比較某數據指標在不同的時間段、用戶群體、競爭產品之間的表現,你可以更好地洞察產品的實際走向。簡單易懂的會改變行為最重要的評判標準:隨著指標的變化,你是否會採取相應的舉措?學會根據數據確定一條做與不做的準繩,對規範你的創業行為大有裨益;數據指標間的耦合現象也值得注意轉化率通常就是和購買所需時間相綁定和商業目標緊密結合反映客戶的價值需求指標簡單易懂能夠計算匯總如果這個指標變好了,是不是能說明你的整個公司是在向好的方向發展這個指標是不是很容易被你的整個團隊理解和交流呢這個指標是一個先導指標還是滯後指標這個指標是不是一個可操作的指標指標的選擇來源於具體的業務需求,從需求中歸納事件,從事件對應指標
舉例,從內容落地頁的業務需求開始,分析選擇指標的過程如下明確需求:對頁面進行數據分析,提高電子書下載量;歸納事件:用戶下載電子書是系列事件的最終結果,包括點擊推廣連結、訪問下載頁、開始填寫信息、填寫信息完成下載;對應指標:下載量 = 訪問流量 CTA 點擊率註冊轉化率。通過上述分析,得出下載量是 OMTM(第一重要指標,One Metric That Metter)的結論。同時,整個指標體系包括訪問流量、CTA 點擊率、註冊轉化率三個可操作的指標,基於可操作的指標,才可以更好地優化核心指標。
2.1.3 如何規劃數據指標
方法一
業界搭建數據指標體系的套路通常包括兩種,一種是以精益數據分析為代表的第一指標法,通過尋找關鍵指標,然後利用杜邦分析法通過拆解第一關鍵指標的方式,圍繞第一關鍵指標搭建運營數據指標體系;另一種是根據業務衍變過程(邏輯)構成的海盜數據指標框架:AARRR,與AARRR相近的還有類似於PRAPA,AMAT等數據指標框架。上述兩種套路,最終都殊路同歸,最終指向業務核心訴求:收益。而最終將收益拆分,對不同影響因素冠以不同的套路的過程,就是數據指標體系搭建的過程。以B2C電商為例,將目標收益拆分為由客流量、轉化率、客單價、購買頻率和毛利潤率以及成本等指標,隨後又將這些核心指標根據影響因素拆分為比如SEM、EDM等單位影響模塊,最終由核心指標和影響模塊指標構成了完整的數據運營體系。
方法二:立體化的數據指標體系
核心指標,影響因素和發展階段將數據指標變的立體化。由核心指標與影響模塊構成的數據模塊,伴隨著業務發展階段的變化而變化,最終形成立體化的數據指標體系。數據指標體系的立體化可以從四維空間的角度去理解,首先的立體化是核心數據指標以及對應因素影響因素所構成的二維數據指標系,隨著業務的發展以及人員分工的細分,並在此基礎上引入了崗位層級關注度,至此二維數據指標系由二維轉變為三維,最終形成一個一個的數據指標模塊。其次,隨著時間的推移的,業務發展階段不同關注的核心指標不同,最終形成數據指標模塊的動態衍變,最終將數據指標模塊衍變為立體化的數據指標體系。
2.1.4 標籤體系分類
從屬性來看,標籤可分為人口標籤,會員標籤,行為標籤,交易標籤,消費標籤以及營銷標籤等一級類目。每個一級類目下可根據觀察維度進一步拆分子類目標籤
會員指標:會員等級、忠誠度、會員活動參與度、入會路徑、當前生命周期、自傳播能力
站外推廣類指標
流量類指標
目標轉化類指標
銷售類指標
妥投類指標
商品運營指標
產品會員類指標
產品控制類指標
收益控制類指標
2.1.5 如何讓指標體系可持續迭代
既然指標體系已經存在了,還有「售後」的問題,就是持續性。很多團隊在剛開始做的時候,花了很大資源在這個事情上,並且在一個周期內發揮了比較好的效果,但是經不起時間的摧殘。業務的調整、產品線的擴充、公司戰略的變化、人員流動等等事件,會讓整個體系持續迭代,加上前期可能是通過人工維護文檔(特別是本地excel),指標體系的生命周期最多不超過半年,半年之後需要重頭再來一次。面對這種情況,需要數據產品經理很好的規劃指標體系的系統化方式,就像「數據採集」和「數據倉庫」的介紹一樣,有能力,有資源就自己設計、自己開發。短期資源不夠,可以採購第三方產品。
2.1.6 定性指標與定量指標
定性數據回答的是「為什麼」,定量數據回答的是「什麼」和「多少」這樣的問題;定量數據排斥主觀因素;定性數據吸納主觀因素;
常見定性指標
平均訪問時長、人均啟動次數、平均訪問深度、平均一次會話瀏覽頁數、跳出率、轉化率留存率、活躍度等常見定量指標
PV、UV、DAU、下載量、訪問量、啟動次數等
2.1.7 虛榮指標與可付諸實踐指標
如果你有一個數據,卻不知如何根據它採取行動,該數據就僅僅是一個虛榮指標
2.1.8 先見性指標與後見性指標
見性指標可用於預測未來;後見性指標能提示問題的存在,比如用戶流失
2.1.9 分享指標產品的幾個關鍵詞
原子指標:不能再細化的指標,比如支付金額派生指標:由多個原子指標組合的指標,如點擊率=點擊量/曝光數作用域:私有或公有,私有是指該指標只能某個人使用,或者某個團隊使用,超過該作用域下使用該指標,定義無效。公有是指該指標產生的數據對所有人有效。通知機制:指標在新增、變更或刪除時,能有通知機制通知到使用該指標的所有人其餘的內容大家各自根據團隊所在的時間周期、資源情況等等方面做內部的評估,這裡不做贅述了。
2.2 數據口徑統一
我知道很多朋友都推過指標體系或者分析體系,其中最大的難題不是技術問題,而是如果標準化,每個業務都有各自的業務理解和對指標的定義,數據團隊作為業務的服務方,會接觸到各個團隊的需求,這時候就會發現統一指標定義是個「髒活累活」,感覺花了80%的精力在各種溝通,各種撕X,最終結果往往不盡如人意。
那到底怎麼樣能高效的搞定這個問題,「無論是數據驅動還是業務驅動,依靠這一套已成形或未成形的指標體系,能更加具象的描述業務板塊的目標和過程」,大家有啥感想?
提供一個思路:至上而下。(不是說指標體系由高層來決策) 我的意思是,既然每個業務都能出業務評估的指標,那上升到公司層面、集團層面,肯定有短期或長期的目標,如今年用戶量要達到多少?今年營收要做多少?App下載量要到多少? 這些公司層面的指標就是下面各個業務部門最終的業績體現,而且每個公司短期或長期的核心指標一般不會超過5個(北極星指標),所以按照這個結構,從最上層的3-5個指標,向下拆分,拆分到各個業務板塊,整個指標體系就可以準確的描繪公司各個層級、各個團隊的目標。
如上,可能會出現一些情況,比如按照上面的步驟做了,並且最後整個結構也梳理出來了,但是梳理出來的指標定義跟現在某部門的指標還是有差異怎麼辦?無所謂,我們把定位拉高,數據的價值不只是給某個細分團隊服務,更重要的是為公司服務,所以如果有這種情況,有兩種處理方案:①將現在業務團隊的指標名稱做差異化,該指標繼續存在,但是作用域只是該部門使用。 ②將「至上而下」出來的指標的生成邏輯跟團隊負責人同步,得到團隊負責人的認可,並將新的指標定義替換原有的定義。
2.3 數據採集
採集業務數據,提供數據報表流量數據行為數據event(事件):交互、內容、人物、地點、事件如何採集數據代碼埋點:通過SDK嵌入App,基於發版而上限靈活可控,交易、行為屬性全面可視化埋點:在可視化頁面對埋點區域和事件進行設定,通過部署在產品上的基礎代碼對產品的所有交互元素進行解析全埋點:採集頁面上所有的點擊行為埋點常見問題最開始進行需求梳理時,沒有從整體進行考慮,給出的需求偏淺層或者給不出具體需求,等到開發埋好指標結果出來時卻不是自己想要的,需要重新埋點。另外,後續產品版本更新迭代了,原有埋點不可用,也需要重新埋點。數據統計口徑沒確定清楚,且沒有保持和開發的一個良好溝通,沒有將埋點的具體採集時機正確傳達給開發,導致最終埋點實現的不是自己想要定義的指標。數據採集方案沒有想清楚,哪些應該在前端埋點,哪些應該在後端埋點,埋點採集SDK如何正確使用在還沒了解清楚時就急於上手埋點事件分類點擊事件:用戶點擊btn即算點擊時間,不管點擊後有無結果瀏覽事件:一個頁面記一次(打開、刷新、跳轉、加載等),頁面停留時間基礎埋點表欄位功能欄位事件類型欄位中文名稱欄位時間id欄位key欄位與value欄位記錄規則欄位備註欄位
2.4 數據分析
2.4.1 數據分析流程
梳理業務:了解業務需求,業務是數據分析的前提
明確目標:或者叫明確問題是什麼
數據分析:根據目標去分析目前的情況以及存在的問題
提出假設:提出可能解決目前問題或者實現目標的想法(基於對業務的理解的經驗假設)
原因優先級排序:將假設的原因排好優先級進行測試
開展實驗:
想好取什麼數據,將需求拆分成可執行的數據指標(幾乎任何需求的可拆分成具體指標,如果不可拆分,大概率只是你沒想到合適的指標)取數據處理數據拿到數據之後,先用直觀經驗和邏輯判斷一下,數據是否正確以及合理。這一步非常重要,否則這一步錯了,對於後面的數據分析結論是十分致命的,最後功虧一簣,重新再來。我在工作中就碰到一次這種情況,當時拿到這份數據就開始清洗分析工作,後來匯報的時候被質疑數據的準確性,最後又加班加點重新做了一遍。數據清理對數據的噪音、缺少某個鏈條的數據以及補充調整數據的格式等,這一步在日常工作中大家都不自覺的這樣做,不再累述。數據處理把數據按照一定維度排列好,去除表中無關的數據。個人用的比較多的是excel的透視表和vlookup功能。還有excel常用的一些函數功能,都是用到哪些函數就上網百度,函數功能一般都很簡單。分析優化:常用的數據分析手段基本就3種:細分、對比和趨勢。在複雜點會用到聚類、回歸分析和相關性分析方法。在我們發現某個指標降低時,我們拉去整體的一個數據鏈條,先對比哪一個指標的變動,不斷的去細分對比,尋找到影響數據波動的哪些點。
我們在考慮影響這些點數據變化的因素有哪些,可能時競爭對手的原因,可能是上線後一個功能導致用戶體驗下降從而被影響等等,這裡分析的原因考驗你對數據各種維度思考和總結,還有對業務,對產品的理解的深度。這個地方是考驗一個數據分析人員能力的一個重要的點。
最後,不斷循環,直到找到問題所在
2.4.2 數據分析基本方法
任何數據分析都是「細分,對比,溯源」這三種行為的不斷交叉。最常見的細分對比維度是時間,我們通過時間進行周月同比,發現數據異常後,再進行維度或流程上的細分,一步步拆解找到問題所在。如果找到了某個維度的問題,則需要溯源到業務端或現實端,確認問題產生的源頭。如果多次細分對比下來仍然沒有確認問題,則需要溯源到業務日誌或用戶訪談來更進一步摸清楚情況。
細分分析法
這一步相當於給指標增加了一個或者若干個維度,細分主要有以下三種方式
橫切:根據某個維度對指標進行切分及交叉分析縱切:以時間變化為軸,切分指標上下遊內切:根據某個模型從目標內部進行劃
橫切上,以轉轉舉例,我們對維度和指標做做了分類和交叉,當某一類的指標出現問題時,我們便知道該從什麼維度進行分析。在進行橫切分析時,經常需要多個維度交叉著使用。這在數據分析術語上叫:交叉多維分析。這也是剛才講的「維度總線矩陣」看到的各維度交叉情況了。
縱切上,有目的有路徑,則用漏鬥分析。無目的有路徑,則用軌跡分析。無目的無路徑,則用日誌分析。
漏鬥分析分為長漏鬥和短漏鬥。長漏鬥的特徵是涉及環節較多,時間周期較長。常用的長漏鬥有渠道歸因模型,AARRR,用戶生命周期漏鬥等等。短漏鬥是有明確的目的,時間短,如訂單轉化漏鬥和註冊漏鬥。在軌跡分析裡,桑基圖是一種常用的方式。常見於各頁面的流轉關係,電商中各品類的轉移關係等等。日誌分析,則通過直接瀏覽用戶前後端日誌,來分析用戶的每一個動作。
各種手段的細分往往交叉著使用,如訂單漏鬥縱切完可以接著橫切,看看是哪個維度的轉化率導致的問題。
內切上,主要是根據現有市面上常見的分析模型,RFM,Cohort 和 Segment等方式進行分析。RFM 即最近購買時間,頻率及金額三個指標綜合來判定用戶忠誠度及粘性。Cohort,即同期群分析,是通過對不同時期進入平臺的新用戶分群分析,來區分不同新用戶的質量,如留存率或目標轉化率等。Segment 通過若干個條件對用戶分層,然後針對不同用戶進行分層分析和運營,如用戶活躍度分層等等。
在前面講解細分的時候,側重的主要是一些客觀維度,如時間、已經客觀存在的拉新方式和Banner等。而隨著分析經驗的積累和算法能力的提升,我們逐漸會在分析和應用中,加入一些偏主觀的細分維度。比如根據用戶偏好製作的用戶標籤。這些維度提供了新的視角,但同時也有自己的「玩法」。
對比分析法
對比主要分為以下幾種:
橫切對比:根據細分中的橫切維度進行對比,如城市和品類縱切對比:與細分中的縱切維護進行對比,如漏鬥不同階段的轉化率目標對比:常見於目標管理,如完成率等時間對比:日環比,周月同比;7天滑動平均值對比,7天內極值對比時間對比嚴格來說屬於橫切對比。但因為時間這個維度在數據分析和產品中極為重要,所以單拎出來說。橫切對比中,有個比較著名的數據應用方式即是「排行榜」。通過這種簡單粗暴的方式,來驅動人們完成目標,或者佔領人們的認知。前者有銷售完成排行榜。後者有品類售賣暢銷榜。
溯源分析法
經過反覆的細分對比後,基本可以確認問題所在了。這時候就需要和業務方確認是否因為某些業務動作導致的數據異常,包括新版本上線,或者活動策略優化等等。
如果仍然沒有頭緒,那麼只能從最細顆粒度查起了,如
用戶日誌分析用戶訪談外在環境了解,如外部活動,政策經濟條件變化等等
匯總
這一步我們關注的是指標,也就是大家常見的那些DNU、DAU、GMV、ROI等等。只要是說到數據分析的內容,一定會提示數據分析「要明確目標」。因此,這個重要性我們倒是不需要贅述。
目標當然是所有指標中最重要的。但只有目標還不夠,我們還需要其它的輔助指標。就比如ROI,是投入和產出兩項算出了ROI;而GMV,也可以用用戶數乘以平均每用戶的GMV計算出來。這樣,我們就把一個目標的計算,拆分成了更多相關指標的組合。並且,這些指標更基礎,我們可以通過一些運營手段影響這些指標的變化趨勢。
這部分沒有什麼理解的難度。只不過,我們要找出指標之間的計算關係,由此逐漸找到所有我們需要關心的指標。在現在的網際網路產品運營當中,從來不會缺少需要看的指標,已經多到了眼花繚亂的地步。但只有那些跟目標相關的指標,我們才需要關心。
匯總部分的優化,在於發現更新、更合適的輔助指標,來計算出最終的目標指標。就比如在財務領域,相比於按照收入和支出匯總的計算方式,杜邦分析法(DuPont Analysis)給出了基於銷售利率、資金運作和負債程度三個方面的拆解方式,更容易理解並採取行動。
評價
在【評價】的步驟中,我們要用到【匯總】步驟中的那個作為目標的指標,以它作為評價的唯一標準。如果我們的目標就是簡單的GMV,甚至更簡單的PV和UV,那麼到了【細分】的步驟之後,我們基本就可以開始下結論了。
但是在實戰中並非如此。我們的目標可能是一個複合目標——在拉高GMV的同時,還要控制成本;在拉高PV的同時,還需要提高GMV;或者直接是一個ROI這樣的複合指標。
在這個時候,我們就不能只關注目標這一個指標了,而要關注複合指標。例如,我們的目標是在拉高GMV的同時控制成本。為了進一步簡化問題,我們把成本具體地定義為:促進老用戶產生GMV的成本和獲得新用戶產生GMV的成本。因為通常在運營中,拉新與促活的手段是不同的,這與【細分】部分的原則對應,即:是否存在操作空間以及操作空間的大小。
之後,我們就可以分別按照拉新和促活的不同緯度,對產生的GMV和投入的成本這兩個指標分別進行細分了。例如,在拉新方面,我們有外投百度關鍵字、有外有廣告聯盟、還有與其他APP的合作換量;而在促活方面,我們在APP上的ABCD四個Banner上設置的A/B Test。
那麼對於新用戶的部分,我們就可以分別針對百度關鍵詞、廣告聯盟和合作APP這三種方式,評價每投入一塊錢的成本分別可以得到多少新增的GMV。通過這種評價,我們就能簡單地在不同的拉新方式中,選擇更優的方式,並在已有的方式中調整更優的成本投入。而對於老用戶的部分,我們同樣可以針對ABCD四個Banner各自的A/B Test,評價不同的展示版本中每投入一塊錢可以產生多少GMV。
簡而言之,在【評價】這個步驟中,我們需要把【匯總】部分的指標分成兩類——最終的目標,與實現目標的手段。比如在前面的例子中,投入的成本就是實現GMV提高的手段。因此,每一塊錢的成本投入,我們都需要以產生的GMV來評價它。這時,要實現GMV提高的目標,可選擇的手段就比較多了。比如,針對老用戶促活,我們可以:
保持成本投入不變,更換更容易帶來GMV的圖片和文案,來提高投入的每一塊錢帶來的GMV(優化效率);
保持每一塊錢帶來的GMV不變,(在限制範圍內)追加成本投入;
這兩種方式,都有意識地忽略了GMV可能帶來的價值。如果我們將這部分價值考慮進來,它就能抵消掉一部分投入的成本,那麼備選方案還會更多。
總之,在前面這個例子中,由於我們的拆分維度本身比較簡單,只考慮了APP中的Banner和外部拉新的方式,因此比較容易通過數據中的一些標記進行細分。但是在實戰中,還有些情況是我們無法進行明確地拆分的。比如在用戶交互中,產生一個GMV的路徑需要經過幾個環節的跳轉,或者就像前面那個例子中的ABCD四個Banner,如果用戶點擊了其中的兩個甚至三個Banner,那麼我們如何拆解呢?這個問題就是下一個步驟【歸因】了。
歸因
【歸因】這個步驟就是「最後一公裡」了,也就是我們常說的剖析「為什麼」的過程。之後便可以得出結論並進行決策。
在前面的步驟中,通過案例能清楚地看到,我們已經得到了一些可以直接對比的量化指標了。在這種情況下,其實我們不需要在【歸因】的步驟中做什麼特殊的操作,可以通過數值的比較直接下結論。但是如果我們遇到了細分的問題,也就是多個環節或者方法之間無法進行明確地拆分時,應當怎麼辦呢?在日常的數據分析中有幾種常用的歸因思路。
比如,我們繼續使用前面提到的案例——用戶依次點擊了ABCD四個位置才產生了GMV:
首次互動歸因模型:也就是用戶第一次做某件事,在數據中通常表現為時間最早、順序號最小等等。那麼我們給A記100%,B、C和D記0%。最終互動歸因模型:也就是用戶最後一次做某件事,對應的在數據中就表現為時間最近、順序號最大等等。那麼我們給D記100%,A、B和C記0%線性歸因模型:也就是平均分。那麼我們給ABCD分別記25%。加權歸因模型:也就是給多個促成因素分配一定的權重,例如A和B各記30%,C和D各記20%。正因為多出來一個權重的維度,需要一定的設計;並且計算權重也可以作為一種分析的過程。關於權重也有幾種常見的設置辦法,比如首末兩項最重要而其它向中間遞減,或者按時遞減等等。當然,在選擇歸因方式的時候,也會結合具體業務的特徵,來考慮行為的先後順序、停留時間長短等情況,對於分析目標的貢獻或影響。
歸因部分是對於那些不能客觀確定的拆分邏輯,給出了人為定義的拆分邏輯。因為有了人為操作的加入,並且客觀情況在不斷的變化中,這其中就逐漸產生了優化空間,需要對拆分的方式不斷調優,以便適應業務的發展和環境的變化。
決策
最後就可以決策了。但經過了前面的幾個步驟逐漸消除了不確定性,決策反而是最簡單的一步了——就是找出那個表現最好的版本、表現最好的位置、表現最好的拉新方法而已。
而當我們有一些新的idea時,同樣可以作為A/B Test中的一個版本,加入到這套評價體系中,進行綜合評價。
這套方法論不僅針對日常工作中的專項分析,在一些已經固化成型的方法論中,也可以找到這套基礎方法論的影子。我們來看幾個已經成型方法論案例。
分組分析法
根據數據分析對象的特徵,按照一定的指標,把數據分析的對象劃分為不同的部分和類型進行比較研究。
平均分析法
運用計算平均數的方法來反映總體在一定時間、地點、條件下某一數量特徵的一般水平。
結構分析法
將被分析研究的總體內各部分和總體之間進行對比,即總體內各部分所佔比例,屬於相對指標。
交叉分析法
即二維交叉表分析法。
綜合評價分析法
即增維,將多個指標轉化為一個能夠綜合反映情況的指標進行分析評價,用於解決複雜的分析問題。
杜邦分析法
漏鬥分析法
適合於業務流程比較規範、周期比較長、各環節流程涉及複雜業務比較多的分析。
矩陣關聯分析法
將產品的兩個重要指標作為分析的依據,進行關聯分析,找出解決問題的辦法。
立體式分析法
A/B Test實驗
首先我們要看的案例就是A/B Test。在A/B Test的過程中,首先我們要確定實驗的目的,也就是我們要通過實驗提高和優化的是哪個指標。之後,我們以實驗中的不同版本作為細分維度,以指標是否實現作為評價標準,對實驗結果進行評價。如果在實驗的過程中確實遇到了需要歸因的問題,則還需要考慮如何進行歸因。
當然,隨著業務的複雜度不斷發展,A/B Test的難點已經不在於比較和得出結論的過程,而在於如何設計實驗才能在更短的時間內、耗費更少的用戶流量、進行更多的實驗並得到有效的結論。這也是所有這方面的平臺和工具的起點——Google的著名論文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》論述的核心內容。
用戶分群
用戶分群是一個常見的運營手段,但如何確定分群的準確度,以及如何在後續的使用中持續地維持準確度,確是一個數據分析問題。在基於特徵的用戶分群過程中,首先要確認的是,我們希望獲得具備怎樣特徵的用戶群體。
之後,當我們想找到符合這個特徵的用戶時,就可以使用TGI(Target Group Index,目標群體指數)來衡量找到的用戶群體是否對這個特徵有傾向性。例如,如果我們想找到喜歡搞笑短視頻的用戶,並且以點讚行為作為「喜歡」的定義,就可以使用TGI的大小來評價我們找到的用戶群體是否確實對搞笑短視頻有所偏好。
具備了這種分析機制之後,我們就可以通過各種手段來對用戶進行分群了,之後針對不同的分群方式就可以計算出多組TGI值,我們需要的就是那個TGI值最大的子群,並選擇那個得到這個子群的分群方式。
反過來說,關於用戶分群還有另外一種場景:我們已經得到了一個用戶群體,並想要研究這個群體具備怎樣的特徵。這時,同樣可以使用TGI作為目標,以TGI的大小來衡量分群對各種特徵的傾向性。
轉化分析方法
優先級排序LIFT框架ICE框架:impact(影響力)、confidence(自信心)、ease(難易度)PIE框架:popential(潛力)、importance(重要性)、easiness(容易程度)
內外因素分解法
把問題拆成四部分,內部因素、外部因素、可控和不可控,在是個象限中
內部可控因素:立即執行內部不可控因素:協調溝通外部可控因素:相關渠道外部不可控因素:確定假設
經典管理模型:BCG矩陣
在經典的BCG矩陣中,隱含的一個關注目標是整體利益,而手段是資源的優化配置——也就是要將企業中有限的資源,投給更具潛力的業務,以便獲得企業層面的整體利益最大化。
為了對這個目標進行深入研究,在BCG矩陣中,按照兩個維度對這個指標進行了拆分,形成了一個二維矩陣。在通常的畫法中,橫向代表相對市場佔有率的高低(通常是指相對於行業Top 3),而縱向代表了市場增長率的高低。相對市場佔有率和市場增長率,就是創造利益的手段了,佔有率高且增長迅速,自然能更多獲利;而利益自然是最終目標。
因此,由於手段帶來的利益是不同的,在拆分出的四個象限中,不同的業務就有了自己的「宿命」——有的維持,有的追加資源,有的減少資源,有的直接放棄。
衍生模型
在「細分對比」的基礎上,可以衍生出來很多模型。這些模型的意義是能夠幫你快速判斷一個事情的關鍵要素,並做到不重不漏。這裡列舉幾個以供參考:
Why-How-What5W1H5Why4P 模型(產品,價格,渠道,宣傳)SWOT 模型(優勢,劣勢,機會,威脅)PEST 模型(政治,經濟,社會,科技)波士頓矩陣舉個例子,最近京東和美團外賣可能會發現送貨時長延長,針對物流相關的客訴增加,從 PEST 模型就可以分析出來是否在政治上出了問題。而當你在競品做比對分析時,SWOT 或者 4P 模型能夠給你提供不同的角度。
其他分析方法相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列、連結標記、同期群分析、用戶細查(行為軌跡)、熱圖分析、趨勢分析、魔法數字(Facebook的7個好友)、DOSS分析法(具體問題→整體方案→單一回答→規模化方案)
2.4.3 數據分析常見謬誤
控制變量謬誤:在做 A/B 測試時沒有控制好變量,導致測試結果不能反映實驗結果。或者在進行數據對比時,兩個指標沒有可比性。
樣本謬誤:在做抽樣分析時,選取的樣本不夠隨機或不夠有代表性。舉例來講,網際網路圈的人會發現身邊的人幾乎不用「今日頭條」,為什麼這 APP 還能有這麼大瀏覽量?有個類似的概念,叫 倖存者偏差。
定義謬誤:在看某些報告或者公開數據時,經常會有人魚目混珠。「網站訪問量過億」,是指的訪問用戶數還是訪問頁面數?
比率謬誤:比率型或比例型的指標出現的謬誤以至於可以單獨拎出來將。一個是每次談論此類型指標時,都需要明確分子和分母是什麼。另一方面,在討論變化的百分比時,需要注意到基數是多少。有些人即使工資只漲 10% ,那也可能是 150萬…
因果相關謬誤:會誤把相關當因果,忽略中介變量。比如,有人發現雪糕的銷量和河溪溺死的兒童數量呈明顯相關,就下令削減雪糕銷量。其實可能只是因為這兩者都是發生在天氣炎熱的夏天。天氣炎熱,購買雪糕的人就越多,而去河裡遊泳的人也顯著增多。
辛普森悖論:簡單來說,就是在兩個相差較多的分組數據相加時,在分組比較中都佔優勢的一方,會在總評中反而是失勢的一方。
2.4.4 數據分析模型
第一類:運營思維模型
運營思維模型是那些「非常正確」但並不能讓你立即採取行動的模型。不少人對這些模型存在「意見」,正是因為他們很正確卻又「無法落地」。另有聰明的朋友可能會覺得,這些模型都是「馬後炮」,這不就是我日常策略的總結嘛。話雖如此,這些模型仍然是對成功策略的簡單精闢的總結。
AARRRAIPLAMOT第二類:客戶認知模型
與第一類模型不同,第二類模型是可以讓我們實際操作的模型,並且基於這些操作,我們可以更深入的了解客戶的情況,從而為我們的運營策略提供依據。
RFM自定義聚類用戶活躍度模型用戶偏好識別模型第三類:運營增長模型
運營增長模型對於運營工作具有直接的指導意義,也是我個人認為每一個運營人都應該熟練掌握的模型。
留存曲線Cohort模型增長因子K因子流失預警模型誘餌、觸點與規則模型
2.5 數據可視化
2.5.1 數據可視化設計原則
準確性:數據產品的精髓在數據,因此數據的準確性決定了產品是否可用、可信任
取捨性:可視化本來是解決數據雜亂、量大問題,需要將最有用的信息傳達給用戶,因此要懂得取捨,將多餘的展示去掉,力求經典
易讀性:圖表的學習成本、理解成本、操作成本、清洗與否等都影響了圖表的易讀性,如果花費很長的時間去研究這個圖想表達的含義,那將得不償失
情感性:好的圖表一定是能夠讀懂用戶的感情,知道用戶的訴求
2.5.2 數據可視化展示邏輯
先總後分,先全局描述數據的整體情況,再帶著指標細化下去看明細
時間邏輯,比如實時數據、歷史數據等,需要根據時間維度進行數據展示
空間邏輯,主要是基於地理位置的展示邏輯,例如要查看不同地區的產品銷售情況就需要基於空間進行數據展示。
用戶角色邏輯,不同的用戶角色,所呈現的數據是不一樣的,例如某個數據產品的用戶有總經理、部門經理和業務人員三類角色,總經理想看到的是各個部門全局的匯總數據,部門經理想看到是所管轄部門的數據和情況,業務人員想看到的是所負責業務的數據指標,在數據展示時,需要考慮到不同的用戶展示不同的內容。
業務流程邏輯,從業務流程上監測不同節點的數據指標也是其中的展示邏輯之一,可以橫向層層遞進對業務進行剖析
對比分析,與業務緊密相關的數據展示本身沒有意義,只有通過數據產品把數據對比凸顯出來才有意義,例如同比、環比、時間趨勢對比、定基比等。
2.6 數據產品能力模型
2.6.1 能力模型
產品基礎能力:包括市場調研、競品分析、需求分析、產品設計、項目管理和推進等產品基本能力
數據技術理解能力:首先需要清楚數據流:從產生、採集、加工處理、儲存、建模和展示流程,這樣才能對數據理解透徹;其次是數據技術理解能力:包括數據採集、數據同步、數據服務、數據挖掘等相關技術,推薦《阿里巴巴的大數據之路》一書,看了之後對數據技術的相關鏈條有一個基礎理解
數據分析能力:產品是用來服務用戶的,解決用戶問題的,數據產品更是要通過數據來分析痛點,提供解決方案,因此數據分析天生就有數據產品解決能力的基因。
商業理解能力:數據的最大價值就是讓企業的決策和行為更精準,只有在充分理解企業的商業模式、戰略以及不同階段的訴求基礎上,數據指標的設計、數據分析和數據可視化才更聚焦、更有指導性。
數據可視化能力:這是數據產品需要具備的能力。
人文能力:這裡所包含的人文能力較廣,比如人性、文學、國學、哲學、同理心、用戶研究等都算是人文能力的範疇,如果把科技比作骨架,那人文就是情感,骨架能支撐身體的運轉,情感能讓身體活躍起來,更具有情感化,數據產品就是要讓數據本身活躍起來。
2.6.2 需要掌握的基礎數據知識
數據預處理、檢驗、清洗各種常用統計檢驗方法描述統計分析對比分析簡單的多元統計分析方法資料庫知識
2.7 數據分析幾道面試題
用戶流失分析,新用戶流失和老用戶流失有什麼不同?在一個國家中某些機型留存率降低,如何分析並定位原因元旦過後,整體DAU連續多天下降,如何分析是否參與過錶盤設計及指標選擇什麼是回歸分析,如何識別歸因與相關係數為什麼說均方誤差不是一個衡量模型的好指標?你建議用哪個指標代替輸入法用戶畫像如何設計?可以用哪些指標以及如何可視化呈現如何了解一塊業務,並建立監控體系
封面:基於 CC0 協議