在神策 2020 數據驅動用戶大會「上海站」現場,神策數據業務諮詢師成林松分享了《數據智能在業務場景下的應用》的演講。(文末附 PPT 下載地址)
本文根據其演講內容整理,數據均為虛擬。主要內容如下: · 數據智能的概念與重要性 · 業務經營視角下數據智能的典型應用場景 · 數據智能的實現過程和落地實踐:以「推薦」為例 · 神策如何助力企業探索數據智能
關於數據智能,我們首先要了解什麼叫數據智能?「數據智能指基於大數據引擎,通過大規模機器學習和深度學習等技術,對海量數據進行處理、分析和挖掘,提取數據中所包含的有價值的信息和知識,使數據『智能』,並通過建立模型尋求現有問題的解決方案以及實現預測等。」
從消費者的角度來看,數據智能的應用場景已經覆蓋生活的方方面面,比如家門口的紅綠燈,基於「城市大腦」數據制度,紅燈跳轉時間經常調整,雖然實際的應用效果可能會導致交通擁堵,但這也從某種角度驗證了數據智能已被廣泛應用。
從企業經營角度來看,數據智能的實際應用場景包括個性化推薦、相關數據分析等,其在企業的初步應用目的即幫助企業提升經營效率和精細化運營。
那麼,為什麼會有越來越多的人和企業開始關注數據智能?我們可以從供給和需求兩方面深入了解。
在數據智能的供給端,其大規模的商業化要求其具備核心的基礎能力,這些能力可以像齒輪一樣轉動促使數據智能的商業化:第一,模型,很多經典的計算模型在十幾年前甚至更早以前就提出來了;第二,計算性能,但部分模型受制於計算的性能,未能得到較好發展;第三,數據的豐富度,它是決定數據智能能否做好的重要因素,這也是近些年各大企業紛紛重視數據、注重行為數據採集的原因。
在需求端,首先要從商業競爭的核心目的——提升經營水平出發。在存量競爭時代,我們更多的將注意力放在挖掘老用戶價值上,會關注其 ARPU(每用戶平均收入)值。比如某咖啡品牌考慮在咖啡售賣之外,擴充品類,加入輕食套餐的銷售等,這是基於企業戰略的考慮,而提升 ARPU 值的核心解決方案是「個性化」,如果面向每一個用戶提供的產品都是根據其偏好定製的,那麼轉化率必然會得到巨大提升。但是如何實現個性化?純粹靠人力給每一個用戶打標籤是不現實的,這個時候就需要數據智能來幫助企業實現「個性化」。
我將數據智能的典型應用場景分為以下幾類,如下圖所示:
第一,助力業務分析,輔助產生業務洞察。
作為分析師,經常關注指標的異動,對用戶和人群的認知,定位某個/些功能對特定用戶產生的行為具有因果關係,以及數據維度下降等,以此發揮數據的價值。
1.指標的應用分析 在分析層面,我們經常做指標的應用分析,在某些特定場景下,分析師的一些分析思路其實可以按照特定規律固定下來,比如 A 企業的業務較穩定,管理者關注的是與銷售額相關指標的異動,那麼就需要採用不同的分析思路,對其指標的異動做相應分析。一方面可以做維度的下鑽,通過地域、門店、品類等多維度進行分析,挖掘該異動是由於某一維度導致還是全局變化引發的;另一方面,也可以從相關的因子角度去拆解該指標,分成流量、轉化率等,最終得到指標異動的原因。
針對此,我們完全可以通過規則建立、模型等方式來實現業務分析,節省分析師的投入,並且如果發現指標異動,還可以通過數據產品自動給出解釋。
2.人群的需求分析 有些產品到了一定階段其用戶可能會達到幾十萬、幾百萬甚至更多,但是用戶都有哪些類型,分別有什麼樣的需求?這對分析師來說是一個「迷人」的話題。
1)基於決策樹,洞悉用戶留存 下圖是神策為某短視頻企業做的新增用戶的需求分類,採用「決策樹」的方式,以次日留存為目標進行分類,用於分類的標籤包括「核心功能的使用次數」等。
通過分析發現,「高播放互動型」用戶在平臺上操作「播放」的頻率較高,同時也會在評論留言區多次活躍,我們可以判斷此類用戶是將該平臺作為「興趣社交」使用;「高播放消費型」用戶則是「播放」較多「互動」較少,屬於內容消費型用戶;而還有一類用戶明顯地把該平臺作為視頻拍攝與發布的工具,那麼就可以猜測該用戶背後是一個短視頻運營機構等。
2)基於用戶行為探查用戶需求 下圖為神策數據基於 KMIS 為某航空 APP 的新增用戶做的聚類。
基於新增用戶行為數據分析,我們可以發現,在「用戶新增場景」中佔比較高的是基於「工具需求」,同時用戶在使用 APP 的過程中,高頻率使用的功能為「值機」,結合神策過往合作經驗,大部分航空 APP 被多次使用的功能均為「值機」,因為多數用戶的「預訂」動作都會選擇在 OTA (在線旅遊)進行,因此對航空 APP 的更多需求在於預訂之後的「查詢」、「值機」等;而對於「黃牛類型」用戶來說,他們更多的在 APP 上操作「領券」的動作。
3)特定功能對用戶的留存影響 對於做內容的產品,經常需要考量的問題是「什麼樣的功能能夠對用戶的留存產生影響」。下圖為某內容社區平臺,通過在評論區展示高質量的核心內容,並提高該評論內容的曝光,讓用戶更快、更近距離地感受平臺價值,以此驅動用戶留存。
該分析思路也可以進一步孵化:通過數據分析及運營工具基於相關的計算規則,將評論、內容等進行排序,以用戶行為分析結果決定內容排序,然後再去思考背後的因果關係,進而促進產品的優化。
4)數據降維定位核心問題所在 很多情況下,用戶的評論、反饋等內容多而雜,逐條去看耗時耗力,這個時候我們就可以通過特定的模型,對內容進行維度下降,聚類出幾類典型結果,幫助我們定位核心問題所在。 這種方式通常用於文本分析、報錯等場景中。
第二,精細化運營。 在此過程中,很重要的一個動作是識別用戶各個階段的標籤,並預測用戶是否會流失,是否對某個產品感興趣等,然後針對性地面向用戶做精細化運營。 大多數情況下,我們會根據興趣標籤進行個性化推薦,如手機平臺根據用戶的興趣愛好針對性地推薦 APP;根據業務標籤預測運營風險、做 RFM 運營,如金融產品根據用戶收入、職業穩定性等標籤來判斷用戶是否會逾期等;根據流失預測結果對用戶做全生命周期運營,在用戶流失之前介入,而不是在流失後進行召回。
第三,助力個性化體驗提升。 即人和商品的匹配效率,千人千面。 個性化推薦常用於電商場景,核心目的在於提升用戶和商品的匹配效率,最終服務於用戶粘性和轉化率的提升。當內容、商品逐漸豐富之後,如何讓每一個用戶快速看到自己想要的內容或商品,「個性化推薦」完美解決了這個問題。
第四,數據與產品結合,助力產品附加值提升。 比如,通過對照片、文本、音樂等做內容聚類,形成特定內容的推薦。 在我們的手機相冊中,可以通過圖像識別形成一定的標籤,可能是地點、人物等,基於數據分析做圖片的聚類,進而和用戶之間產生高度粘性;在音樂類型產品中,如果基於歌曲的相關性,自動給用戶推薦歌單,那麼用戶使用效率會大大提升,用戶對產品的信任和忠誠度也會隨之增強。
從以上數據智能的應用場景中,我們可以概括成一句話:在很多情況下,數據智能已不局限於「錦上添花」,逐漸變成了企業能否高效率運行、在市場競爭中勝出的關鍵因素。
現階段,「推薦」已經發展成為一個比較成熟的應用場景,通過行為數據建立集市,根據特徵挖掘引入行為特徵,然後在模型訓練中得到業務指標的預測,最後把根據每個用戶特徵生成的個性化列表傳到用戶端。
接下來我們一起了解一下在此過程中的核心注意事項。
1.理解業務是實現數據智能過程中最基本的環節
我們可以通過兩個不同類型的產品做輔助理解。
1)母嬰行業屬於典型的全生命周期運營模式,備孕、孕期、寶媽和寶寶在不同階段關注的內容和產品是完全不同的,母嬰內容社區平臺可基於後臺數據分析、機器學習完成規模推薦,將會在很大程度上提升用戶運營效率,實現精準觸達。因此,理解業務包含對產品形態、具體場景等的理解。
2)影視領域的推薦參考指標通常為「用戶點擊視頻」,但在新用戶階段,可參考的數據樣本較少,沒有完整的樣本供模型訓練。此時,通過深入了解產品的使用過程,就會發現在各個類目推薦的時候,用戶滑動視頻的動作其實代表了用戶當前的興趣特徵,如果把它引入到新用戶冷啟動的模型中,就能夠產生較好的推薦效果。也就是說,要精準定位用戶的典型特徵,作為模型計算的參考。
2.基於目標,選擇合適的模型
在推薦的過程中,我們常用的模型包括:決策樹、KMIS、線性回歸等。當我們需要分析用戶的使用健康度、分析用戶的使用頻次等,採用線性回歸方式即可。也就是說要根據目標場景選擇合適的模型。
3.發揮行為數據的價值
選擇了合適的模型之後,要將用戶的部分關鍵行為作為用戶特徵。 如下圖左側,在某地圖產品中,當用戶在搜索框輸入了部分文字,系統會自動預測用戶要搜索什麼地方,幫助用戶快速定位目的地,成功完成推薦;但同時,某些情況下會產生「誤點擊數據」,即系統推薦給用戶的內容並非用戶目的地,用戶「誤點擊」之後產生的數據為「無效數據」,即純粹用「點擊行為」做模型學習的話會產生無效樣本。那麼,這個時候,神策的會話功能就可以被引入到整個樣本的篩選過程中,基於用戶最終的目的地,關聯其前面步驟中的「輸入」與「點擊行為」,就可以有效解決「無效點擊」的問題。在這個過程中,行為前後的序列通常都是很重要的特徵,要重點關注。
如上圖右側所示,深度學習在智能推薦過程中使用較多,其最重要的特點是建模用戶行為的時序特徵,此時模型就會把它當做訓練的重要考慮點,同時保證用戶精準識別,行為序列的時間戳記錄不能混亂。
4.效果評估,多指標學習
就「推薦」來說,我們經常會建立一定的指標去訓練模型,具體指標包含點擊率、轉化率等,同時做多維度劃分洞察新用戶的轉化,其核心在於選擇什麼樣的目標。 我們可以參考某視頻平臺的場景:視頻前後的廣告推薦應該以什麼為核心指標?如果以「人均點擊次數」為核心指標,會導致「標題黨」內容,這個時候有兩種選擇,第一,設計相對應的解決策略,第二,評估指標選擇是否正確,如果評估指標為「視頻播放時長」,那麼得到的分析結果相對質量會更高。這就是指標選擇的重要體現。
5.優化效果,數據分析助力
「推薦」上線後,仍有很長的分析迭代過程,在這個過程中,數據分析能力是算法工程師很重要的一個能力。
下圖是為某款陌生人社交產品的推薦調優過程,其核心功能是「匹配」。
在匹配人率(成功匹配人數/點擊喜歡的人數)方面,神策得出的數據值低於客戶自建。這個時候,需要通過業務指標的拆解,尋求數值不一致的原因。 經過指標變形,我們得到這樣一個公式:匹配人率 = 回關率 * 人均點擊喜歡次數 * 匹配覆蓋度。「回關」指的是用戶點擊「喜歡」後,得到的對方「喜歡」的次數。通過對比發現,在其業務形態中,神策是以「點擊喜歡」作為核心指標進行計算,這就導致了大批量的優質用戶因為其回關門檻較高,導致了回關率低、匹配人率低。通過以上洞察,神策數據及時調整召回模型的參數,以「匹配成功」為訓練參數,得到的匹配人率遠高於客戶自建。 在這整個過程中,我們基於數據分析發現結論,以此驅動數據智能產品的優化。
6.產品層面持續改進
算法和模型不是萬能的,當選擇了模型、特徵之後,在產品的 CPR 值達到了較高階段的時候,我們的業務指標不僅僅要通過算法的形式去實現,還要結合產品層面來持續改進。 比如,當用戶通過 APP 搜索美食,除了可以推薦給用戶飯店名稱,我們還可以通過知識圖譜的學習給出推薦理由,為什麼這家飯店排行第一等,有助於用戶理解排序結果,並引導用戶深入查看。 在產品外形方面,雖然個性化推薦的效果較好,但曝光較低,這是因為大多情況下,個性化推薦欄目往往在產品形態裡較弱的位置,這個時候就需要對產品流量分發層面進行改進,把更多的內容在產品外層直接曝光,提昇平臺的可能性。 在個性化海報方面,因為每個人的關注點不同,所以可以藉助機器化形成個性化海報展示給用戶,以此提升 CTR。
在服務了 1500+ 企業之後,神策發現數據智能的關注者更多的還是企業內部的技術人員,對業務發展的影響有限。究其原因,主要有以下三點:
1.數據質量不夠高,導致智能推薦的結果和預測結果都不準確,無法為業務提供參考。
2.技術人力投入較低,對於整個行業來說,大部分模型的持續引進都依賴於頭部公司的不斷迭代,相對來說,中小企業在這方面缺乏長期的積累。
3.業務部門的參與有限。業務部門對數據智能的關注度低,導致數據智能無法應用到實際業務過程中。
基於以上三大痛點,神策發揮的作用是什麼呢?
首先,對於數據質量,神策堅持「給客戶帶來價值」的工作原則,通過多種方式幫助客戶提升數據質量。比如,多端數據打通,用戶關聯支持多對一、多對多,數據接入過程中強校驗,專門的數據治理,把控交付質量,形成管理規範等。
其次,產品化,神策已形成規模化的產品矩陣,包括神策分析、神策智能運營、神策智能推薦、神策用戶畫像、神策客景,功能涵蓋基礎的數據分析、打標籤、健康預測、指標預測、個性化推薦等等。
其中,對於神策智能推薦,我們不僅希望帶給客戶一次性計算,更多地希望能夠形成一個可交付的產品,我們可以看到整個推薦模型的運轉過程,也可以保證一定的開放性,就是說我們業務人員可以對此展開洞察、調用,賦能業務實踐,提升整體的推薦效果。
每個用戶對於特定的業務場景,其模型訓練標籤都是一個單獨的過程。如果我們想要將其規模化,需要抽象出各個模型預測標籤,以此預測該用戶接下來的業務表現。這也是神策用戶畫像在做的一件事情。
比如,某產品要預測用戶接下來會不會購買該產品的會員服務。首先選定目標用戶,可能是此前購買過但已流失的用戶,也有可能是從未觸達到的用戶,但整體需要基於「決定性」特徵去完成篩選,比如用戶的屬性,做過什麼樣的行為等,然後通過機器學習的方式為有可能購買會員服務的用戶打上「業務轉化」的預測標籤。除此之外,在渠道投放上也同樣適用。
最後,以數據智能驅動業務發揮價值。對於智能產品的交付,以「推薦」為例,我們不僅交付推薦的結果,而且以業務目標為導向,在最初的需求調研階段,我們會主動跟客戶溝通應該關注的業務指標,並以指標的提升作為交付目標。