為什麼需要線索評級
汽車行業的銷量自2018年以來持續的「跌跌不休」,不僅經銷商的日子很不好過,也直接導致了一線銷售人員系統性的流失,銷售流程和經驗無法固化沉澱,線索跟進力度不足甚至中斷,銷售轉化效率低下、人力成本攀升。
銷售線索評級本質上是消費者精細化運營解決方案中的一環,基於消費者的關鍵行為數據搭建算法模型,按照業務價值高低輸出人群得分,並給到一線銷售人員使用。那麼,在確定跟進的優先級和跟進的力度方面,就可以不再完全依賴銷售人員的個人經驗或集體經驗,而是轉變為在基於大數據和機器學習的AI能力加持下,實現用數據+科技的力量幫助經銷商更精準、更快人一步地爭取銷售線索,降低有效線索流失,促進銷售轉換。
汽車銷售線索評級項目實戰
近期,TalkingData助力某合資汽車品牌打造銷售線索評級項目,讓AI走出實驗室,工程化落地應用於經銷商的每一條網絡線索邀約場景實踐中。
本文將分享該項目的實戰乾貨,幫助大家深入理解和梳理AI項目及其背後一系列科學、細緻的工作支撐,相信這樣也能更好地體現AI帶給商業社會的價值所在。
接下來,筆者將基於以下項目實戰流程,詳細介紹每個環節中的一些關鍵問題點及解決方案。
01
業務定義
1.1 定義項目目標
作為廠商或經銷商,都希望車賣得越多越好。那麼,項目目標是否就理所當然地設置為提升「線索訂單轉化」呢?
對業務深入理解後就會發現,汽車行業的消費者決策旅程長,客戶心智投入高,且宏觀市場、政策乃至微觀個體經銷商的銷售策略,都可以影響最終銷售轉化;另外,經過數據分析發現,訂單轉化周期相對更長、更不可控。作為訂單轉化的前提——到店,90%的到店消費者從首次邀約到進店的周期是一個月以內。
因此,直接將「線索訂單轉化」作為項目目標並不切實際。從效果可衡量、更有效、更客觀的角度,最終將「邀約到店轉化」作為項目考核指標。
事實上,「邀約到店轉化」也可以繼續分解。是「所有」經銷商的到店轉化,還是「個體」經銷商的到店轉化呢?這個問題不僅僅影響建模因變量的數學定義,更本質的是對業務目標價值的定義。我們可以從不同的價值主體來思考:作為廠商,是希望所有經銷商還是個體經銷商的客戶到店越多越好?作為個體經銷商,又如何看待這個問題呢?歡迎大家思考,並留言討論。
1.2 理解需求場景
理解需求場景對項目的意義同樣深遠。主要從兩方面來考慮。
AI模型對於經銷商的業務價值到底是什麼?
會是下圖所示情況嗎?從所有線索裡挑選出模型得分高的線索進行跟進,得分低的線索就不跟進。
AI模型如何自然嵌入到經銷商的銷售工作中呢?
以上問題不能單純通過「思考」來解決。在項目啟動後,項目團隊在該汽車品牌的配合下,用一周的時間實地走訪了多家經銷商。通過面對面訪談的形式,了解經銷商網銷工作現狀、架構、流程、線索進店轉化影響因素等內容,收集了大量豐富的一手信息。事實證明,這些信息對後續AI建模工作的開展幫助極大,決定了一個數據科學項目如何真正落地並指導業務實踐。
針對「AI模型對於經銷商的業務價值」這個問題,通過調研發現,不同經銷商的網銷現狀差異很大,有的經銷商線索量大,而人力資源不足,每天都存在不少線索無法落實跟進;而有的經銷商線索量小,當日下發的線索都可以及時處理完。那對後者而言,AI模型就沒有用武之地了嗎?
線索評級模型基於消費者的行為數據建模,對每一個線索的進店概率打分。如果將所有線索按照模型打分的順序排序,再對比線索按照時間自然下發的順序排序,會發現實際進店的線索,其按照模型打分的排序更高。這意味著,銷售顧問可以更快的接觸到高價值的客戶。一個高價值的客戶會受到多方經銷商的搶奪,當我們可以快人一步地接觸並跟進,就搶得了先機,邀約到店率自然會提升。所以線索評級模型並不是判斷跟進誰或不跟進誰,而是優化了優質客戶投放的時間和效率。
針對「AI模型如何自然嵌入到經銷商的銷售工作」的問題,亦是通過實地調研得到如下原則:在不改變銷售顧問工作流程、習慣的前提下,為他們帶來價值。該原則直接指導了後續的銷售管理平臺改造、模型自動化部署等工作。
02
數據準備
數據準備是一個權重取捨的過程。在大數據時代,數據並不稀缺。但數據建模並不意味著數據越多越好。在進入特徵工程之前,需要業務分析師、數據科學家和數據工程師的共同把關,在成本可控的前提下考慮選擇哪些數據,會帶來最大的模型效果收益。
TalkingData數據智能市場提供了豐富的標籤選擇,基於業務調研結果,我們重點選擇了金融應用、消費偏好、應用偏好、常出現城市等等數據維度。對於工程師來講,需要重點了解接口方式、數據更新頻率等信息。同時,本次建模的特徵會納入該汽車品牌的一方數據,重點在於數據傳輸、存儲的安全設計和實施。
03
特徵工程
特徵工程聽起來是一個純技術過程,常規來看,需要經過特徵清洗、預處理(如歸一化、離散化、降維、特徵選擇、衍生特徵)、特徵有效性分析等等涉及數據工程師、數據科學家的諸多專業性工作。
但筆者更強調的是,在進行以上工作之前,客戶和業務分析人員的介入非常必要。例如針對企業一方數據,需要在企業的配合下,花費大量時間理解每一個業務欄位的業務內涵、發生時間、更新時間、數據由系統產生還是人工產生、甚至是否做過系統改造導致某個時間節點前後的數據欄位含義不同等等。唯有如此,我們才能有把握在做特徵工程時,如何取捨、如何加工數據,以及未來更明確的做出模型特徵解釋。
項目進行中出過一個小插曲,某個特徵對模型的影響很大,但這是一個「溫度計」類型的數據,即線索進店之後,這個數據才會發生相應的變化。機器學習領域常常說「garbage in, garbage out」,如果輸入的數據和特徵質量不高,那輸出的結果也會差強人意;數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。從工作時間分配來看,也證明了特徵工程的重要性:數據科學家和數據工程師往往會花費80%的時間精力做特徵工程,20%的時間精力做模型開發。在這個項目中,我們進一步的證明,在80%的特徵工程中,需要至少20%的業務數據理解和數據分析,這是決定特徵工程的方向和質量的關鍵因素。
特徵工程除了對特徵本身的加工處理,還有非常重要的一項工作——正負樣本定義(模型y值)。雖然業務定義很簡單:線索是否進店,進店為y=1,不進店為y=0。但就實際情況來看,基於何種條件才能判定y是否等於1也花費了不少精力,原因在於該汽車品牌的一方數據並沒有直接的欄位幫助判斷,深層原因在於經銷商並未按照標準流程進行數據錄入和系統操作。這就需要業務人員和品牌方共同分析和判斷進店數據的方案,並反覆驗證。
04
模型訓練、診斷與調優
4.1 好的數據+合適的算法=好的效果
筆者基於多個AI項目經驗,也合作過不少數據科學家,會發現不同的數據科學家使用的算法、模型解釋指標、乃至程式語言也是不盡相同。這其實是機器學習高速發展帶來的結果。因此,不必拘泥於一定要使用某個「高級」算法模型,關鍵是要看「療效」,即模型的性能。
4.2 模型評估指標
提到模型性能,就一定離不開各種模型性能度量指標了,比如查全率、查準率、AUC等等。在看這些指標前,我們要先理解它們的含義,而不是一味糾結在指標數據高低上。比如查全率和查準率天然具有「對立性」,要求查全率高,意味著「寧可錯殺一千不可放過一個」;要求查準率高,則意味著「寧缺毋濫」。因此仍需要基於業務目標來制定合適的模型評估指標。
就本項目而言,AUC(Area Under The Curve)是一個更合適的指標。對比準確率、召回率、F1等指標,AUC有一個獨特的優勢,就是不關注具體得分,只關注排序結果,這使得它特別適用於排序問題的效果評估。比如AUC=0.7,其含義可以大概理解為:給定一個正樣本和一個負樣本,在70%的情況下,模型對正樣本的打分高於對負樣本的打分。
但AUC越高越好嗎?我們知道,建模時會將樣本分為三個子集:訓練集、驗證集、測試集,因此也會有三個對應的AUC結果。單純只看訓練集或驗證集的AUC並不可靠。當訓練集的AUC過高時,往往並不值得高興,因為很可能發生了過擬合的情況(模型對訓練集的學習效果太好了,但在測試集上表現一般),即模型並不真正具備對未來的預測能力。可優化的方向包括:算法、調參、正負樣本劃分等,還有一些bug是需要項目團隊充分的溝通討論才能進一步發現的。
本次項目中,實驗室模型階段測試集AUC達到0.73。如下圖所示,理論上,當經銷商優先外呼0.3分以上的線索時,外呼70%的線索量即可涵蓋近90%的進店客戶。
當然,以上只是對「本來就會進店」的客戶的模型分析結果。而項目更重要的價值,則會體現在對那些「由於跟進不及時/跟進力度小」而流失的客戶挽回上。如下圖所示,通過提前識別和判斷客戶價值,可以做到優先跟進、加大跟進,促進這些客戶的進店轉化,最終提升成交轉換。
05
自動化工程部署
本次項目要求達到線索實時下發、實時預測效果。數據自動化流程方案最終確定分為離線流程與實時流程,其中的模型訓練是離線流程、模型預測是實時流程。基於該汽車品牌和TalkingData項目組建立雙重預警機制,保障數據和模型的日常運轉。
自動化部署工作並不是獨立於其他工作環節的,在特徵工程、建模階段就需要考慮對自動化部署工作的影響。一個複雜而精巧的模型固然可愛,但如果超出了自動化部署的能力範圍,反而無法真正落地,更談不上對業務價值的提升。
另外,這裡分享自動化部署工作中一個細節,來說明業務思路需要貫穿始終,才能保障項目最終能夠達成目標。例如,模型retrain的頻率應該如何設定:每天、每周還是每月?這個問題還是應該回歸到業務目標本身:預測線索在30天內進店的可能性。那麼自然的,模型retrain的周期也應該是設定為按月了。
06
效果驗證
需要驗證的效果並非僅僅指模型本身的預測性能,而是經過銷售顧問/邀約專員等等一線人員實踐過的最終效果,即:線索評級模型是否真正提升了線索進店轉化。
這需要多方的共同努力,包括:預測性能良好的模型;性能穩健的自動化工程部署;經銷商各級領導和一線員工的積極配合;正確理解和應用模型結果數據;驗證期的數據回收和分析。此外還需要確定合適的benchmark:同比(全國、大區或城市的其他經銷商),還是環比(和歷史數據有可比性嗎)?以及宏觀市場影響因素、經銷商銷售政策……等等。
筆者認為,最終的效果驗證是最具挑戰性的地方。大量的信息採集、數據處理後,如何抽絲剝繭般的梳理出真相——模型到底貢獻了多少進店轉化?而想要弄清楚這一步,就必須站在前期紮實的工作基礎之上,包括業務理解、數據準備、特徵工程、模型開發、自動化部署等,並結合分析經銷商的模型實踐應用情況以及市場動態。
以上來自筆者基於汽車銷售線索評級項目實踐總結出的一些經驗,希望能對大家理解、開展和實踐機器學習項目有所啟發,也歡迎共同探討。
作者:TalkingData崔建敏