當電商網站發布一款新產品的時候,怎樣找到一群最有可能購買該新品的用戶進行營銷是一種提高產品銷量的重要手段。當然全網營銷手段肯定能覆蓋所有用戶,但這樣做一方面浪費資源,增加營銷成本;另一方面用戶收到過多不感興趣的信息,會讓用戶反感,降低用戶的體驗度。
電商數位化營銷成為了營銷過程中必不可少的手段。為了篩選出最有可能轉化的用戶,京東DNN實驗室結合大數據進行了相關研究。本文以新品手機為例,使用商品相似度和基於分類的手段進行用戶群篩選。
餘弦相似度的篩選方式在實際應用中,我們為了找出相似的文章或者相似新聞,需要用到「餘弦相似性」,下面我們舉例說明什麼是餘弦相似性。為了簡單起見,我們來看兩個簡單的句子。
句子A:我喜歡吃中餐,不喜歡吃西餐。
句子B:我不喜歡吃中餐,也不喜歡吃西餐。
我們怎樣才能計算A,B句子的相似度呢?
基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。下面是具體的實施步驟:
1. 分詞
句子A:我/喜歡/吃/中餐,不/喜歡/吃/西餐。
句子B:我/不/喜歡/吃/中餐,也/不/喜歡/吃/西餐。
2. 列出所有的詞
我,喜歡,中餐,西餐,吃,不,也
3. 計算詞頻
句子A:我 1,喜歡 2,中餐 1,西餐 1,吃 2,不 1,也 0
句子B:我 1,喜歡 2,中餐 1,西餐 1,吃 2,不 2,也 1
4. 構造詞頻向量
句子A:[1, 2, 1,1, 2, 1, 0]
句子B:[1, 2, 1,1, 2, 2, 1]
通過上面的步驟,問題就變成了如何計算兩個向量的相似度。我們可以把它們想像成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。
以二維空間為例,圖1中的a,b是兩個向量,我們要計算它的夾角θ,餘弦定理表明可以用以下公式求得:
(公式1)
假定a是向量[x1,y1],b是向量[x2, y2],那麼可以將餘弦定理改寫成如下形式:
(公式2)
已經證明餘弦定理對n維向量也成立。一般的,A,B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的餘弦等於:
(公式3)
使用公式3,可以計算出句子A和句子B夾角的餘弦:
餘弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"餘弦相似性"。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。
基於以上,我們可以得出文本相似性的一種算法。
使用關鍵詞提取算法(例如:TF-IDF),找出兩篇文章的關鍵詞。每篇文章各取出若干個關鍵詞(比如50個),合併成一個集合,計算每篇文章對應集合中的詞頻(為了避免文章長度的差異,可以使用相對詞頻)。生成兩篇文章各自的詞頻向量。計算兩個向量的餘弦相似度,值越大就表示越相似。基於餘弦相似度的商品相似度模型得出了餘弦相似度的數值之後,如何利用它進行新品推薦呢?首先在餘弦相似度計算中,我們需要構造兩個向量進行相似度計算,在新品推薦中我們如何構造這兩個向量呢?
結合大數據分析技術,基於用戶的歷史購買記錄刻畫出用戶對於手機這個品類各特徵的偏好程度,如品牌、價格、顏色、作業系統等偏好。經過計算之後每一個用戶對手機這個品類都有一個特徵偏好向量,這樣將新品手機各個特徵轉換為一個向量即可進行餘弦相似度計算,最後執行排序篩選出靠前的用戶即可。下面是具體的實施方案。
1. 提取用戶手機歷史購買數據,基於統計計算出品牌特徵,顏色特徵等的偏好,計算公式如下:
例如,計算華為品牌的偏好為:
2. 將用戶每一個特徵偏好組合表示為特徵偏好向量:
3. 將新品手機特徵表示為向量:
新品的特徵向量維度值取值為0或者1,例如新品品牌為華為,則華為這個特徵為1,其他品牌特徵值為0。
4. 計算餘弦相似度:
其中simi值越大表示越相似。
5. 執行排序:根據simi值進行排序,取最相似的一部分用戶進行營銷。
基於權重的餘弦相似度在前文中提到的算法,特徵維度沒有考慮特徵的權重,所有特徵的權重都是相同的。對於購買手機來說,價格、品牌和網絡制式等特徵權重設置為相同可能不合理,所以需要對用戶購買手機的行為進行分析,分析主要特徵,形成權重特徵向量:
特徵加權之後相似度計算公式如下:
基於餘弦相似度的新品用戶營銷有以下缺點:
用戶之前必須購買過同品類商品,這樣才能計算商品相關的偏好。對於沒有購買過該品類的用戶不會參與運算。可以考慮從用戶瀏覽,關注數據統計出用戶該品類的商品偏好。計算用戶偏好沒有考慮時間屬性,只是基於統計概率。有可能用戶最近購買了蘋果手機,之前購買了幾個華為手機,按照偏好計算公式,華為的偏好值高於蘋果的偏好值,但是用戶最近在手機上真實的偏好卻是蘋果。偏好計算可以考慮把時間因素加入,應該隨時間增加而衰減。
用餘弦相似度進行新品營銷是基於這樣一個假設:即用戶通常會購買與之前商品相近或者說同類型的商品。然而有時候這樣的假設是不合理的,所以需要針對具體的品類,提前做品類下哪些因素是決定用戶購買的因素,用戶對什麼因素粘性度比較高。
基於SVM新品營銷下面我們換一種方式進行新品營銷,我們採用分類算法。使用SVM進行分類預測,下面介紹SVM的具體流程。
特徵篩選與特徵表示
說到分類算法,首先我們需要解決的問題是特徵怎麼提取和表示。下面將介紹我們使用到的具體流程:
1. 提取行為數據。按照商品品類維度,時間維度以月為單位提取用戶的品類PV,購物車和訂單等行為數據。
2. 清洗數據,提取轉換特徵。將時間維度分為多個區間,每個區間內每一個維度的數據劃分為多個區間。比如PV這個維度在品類category1下會形成以下特徵。
3. 特徵向量化。根據步驟2提取的特徵與特徵的索引,將每一個用戶用特徵向量表示為:
其中fi取值為0或則1,向量的維度表示特徵的索引。
樣本選取
樣本選擇有以下方式:
選擇之前購買過和新品相似商品部分用戶作為正樣本,沒有購買過的部分用戶作為負樣本。選擇新品發布後購買的用戶作為正樣本,沒有購買過的部分用戶作為負樣本。以上兩種方案各有優缺點:方案1的難點在於尋找相似的商品A,且提取轉換特徵的時候需要注意時間維度,時間必須卡在A商品銷售之前。方案2需要新品銷售一段時間後才會有正樣本數據。方案2適合於二次營銷,方案1適合於首次營銷。
模型訓練
可以選用java版本的liblinear進行模型訓練。
用戶提取根據模型訓練得出的結果,再根據預測概率進行排序,取靠前的用戶進行營銷。
實驗結果在A/B test 實驗中,分別應用以上方法篩選的用戶集和基於經驗(規則)方法篩選的用戶集進行營銷效果對比。最後實驗結果表明:基於以上兩種方法在訂單轉化率,促成總金額方面都比基於經驗的方法效果好。可以廣泛應用於數位化營銷中,帶來比較高的轉化率。
展望與未來這兩種技術方案,可以很好的用於數位化的營銷當中。對於數位化營銷來說,精準的數據量可以很好的控制營銷成本。因為一個熱門商品和一個冷門商品需要的營銷人員在數量上是存在差距的,造成的營銷成本也有差異。對於這兩種技術方案,仍然需要進一步優化以得到更為精準的數據量,在未來首先要優化並結合先進的DNN模型,提升模型效果;其次結合商品銷量預測,確定最終需要營銷的人數。
作者簡介:李雲彬,京東算法工程師。於2012年7月加入京東。曾負責京東廣告相關業務開發工作,目前致力於京東用戶圖譜相關工作。主要研究方向有大數據分析技術,數據挖掘技術等。
(責編/周建丁)
【預告】
首屆中國人工智慧大會(CCAI 2015)將於7月26-27日在北京友誼賓館召開。機器學習與模式識別、大數據的機遇與挑戰、人工智慧與認知科學、智慧機器人四個主題專家雲集。人工智慧產品庫將同步上線,預約諮詢:QQ:1192936057。歡迎關注。
本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)