京東DNN Lab新品用戶營銷的兩種技術方案

2021-01-11 CSDN技術社區

當電商網站發布一款新產品的時候,怎樣找到一群最有可能購買該新品的用戶進行營銷是一種提高產品銷量的重要手段。當然全網營銷手段肯定能覆蓋所有用戶,但這樣做一方面浪費資源,增加營銷成本;另一方面用戶收到過多不感興趣的信息,會讓用戶反感,降低用戶的體驗度。

電商數位化營銷成為了營銷過程中必不可少的手段。為了篩選出最有可能轉化的用戶,京東DNN實驗室結合大數據進行了相關研究。本文以新品手機為例,使用商品相似度和基於分類的手段進行用戶群篩選。

餘弦相似度的篩選方式

在實際應用中,我們為了找出相似的文章或者相似新聞,需要用到「餘弦相似性」,下面我們舉例說明什麼是餘弦相似性。為了簡單起見,我們來看兩個簡單的句子。

句子A:我喜歡吃中餐,不喜歡吃西餐。

句子B:我不喜歡吃中餐,也不喜歡吃西餐。

我們怎樣才能計算A,B句子的相似度呢?

基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。下面是具體的實施步驟:

1. 分詞

句子A:我/喜歡/吃/中餐,不/喜歡/吃/西餐。

句子B:我/不/喜歡/吃/中餐,也/不/喜歡/吃/西餐。

2. 列出所有的詞

我,喜歡,中餐,西餐,吃,不,也

3. 計算詞頻

句子A:我 1,喜歡 2,中餐 1,西餐 1,吃 2,不 1,也 0

句子B:我 1,喜歡 2,中餐 1,西餐 1,吃 2,不 2,也 1

4. 構造詞頻向量

句子A:[1, 2, 1,1, 2, 1, 0]

句子B:[1, 2, 1,1, 2, 2, 1]

通過上面的步驟,問題就變成了如何計算兩個向量的相似度。我們可以把它們想像成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。


以二維空間為例,圖1中的a,b是兩個向量,我們要計算它的夾角θ,餘弦定理表明可以用以下公式求得:

    (公式1)

假定a是向量[x1,y1],b是向量[x2, y2],那麼可以將餘弦定理改寫成如下形式:

    (公式2)

已經證明餘弦定理對n維向量也成立。一般的,A,B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的餘弦等於:

(公式3)

使用公式3,可以計算出句子A和句子B夾角的餘弦:


餘弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"餘弦相似性"。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。

基於以上,我們可以得出文本相似性的一種算法。

使用關鍵詞提取算法(例如:TF-IDF),找出兩篇文章的關鍵詞。每篇文章各取出若干個關鍵詞(比如50個),合併成一個集合,計算每篇文章對應集合中的詞頻(為了避免文章長度的差異,可以使用相對詞頻)。生成兩篇文章各自的詞頻向量。計算兩個向量的餘弦相似度,值越大就表示越相似。

基於餘弦相似度的商品相似度模型

得出了餘弦相似度的數值之後,如何利用它進行新品推薦呢?首先在餘弦相似度計算中,我們需要構造兩個向量進行相似度計算,在新品推薦中我們如何構造這兩個向量呢?

結合大數據分析技術,基於用戶的歷史購買記錄刻畫出用戶對於手機這個品類各特徵的偏好程度,如品牌、價格、顏色、作業系統等偏好。經過計算之後每一個用戶對手機這個品類都有一個特徵偏好向量,這樣將新品手機各個特徵轉換為一個向量即可進行餘弦相似度計算,最後執行排序篩選出靠前的用戶即可。下面是具體的實施方案。

1. 提取用戶手機歷史購買數據,基於統計計算出品牌特徵,顏色特徵等的偏好,計算公式如下:


例如,計算華為品牌的偏好為:


2. 將用戶每一個特徵偏好組合表示為特徵偏好向量:


3. 將新品手機特徵表示為向量:

新品的特徵向量維度值取值為0或者1,例如新品品牌為華為,則華為這個特徵為1,其他品牌特徵值為0。

4. 計算餘弦相似度:


其中simi值越大表示越相似。

5. 執行排序:根據simi值進行排序,取最相似的一部分用戶進行營銷。

基於權重的餘弦相似度

在前文中提到的算法,特徵維度沒有考慮特徵的權重,所有特徵的權重都是相同的。對於購買手機來說,價格、品牌和網絡制式等特徵權重設置為相同可能不合理,所以需要對用戶購買手機的行為進行分析,分析主要特徵,形成權重特徵向量:


特徵加權之後相似度計算公式如下:


優化與改進

基於餘弦相似度的新品用戶營銷有以下缺點:

用戶之前必須購買過同品類商品,這樣才能計算商品相關的偏好。對於沒有購買過該品類的用戶不會參與運算。可以考慮從用戶瀏覽,關注數據統計出用戶該品類的商品偏好。計算用戶偏好沒有考慮時間屬性,只是基於統計概率。有可能用戶最近購買了蘋果手機,之前購買了幾個華為手機,按照偏好計算公式,華為的偏好值高於蘋果的偏好值,但是用戶最近在手機上真實的偏好卻是蘋果。偏好計算可以考慮把時間因素加入,應該隨時間增加而衰減。

用餘弦相似度進行新品營銷是基於這樣一個假設:即用戶通常會購買與之前商品相近或者說同類型的商品。然而有時候這樣的假設是不合理的,所以需要針對具體的品類,提前做品類下哪些因素是決定用戶購買的因素,用戶對什麼因素粘性度比較高。

基於SVM新品營銷

下面我們換一種方式進行新品營銷,我們採用分類算法。使用SVM進行分類預測,下面介紹SVM的具體流程。

特徵篩選與特徵表示

說到分類算法,首先我們需要解決的問題是特徵怎麼提取和表示。下面將介紹我們使用到的具體流程:

1. 提取行為數據。按照商品品類維度,時間維度以月為單位提取用戶的品類PV,購物車和訂單等行為數據。

2. 清洗數據,提取轉換特徵。將時間維度分為多個區間,每個區間內每一個維度的數據劃分為多個區間。比如PV這個維度在品類category1下會形成以下特徵。


3. 特徵向量化。根據步驟2提取的特徵與特徵的索引,將每一個用戶用特徵向量表示為: 


其中fi取值為0或則1,向量的維度表示特徵的索引。

樣本選取

樣本選擇有以下方式:

選擇之前購買過和新品相似商品部分用戶作為正樣本,沒有購買過的部分用戶作為負樣本。選擇新品發布後購買的用戶作為正樣本,沒有購買過的部分用戶作為負樣本。

以上兩種方案各有優缺點:方案1的難點在於尋找相似的商品A,且提取轉換特徵的時候需要注意時間維度,時間必須卡在A商品銷售之前。方案2需要新品銷售一段時間後才會有正樣本數據。方案2適合於二次營銷,方案1適合於首次營銷。

模型訓練

可以選用java版本的liblinear進行模型訓練。

用戶提取

根據模型訓練得出的結果,再根據預測概率進行排序,取靠前的用戶進行營銷。

實驗結果

在A/B test 實驗中,分別應用以上方法篩選的用戶集和基於經驗(規則)方法篩選的用戶集進行營銷效果對比。最後實驗結果表明:基於以上兩種方法在訂單轉化率,促成總金額方面都比基於經驗的方法效果好。可以廣泛應用於數位化營銷中,帶來比較高的轉化率。

展望與未來

這兩種技術方案,可以很好的用於數位化的營銷當中。對於數位化營銷來說,精準的數據量可以很好的控制營銷成本。因為一個熱門商品和一個冷門商品需要的營銷人員在數量上是存在差距的,造成的營銷成本也有差異。對於這兩種技術方案,仍然需要進一步優化以得到更為精準的數據量,在未來首先要優化並結合先進的DNN模型,提升模型效果;其次結合商品銷量預測,確定最終需要營銷的人數。

作者簡介:李雲彬,京東算法工程師。於2012年7月加入京東。曾負責京東廣告相關業務開發工作,目前致力於京東用戶圖譜相關工作。主要研究方向有大數據分析技術,數據挖掘技術等。


(責編/周建丁)

【預告】

首屆中國人工智慧大會(CCAI 2015)

將於7月26-27日在北京友誼賓館召開。機器學習與模式識別、大數據的機遇與挑戰、人工智慧與認知科學、智慧機器人四個主題專家雲集。人工智慧產品庫將同步上線,預約諮詢:QQ:1192936057。歡迎關注。

本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 京東C2M 惠普戰 66 第四代首發單日銷售額破億 11.11 京東新品加成...
    京東大數據研究院發布的《2020年線上新品與C2M消費趨勢報告》顯示,Z世代成為中國消費市場的主體,他們對於產品多元化、個性化、體驗感的追求也越來越明確,針對他們的微需求打造的新品、營銷和服務,已成為拉動整個消費市場向上的動力。
  • 方太京東強勢聯合,舉辦2017廚電新品品鑑會
    【PConline 資訊】5月20日下午,高端廚電品牌方太與京東聯合舉辦的「小家至愛,大家之範——2017方太廚電新品品鑑會」在北京望京舉行。活動對方太2017年發布的方太烤箱E2S、方太燃氣灶GT6BE、方太水槽洗碗機X5三款新品做了深度解讀,並宣布啟動「讓夢不孤讀」大型國學公益行動。
  • 十一活動火爆來襲,京東電器用戶成「220V帶電新人類」
    而今年,京東電器則通過不同以往「造概念「的營銷方式發起十一營銷。記者觀察到,近日京東電器以「220V帶電新人類」為主題,上線了促銷專頁。「220V帶電新人類」這一概念,凸顯了京東電器對當下消費趨勢的深刻洞察:對年輕人而言,220V電壓的意義早已不是煮飯、洗衣等生活需求,而更傾向於通過潮酷電器滿足時尚青年的身份認同。
  • 京東新會員體系不厚道,老用戶不買帳
    誰敢想像國內最大B2C電商平臺京東也開始玩起了社交,天真而又魯莽的舉動恐怕要讓京東因此付出昂貴的代價。這一次京東調整京東會員體系的動機不祥,據專業人士爆料,京東為了讓財報數據更好看,降低用戶權益,避免高損益,必須嘗試一些非購物操作。於是,為促進用戶活躍度、增強用戶粘性、提升營銷效率,京東會員級別分別由「京享值」分值體系體現。說到這,不由得想起了淘寶的「淘氣值」,不免有點抄襲嫌疑。
  • 森海塞爾MOMENTUM Wireless新品來襲,京東獨家首發品牌合作再升級
    同時,作為森海塞爾的重要戰略合作夥伴,本次森海塞爾新品也再次選擇京東作為獨家首發平臺。目前京東商城已正式上架該款新品,售價2999元。同行16年成就最佳拍檔,森海塞爾京東深度合作屢結碩果作為森海塞爾新品的獨家首發平臺,京東電腦數碼事業部總經理任濤在發布會上肯定了MOMENTUM Wireless耳機新品功能價值及體驗,他表示,「對京東能夠獨家首發這樣優秀的耳機產品感到非常榮幸,同時,能把這麼優秀的產品帶給中國廣大消費者,是我們的責任也是我們的壓力。
  • 京東在茶葉供應鏈中使用區塊鏈 清華x-lab推出區塊鏈特訓營
    (圖片來源:全景視覺)經濟觀察網 實習記者 任航 記者 沈怡然1、鳳凰網書城上線區塊鏈產品「鳳凰蛋」3月27日,鳳凰網書城上線了一款名為「鳳凰蛋」的區塊鏈產品,用戶獲得邀請碼註冊後目前,已開放安卓系統用戶安裝「鳳凰網書城」app領取鳳凰蛋。
  • 「營銷數位化10講」(3):營銷數位化的靈魂是用戶畫像
    編輯導語:在這個大數據時代,「用戶畫像」這個詞我們都不陌生,它經常跟精準營銷掛鈎。通過用戶畫像,我們可以根據一個人的興趣、地理位置等進行精確的推送,達到良好的營銷效果,滿足用戶需求的同時,也達到我們的目標。因此可以說,營銷數位化的靈魂是用戶畫像。
  • 京東、森海塞爾十六年風雨同舟 超強實力稱霸京東618主場
    在德國嚴肅、專業風格的影響下,森海塞爾作為創建於1945年的老牌廠商,是世界公認領先的專業話筒和耳機製造商,也是業界公認的無線電、紅外聲傳輸技術、聽診式耳機、航空通話耳機、呼叫中心耳機和頭戴式耳機的先驅。
  • 明基TK800投影儀將席捲千萬家庭 京東用戶得意嘗鮮
    繼去年明基發布的萬元級別家用4K投影機W1700廣受追捧以來,今年繼續不斷迎合市場需求研發出了更加驚豔之作, 3月28日將在京東平臺上線一款全新「高能神器」TK800,也是星辰系列的又一款「閃亮巨星」。值得一提的是,就京東平臺新品首發預定熱度來看,這款外觀時尚、輕巧便攜、性能出色的TK800堪稱一枚絕對潛力股,已被不少遊戲玩家和影迷列入了拔草欲望清單。
  • 京東產品總監朱文偉:利用AI加速構建營銷新模式(附大會PPT下載)
    如果通過AI技術決定商家商品的坑位,商家能夠通過加強折扣力度提升排序,那麼就能夠激勵商家給出更有競爭力的價格。3. 複雜場景下的用戶行為差異這個例子是跟用戶相關性更高的,特別典型。基於一個運營場景,比如針對618、雙11、優惠券等這樣強促銷的頻道,我們會給出不同的解決方案。因為大促期間用戶的行為差異很大,我們會基於去年618或者去年雙11的數據,做專門的模型訓練,讓用戶在這個周期裡面的行為表現,更趨向於我們預測的現實結果。
  • 營銷環境在變,戶外廣告何以成為品牌營銷利器?
    聯動戶外廣告投放,實現品牌效應1+1>2 當下隨著媒體變得碎片化,大家的注意力被嚴重分散,傳統的效果廣告以及單一渠道的廣告投放對於品牌觸達用戶不再容易,靠傳統的營銷渠道只會讓廣告主們在過於狹窄的賽道上爭搶用戶的注意力,導致遺漏和忽視其潛在用戶。
  • 流量、營銷、粉絲三大維度賦能 京東私域護航助力商家贏在11.11
    為了助力商家衝刺即將到來的11.11,京東打造了私域護航計劃,通過「流量加權激勵+豐富營銷工具+粉絲精細運營」三大方向強強結合,以千萬流量扶持打通公私域聯動,賦能商家在11.11前蓄勢蓄力,贏取更多紅利。
  • 2019JDD大會開幕 京東數科重磅發布金融數位化解決方案T1
    金融科技下半場需打造「科技+開放」能力京東數字科技集團CEO陳生強作了題為「以科技為美,為價值而生」的主旨發言,再論「數字科技」,向與會嘉賓分享了京東數科品牌與戰略升級一年來在技術上的進階以及與實體產業融合的成果。
  • 11.11大戰京東未打先贏,尼爾森數據顯示用戶購買電腦數碼首選京東
    近日,根據知名數據分析機構尼爾森發布的報告顯示,作為數碼達人青睞的平臺,用戶在購買電腦數碼產品時顯然更加信賴京東。作為11.11主場的京東,在消費升級大浪潮下,這也體現了用戶對於京東電腦數碼產品品質的肯定以及信任。
  • 京東健康迎來「技術流」將與全景醫學影像深入合作
    11月28日,第一屆「北京全景醫學影像診斷及新技術應用高峰論壇」在京召開。會上,京東健康與全景醫學影像達成戰略籤約,雙方未來將在醫學影像專業診斷技術、醫學影像檢查服務等方面達成深度合作。此外,多位影像醫學及核醫學領域知名專家就高端影像設備的臨床應用、核醫學影像思維等話題,在現場發表主旨演講。
  • 京東電器十一活動上線,「220V帶電新人類」引關注
    而今年,京東電器則通過不同以往「造概念「的營銷方式發起十一營銷。記者觀察到,近日京東電器以「220V帶電新人類」為主題,上線了促銷專頁。「220V帶電新人類」這一概念,凸顯了京東電器對當下消費趨勢的深刻洞察:對年輕人而言,220V電壓的意義早已不是煮飯、洗衣等生活需求,而更傾向於通過潮酷電器滿足時尚青年的身份認同。
  • 京東如何炒火"國內首款智能社交水杯"
    廠商還沒有建立強大的品牌影響力,產品屬於需要市場教育的新品類,試水網際網路營銷,應該怎麼做?是低姿態與用戶玩在一起?還是高逼格製造飢餓營銷?
  • 聯想京東高管「密會」,多家廠商押寶:C2M「唱主角」引爆京東11.11
    不管是近期AOC、飛利浦等顯示器頭部品牌在京東總部舉行顯示器行業交流會,C2M成為熱議課題,還是最近華碩在京東獨家首發二者聯合反向定製的TUF GAMING AX3000 WiFi6路由器,火熱備戰雙11的大背景下,C2M顯然也成為了品牌「押寶」京東雙11的重頭戲。
  • GMTIC獎項公示與內容回顧 I 全球營銷技術及零售創新峰會
    「在物聯網時代,用戶發生了很多改變,尤其是現在的後浪,他們追求的是三點,第一是用戶的多元化場景方案,第二是用戶要求個性化,包括個性化的定製,第三是交互。」 如何把我們的人群運營,消費者運營提升和渠道運營和商品運營並列的關係,形成一個三者的合力?