基於用戶畫像與新聞詞向量的個性化新聞推薦模型

2021-01-11 人民網

摘要:目前,由於用戶行為數據的高維稀疏特點以及衡量新聞內容相似性的複雜度較高,本文針對這兩個問題,從分類角度考慮,提出一種基於用戶畫像與新聞詞向量的個性化新聞推薦模型,對用戶的行為數據等進行分析,構建用戶畫像模型,提取用戶畫像特徵,並使用指數衰減模型的Word2Vec框架進行詞向量訓練,結合文本特徵的向量空間模型構建新聞全局特徵,預測用戶對新聞的行為——點擊、不點擊,從而將點擊概率較高的新聞推薦給用戶,提高推薦效果,可廣泛應用於新聞門戶網站,如人民網、網易新聞等。

關鍵詞:用戶畫像 詞向量 新聞推薦 分類預測

1、引言

隨著網際網路的迅速發展,用戶獲取信息的手段越來越便捷和豐富。為了緩解用戶信息過載壓力,推薦系統廣泛應用於各類網站,包括電子商務[1]、、視頻音樂網站[2]等等。由於用戶個體的差異性,個性化推薦逐漸得到發展與採用。個性化推薦系統通過分析用戶的歷史信息和行為數據,預測用戶興趣愛好,從而向用戶推薦感興趣或潛在興趣的信息,並針對不同的用戶給出不同的個性化展示頁面,以此來提高網站的點擊率和收益。

目前常用的推薦算法主要分為三類:基於內容的推薦算法[3]、協同過濾推薦算法[1][4]以及混合推薦算法。這些傳統的算法不需要經過訓練,重點考慮用戶之間的相似度和項目之間的相似度,評估用戶對項目的興趣度,進行排序後產生推薦結果。這些算法無法體現用戶潛在的興趣偏好,推薦的結果多樣性不足[5]。同時,由於需要對用戶的歷史行為數據進行分析。用戶的歷史數據決定著最終的推薦結果。可是,用戶的瀏覽、轉發等行為存在大量的稀疏數據,通過這些高維稀疏數據難以計算出準確的相似用戶群體。當兩個用戶沒有對相同的項目評分,他們共同評分的集合數為0,那麼即使他們的興趣偏好非常相似,使用基於用戶的協同過濾算法卻不能求得他們之間的相似值,同樣對於兩個項目的屬性非常相似,但是卻沒有共同用戶對其進行評過分的情況,也無法使用基於項目的協同鍋爐算法求得項目之間的相似性,導致無法有效的推薦。目前,由於對推薦系統的用戶和項目信息龐大,其行為數據和評分信息異常稀疏,使得算法計算出的相似性不夠準確,進而無法準確計算出目標用戶的最近鄰居集,導致推薦效果不佳。不僅如此,對於個性化新聞推薦模型,使用基於文檔詞頻或文檔逆頻率特徵的算法無法精準衡量不同類別新聞之間的相似性,導致推薦的結果大同小異,無法挖掘用戶的潛在興趣愛好,降低推薦效果。

針對上述問題,本文提出一種基於用戶畫像和內容詞向量融合特徵的個性化新聞推薦模型,分析用戶的信息和歷史行為數據構建用戶畫像,並使用改進的Word2Vec詞向量訓練算法對新聞內容進行訓練,有效衡量新聞之間的相似性,進而採用高效分類算法預測用戶對其推薦內容的行為——點擊、不點擊,並按照用戶點擊概率進行排序,將點擊概率較高的新聞內容推薦給用戶,這樣避免衡量用戶高維稀疏數據之間的相似性並能對新聞內容進行有效的特徵提取,從而提高推薦效果,可廣泛應用於新聞門戶網站,例如人民網、新華網等。

2、模型概述

本文從分類角度考慮用戶對推薦新聞的態度,對其行為進行預測,能夠有效利用用戶的歷史行為數據,包括用戶點擊、轉發、評價等,將用戶的歷史點擊行為轉化為目標結果,能夠有大量的數據進行算法訓練,提高模型的精度。

本文所採用的模型的步驟如下:

1、對用戶的基本信息和用戶歷史行為數據進行分析,構建相應的用戶畫像,建立用戶的偏好模型,得到用戶的融合特徵;

2、採用改進的Word2Vec詞向量訓練算法對新聞語料庫訓練,得到更加精確的新聞詞向量,並對新聞的內容、標題、領域、熱度、時間等進行特徵融合,從而獲得相應新聞的融合特徵;

3、由分類算法對用戶和新聞的融合特徵進行訓練建模,預測該用戶對相應新聞的行為,並得到用戶點擊該新聞的概率;

4、得到某一用戶對眾多新聞的點擊概率後,使用Softmax歸一化方法對其進行處理,獲得用戶點擊概率較高的新聞,並推薦給用戶。

本模型的整體流程如圖1所示,模型採用的分類算法可採用目前進行且高效的深度森林[6](gcForest)、XGBoost[7]等,從而對用戶的行為進行預測。本模型的重點和難點在於用戶畫像模型的構建以及採用改進的Word2Vec詞向量獲取新聞的融合特徵。

3、用戶畫像特徵的構建

用戶畫像,即用戶信息標籤化,是通過收集與分析用戶的社會屬性、生活習慣、瀏覽行為等主要信息數據,抽象出的標籤化的目標用戶模型,通過綜合用戶的所有標籤信息可勾勒出該用戶的立體「畫像」。

對於新聞推薦,用戶的相關數據主要有網絡行為數據、服務內行為數據、用戶內容偏好數據、用戶自然數據這四類。網絡行為數據主要包括活躍人數、頁面瀏覽量、訪問時長、點擊率等;服務內行為數據包括頁面停留時間、訪問深度、唯一頁面瀏覽次數等;用戶內容便好數據包括瀏覽內容、評論內容、互動內容、新聞類別偏好等;用戶自然數據包括性別、年齡、地域、教育水平、職業等。

根據相關性原則,進一步篩選和構建用戶畫像目的相關的數據維度,避免過多無用數據幹擾分析過程。對數據維度進行分解,形成欄位集,再進一步將他們標籤化及進行用戶分群,構建基本用戶畫像。

通過真實的用戶數據,建立用戶的偏好模型,推測用戶的標籤,包括網站忠誠度模型,用戶價值模型,用戶活躍模型等等,通過模型的構建,對各用戶貼上偏好標籤。

結合用戶的各偏好標籤以及自然特徵、興趣特徵等,將相關數據進行特徵融合,構建出能夠有效表示相應用戶畫像的特徵向量。

4、新聞特徵向量化

傳統的詞向量表示方式為one-hot編碼,即用一個很長的向量來表示一個詞,向量的長度為詞典的大小。向量的分量中該詞對於在詞典中的位置處為1,其他全為0。然而這種表示方式有兩個顯著的缺點:(1)維數災難的困擾,且可擴展性差;(2)由於這種表示方式,任意兩個詞之間的詞向量始終正交,不能很好地刻畫詞與詞之間的相似性。

目前最常用的詞向量訓練框架為Word2Vec[8]算法,其CBOW+Hierarchical Softmax模型認為訓練樣本數目足夠大時,上下文中的詞對目標詞預測的作用是線性衰減的。然而,在實際情況中,上下文中的詞對目標詞的預測作用隨著與目標詞距離的增大很快減小,不符合線性衰減規律。為了尋找更接近真實情況的衰減模型,文獻[9]在對語料庫中熱詞的上下文進行統計分析的基礎上,採用若干種模型來擬合上下文對目標詞預測作用的曲線,最後通過對比目標詞的擬合誤差,得到指數衰減擬合曲線對目標詞的擬合誤差最小。並通過實驗驗證了指數衰減模型構建的詞向量在新聞分類任務中取得了更好的效果。因此,隨著上下文中的詞與目標詞距離的變化,上下文對目標詞預測作用是以指數的形式衰減。同時,在訓練過程中,應合理的設置指數模型的超參數。

(責編:溫靜、趙光霞)

相關焦點

  • 移動新聞客戶端個性化推薦系統的用戶評價指標研究
    之所以要探討「移動新聞客戶端個性化推薦的用戶評價指標」,一是因為在移動應用的評價研究中,視頻軟體、音樂軟體等應用的個性化推薦系統的用戶評價指標體系趨向完善,但是關於移動新聞客戶端個性化推薦系統的評價指標研究相對較少,相關體系並未建立。二是因為目前移動新聞客戶端的使用規模非常龐大,但是用戶體驗究竟如何、個性化推薦是否完善等問題一直無據可依,因此行業空白要求相關研究應當深入開展。
  • 手工藝品電商平臺Etsy的個性化推薦
    提供個性化推薦對網上購物市場非常重要。個性化推薦對買賣雙方都是有利的:購買者不用自己去搜索就可以直接獲得他們感興趣的產品信息,賣家則可以以較小的市場營銷代價獲得更好的產品曝光度。在這篇文章中,我們將介紹我們在Esty(美國網絡商店平臺,以手工藝成品買賣為主要特色——譯者注)中使用的一些推薦方法。
  • 產品汪如何向女票解釋——淘寶push的個性化推薦
    個性化推薦是根據用戶的興趣和行為特徵,來推送出用戶喜歡的東西。那麼,這個個性化推薦是怎麼做到的呢?其中包括哪些內容呢?用戶畫像如下:用戶分群:①在用戶畫像上,可以分為基本畫像和模型畫像。
  • MIND:高質量的新聞推薦數據集
    MIND簡介 個性化新聞推薦技術是諸多在線新聞網站和應用的關鍵技術,可以提升用戶的新聞閱讀體驗並減輕信息過載。目前,許多有關新聞推薦的研究是在私有數據集上開展的,而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。
  • 為什麼你收到的「個性化推薦」總是槽點滿滿?
    目前主流的個性化推薦算法,主要包括協同過濾推薦算法和基於內容的推薦算法,還只能達到前兩層境界,有可能會產生過於盲目的「精準推薦」,從而使得用戶的視野變得越來越狹窄。個性化推薦技術想要更上一層樓,必須對用戶的性格進行更深層次的解讀,並且有效地融入在推薦模型中。
  • 基於向量空間的知識圖譜查詢及結果解釋
    基於向量空間的近似查詢回到最初的問題,查詢空集問題結果為空,傳統的方法是不斷修改查詢,向量空間給了我們另一個角度。基於向量空間的近似查詢旨在不修改用戶初始查詢的前提下,基於知識圖譜連續向量空間,採用數據驅動的方式,計算近似答案和推薦查詢,解決查詢空集問題。
  • 動手搭建一個基於 CNN 的電影推薦系統
    對商家而言:提供個性化服務,提高信任度和粘性,增加營收。常見的推薦系統主要包含兩個方面的內容,基於用戶的推薦系統(UserCF)和基於物品的推薦系統(ItemCF)。兩者的區別在於,UserCF 給用戶推薦那些和他有共同興趣愛好的用戶喜歡的商品,而 ItemCF 給用戶推薦那些和他之前喜歡的商品類似的商品。這兩種方式都會遭遇冷啟動問題。
  • 變分自編碼器如何淘汰經典的推薦系統
    推薦系統可以來拯救我們。推薦系統是一種模型,通過向用戶展示他們可能感興趣的內容,幫助他們探索音樂和新聞等新內容。在Snipfeed,我們每天處理成千上萬的內容,用戶群的要求很高:Gen Z.通過利用最先進的深度學習推薦系統,我們幫助用戶瀏覽他們最喜歡的視頻、新聞、和博客。
  • AARRR已過時,「6R」模型才是新一代用戶增長模型
    對此,6R模型提出通過「拉推」的方式進行獲客,Recruitment(拉)指的是通過廣告投放、渠道推廣等方式拉新,Reproduction(推)則指的是在獲得一個新用戶之後,通過一定手段促使和激勵這個新用戶進行推薦和分享,再獲取新的用戶,從而分攤掉獲客成本。
  • 「極客公開課·Live」5 分鐘帶你複習如何確立精準「用戶畫像」
    本次公開課,我們將邀請到友盟+首席數據架構師&數據委員會會長張金來為大家講解到底什麼是用戶畫像,快速建模框架,如何提高用戶精準畫像的的準確性,從理論到應用的一起了解用戶畫像。用戶畫像也叫用戶標籤, 是基於用戶行為分析獲得的對用戶的一種認知表達,也是後續數據分析加工的起點。
  • 「營銷數位化10講」(3):營銷數位化的靈魂是用戶畫像
    用戶屬性畫像:比如性別、年齡、收入、興趣愛好、活躍時間,居住地。前面講到的高端新品鋪貨終端,也是屬於B端用戶的屬性畫像。用戶屬性畫像:可以用於產品開發,比如尋找目標用戶;可以用於產品推薦,比如用戶畫像是「寶媽」,那麼,就可以根據寶媽的需求特徵,向「寶媽」用戶推薦適合的商品。
  • CIKM 2019 挑戰杯「用戶行為預測」冠軍方案:層次GNN模型在推薦中...
    CIKM 是中國計算機學會(CCF)推薦的資料庫/數據挖掘/內容檢索領域的 B 類會議。 阿里巴巴搜索推薦事業部的商業賦能團隊,致力於通過對電商平臺的海量用戶和商品的精準理解,從需求側驅動供給側的新商業賦能,給平臺的消費者和賣家都提供更好的服務。
  • 深度CTR預估模型在應用寶推薦系統中的探索
    應用寶推薦業務主要包括首頁推薦、遊戲推薦等,與常見信息流推薦(新聞/視頻)不同,本場景下的數據分布具有明顯的差異: App曝光頻次差異巨大:
  • 京東高級算法工程師34頁PPT詳解基於分布式向量檢索系統Vearch的大...
    在智能助理外賣推薦場景,深層網絡可以分別把用戶畫像(口味,位置距離,性別,薪資)等多個維度的信息與商家畫像(菜品,菜價,評論,風格,距離)多個維度信息編碼成高維特徵向量,計算二者的相似度,做精準量化匹配。
  • 基於人民網新聞標題的短文本自動分類研究
    對於新聞來說,簡短的新聞標題是新聞內容的高度總結,針對短文本的分類研究一直是自動文本分類技術的研究熱點。本文基於人民網觀點頻道中的數據,採用深度學習中的卷積神經網絡(CNN)和循環神經網絡中的長短時記憶模型(LSTM)組合起來,捕捉短文本表達的語義,對短文本自動文本分類進行智能化實現,為新聞網站的新聞分類實現提供參考。
  • 超詳細丨推薦系統架構與算法流程詳解
    數據儲存了信息,包括用戶與內容的屬性,用戶的行為偏好例如對新聞的點擊、玩過的英雄、購買的物品等等。這些數據特徵非常關鍵,甚至可以說它們決定了一個算法的上限。    算法提供了邏輯。數據通過不斷的積累,存儲了巨量的信息。在巨大的數據量與數據維度下,人已經無法通過人工策略進行分析幹預,因此需要基於一套複雜的信息處理邏輯,基於邏輯返回推薦的內容或服務。
  • 協同推薦算法沒有這麼複雜,真的
    個性化推薦基本上是由兩個策略算法來進行演變的,一個是基於數據挖掘的關聯分析推薦,一個是基於協同過濾的方法。筆者將重點介紹什麼是協同過濾算法以及細分下的算法類型。John之前寫了一篇關於電商中的搜索和關聯推薦策略的文以及一篇《產品經理,如何理解並應用策略?》。有些讀者找到我說:太虛啦。
  • 在推薦系統中,我還有隱私嗎?聯邦學習:你可以有
    以網絡新聞為例,由於每天都有大量的新聞文章發布在網上,在線新聞服務的用戶面臨著嚴重的信息過載。不同的用戶通常喜歡不同的新聞信息。因此,個性化新聞推薦技術被廣泛應用於用戶的個性化新聞展示和服務中。關於新聞的推薦算法 / 模型研究已經引起了學術界和產業界的廣泛關注。
  • Embedding在網易嚴選搜索推薦中的應用
    嚴選於18年下半年開始探索向量化在搜索推薦場景中的運用,從最開始基於商品召回用戶的任務到後續的搜索召回、搜索個性化排序、搜索底紋、搜索發現詞、搜索建議詞、跨類目推薦、推薦召回、多興趣召回、通用排序、端智能重排等等,我們不斷拓寬向量體系在嚴選的運用,在這過程中一點點迭代與沉澱。本文將從模型算法和落地運用等角度做簡要介紹,希望能給讀者一些啟發。