摘要:目前,由於用戶行為數據的高維稀疏特點以及衡量新聞內容相似性的複雜度較高,本文針對這兩個問題,從分類角度考慮,提出一種基於用戶畫像與新聞詞向量的個性化新聞推薦模型,對用戶的行為數據等進行分析,構建用戶畫像模型,提取用戶畫像特徵,並使用指數衰減模型的Word2Vec框架進行詞向量訓練,結合文本特徵的向量空間模型構建新聞全局特徵,預測用戶對新聞的行為——點擊、不點擊,從而將點擊概率較高的新聞推薦給用戶,提高推薦效果,可廣泛應用於新聞門戶網站,如人民網、網易新聞等。
關鍵詞:用戶畫像 詞向量 新聞推薦 分類預測
1、引言
隨著網際網路的迅速發展,用戶獲取信息的手段越來越便捷和豐富。為了緩解用戶信息過載壓力,推薦系統廣泛應用於各類網站,包括電子商務[1]、、視頻音樂網站[2]等等。由於用戶個體的差異性,個性化推薦逐漸得到發展與採用。個性化推薦系統通過分析用戶的歷史信息和行為數據,預測用戶興趣愛好,從而向用戶推薦感興趣或潛在興趣的信息,並針對不同的用戶給出不同的個性化展示頁面,以此來提高網站的點擊率和收益。
目前常用的推薦算法主要分為三類:基於內容的推薦算法[3]、協同過濾推薦算法[1][4]以及混合推薦算法。這些傳統的算法不需要經過訓練,重點考慮用戶之間的相似度和項目之間的相似度,評估用戶對項目的興趣度,進行排序後產生推薦結果。這些算法無法體現用戶潛在的興趣偏好,推薦的結果多樣性不足[5]。同時,由於需要對用戶的歷史行為數據進行分析。用戶的歷史數據決定著最終的推薦結果。可是,用戶的瀏覽、轉發等行為存在大量的稀疏數據,通過這些高維稀疏數據難以計算出準確的相似用戶群體。當兩個用戶沒有對相同的項目評分,他們共同評分的集合數為0,那麼即使他們的興趣偏好非常相似,使用基於用戶的協同過濾算法卻不能求得他們之間的相似值,同樣對於兩個項目的屬性非常相似,但是卻沒有共同用戶對其進行評過分的情況,也無法使用基於項目的協同鍋爐算法求得項目之間的相似性,導致無法有效的推薦。目前,由於對推薦系統的用戶和項目信息龐大,其行為數據和評分信息異常稀疏,使得算法計算出的相似性不夠準確,進而無法準確計算出目標用戶的最近鄰居集,導致推薦效果不佳。不僅如此,對於個性化新聞推薦模型,使用基於文檔詞頻或文檔逆頻率特徵的算法無法精準衡量不同類別新聞之間的相似性,導致推薦的結果大同小異,無法挖掘用戶的潛在興趣愛好,降低推薦效果。
針對上述問題,本文提出一種基於用戶畫像和內容詞向量融合特徵的個性化新聞推薦模型,分析用戶的信息和歷史行為數據構建用戶畫像,並使用改進的Word2Vec詞向量訓練算法對新聞內容進行訓練,有效衡量新聞之間的相似性,進而採用高效分類算法預測用戶對其推薦內容的行為——點擊、不點擊,並按照用戶點擊概率進行排序,將點擊概率較高的新聞內容推薦給用戶,這樣避免衡量用戶高維稀疏數據之間的相似性並能對新聞內容進行有效的特徵提取,從而提高推薦效果,可廣泛應用於新聞門戶網站,例如人民網、新華網等。
2、模型概述
本文從分類角度考慮用戶對推薦新聞的態度,對其行為進行預測,能夠有效利用用戶的歷史行為數據,包括用戶點擊、轉發、評價等,將用戶的歷史點擊行為轉化為目標結果,能夠有大量的數據進行算法訓練,提高模型的精度。
本文所採用的模型的步驟如下:
1、對用戶的基本信息和用戶歷史行為數據進行分析,構建相應的用戶畫像,建立用戶的偏好模型,得到用戶的融合特徵;
2、採用改進的Word2Vec詞向量訓練算法對新聞語料庫訓練,得到更加精確的新聞詞向量,並對新聞的內容、標題、領域、熱度、時間等進行特徵融合,從而獲得相應新聞的融合特徵;
3、由分類算法對用戶和新聞的融合特徵進行訓練建模,預測該用戶對相應新聞的行為,並得到用戶點擊該新聞的概率;
4、得到某一用戶對眾多新聞的點擊概率後,使用Softmax歸一化方法對其進行處理,獲得用戶點擊概率較高的新聞,並推薦給用戶。
本模型的整體流程如圖1所示,模型採用的分類算法可採用目前進行且高效的深度森林[6](gcForest)、XGBoost[7]等,從而對用戶的行為進行預測。本模型的重點和難點在於用戶畫像模型的構建以及採用改進的Word2Vec詞向量獲取新聞的融合特徵。
3、用戶畫像特徵的構建
用戶畫像,即用戶信息標籤化,是通過收集與分析用戶的社會屬性、生活習慣、瀏覽行為等主要信息數據,抽象出的標籤化的目標用戶模型,通過綜合用戶的所有標籤信息可勾勒出該用戶的立體「畫像」。
對於新聞推薦,用戶的相關數據主要有網絡行為數據、服務內行為數據、用戶內容偏好數據、用戶自然數據這四類。網絡行為數據主要包括活躍人數、頁面瀏覽量、訪問時長、點擊率等;服務內行為數據包括頁面停留時間、訪問深度、唯一頁面瀏覽次數等;用戶內容便好數據包括瀏覽內容、評論內容、互動內容、新聞類別偏好等;用戶自然數據包括性別、年齡、地域、教育水平、職業等。
根據相關性原則,進一步篩選和構建用戶畫像目的相關的數據維度,避免過多無用數據幹擾分析過程。對數據維度進行分解,形成欄位集,再進一步將他們標籤化及進行用戶分群,構建基本用戶畫像。
通過真實的用戶數據,建立用戶的偏好模型,推測用戶的標籤,包括網站忠誠度模型,用戶價值模型,用戶活躍模型等等,通過模型的構建,對各用戶貼上偏好標籤。
結合用戶的各偏好標籤以及自然特徵、興趣特徵等,將相關數據進行特徵融合,構建出能夠有效表示相應用戶畫像的特徵向量。
4、新聞特徵向量化
傳統的詞向量表示方式為one-hot編碼,即用一個很長的向量來表示一個詞,向量的長度為詞典的大小。向量的分量中該詞對於在詞典中的位置處為1,其他全為0。然而這種表示方式有兩個顯著的缺點:(1)維數災難的困擾,且可擴展性差;(2)由於這種表示方式,任意兩個詞之間的詞向量始終正交,不能很好地刻畫詞與詞之間的相似性。
目前最常用的詞向量訓練框架為Word2Vec[8]算法,其CBOW+Hierarchical Softmax模型認為訓練樣本數目足夠大時,上下文中的詞對目標詞預測的作用是線性衰減的。然而,在實際情況中,上下文中的詞對目標詞的預測作用隨著與目標詞距離的增大很快減小,不符合線性衰減規律。為了尋找更接近真實情況的衰減模型,文獻[9]在對語料庫中熱詞的上下文進行統計分析的基礎上,採用若干種模型來擬合上下文對目標詞預測作用的曲線,最後通過對比目標詞的擬合誤差,得到指數衰減擬合曲線對目標詞的擬合誤差最小。並通過實驗驗證了指數衰減模型構建的詞向量在新聞分類任務中取得了更好的效果。因此,隨著上下文中的詞與目標詞距離的變化,上下文對目標詞預測作用是以指數的形式衰減。同時,在訓練過程中,應合理的設置指數模型的超參數。
(責編:溫靜、趙光霞)