先說一下物以類聚,在理解了內容和用戶的基礎特徵之後,我們將進一步探討推薦算法是如何匹配用戶和內容的。概括而言,這一過程所做的就是「物以類桑,人以群分」。
有了完善的物品畫像,我們就可以基於其固有屬性來計算物品與物品之間的相似度,從而推薦與用戶歷史消費相似的新物品。以內容推薦為例,其用於相似度計算的常見因素有:作者層面的相似性(基於訂閱或偏好關係),內容層面的相似性(如關鍵詞、話題、類目、聚類、標籤等)。
基於內容屬性的推薦方式,常見於音樂,電影和書籍的推薦場景中。以圖書推薦場景為例,在豆瓣圖書上有三本書分別有如下標籤:
1.推薦系統、數據挖掘、計算機、算法、機器學習、網際網路、數據分析、人工智慧
2。推薦系統、機器學習、數據挖掘、算法、計算機、網際網路、計算機科學、數據分析
3.大數據、數據挖掘、計算機、網際網路、大數據時代、網際網路趨勢、社會學、數據。從標籤層面不難看出,在標籤集合層面擁有更多的相同標籤,具有更高的相似度。那麼,當用戶A選擇了《推薦系統實踐》之後,系統應當優先給他推薦的是《推薦系統),而非《大數據時代》
如果想要進一步細化,那麼可以藉助TF-IDF方式給不同的標籤設定權重。其基本思想是:出現頻率越高的標籤區分度越低,反之亦然。比如「計算機」是一個高頻出現的標籤,那麼這個標籤的區分度就沒有那麼高,權重較低;而「推薦系統」是一個低頻出現的標籤,則該標籤就更具有顯著性和區分度,權重較高。
基於內容屬性推薦的好處在於,只依賴物品本身的特徵而不依賴用戶的行為,讓新的物品、冷僻的物品都能得到展示的機會。其存在的問題在於、推薦質量的優劣完全依賴於特徵構建的完備性,但特徵構建本身是一項系統的工程,存在一定成本。在上面的例子中,如果標籤詞粒度不夠細,不能夠全面描述的內容(比如每本書的標籤詞只有三個),就很難計算出置信的相似度,達不到足夠好的推薦效果。
此外,基於內容屬性推薦沒有考慮用戶對物品的態度,用戶的品位和調性很難得到詮釋和表達。比如,市面上關於內容分發的書籍很多,僅從標籤詞上很難分辨出高下。為了在推薦中更好地引人受眾反饋因素,提出了基於用戶行為的「協同過濾」概念。