在本文中,作者主要是介紹了常見推薦算法的基本原理。
先思考一個問題,我們怎麼量化兩個事物的相似度呢?當然,這也是推薦系統需要多次面臨的問題。
我們知道向量的概念,可以形象化地表示為帶箭頭的線段。二維空間向量表示方法為,多維空間向量表示為,向量是描述事物一種很好模型。
比如,假設用戶有5個維度:
這兩個用戶的相似程度是多大呢?既然我們把這兩個用戶表示為向量,那麼我們可以考慮向量怎麼判斷相似性。沒錯,看這兩個向量的夾角。夾角約小,則相似度越大。
對於向量和而言,他們的在多維空間的夾角可以用向量餘弦公式計算:
餘弦相似度的值本身是一個0~1的值,0代表完全正交,1代表完全一致。就剛才用戶A和用戶B的例子而言,我們可以知道他們的相似度為:
餘弦公式本身應用範圍很廣,量化相似度在搜索推薦,商業策略中都是常見問題,餘弦公式是很好的解決方案。就推薦本身而言,計算內容的相似度,計算用戶的相似度,計算用戶類型的相似度,計算內容類型的相似度,這些都是可以應用的場景。
推薦和搜索本質有相似的地方。搜索滿足用戶從海量數據中迅速找到自己感興趣內容的需求,屬於用戶主動獲取。推薦則是系統從海量數據中根據獲取到的用戶數據,猜測用戶感興趣的內容並推薦給用戶,屬於系統推薦給用戶。本質上都是為了在這個信息過載的時代,幫助用戶找到自己感興趣的東西。
推薦系統有很多種形式。運營或者編輯篩選出自己認為最好的內容放在首頁,廣義上講這也是一種推薦。不過這個不在我們本期文章的討論範圍,本期主要是討論系統級別的推薦。這裡主要介紹四類常見的推薦方法:
基於內容的推薦是基礎的推薦策略。如果你瀏覽或購買過某種類型的內容,則給你推薦這種類型下的其他內容。
以電影推薦為例。比如你之前看過《盜夢空間》,則系統會關聯資料庫中盜夢空間的信息。系統會推薦克里斯多福·諾蘭導演的其他作品,比如《致命魔術》;系統會推薦主演裡昂納多的其他作品,比如《第十一小時》。
如果這個電影系統的數據被很好地分類,那麼推薦系統也會給用戶推薦這個分類下的其他作品。盜夢空間如果被歸為科幻作品,那麼可能會推薦其他科幻作品,比如《星際迷航》。
基於內容的推薦好處在於易於理解,但是壞處是推薦方式比較依賴於完整的內容知識庫的建立。如果內容格式化比較差,那麼基於內容的推薦就無法實行。同時如果用戶留下的數據比較少,則推薦效果很差,因為無法擴展。
協同過濾(Collaborative Filtering)與傳統的基於內容過濾直接分析內容進行推薦不同,協同過濾會分析系統已有數據,並結合用戶表現的數據,對該指定用戶對此信息的喜好程度預測。
基於內容的協同過濾(item-based CF),通過用戶對不同內容的評分來評測內容之間的相似性,基於內容之間的相似性做出推薦;最典型的例子是著名的「啤酒加尿布」,就是通過分析知道啤酒和尿布經常被美國爸爸們一起購買,於是在尿布邊上推薦啤酒,增加了啤酒銷量。
需要計算用戶u對物品j的興趣,公式如下:
這裡N(u)表示用戶有關聯的商品的集合,wji表示物品j和i的相似度,rui表示用戶u對物品i的打分,示例如下:
這裡還有兩個問題沒有仔細描述,如何打分,如何計算相似度。
打分的話需要根據業務計算,如果有打分系統最好,沒有打分系統,則需要根據用戶對這個物品的行為得到一個分數。
計算相似度除了之前我們提到的餘弦公式,還可以根據其他的業務數據。比如對於網易雲音樂而言,兩首歌越多的被加入兩個歌單,可以認為兩首歌越相似。對於亞馬遜而言,兩個商品越多的被同時購買,則認為兩個商品相似。這裡其實是需要根據產品的具體情況進行調整。
基於用戶的協同過濾(user-based CF),通過用戶對不同內容的行為,來評測用戶之間的相似性,基於用戶之間的相似性做出推薦。這部分推薦本質上是給相似的用戶推薦其他用戶喜歡的內容,一句話概括就是:和你類似的人還喜歡下列內容。
需要計算用戶u對物品i的興趣,公式如下(可以和基於物品的協同過濾仔細對比):
這裡N(i)表示對物品i有過行為的用戶集合,wuv使用用戶u和用戶v的相似度,rvi表示用戶v對物品i的打分,示例如下:
同樣的,這裡計算相似度如果用到餘弦公式,其實最主要的是選好維度。對於音樂而言,可能是每首歌都作為一個維度,對於電商而言,也可以是每個商品都是一個維度。當然,用一些可理解的用戶標籤作為維度也是可以的。
標籤系統相對於之前的用戶維度和產品維度的推薦,從結構上講,其實更易於理解一些,也更容易直接幹預結果一些。關於tag和分類,基本上是網際網路有信息架構以來就有的經典設計結構。內容有標籤,用戶也會因為用戶行為被打上標籤。通過標籤去關聯內容。
需要計算用戶u對物品i的興趣,公式如下(可以和基於物品的協同過濾仔細對比):
這裡N(u.,i)表示用戶u和物品i共有的標籤,wuk使用用戶u和標籤k的關聯度,rki表示標籤k和物品i的關聯性分數,示例如下:
標籤查找的方法這裡有很大可以發揮的空間,比如,通過知識庫進行處理,或者語義分析處理。而對於一些設計之初就有標籤概念的網站, 就比較容易,比如豆瓣和知乎。對於知乎而言,公共編輯的標籤是天然的標籤內容,對於知乎的用戶而言,瀏覽回答關注等行為則是天然的用戶標籤素材。
對於推薦而言,這幾種基本的方法彼此之前都有些應用場景的差別:比如基於知識的推薦,這是比較老舊的推薦方法,但是對於系統和結構比較好的內容,則低成本且高效。比如基於內容的協同過濾,就適用於內容比較有限,但是用戶數特別多的情況,比如電商公司。比如基於用戶的協同過濾,則比較容易根據用戶的興趣點,發覺熱點內容,比如新聞門戶。對於基於標籤的推薦,有標籤系統的很佔便宜,它在靈活性和可控制性上都好一些,但是做好很難。
本期主要是介紹了常見推薦算法的基本原理,那麼在推薦系統策略設計的時候,有哪些需要特別注意的地方呢?我們怎麼衡量一個推薦系統的優劣呢?推薦系統有哪些典型的應用場景呢?歡迎關注專欄,繼續閱讀下期。
潘一鳴,公眾號:產品邏輯之美,人人都是產品經理專欄作家。畢業於清華大學,暢銷書《產品邏輯之美》作者;先後在多家網際網路公司從事產品經理工作,有很多複雜系統的構建實踐經驗。
本文原創發布於人人都是產品經理。未經許可,禁止轉載。