原標題:知識圖譜在推薦系統的落地
本篇文章為大家介紹了什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜在推薦中的應用、圖譜推薦的原理、圖譜推薦的難點,並附上實際例子幫助大家進一步了解。
隨著網際網路進入了下半場,精益化發展成為了主旋律,為了實現同樣的獲客成本下收益最大化,各家對推薦系統的需求日益強烈。
本文通俗的講述通過幾個段落簡單講述什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜推薦的原理、圖譜推薦的難點,供大家參考了解。
一、什麼是推薦系統
推薦系統,正如它的字面信息一樣,就是通過推薦內容滿足用戶個性化的需求,解決信息過載的問題的系統。
推薦系統根據形式的差異接入了不同的場景,在大家的日常生活中就無時不刻都在享受這它的便利。
當你一大早打開淘寶,掃一眼「猜您喜歡」,發現一個自己喜歡的寶貝,直接添加進購物車;打開今日頭條,看了下自己感興趣的新聞,中間看到一個自己不了解的內容,打開百度輸入後,輸入框下面展示了幾個相關內容……
推薦的過程可以簡單理解為三個步驟:召回、過濾、排序。
有的系統也會將過濾放在第一步,先根據條件過濾一些輸入信息,然後餵給推薦系統。
這樣能夠減少推薦系統的計算量,縮短推薦系統處理時間,提高推薦系統的即時性,但是這麼做也會存在一些問題:減少輸入導致類別特徵的內容丟失,影響推薦系統的內容數量與質量。
三、知識圖譜在推薦應用的優勢
知識圖譜就是實體的屬性關係網,能夠很好的表達實體之間的關係,這個關係可以是具有同樣屬性的實體,也可以是上下位的實體關係。
對於推薦系統來說,這個圖譜中的實體不僅僅是推薦的內容,還包含了用戶的信息,或者是標籤,所以知識圖譜很好的提供了一個推薦對象的關係網。
通過知識圖譜,推薦系統可以很好給你推薦關聯內容,例如,你購買了手機,那麼它就可以給你推薦充電寶、保護套、鋼化膜等,因為在它的腦子中知道這些產品是手機的附件。
也可以通過用戶搜索的藍牙耳機,給他推薦同樣具有藍牙功能的耳機。
四、圖譜在推薦中的應用
我們通過一個簡單的商品圖譜和大家講解圖譜推薦的遍歷邏輯。這是一個數碼垂類下的耳機的簡化商品圖譜。
1. 下位實體遍歷
下位關係是相關性最強的關係,通常包含的含義是下一步操作、必要條件,例如:買了手機就會買手機殼、買了汽車就會買玻璃水等。
不過也不是所有的下位關係都是能放置在推薦序列的前列中的,例如:筆記本貼紙與筆記本相關,但是不是大家都會貼筆記本貼紙,所以下位關係也存在低概率的情況,這部分就會被其他高概率的遍歷邏輯給擠到較後的排列中。
2. 組合屬性遍歷
在圖譜中有的實體由多個相同的父實體連接,這種實體之間通常具有強相關性,就好比是你同父母的親兄弟,這種推薦也是應用的最多的。
在下面這個實例中就可以理解該用戶為bose的忠實用戶,計劃購買它的耳機,那麼我們根據用戶搜索QC30的記錄,推薦QC35、QC25等結果,這樣就既能夠提高成交的可能性,也能夠實現更高的客單價,實現商家、平臺的雙贏。
3. 同屬性遍歷
除了上面兩種相關性較強的遍歷邏輯之外,相同父實體的子實體也具有相關性,但是我們需要注意當一個實體具有多個父實體的情況下,不是所有的父實體都適合被往下遍歷。
例如:用戶諮詢QC30,那麼我們給它推薦bose的家庭音響解決方案就不合適,因為用戶本質需求只是購買耳機。
4. 二元實體遍歷
二元實體遍歷適合同類父實體的場景,同類的父實體通常表示這兩個產品是一個互補或者相似的含義。
例如:用戶諮詢QC30,那麼他可能需要一個MP4來搭配他的耳機,同樣的情況還有滑鼠-鍵盤、短袖-短褲等。
5. 多路徑遍歷對比
優於圖譜中實體之間的關係是網狀的,所以在遍歷時存在兩個實體之間可以通過多種遍歷邏輯推理得到。
那麼我們就需要採取一種方式來對比那種遍歷邏輯的結果才是我們應該採用的。
一般會根據邊的權重計算得到兩個實體的相關度。
五、如何過濾
根據推薦系統生成的推薦序列過濾推薦結果,這個根據不同業務方的需要會有很大的差別,這裡就簡單說明一些通用的實例:
1. 時間區間內已經發生期望操作的結果
期望操作是指用戶使用產品時,我們期望用戶最終實現的行為,可能是點擊、購買等。
如果用戶已經對推薦的內容發生了期望操作,那麼繼續推薦這個內容,無疑會浪費有效面積,導致客單量降低。
為了避免這種情況,推薦系統會針對不同的推薦內容設置一個時間區間,在這個時間區間內已經產生過期望操作的就不再進行推薦,例如,服飾可以設置為1個月,快消品則可以設置更短的時間限制。
2. 展示未產生期望操作的結果
一千個讀者就有一千個哈姆雷特,面對一千個用戶,推薦系統的結果肯定不可能都是一千個都是滿意的,所以當推薦的內容用戶沒有產生期望操作時,系統可以認為該推薦結果對於這個用戶是弱關聯性推薦或者說是無效推薦,那麼系統在再次生成推薦序列是就可以將其過濾,讓其他用戶可能感興趣的結果補充進行展示。
3. 同類型的結果
當生成的推薦序列中已經存在很多的同類產品時,我們也需要進行過濾。
同類的結果,用戶只會對其中的幾個結果產生操作,如果過多地展示同類的內容,就會導致推薦的內容豐富度不夠。
一般同類的結果,推薦系統只會保留其中相關度最高的幾個,並且在展示上會將同類結果控制放置間隔,避免一起出現。
六、圖譜推薦指標
圖譜更新前都需要評估相對的效果,只有相對效果優與原先的結果,圖譜才能上線。
評估相對結果的指標可以分為服務指標和業務指標。
實體識別準確率=實體解析正確數/用戶問句總數;
實體識別召回率=實體解析正確數/相關實體總數;
內容相關度=用戶評分/推薦數量。
2. 業務指標
展現點擊比=用戶點擊數/展現數量;
轉化率=用戶產生期望操作數/展現數量。
七、圖譜應用的難點
知識圖譜雖然在推薦系統中應用存在優勢,但是在實際應用中會因為它的種種難點被限制應用,下面和大家一起講講圖譜應用的困難。
1. 知識圖譜schema維護
在推薦系統中應用的圖譜都是大規模的圖譜,實體都是在萬級的,像阿里的商品圖譜甚至達到了十億級。那麼大的圖譜完全由人工運營維護肯定是不現實的,實際上這些圖譜也的確由系統自動進行維護,人工只是輔助進行運營。
系統通過現成的表結構數據、機器閱讀理解抽取的實體與關係自動構建知識圖譜。
例如:阿里的商品圖譜部分數據來源就是寶貝下面的商品詳情:
但是目前的技術還不能做到100%的自動構建準確,因此構建後如何篩選出有問題的關係就需要人工藉助工具進行調整了,常見的需要人工糾正的有:
圖譜的量級達到了一定,如何快速的萬級億級的實體和屬性中找到對應的數據,對於模型來說是一個十分艱巨的工作。
另外大規模的圖譜,實體之間的關係密切,如果做到的二元遍歷,那麼延伸出的實體也是指數量級的,無法直接拿來做推薦。
所以圖譜推薦的時效性較差,不適合應用於需要實時返回推薦結果的場景,所以圖譜推薦往往應用在用戶使用的間隙生成推薦的內容。
例如:資訊推薦、猜您喜歡等
3. 在線維護困難
圖譜中實體的關係十分緊密,這就導致了修改一個實體或者一條邊,那對應的變化可能是幾百個實體和邊,一個小小的改動可能就是蝴蝶效應,而且恢復困難。
所以圖譜服務都是通過本地數據應用於中臺服務中,需要更新圖譜時,再將本地運營的圖譜發布到服務的本地資料庫中應用。
4. 如何避免髒數據對圖譜更新的影響
在購物網站推薦的場景中,圖譜中實體與實體之間的關係是會有概率值來表示兩個實體之間的相關度的。
這個概率值會根據用戶的購買操作記錄自動評估實體與實體之間的概率。但是有時新店為了提高信譽和寶貝的評價,就會發生刷單的行為。
刷榜單的行為會導致圖譜中概率邊的數值被影響,產生不準確的數值,導致推薦出相關度不足的結果。這種情況一般通過清洗訂單數據,只將高置信的購買記錄作為圖譜更新的評估數據。
八、寫在最後
如今在網際網路的下半場,推薦系統越來越被重視,圖譜在推薦系統中的應用目前還比較淺,期望圖譜的落地更加成熟。
本文由 @南風追憶 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基於 CC0 協議返回搜狐,查看更多
責任編輯: