知識圖譜在推薦系統的落地

2020-11-24 搜狐網

原標題:知識圖譜在推薦系統的落地

本篇文章為大家介紹了什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜在推薦中的應用、圖譜推薦的原理、圖譜推薦的難點,並附上實際例子幫助大家進一步了解。

隨著網際網路進入了下半場,精益化發展成為了主旋律,為了實現同樣的獲客成本下收益最大化,各家對推薦系統的需求日益強烈。

本文通俗的講述通過幾個段落簡單講述什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜推薦的原理、圖譜推薦的難點,供大家參考了解。

一、什麼是推薦系統

推薦系統,正如它的字面信息一樣,就是通過推薦內容滿足用戶個性化的需求,解決信息過載的問題的系統。

推薦系統根據形式的差異接入了不同的場景,在大家的日常生活中就無時不刻都在享受這它的便利。

當你一大早打開淘寶,掃一眼「猜您喜歡」,發現一個自己喜歡的寶貝,直接添加進購物車;打開今日頭條,看了下自己感興趣的新聞,中間看到一個自己不了解的內容,打開百度輸入後,輸入框下面展示了幾個相關內容……

  • 隱形推薦不會對用戶預期的操作產生影響,如:新聞排序,搜索結果排序等在用戶不知不覺中給用戶展現;
  • 顯性推薦會改變用戶預期的操作,如:輸入聯想、推薦問句等用戶可以根據推薦的內容選擇自己期望的內容。
  • 相關性推薦根據用戶當前信息,召回相似度較高的內容作為推薦的內容;
  • 預測式推薦為根據用戶歷史信息,可以是用戶信息、操作記錄、購買記錄等,預測用戶可能感興趣的內容,作為推薦的內容;
  • 根據用戶的信息推薦,不管是相關性還是預測式的都會導致推薦的內容隨用戶使用時長增加,變得內容單一,降低用戶的新鮮感,因此還需要生成一些無關的內容作為推薦的補充,以滿足用戶的新鮮感,這就是生成式推薦。
二、推薦流程

推薦的過程可以簡單理解為三個步驟:召回、過濾、排序。

  • 首先系統根據獲取到的信息,召回適合推薦內容,獲取的信息可以是用戶的搜索記錄、購買記錄、評論等。
  • 召回的內容中有的是這個用戶不關注的,可能是他已經買過了的寶貝或者已經看過了的內容,這會兒就需要根據過濾的條件,將不需要的內容進行過濾。
  • 經過過濾產生的推薦集還需要根據內容的相關度進行排序,最後系統根據相關度的排序,將內容分配到對應的模塊,這樣用戶就能看到自己感興趣的內容了。

有的系統也會將過濾放在第一步,先根據條件過濾一些輸入信息,然後餵給推薦系統。

這樣能夠減少推薦系統的計算量,縮短推薦系統處理時間,提高推薦系統的即時性,但是這麼做也會存在一些問題:減少輸入導致類別特徵的內容丟失,影響推薦系統的內容數量與質量。

三、知識圖譜在推薦應用的優勢

知識圖譜就是實體的屬性關係網,能夠很好的表達實體之間的關係,這個關係可以是具有同樣屬性的實體,也可以是上下位的實體關係。

對於推薦系統來說,這個圖譜中的實體不僅僅是推薦的內容,還包含了用戶的信息,或者是標籤,所以知識圖譜很好的提供了一個推薦對象的關係網。

通過知識圖譜,推薦系統可以很好給你推薦關聯內容,例如,你購買了手機,那麼它就可以給你推薦充電寶、保護套、鋼化膜等,因為在它的腦子中知道這些產品是手機的附件。

也可以通過用戶搜索的藍牙耳機,給他推薦同樣具有藍牙功能的耳機。

四、圖譜在推薦中的應用

我們通過一個簡單的商品圖譜和大家講解圖譜推薦的遍歷邏輯。這是一個數碼垂類下的耳機的簡化商品圖譜。

1. 下位實體遍歷

下位關係是相關性最強的關係,通常包含的含義是下一步操作、必要條件,例如:買了手機就會買手機殼、買了汽車就會買玻璃水等。

不過也不是所有的下位關係都是能放置在推薦序列的前列中的,例如:筆記本貼紙與筆記本相關,但是不是大家都會貼筆記本貼紙,所以下位關係也存在低概率的情況,這部分就會被其他高概率的遍歷邏輯給擠到較後的排列中。

2. 組合屬性遍歷

在圖譜中有的實體由多個相同的父實體連接,這種實體之間通常具有強相關性,就好比是你同父母的親兄弟,這種推薦也是應用的最多的。

在下面這個實例中就可以理解該用戶為bose的忠實用戶,計劃購買它的耳機,那麼我們根據用戶搜索QC30的記錄,推薦QC35、QC25等結果,這樣就既能夠提高成交的可能性,也能夠實現更高的客單價,實現商家、平臺的雙贏。

3. 同屬性遍歷

除了上面兩種相關性較強的遍歷邏輯之外,相同父實體的子實體也具有相關性,但是我們需要注意當一個實體具有多個父實體的情況下,不是所有的父實體都適合被往下遍歷。

例如:用戶諮詢QC30,那麼我們給它推薦bose的家庭音響解決方案就不合適,因為用戶本質需求只是購買耳機。

4. 二元實體遍歷

二元實體遍歷適合同類父實體的場景,同類的父實體通常表示這兩個產品是一個互補或者相似的含義。

例如:用戶諮詢QC30,那麼他可能需要一個MP4來搭配他的耳機,同樣的情況還有滑鼠-鍵盤、短袖-短褲等。

5. 多路徑遍歷對比

優於圖譜中實體之間的關係是網狀的,所以在遍歷時存在兩個實體之間可以通過多種遍歷邏輯推理得到。

那麼我們就需要採取一種方式來對比那種遍歷邏輯的結果才是我們應該採用的。

一般會根據邊的權重計算得到兩個實體的相關度。

五、如何過濾

根據推薦系統生成的推薦序列過濾推薦結果,這個根據不同業務方的需要會有很大的差別,這裡就簡單說明一些通用的實例:

1. 時間區間內已經發生期望操作的結果

期望操作是指用戶使用產品時,我們期望用戶最終實現的行為,可能是點擊、購買等。

如果用戶已經對推薦的內容發生了期望操作,那麼繼續推薦這個內容,無疑會浪費有效面積,導致客單量降低。

為了避免這種情況,推薦系統會針對不同的推薦內容設置一個時間區間,在這個時間區間內已經產生過期望操作的就不再進行推薦,例如,服飾可以設置為1個月,快消品則可以設置更短的時間限制。

2. 展示未產生期望操作的結果

一千個讀者就有一千個哈姆雷特,面對一千個用戶,推薦系統的結果肯定不可能都是一千個都是滿意的,所以當推薦的內容用戶沒有產生期望操作時,系統可以認為該推薦結果對於這個用戶是弱關聯性推薦或者說是無效推薦,那麼系統在再次生成推薦序列是就可以將其過濾,讓其他用戶可能感興趣的結果補充進行展示。

3. 同類型的結果

當生成的推薦序列中已經存在很多的同類產品時,我們也需要進行過濾。

同類的結果,用戶只會對其中的幾個結果產生操作,如果過多地展示同類的內容,就會導致推薦的內容豐富度不夠。

一般同類的結果,推薦系統只會保留其中相關度最高的幾個,並且在展示上會將同類結果控制放置間隔,避免一起出現。

六、圖譜推薦指標

圖譜更新前都需要評估相對的效果,只有相對效果優與原先的結果,圖譜才能上線。

評估相對結果的指標可以分為服務指標和業務指標。

  • 服務指標是反映圖譜服務效果的指標,都是一些客觀數據;
  • 業務指標是與業務相關聯的,反映的是服務上線後的服務效果的指標。
1. 服務指標

實體識別準確率=實體解析正確數/用戶問句總數;

實體識別召回率=實體解析正確數/相關實體總數;

內容相關度=用戶評分/推薦數量。

2. 業務指標

展現點擊比=用戶點擊數/展現數量;

轉化率=用戶產生期望操作數/展現數量。

七、圖譜應用的難點

知識圖譜雖然在推薦系統中應用存在優勢,但是在實際應用中會因為它的種種難點被限制應用,下面和大家一起講講圖譜應用的困難。

1. 知識圖譜schema維護

在推薦系統中應用的圖譜都是大規模的圖譜,實體都是在萬級的,像阿里的商品圖譜甚至達到了十億級。那麼大的圖譜完全由人工運營維護肯定是不現實的,實際上這些圖譜也的確由系統自動進行維護,人工只是輔助進行運營。

系統通過現成的表結構數據、機器閱讀理解抽取的實體與關係自動構建知識圖譜。

例如:阿里的商品圖譜部分數據來源就是寶貝下面的商品詳情:

但是目前的技術還不能做到100%的自動構建準確,因此構建後如何篩選出有問題的關係就需要人工藉助工具進行調整了,常見的需要人工糾正的有:

  1. 同寶貝在不同商家出現不同詳情的情況,需要人工二次確認;
  2. 寶貝詳情變化後,需要人工更新。
2. 推薦的時效性差

圖譜的量級達到了一定,如何快速的萬級億級的實體和屬性中找到對應的數據,對於模型來說是一個十分艱巨的工作。

另外大規模的圖譜,實體之間的關係密切,如果做到的二元遍歷,那麼延伸出的實體也是指數量級的,無法直接拿來做推薦。

所以圖譜推薦的時效性較差,不適合應用於需要實時返回推薦結果的場景,所以圖譜推薦往往應用在用戶使用的間隙生成推薦的內容。

例如:資訊推薦、猜您喜歡等

3. 在線維護困難

圖譜中實體的關係十分緊密,這就導致了修改一個實體或者一條邊,那對應的變化可能是幾百個實體和邊,一個小小的改動可能就是蝴蝶效應,而且恢復困難。

所以圖譜服務都是通過本地數據應用於中臺服務中,需要更新圖譜時,再將本地運營的圖譜發布到服務的本地資料庫中應用。

4. 如何避免髒數據對圖譜更新的影響

在購物網站推薦的場景中,圖譜中實體與實體之間的關係是會有概率值來表示兩個實體之間的相關度的。

這個概率值會根據用戶的購買操作記錄自動評估實體與實體之間的概率。但是有時新店為了提高信譽和寶貝的評價,就會發生刷單的行為。

刷榜單的行為會導致圖譜中概率邊的數值被影響,產生不準確的數值,導致推薦出相關度不足的結果。這種情況一般通過清洗訂單數據,只將高置信的購買記錄作為圖譜更新的評估數據。

八、寫在最後

如今在網際網路的下半場,推薦系統越來越被重視,圖譜在推薦系統中的應用目前還比較淺,期望圖譜的落地更加成熟。

本文由 @南風追憶 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自 Unsplash ,基於 CC0 協議返回搜狐,查看更多

責任編輯:

相關焦點

  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    是面向清華大學知識工程實驗室構建的面向科技領域的知識圖譜,項目實現了高精度學者畫像、同名消歧、智能推薦、趨勢分析等關鍵技術。 知識圖譜的一個重要特點就是可解釋性和發現新知識的能力,這是目前深度學習方法很難做到的。知識圖譜把領域知識或常識整理成結構化的形式,然後在此基礎上進行推理,類似於人腦的功能。比如評審專家的推薦,使用深度學習的方法進行訓練,專家的查找過程是個黑盒操作,無法追溯推薦的理由。
  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    HAO 圖譜,源自於 2018 年明略科技提出的 HAO 智能理論框架。HAO 智能旨在集成人類智能(HI)、人工智慧(AI)和組織智能(OI),打通感知、認知和行動系統,幫助企業和組織實現智能化發展。其中,HAO 圖譜屬於認知系統的範疇。
  • 愛分析·中國知識圖譜應用趨勢報告
    1.1.2知識圖譜發展歷程  谷歌於2012年正式提出知識圖譜(Knowledge Graph)概念,並應用在智能搜索領域。知識圖譜(Knowledge Graph)本質是以圖的形式表現實體(概念、事物、人)及其關係的知識庫,可看作有向圖結構的網絡。目前,知識圖譜技術已在智能搜索、智能問答、網絡分析、決策輔助、推薦系統等領域廣泛應用。
  • 【Knewton適應性學習研究】推薦原理+知識圖譜+連續適應性+大數據
    Knewton系統將連續適應性的,學生長期學習層級和巨大的網絡效果結合起來,建立起一個跨學科的知識圖譜,對每一個參加Knewton課程的學生形成一個強大的個性化學習方案。1、知識圖譜將交叉學科知識架構連接起來Knewton知識圖譜是一個權威的學術概念交叉學科圖。
  • 中科院趙軍帶你認識:知識圖譜的關鍵技術
    在中國科學院大學主講《知識圖譜導論》等課程,主持編著《知識圖譜》一書2018年12月由高等教育出版社出版發行。報告內容:推薦系統需要為用戶主動推薦有用的信息,而知識圖譜是當前學術界和產業界在描述知識方面的「事實標準」。
  • 是時候該關注「知識圖譜」了!
    知識圖譜是什麼通俗地講,知識圖譜就是將複雜的知識通過數據挖掘、信息處理、知識計量和圖形繪製等一系列方式,把所有不同種類的信息連接在一起得到的一個關係網絡。在知識圖譜裡,用節點表示現實世界中存在的「實體」,用邊示意實體與實體之間的「關係」。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    為推動領域大數據知識圖譜的研究,交流相關研究進展與成果,《中國科學: 信息科學》在2020年第50卷第7期組織出版「領域大數據知識圖譜專題」,經過嚴格的同行評議, 專題共收錄 7 篇文章, 主題涵蓋推薦系統、科技知識圖譜、事理認知圖譜、人物關係圖譜、地理知識圖譜、篇章事件連通圖、旅遊知識圖譜等方面的內容。
  • 解析|如何構建知識圖譜
    應用:知識圖譜的使用較為靈活,一方面,可以單獨進行使用,作為數據的加工方,直接對接原始數據,從源頭進行數據清洗和知識數據圖譜關聯呈現;另一方面,還可與其他系統進行對接,在有數據沉澱一方,進行實體抽離,在知識圖譜端進行知識加工,最終將知識網絡和潛在關係,提供到知識使用人員。
  • 基於向量空間的知識圖譜查詢及結果解釋
    病人有兩種方式和知識圖譜產生關聯,服藥或者治療。可以想像雖然只吃了這個藥,但其實背後和一個龐大的知識庫相關聯。因此在分析病人的一些藥物推薦或者是病人症狀的時候,就可以在上面進行搜索。SPARQL查詢是類似於關係資料庫的SQL, W3C推薦,面向關聯數據的標準結構化查詢語言,主要基於圖模式匹配來查詢信息。
  • 「雲享智慧」基於「NLP技術+知識圖譜」模式,提供大消費場景化解決...
    本文文章插圖來源於雲享智慧,經授權使用為了讓品牌能夠與消費者更好的溝通,雲享智慧選擇了最貼近人類思考方式的人工智慧——知識圖譜,並將其應用於垂直場景,讓範圍更精確、認知更明確,這就是雲享智慧的核心技術——熵澤知識圖譜中臺。場景化的知識圖譜的落地,一方面依賴於技術,另一方面依賴於已有的業務領域的知識積累。
  • 明略科技入選愛分析中國知識圖譜廠商全景報告
    近日,中國領先的產業數位化研究與諮詢機構愛分析發布《中國知識圖譜廠商全景報告》,在金融、政府與公共服務、能源與工業、零售4大行業的13個應用場景中,明略科技均被評為具備成熟解決方案和落地能力的知識圖譜廠商。  在數字經濟時代,數據是重要的生產要素。數據挖掘能力是企業數位化轉型成功的基石。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    與guge類似,weiruan將知識圖譜技術用於旗下必應搜尋引擎,優化搜索結果質量和交互式搜索體驗;lianshu 利用知識圖譜挖掘其平臺上人、事、資訊等之間的相互關係,使得用戶更容易發現感興趣的內容、找到志同道合的朋友;yamaxun等電商平臺使用知識圖譜為用戶和產品建立聯繫,執行更精準的產品推薦;IBM 則專注於企業服務,其 IBM Watson Discovery
  • 這是一份通俗易懂的知識圖譜技術與應用指南
    相反,OrientDB和JanusGraph(原Titan)支持分布式,但這些系統相對較新,社區不如Neo4j活躍,這也就意味著使用過程當中不可避免地會遇到一些刺手的問題。如果選擇使用RDF的存儲系統,Jena或許一個比較不錯的選擇。6. 金融知識圖譜的搭建接下來我們看一個實際的具體案例,講解怎麼一步步搭建可落地的金融風控領域的知識圖譜系統。
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    數據圖譜不是知識圖譜吳信東認為,大多數情況下,我們所說的、所用到的圖譜並沒有後臺知識,只是數據圖譜,而不是知識圖譜。知識圖譜應該有三個組成部分,首先是概念,即圖譜的節點。概念跟概念之間是連接,是關係,即圖譜的邊。只有概念和關係還不夠,還需要背景知識解釋概念,和連接的語義。
  • 知識圖譜如何打破人工智慧的認知天花板?
    InfoQ 基於對知識圖譜技術生態的深刻觀察,重磅發布《知識圖譜:打破人工智慧的認知天花板》研究報告。帶您探索知識圖譜如何實現機器的辨識、思考與主動學習,梳理知識圖譜技術體系與產業鏈結構,剖析實現認知智能的技術挑戰與發展趨勢,探求知識圖譜將如何打破人工智慧的認知天花板。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • YOCSEF合肥技術論壇:知識圖譜是否真的物有所值
    10月10號,YOCSEF合肥技術論壇成功在線召開,本次主題圍繞知識圖譜是否真的物有所值展開。知識圖譜是近年來的研究和應用熱點,已經進入其蓬勃發展的階段,並且逐步輻射眾多行業。但是知識圖譜成本高昂,能否獲得相對應的增益,達到物有所值的目的仍舊是值得探討的問題。
  • 這周日,北理工將邀數位大咖研討「知識圖譜與智能問答」
    在過去幾個月中,其有效地融合了高校資源和業界資源推出了Python、知識圖譜、機器學習等系列專題學習與研討活動,其中知識圖譜專題涉及了知識圖譜構建技術、知識圖譜應用、大規模知識圖譜數據存儲、知識圖譜與聊天機器人等主題,引起了北京地區廣大師生和業界人員的高度關注。
  • 知識圖譜在金融資管領域的應用、實踐與展望
    知識圖譜是人工智慧的一個重要分支,對可解釋人工智慧具有重要作用。金融知識圖譜作為專業領域知識圖譜,在智能投研、智能風控、智能客服、智能合規等領域有著重要的應用價值。本文綜合熵簡科技三年以來的產業實踐,結合知識圖譜領域的技術前沿,以及資管場景的落地應用,淺談知識圖譜在金融資管領域的發展現狀與應用展望。