知識圖譜在小米的應用與探索

2021-02-19 與數據同行

【與數據同行】已開通綜合、數據倉庫、數據分析、產品經理、數據治理及機器學習六大專業群,加微信號frank61822702 為好友後入群。新開招聘微信群,請關注【與數據同行】公眾號,後臺回復「招聘」後獲得入群方法。

正文開始



導讀:小米知識圖譜於2017年創立,已支持公司了每天億級的訪問,已賦能小愛同學,小米有品、智能問答、用戶畫像、虛擬助手、智能客服等網際網路產品。通過引入知識圖譜,這些產品在內容理解、用戶理解、實體推薦等方面都有了顯著的效果提升。本文的主要內容包括:

小米知識圖譜介紹:包括小米的商業模式、小米人工智慧部、知識圖譜在人工智慧部的定位、小米知識圖譜的發展歷程、以及小米知識圖譜的落地場景。

小米知識圖譜關鍵技術:小米知識圖譜在成長過程中的技術積累。

小米行業知識圖譜探索:結合業務,跟大家分享下小米在行業圖譜上的探索。

1. 小米知識圖譜介紹

在了解小米知識圖譜之前,先介紹下小米的商業模式。小米在商業模式上提出硬體+新零售+網際網路鐵人三項的商業模式。這種商業模式下有像手機、小米音箱類的智能硬體;有米商城,有品電商這樣的新零售;還有像人工智慧這樣的網際網路服務。三者相扶相持,相互促進,是一種閉環的生態模式,在這種生態模式下,有很多潛在的應用場景,對人工智慧,對內容和知識有很多訴求。

小米人工智慧部已經構建了完整的中臺體系,囊括了視覺、NLP、知識圖譜、語音、深度學習等底層的基礎能力,其中知識圖譜就處於這一層。

中間層是問答服務、智能客服等應用能力層,上層是小愛同學、商城等網際網路業務和傳統業務層,這些都是知識圖譜的落地場景,其中小愛同學是小米公司推出的虛擬人工的智能助理,小愛同學適用於手機、音響、電視、手錶以及手環等穿戴設備,通過搭載小愛同學的智能硬體,可以滿足用戶獲取知識和信息的需求。

小米知識圖譜在中臺體系下不斷的成長,2017年小米知識圖譜有了一些開放知識的積累, 2018年知識圖譜團隊成立,2018年底,通用知識圖譜的構建,百科類圖譜構建完成,2019年中,業務拓展,線上調用達到近億次,2019年底,知識擴增,知識積累了超三百億,2020年行業探索,行業圖譜落地。雖然發展的比較晚,但是在自己的業務場景下,發展還算迅速。

小米知識圖譜在公司的職責,主要是研究開放領域和行業領域的構建和應用技術,並把圖譜推廣到相關業務場景上,來提高用戶的滿意度的和業務變現轉化能力。團隊已構建超三百億開放知識和涉及13個領域。除此之外,小米還參與了一些開放知識圖譜的構建,是OpenKG之OpenBase子項目組主要成員單位,是IEEE知識圖譜國家標準編制組主要成員。

小米知識圖譜已經已經賦能公司10+個業務場景,這些落地場景包括智能問答、智能客服、小愛同學、虛擬助手、全局搜索、NLP等這樣通用的知識領域。還有像遊戲中心、廣告,小米有品,小米網等這樣的行業知識,下面我會重點介紹一下具體場景的細節。

2. 應用場景:智能問答

第一個是小米知識圖譜在智能問答場景的應用,這個比較廣泛,落地的設備較多,已服務於手機、音響、智能穿戴、智能車載、電視、兒童設備。應用於小愛音響、小愛同學、小尋手錶、車載設備等,滿足用戶近億次/天的請求,後面我們介紹落地場景的示例。

目前,智能問答包括兩種模式:一種是一般問答模式,還有一種是規則推理的。一般問答場景下,在返回具體答案的同時,還會把關聯實體的附加信息滿足給用戶,比如用戶詢問鞏俐的籍貫的時候,返回答案不只是會返回山東濟南,還會把問答實體鞏俐的視頻,人物關係,資訊新聞,代表作品等都呈現給用戶,這樣在用戶興趣激發上起到了很大作用。另外一個古詩詞CASE,也能很好的體現這一點,比如用戶問靜夜思的作者是誰,用戶除了想得到這首詩的作者外,可能還想溫故這首詩,也可能想要了解這首詩的釋義。所以我們會把有聲資源、釋義一併滿足給用戶。

最後,問答在歧義場景下還支持列表形式展現。

除了一般的問答方式以外,小米還支持推理的問答。比如:多條件推理,多跳關係推理,還支持像求最大值,最小值這種基礎推理算子。多條件推理的例子如:山東籍的雙子座是誰,首先會對資料庫中人物實體的生日推理出星座是雙子座,然後推出省份,最後篩選聚合產出實體結果 ,第二種是多跳關係推理,比較典型的就是人物與人物的六度關係推理,如:徐志摩與梁思成的兒子梁從誡是什麼關係?我們會試圖計算起始實體到目標實體的關係的最短可達路徑呈現給用戶。現有的推理邏方法,比如說基於規則的推理、基於模型的推理,規則推理主要包含規則引擎和一階的邏輯規則。模型推理是用機器學習去表示學習關係推理。所以這裡根據自己的需求、應用場景和應用情況去選擇。

後面介紹一些基於智能問答的一些方法。基於圖譜的智能問答,通用流程如下:語音識別環節,意圖識別,實體匹配,實體查詢返回結果。

舉個例子,如武漢大學周邊什麼好吃的,首先做分詞或者詞法分析,分出武漢大學和好吃的這些關鍵mention,然後意圖識別計算得到是美食需求的,第三步是實體識別,把mention武漢大學映射到知識圖譜中的實體上,把屬性好吃映射成推薦食物,最後實體查詢計算,返回熱乾麵,武昌魚,豆皮,油燜大蝦。

小米基於知識問答有很多方法,第一種是基於模版的方法,它的大體流程是這樣的:

第一步對query做實體連結(實體連結技術在第二部分會詳細介紹),第二步把實體名用實體連結後的主實體對應的實體類型替換後去離線的模板庫匹配,返回模板庫中映射後的歸一的模版,最後查詢實體庫返回答案。

舉個例子:

姚明的老婆是誰,第一步先做實體連結,後面把姚明的實體類型人物替換姚明,去人物垂域模板規則庫查詢模板,發現命中了lambda_x.配偶這個模板。最後在圖譜數據國查詢姚明的配偶,返回答案葉莉。這種方法有一個好處就是準確率比較好,是離線挖掘的模板,所以性能也比較好,但是缺點也比較明顯泛化能力差。其中模板的挖掘方法的話,主要是離線從知識圖譜中實體中找目標實體對,然後去問答論壇去匹配問題與答案分別出現的pair,生成模板的pair,這麼做會有很多噪聲需要做進一步過濾,比如:需要過濾掉出現多屬性的問答對的情況和頻次出現比較低的情況。

為了解決第一種方法泛化性能比較差的問題,用第二種方式基於槽填充的方式來互補。第一種方法在李白有哪些詩的時候,可以命中模版庫滿足用戶的需求。但是變成李白有名的詩有哪些時,就無法找到答案了。為了解決這種問題,我們用了槽填充和意圖識別聯合學習的方法方法,借鑑了2016年liu的基於attention的意圖檢測和插槽填充聯合學習的的方法。該方法把槽填充與意圖識別聯合的學習,方法包含兩部分槽填充和意圖識別,兩部分組成,第一部分是槽填充問題轉化為序列標註的NER問題,第二步是意圖識別,把意圖識別轉換為文本分類問題。最後把兩個問題整合做一個聯合學習。PPT右下角已給出論文和代碼。該方法在部分垂哉上的召回的提升比較明顯。在菜譜,古詩垂域上欠召回的badcase解決率為30%

第三種方法是基於子圖檢索,該方法依賴於實體的關係路徑。具體第一步query做實體連結,把實體轉化為實體ID,第二步根據實體周圍的屬性篩選出候選路徑。第三步對輸入文本與候選路徑進行實體語義相似和排序,取top結果。

以姚明老婆的國籍是啥為例子,第一步用實體連結找到用到接接到知識圖譜姚明這個實體;第二步就是找到姚明這個實體周邊的候選的屬性路徑,如姚明的配偶的國籍,姚明配偶的身高,姚明配偶的類型,姚明教練的出生日期,姚明隊友的出生地等;第三步用bert計算候選路徑和目標路徑的相似關係,除了相似度外,引入了像類型過濾這樣的條件約束,過濾給出排序分值然後取一個最大值。

以上都是基於圖譜的結構化的問答場景,對於非結構的, 比如:天空為什麼是藍色的,怎麼控制貓的飲食量,青蛙王子是不是安徒生的童話,這三種為什麼,怎麼樣,是不是,類型的問題,以上方法無法解決,需要通過基於搜索的FAQ的方式,這裡就不介紹了。

3. 應用場景:智能客服

第二個是知識圖譜到智能客服的場景。目前智能客服已經落地小米網和小米金融等業務場景下。PPT中是智能客服團隊用NL2SQL的方法在基金客服上的一個落地場景。

知識圖譜在智能客服中的技術框圖體系,第一層是數據標準化層,主要包括數據倉庫,數據治理,數據融合,第二層是AI引擎層,有實體抽取引擎,屬性集合引擎、知識圖譜引擎等,第三層是數據共享交換層,第四層是數據服務,數據分析等。

4. 應用場景:小米商城&遊戲中心

第三個應用場景是在小米商城和遊戲中心的應用,目前商品圖譜和遊戲圖譜已應用到小米商城,有品商城,遊戲中心等業務下。已落在有品商城/小米商城的場景詞搜索發現、用戶sug引導、商品評價的用戶觀點的的用戶觀點的抽取及聚合,及遊戲的評論的觀點抽取及聚合業務上。在小米的商品圖譜取得不錯的效果,已助力商品轉化率、用戶購買轉化率及遊戲下載率至少有30%的提升。

另外小米知識圖譜還在多模態圖譜應用場景下做了嘗試,與AI虛擬助手合作探索了圖片態與文本態實體語義關聯,目前已上線植物識圖的功能,後面會持續的擴展。小米知識圖譜的落地場景很多,這裡只介紹了一部分,後面是小米知識圖譜積累的一些關鍵技術。

1. 小米知識圖譜賦能各業務場景

目前小米知識圖譜已經具備20+關鍵能力,比如實體連結,實體融合,概念圖譜,實體推理,實體分類,知識理解,實體關聯,用戶理解等等,後面挑出實體連結,實體融合,概念圖譜挖掘三個關鍵技術和大家分享探討。

2. 關鍵技術:實體連結

實體連結 ( Entity Linking ),也叫實體鏈指,該任務要求我們將非結構化數據中的表示實體的詞語(即所謂mention,對某個實體的指稱項)識別出來,並將從知識庫 ( 領域詞庫,知識圖譜等 ) 中找到mention所表示的那一個實體所以實體連結的任務定義:就是給定文本mention,判定指代知識圖譜中的實體首先第一個是實體連結 ( Entity Linking )。

舉個例子:

比如說劉德華的天下無賊主題曲那一天是誰唱的,實體連結需要把劉德華,天下無賊,那一天三個mention聯接到知識圖譜的實體上。以方便應用到如主題分析,語義的信息檢索等更深度的應用場景下。

常見的實體連結如PPT流程。包括中文的切詞,命名實體識別,候選實體選取,實體消歧,實體排序,判空幾部分。第一步中文切詞有很多方法,比如像結巴等一些開源的工具,我們的做法是整合了已有的實體名、實體同義詞名,及開放錨文本信息做為詞典,用維特比算法構造了切詞功能。除了切詞外我們還用的序列標註的方式做了命名實體識別,把實體詞表與NER的結果合併。

其中NER用的是BERT+CRF。在NER的訓練數據集構造上,起初用遠程監督的方法構造訓練集的方法,但是發現在句子中有多個實體詞的情況,遠程監督的方式只能標註出部分實體詞,這樣對模型的召回影響比較大。所以我們利用開放比賽的標註數據作為數據集,再加上部分遠程監督的數據和人工標註的數據作為最終的訓練樣本。這種方式的訓練結果比只有遠程監督的樣本訓練的結果提升10個點左右。

接下來第二步是候選實體選取,我們離線挖掘了大量的同義詞,別名,縮寫詞等,放在圖譜實體。命中label,alias,同義詞,縮寫的作為候選對象。但是調研中發現過多的候選詞不一定有好的效果,比如:長尾的,互動比較少、豐富度比較少的實體引入會造成很多噪聲並且很影響處理性能。因此我們利用用戶使用的熱度,實體的流行度,實體豐富度等對候選實體做了篩選和過濾。精簡後準確率提升了3%,召回下降0.4%,預測速度提升50%。

接下來是實體消歧,實體排序,判空這三塊。這三塊不好解耦,所以可以一塊來說。這裡用到了兩處種特徵,第一種是上下文無關的,第二種是語義相關聯的特徵。

上下文無關的特徵包含:實體流行度,用戶熱度,實體豐富度等等。語義相關的特徵包括三部分:

① 對輸入實體mention預測實體類型, 用到的18年Raiman, J. R., & Raiman, O. M.發表的"DeepType:用神經網的分類系統演化來做多語言實體鏈連結"的方法,該方法基於當我們知道了候選實體的類型之後,這個消歧的任務便被解決得差不多了的假設將實體連結過程看成是分類獲取的過程。分類的過程是針對知識庫中的分類體系設計了一個DeepType的預測系統。具體是用輸入數據文本通過bert編碼取CLS 位置的向量、候選實體對應開始和結束位置對應的特徵向量,三個向量連接,經過全連接層,最後softmax激活得到候選實體的類別得到分類。

② 是DeepMatch部分,參照18年 Le, P., & Titov, I的一種通過候選實體與mention之間的潛在關係建模來提升實體連結的效果。該文章提出了將實體連結問題轉化為文本語義匹配問題,構建了一個DeepMatch模型來匹配輸入語句的上下文和候選實體的描述信息對。把待消歧文本作為text_a,每個候選實體的SPO全部連接起來組成一段文本text_b,計算text_a和text_b的相關性 。訓練時選取連接到的實體作為正例,在候選實體裡選取負例。兩個句子長度最大選取為256,負樣本選取了3個。取CLS 位置向量、候選實體對應開始和結束位置對應的特徵向量,三個向量連接經過全連接層,最後sigmoid激活得到候選實體的概率得分。

③ 除了這兩個特徵外還有共現、協同推斷等特徵。最後把是否存在多個同義詞指向同一個實體、其他mention是否出現在該實體的信息裡、LinkCount、DeepMatch模型的相似度、DeepType模型的相似度等經過MLP得到一個分值,排序取 top1的實體,如果top1的分值大於閾值就判定該實體,如果小於閾值則為空。

小米知識圖譜通過該方法參加了2020CCKS比賽,很榮幸拿到了總決賽的第一名,F1的值達到了0.8954。但是這種方法在我的業務場景,準確率召回可以達到96%以上。

另外,除了效果,這裡在業務上有會有處理性能的問題,所以這裡用到三種方法加速,第一是引用了tensorflow的batching serving,第二是把bert中的transformer 用nvidia的faster Transformer替換,第三是用Fp16的方法量化,這種加速效果比較明顯的QPS從30提升到1200。

3. 關鍵技術:知識融合

第二種關鍵技術,是知識融合,該任務的定義是,給定實體集合,識別並合併等價實體 ( 註:等價定義為待融實體指代了現實世界中同一事物或概念 ) 。舉這個例子,花木蘭電影有來自騰訊,愛奇藝,優酷,豆瓣,電視貓, 維基的數據。需要把實體化後的小實體,找到歸一組,合併融合生成新的實體,更新至知識庫圖譜中這一過程中稱為知識融合。

基於任務定義,把這種任務,拆解成了實體對齊和實體擇優兩部分。

實體對齊的方法目前包含成對的實體對齊,集體實體對齊,大規模集體實體對齊及知識庫與知識庫之間的模式層的實體對齊。小米著重做的是成對對齊,現在用了就兩種的方法:

第一種方法是傳統的方法,基於觀察的先驗,比如:

① 類別間的屬性重要度是不同的 ( 比如人物中,出生時間,出生地點,性別,職業很重要;地點類的,經度,緯度很重要;視頻: 上映時間,演員,導演,角色很重要;生物:種屬科目綱很重要等 )。

② 文本中的時間,地點很重要,( 比如一些infoxbox中未覆蓋的事件的時間及地點等 ) 基於這兩個經驗,我用一些tfidf的方法計算一些屬性在不同類中的重要性,並找文本中的時間/地點做為一個重要的文本特徵,並計算對應屬性值相似度,目前用對一些相似度主要是一基於字粒度的文文相似度,及token粒度的主題相似度等。

第二種方法用基於embedding的deep Match方法,主要參照了2018年ACM SIGMOD 的方法做了一些改進,該方法把實體中的每個屬性下的O的Value concate成一個句子,通過雙向LSTM等一模型encodeing成向量,計算每個屬性下的emdming的相似度,最後經過一個分類模型,判斷是否是同一個實體。該方法沒有考慮類別中的屬性重要度的差異,所以準確與召回效果都不太理想,我們也在考慮更多的方法嘗試改進。

以上兩種方法是針對對於結構化實體對齊的方法,如果是開放文本要依賴實體連結技術。

知識融合第二部實體擇優,是在經過實體對齊後,把實體屬性的差異性或者衝突性做消解。目前的做法基於以下幾個方面對實體的質量進行控制控制:

4. 關鍵技術:概念圖譜

概念圖譜的概挖掘目前小米圖譜基本三種方式構建。

第一種是在本體模式層構建了分類體系, 分類體系參照了一些開放的行業和分類標準,還參考了一些人工整理的行業的標準體系。

第二種是基於autophrase的方法,是實例層的ISA關係的挖掘,該方法是2017年一篇論文中採用海量文本挖掘的方法,該方法通過主要是用短語挖掘的方法來挖掘概念。這種方法需要滿足四個條件:

這個模型的訓練用實體的長文本和內容文本、遠程的Wikipedia/cn_probase拿到的開放的的高質量的短語及根據不同領域標註的高質量的詞語三個輸入作為輸入語料。第二步用n_gram的候選篩選,出正樣本與負樣本,正樣本是N_grame頻率大於閾值和人工標註的領域短語及人工cnproese匹配的高質量短語;剩餘是負樣本。由於負樣本中摻雜大量的正樣本,所以後面是從負樣本中使用集成分類器訓練了多個基分器來從負樣本中強化出正樣本。為了保證概念短語的質量,方法通過詞性分析過濾不符合語法的短語。

針對概念挖掘的第三種方法是基於序列標註的方法。分為兩步。第一步做一個分類,針對實體長文本描述進行句子拆分,之後判斷 否有這個概念相關的一個實體詞。第二步使用Bert+BiLSTM+CRF的方式作序列標註,標註出SPO的值。

上面三種方法都是概念挖掘,對於實體與概念的關聯,可以用實體分類的方法把模式層的與實體掛接,用實體連結的方法把開放詞中的短語與體掛接。

5. 關鍵技術:自動化構建技術

除些之外呢,小米圖譜還在工程構建已有了一套完成的自動化構建技術,可以支持用戶定製,自動實體化,自動實體關係等。

小米知識圖譜的關鍵技術還有很多,我們在這裡只給大家介紹典型的幾個關鍵技術,有興趣的話可以線下交流。最後我們看一下小米知識圖譜在行業的一些探索。

1. 商品圖譜

第一個業務場景的探索商品圖譜,主要的應用場景是小米商城,小米品的搜索和推薦場景,目標就是輔助電商平臺精準的搜索。

現在商品圖譜已在商品分類體系的建設、主商品詞提取、商品同義詞挖掘、上下位體系構建、場景概念挖掘五個方向構建完成。其中分類體系是在模式層的構建;主商品詞提取和商品同義詞挖掘用於精確匹配與召回;上下位體系結構用於用戶推薦;場景概念挖掘用於搜索發現及場景推薦。

場景挖掘以泰國旅遊為例,可以與沙灘鞋,電話卡,浮潛裝備等商品有關聯,燒烤場景可能與燒烤架,木炭,食材等商品關聯。

目前商品圖譜已把這五個方向的數據和技術落地到小米商城,有品商城上。用戶轉化率和商品轉化率都有不錯的提升。

2. 上位詞

上位詞挖掘的方法分為三部分:

第一部分是上位詞判定,用bert加上分類模型從用戶日誌的query中提取出來確識別是否是商品詞或者上位詞。第二部分通過層次化的分類器,對挖掘到的上位詞合併到分類體系中,這裡用的了HMC的多分類器。第三部分是把商品與上位詞關聯,用商品名做texta, 上位詞做textb,把關聯問題轉化為文本分類問題。

目前用這種方法挖掘出的上位詞,平均每個商品覆蓋10.5個上位詞。

3. 同義詞

商品圖譜涉及到的還有一個就是同義詞挖掘。我們是從商品標題中抽取同義詞,在調研中發現,很多商鋪為了儘可能多的命中搜索詞,會把可能多的把相同相近或者同義的詞堆砌到商品名中。所以基於這個假設,我們把同義詞的挖掘,轉化為一個序列標註問題。

其中訓練數據用人工標註+ ( 通用圖譜+同義詞庫 ) 遠程數據作為訓練樣本。商品title做為texta, 候選的詞做為textb最後標註出BIOS。因為店鋪除了堆砌到同名商品外,還會打包買一些東西,比如鍋盤墊與炒鍋蓋打包賣,所以這樣做會有準確的問題。為了這種問題,我用了以下三種方法去噪:

用三種方法過濾後我們的準確率達到94%。

4. 金融圖譜

第二個行業落地場景,是客服團隊金融圖譜在小米金融信貸及保險等業務的應用。我們就業務場景中的身份核實的子功能舉例:

碰撞識別主查核實多個用戶的公司地址是否為同一公司

關聯方探查,是判斷申請貸人與信息是否一致

後面就是金融知識圖譜的框圖:

除了商品及遊戲及金融行業的應用外,我們在更多的行業圖譜的落地及更多的通用圖譜的應用場景也在持續探索中。

簡單總結下,小米知識圖譜已構建超百億的知識,落地10+的業務場景,擁有20+個技術能力,擁有成熟的自動化構建流程,小米知識圖譜已有多個行業知識圖譜落地。最後,歡迎大家體驗/使用小愛同學等小米的產品,也歡迎大家吐槽!

網易大數據用戶畫像實踐

除了報表和取數,我還有多少大數據應用的機會呢?

俞軍:為什麼多數產品經理都不合格

用戶畫像,該怎麼分析?

用戶畫像標籤體系包括哪些維度?有哪些應用場景?(附完整導圖)

用戶畫像

如何建設一個標籤庫?

產品的天機和成敗:我的實踐史與俞軍的方法論

工作六年,我總結了一份數據產品建設指南

BI(商業智能)的未來?

超越BI,數據產品的前途在哪裡?

數據產品經理,並不是數據 + 產品經理

五年數字大屏之路,「述說」著我們大數據變現怎樣的故事?(附演示視頻)

為什麼你的標籤庫沒人用?

重新認識數據可視化

相關焦點

  • 縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕
    為提升行業人員準確界定知識圖譜應用場景需求能力,提高知識圖譜技術的行業普及程度,進一步推進知識圖譜技術人工在智能領域的有效應用,北京理工大學與復旦大學再次聯手,發起2019年「知識圖譜前沿技術論壇」。本論壇不收取任何費用,旨在提供學界與業界的充分交流平臺,歡迎各界人士蒞臨本論壇。
  • 產品經理的知識圖譜應用
    知識圖譜對於產品經理的工作有著很大的幫助,能夠建立更系統的設計流程,其應用核心在於深刻理解業務。數據層:是知識圖譜的事實數據,以相關事實為單位進行存儲,比如張三——妻子——李四;張三——出生年份——1985等。1.3.2 知識圖譜構建流程知識圖譜的構建是後續應用的基礎,知識圖譜確定了本體庫,就需要對知識圖譜的數據進行構建。
  • 6個方面分析:知識圖譜的價值和應用
    當我們進行搜索時,搜索結果右側的聯想,來自於知識圖譜技術的應用。我們幾乎每天都會接收到各種各樣的推薦信息,從新聞、購物到吃飯、娛樂。個性化推薦作為一種信息過濾的重要手段,可以依據我們的習慣和愛好推薦合適的服務,也來自於知識圖譜技術的應用。
  • 多知識圖譜的融合算法探索
    、結合NLP應用的方法。很自然的做法是,為了契合各個業務的實際場景,我們會為每個業務方獨立出各自的知識圖譜,方便與業務方共同管理數據。隨著業務深入,很快會發現單個業務知識圖譜因為規模小,在文本語義理解類任務上非常受限,此時需要將多個知識圖譜進行融合,打通知識邊界。
  • 一個典型的知識圖譜應用建設案例
    1知識圖譜的幾種典型應用方式基於知識圖譜的應用可以分為幾種典型的類型,這幾種應用使用的場景各有不同,在使用技術上也各有側重,我們希望能夠根據不同類型,總結出一些通用的場景,指導應用建設:1)知識推理類型就是通過已知的知識,推理出未知的知識,這在知識圖譜應用的建設中
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    知識圖譜的缺點本質上都是「二元一階謂詞邏輯」作為知識表示的本身缺陷帶來的。知識表示是長久以來研究者孜孜不倦追尋探索的話題,完全依靠(頭實體、關係、尾實體)這樣的命題,儘管能表示大部分簡單事件或實體屬性,對於複雜知識卻束手無策。
  • AI產品經理必修課:知識圖譜的入門與應用
    知識圖譜是AI的基礎功能,本篇文章筆者就知識圖譜是什麼?如何構建知識圖譜?怎麼應用?進行了討論分析,與大家分享。一、人工智慧時代已經來臨伴隨著全球智慧型手機銷量的首次下滑,移動網際網路已經不可避免地步入了下半場。
  • 鄒磊 | 知識圖譜的數據應用和研究動態
    因此實際的資料庫應用項目中就存在一個從概念模型到實現模型的轉換問題,例如如何根據ER圖來構建關係表。從這個角度來看,知識圖譜又不同於ER圖,因為知識圖譜不僅顯式地刻畫了實體和實體關係,而且其本身也定義了一種計算機所實現的數據模型。
  • 老焦專欄|一個典型的知識圖譜應用建設案例
    1知識圖譜的幾種典型應用方式基於知識圖譜的應用可以分為幾種典型的類型,這幾種應用使用的場景各有不同,在使用技術上也各有側重,我們希望能夠根據不同類型,總結出一些通用的場景,指導應用建設:1)知識推理類型就是通過已知的知識,推理出未知的知識,這在知識圖譜應用的建設中
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 【乾貨】最全知識圖譜綜述#2: 構建技術與典型應用
    我們專知的技術基石之一正是知識圖譜-構建AI知識體系-專知主題知識樹簡介。下面我們特別整理了關於知識圖譜的技術全面綜述,涵蓋基本定義與架構、代表性知識圖譜庫、構建技術、開源庫和典型應用。主要基於的參考文獻來自[22]和[40], 本人(Quan)做了部分修整。昨天我們介紹了《知識圖譜的概念以及構建技術-知識提取、知識表示、知識融合》,今天介紹知識圖譜的知識推理和典型應用。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    知識圖譜由節點和邊組成,節點表示實體,邊表示實體與實體之間的關係,這是最直觀、最易於理解的知識表示和實現知識推理的框架,也奠定了現代問答系統的基礎。從20世紀80年代的知識庫與推理機,到21世紀初的語義網絡和本體論,其核心是早期版本的知識圖譜,要麼側重知識表示,要麼側重知識推理,但一直苦於規模小、應用場景不清楚而發展緩慢。
  • 是時候該關注「知識圖譜」了!
    編者按隨著大數據、自然語言處理、人工智慧等技術的發展,知識圖譜成為近幾年的熱點技術,在生活服務、醫療輔助、金融風控等不同行業和領域,實現了眾多的智能化應用。知識圖譜是表示關係的最有效的方式,提供了從「關係」的角度分析問題的能力,讓機器能夠像人一樣理解世界、獲取知識,進而做出決策和行動。在大數據的推動下,知識圖譜受到了業界和學術界的廣泛關注。自2012 年Google推出第一版知識圖譜軟體,相繼湧現出一大批面向不同領域和應用的知識圖譜,如Yago,DBpedia,MusicBrainz,PubMed等,為各類智能應用帶來了大量結構化知識。
  • 一文讀懂知識圖譜的商業應用進程及技術背景
    KG應用篇在知識圖譜應用這一塊我shi會通過介紹名人知識圖譜的聚類、知識圖譜在搜尋引擎、聊天機器人、金融科技領域等的商業應用。例如著名的大數據公司Palantir利用知識圖譜建立數據的關聯以提升上遊數據分析的效果。與知識圖譜有關的語義技術也被用來提升機器與機器之間的語義互操作能力,解決機器之間的語義理解問題。例如,全球最大物聯網標準化組織OneM2M就把語義和知識技術作為物聯設備抽象和語義封裝的技術基礎。在金融、農業、電商、醫療健康、環境保護等大量的垂直領域,知識圖譜都得到廣泛的應用。
  • 知識圖譜發展的難點&構建行業知識圖譜的重要性
    四、知識圖譜的誕生當你對陌生領域進行學習時,無法把握要點及整體框架,以至於檢索效率低、入門無道時,知識圖譜應運而生。自2012年5月,Google將知識圖譜應用到其搜尋引擎,以提升其搜索服務能力,將各種渠道收集而來的相關信息展示在搜索結果旁的信息框中,以結構化模塊形式提供給用戶。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    坦率地講,各行各業對如何落地知識圖譜這個問題,或多或少都心存一絲疑惑。人類知識和機器可理解的知識有什麼區別?知識圖譜如何突破自身局限性,從「萬事通」轉為「科學家」?百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。
  • 【知識圖譜】知識圖譜嵌入模型簡介
    由於在表達人類先驗知識上具有優良的特性,知識圖譜近年來在自然語言處理、問答系統、推薦系統等諸多領域取得了廣泛且成功的應用。    圖1:知識圖譜示意圖  然而,知識圖譜通常存在連結缺失問題,這限制了知識圖譜在相關下遊任務中的應用。為解決該問題,知識圖譜補全任務應運而生。
  • 知識圖譜是什麼?
    知識圖譜最開始是Google為了優化搜尋引擎提出來的,推出之後引起了業界轟動,隨後其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發展到今天,不僅是應用在搜索行業,已經是AI的基礎功能了。那到底知識圖譜是什麼?有什麼能力?怎麼應用?這就是本文想要討論的內容。
  • 實戰課堂丨大數據關係信息挖掘:知識圖譜應用案例分享
    負責聯想創投大數據機器智能產品和行業應用模型開發。擁有多年高性能計算、大數據、人工智慧行業經驗 。畢業於美國紐約州立大學,曾在IBM認知團隊任行業解決方案專家。榮之聯實戰課堂第4期的《解讀大數據分析:新技術,新實踐》主題沙龍上,聯想創投(香港)機器智能實驗室高級產品經理錢廣銳跟大家分享了《大數據關係信息挖掘:知識圖譜應用案例分享》。
  • 校園極客創意無限 百度知識圖譜應用點亮生活
    本次大賽以知識圖譜為主題,目的是激發大學生的想像力,尋找有創意、有實用價值的Idea以及基於知識圖譜的應用、衍生應用、合作應用。開賽兩個月以來,組委會共收到全國30個城市、60所高校的80餘件作品,最終有8個優秀作品入圍總決賽。