從本體論開始說起——運營商關係圖譜的構建及應用

2021-01-13 聯通bigdata

人類學家羅賓·鄧巴認為:一個人維持緊密人際關係的人數最多為150人。

網絡社交平臺出現後,很多人認為虛擬世界將突破鄧巴這一理論,但實際情況卻是:如果要和更多人互動,那麼勢必需要削弱在其它人身上花的精力。

但是,人際關係將隨著時間而產生親疏遠近等不同的變化,如果能夠識別出人與人的關係定義,則能為諸多行業領域帶來更多方向的探索,如:詐騙團夥識別,通過詐騙分子的通話關係網去識別可能存在的團夥關係,將壞人一網打盡。

一.本體論

全球資訊網之父Tim Berners-Lee教授在1998年將語義網絡(Semantic web)帶入人類的視線。目的是賦予網絡理解詞語、概念以及它們之間邏輯關係的能力,使人機互動變得更有效率。本體論(Ontology)做為語義網的核心,是研究實體存在及其本質的通用理論。1993年Thomas Gruber教授提出了本體論最廣為認同的定義:共享概念模型的明確的形式化規範說明。這裡面實際說了四個概念,即:「概念模型」(Conceptualization)指通過客觀世界中一些現象的相關概念而得到的模型;「明確」(Explicit)指所使用的概念及其約束都有明確的定義;「形式化」(Formal)指Ontology是計算機可讀的;「共享(Share)」指本體論中體現的是共同認可的知識,反映的是相關領域中公認的概念集。

本體論最初是形上學的一個分支。對於形上學的理解這裡給出一個例子(如:圖1)

圖1

圖中中文的「貓」與「貓咪」,英文的「cat」,「貓的圖片」都可以用來描述「貓」這個實物。那麼在哲學層面,「貓」這樣一個實物就是亞里斯多德口中的「實體」,巴門尼德口中的「存在」,以及本體論中所說的「本體」。而上圖這些描述均指的是「貓」這個「本體」的符號。

從這裡,我們能看出「本體」這個概念在哲學層面上是形而上的,是只可意會不可言傳的。因此,對於一個實體,所有的描述都是這個「本體」的外在符號,我們感受到的,聽到的,看到的,都成為符號到本體的某種映射。

解釋完本體哲學層面的意思,我們是否對語義層面的本體有更好的理解呢?其實,其主要目的就是要建立這樣一種映射,例如:{「貓」,「貓咪」,「喵咪」,「cat」}這個符號集都映射到「貓」這個「本體」上來。當我們建立了本體的集合,本體間的邏輯關係就是存在的(如:IF AB and BC,THEN AC)。本體的邏輯層提供了公理和推理規則,進而實現相應的邏輯推理,有可能是「屬性-本體」的關係,有可能是「子類-本體」的關係,也有可能是「本體-本體」的對立或者是近似關係。本體論最終的目的是去實現知識表達,構建知識庫,實現知識推理,即藉由本體論中的基本元素:實體與實體間的關聯,作為描述真實世界的知識模型。

二.知識圖譜

這種知識模型究竟有什麼用呢?Google在2012年提出Knowledge Graph,就是為了將傳統的keyword-based搜索向基於語義的搜索升級。知識圖譜可以用來更好的查詢複雜的關聯信息,從語義層面理解用戶意圖,改進搜索質量。這裡借用本體的概念給出我個人對知識圖譜的理解:知識圖譜就是用來描述真實世界中存在的各種實體,以及他們之間的關係,而實體本身會有多樣實例,屬性。就像之前「貓的例子」(如下圖2),當我們查詢「喵喵喵喵喵」時,返回的不會是抖音上很紅的《學貓叫》,而是「貓」這個實體。同時,在其他知識的補充下我們可以知道「貓」有一個實例是「茄子」,而「茄子」的主人是我,我和小胡都就職於聯通大數據,並且通話關係很密切。當我們知識庫中的實體、關係、屬性、實例等的量級非常大時就能繪製成一個巨型的網絡關係拓撲圖。有了這樣的知識庫,搜尋引擎就能洞察用戶查詢背後的語義信息,返回更為精準的信息。換言之,知識圖譜引入了更多的含義,對事物進行搜索,像人類一樣去思考、聯想、關聯。這也印證了Google knowledge graph的初衷:「The world is not made of strings , but is made of things.」

圖2

另外,如果我們把各種語言的「貓」都映射到「貓」這個本體上,再基於與名詞主體、動詞主體構建的邏輯關係或動賓短語等,通過反映射就可以實現簡易的機器翻譯。

三.圖資料庫

2018年9月,我們有一篇題為《專家課堂|NoSQL還是SQL》的公眾號提到圖資料庫,文中給出了NoSQL or SQL, Why NoSQL之類的話題。其中的基於場景選擇也有相應的介紹,這裡就不做贅述了。從上一節的圖中,我們可以清晰地看出,通話記錄就能以實體及關係的方式存儲。這是運營商數據的固有優勢,在我們的場景裡不用花太多時間去做基於nlp技術的實體抽取、關係抽取。我們關注的重點則是通話關係網絡中,如何保證海量的動態更新的通話節點及關係載入圖中、哪些人有哪些通話行為特徵、這些圖中挖掘出的特徵如何貢獻在現有的場景模型中等等。比如在風控領域,我們正在應用圖發現相關方法探索樣本號碼或ID是否在一個詐騙社區,是否有穩定的通話社交圈,與黑產號碼存在幾度的關聯,關聯繫數是怎樣的,是否有多個電話組內關聯等。這些都將是風控、反欺詐類模型的新特徵。

測試數據集選用三個月全網用戶的通話記錄,節點屬性包括是否聯通號、手機號碼對應職住經緯度等;邊屬性包括號碼間三個月的主被叫通話次數、主被叫次數,天數,時長等。數據集大小約為750G,載入圖資料庫結果如圖3。

圖3

載入後根據每臺機器VertexCount和EdgeCount可以看到圖資料庫共加載了約17億節點(號碼),340億邊(通話關係)。其中NumOfSkippedVertices表達了一個去重的過程,即:每個節點只加載一遍。因此,partition size的總和只有590G左右,實際上是對數據進行了壓縮。

做一個簡單的號碼關係查詢(如圖4),在百億級邊的圖資料庫裡可以實現毫秒級響應。值得注意的有兩點:1. 查詢返回為json格式;2. 查詢語言為類sql語言。

圖4

我們可以將查詢語言以文件形式存儲,通過install/run query進行查詢。同時,在後臺install一個查詢還會生成一個REST端點,這樣就可以通過http來調用參數化查詢。如圖5,通過查詢語言進行圖遍歷,尋找兩個號碼間的最短距離。這樣就能實現我們熟悉的六度空間理論(小世界理論),即:世界上任何兩個人最多只需通過6個關係就能找到對方。

圖5

如果我們定義號碼與號碼間的通話頻次為關係權重,每個人的通話人數為通話活躍度。試想,一個人和你沒有通話記錄,但是和你的好朋友通話比較頻繁,你是不是也有可能認識這個人呢?這個查詢就是從圖中挖掘你可能認識的人。查詢輸入是待查號碼與最可能認識的k個手機號,返回是查詢號碼和輸入號碼的距離(如圖6)。

圖6

最後,給出一個真實的場景案例,是否能夠通過企業少數員工號碼、imei或其他ID,尋找企業員工群體,並對該群體進行分析,來反應企業實際經營地址、活躍度等情況呢?這裡給出【2步鄰居子圖】的概念(以手機號做節點為例),即:輸入號碼聯繫人及聯繫人的聯繫人(如圖7,這裡使用可視化交互界面展示通話關係)。

圖7

在模型搭建過程中,我們對通話時間段、時長、頻次進行分析,評估可能存在的同事關係,並基於現有職住模型以及柵格技術挖掘企業真實經營地址。以我自己手機號為例(如圖8),可以看到返回企業員工主要聚集的工作地(數字表示工作地在相應柵格內的人數),即:聯通大數據公司兩個辦公區(職住數據取自2018年12月)、聯通集團。

圖8

基於對人群行為的洞察,該模型能夠幫助工商部門動態的、客觀的對企業真實位置、企業活躍情況進行評估與判斷,為相關監察監管提供數據支撐。

值得一提的是,基於聯通大數據關係圖譜,在十億級節點、百億級邊的大型網絡結構中,查詢6步鄰居子圖也只需要不到1秒(如圖9)。可視化交互界面如圖10(中間白色點為我的手機號)。

圖9
圖10

為了更細節的洞察網絡中的關係,將展示閾值縮小(如圖11)。經查驗,中間環形結構上的每個點相互間都是同事關係。社交網絡中環形結構上的點往往存在某種隱含關聯,同事關係、親疏關係、團夥關係、資金流向等等。基於不同樣本、不同場景的應用,相較於傳統資料庫類型,圖資料庫可以最大程度挖掘樣本間的關聯關係。

圖11

另外,大量經典的圖挖掘算法,如:社區發現,Pagerank,LPA等也已ready,為傳統機器學習模型入模特徵增加更多的圖特徵。

總之,本體、知識圖譜、圖資料庫都是用節點和關係為真實世界的各個場景直觀地建模,運用「圖」這種基礎性、通用性的「語言」,「高保真」地表達這個多姿多彩世界的各種關係,並且非常直觀、自然、直接和高效。聯通數據擁有得天獨厚的「節點」、「關係」優勢,我們正堅定不移的走在圖發現的道路上!

相關焦點

  • 本體論及其應用(上)
    本體論/Ontology人工智慧(AI)的發展歷史表明,知識對於智能系統來說是非常重要的。眾多的應用案例也顯示出,對於解決問題來說,豐富的知識要比優良的算法邏輯更重要。要擁有真正的智能系統,就需要採集、處理、復用和傳達知識。而本體論則是知識描述和應用的基礎。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    在行業的實踐中之所以對知識圖譜期望太高,是因為人類知識和知識圖譜這兩個概念容易引起歧義:人類知識包括原理、技能等高級知識,而知識圖譜源自語義網絡、本體論,藉助RDF三元組及模式(schema)的形式構建計算機可理解、可計算的實體及實體之間關聯的事實性知識庫,即圖譜可形象地稱作「萬事通」而非「科學家」。
  • 本體和知識圖譜之間的區別是什麼?
    隨著語義應用程式成為業界越來越熱門的話題,客戶經常來EK詢問有關本體和知識圖譜的問題。具體來說,他們想知道兩者之間的區別。本體和知識圖譜是一回事嗎?它們有何不同?兩者之間是什麼關係?在這篇博客中,我將引導您了解本體和知識知識圖譜,講述它們之間的區別以及它們如何組織大量數據和信息。 什麼是本體?
  • 華為開發者大會HDC.Cloud硬核技術解讀:知識圖譜構建流程及方法
    知識圖譜構建主要分為自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。自頂向下構建方式需要先定義好本體(Ontology或稱為Schema),再基於輸入數據完成信息抽取到圖譜構建的過程。該方法更適用於專業知識方面圖譜的構建,比如企業知識圖譜,面向領域專業用戶使用。
  • 愛分析·中國知識圖譜應用趨勢報告
    兩種方式的主要區別在於,在構建的過程中是否先定義本體與數據模式。目前,大多數知識圖譜採用自底向上的方式進行構建。  在知識圖譜的構建過程中,存在幾項關鍵步驟,即知識抽取、知識表示、知識融合、知識推理、知識存儲以及知識圖譜應用等。  其中,知識抽取與知識融合環節是知識圖譜構建的基礎。
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    DBpedia,它從維基百科中抽取結構化知識在進行本體的構建,通過結構化,用戶可以使用 SPARQL 語言進行查詢;   YAGO 也是開源知識圖譜,被應用於 IBM Waston 問答系統;   在知識圖譜中,數據扮演著底部基石的作用。據智譜·AI 的創始人唐傑教授介紹,知識圖譜是源於數據的,是從數據中抽取結構化信息,數據的好壞直接關係到知識圖譜構建的效率和質量。比如從結構化的數據中構建知識圖譜會比從非結構化的數據中構建效率和準確率要高,數據越複雜,噪音越大,構建成本也就越高。
  • 交互主體性:從關係本體論到關係認識論
    四、從社會歷史性的交互主體關係本體論到關係認識論  廣松涉告訴我們,近代以來的歐洲哲學已經在傳統認識論的廢墟上苦苦掙扎了許久。第一階段,從洛克和康德的認識論開始,就已經在努力「推翻前近代的形上學的獨斷論」,這當然是指從經驗論開始的認識論反思和康德的先天綜合判斷所帶來的「哥白尼革命」;第二階段,這之後的新康德主義的認識論,有意識地開始「調和『近代』構想中宿命性的主體主義(Subjektivismus)和客體主義(Objektivismus)的相互作用(Wechselspiel)[毋寧說是拉鋸戰],承擔這一近代的地平的守夜人的使命
  • 知識圖譜在金融資管領域的應用、實踐與展望
    知識圖譜是人工智慧的一個重要分支,對可解釋人工智慧具有重要作用。金融知識圖譜作為專業領域知識圖譜,在智能投研、智能風控、智能客服、智能合規等領域有著重要的應用價值。本文綜合熵簡科技三年以來的產業實踐,結合知識圖譜領域的技術前沿,以及資管場景的落地應用,淺談知識圖譜在金融資管領域的發展現狀與應用展望。
  • 存在論、本體論和世界觀:「思維和存在的關係問題」的辯證法
    存在論、本體論和世界觀:「思維和存在的關係問題」的辯證法 2017年01月29日 10:49 來源:《哲學研究》 作者:孫正聿 字號 內容摘要:哲學意義的存在論、本體論和世界觀,並不是相互割裂的關於「存在」、「本體」和「
  • 本體論和認識論
    皮浪的懷疑論斷無意中勾勒出了哲學發展的的一個脈絡,即本體論哲學,認識論哲學和語言哲學。 哲學和科學密不可分。我們做任何科學研究,都不可避免地涉及到兩個基本的哲學問題。第一個問題,現實的本性。什麼是現實?什麼是存在?解決這類問題的哲學領域叫做本體論。第二個問題,獲取知識的方法。
  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    HAO 圖譜,可以獨立運行,也可交付給企業技術團隊進行二次開發,核心模塊包括語音流監聽,語音轉文本,標點預測,口語順滑,文本補全,實體關係抽取,實體對齊,以及圖譜話題切換。具體來說,HAO 圖譜的輸入為一維的文字序列或語音流,系統工作時分為如下幾步:逐句翻譯,形成大圖:首先將輸入序列逐句的做實體識別和關係抽取,繪製成圖結構,每新增一句,就在原有的圖結構上增加新節點和新邊;篇章摘要,找到重點:當整段文本或語音輸入結束後,再在篇章級大圖譜上,根據節點的語義、圖結構、位置等特徵識別出重點節點和邊;關聯背景知識:將重點節點和關係映射到後臺的領域知識圖譜上
  • 本體論(六)| 康德的本體論思想及主張
    ,而對於康德而言,什麼是本體論呢?康德在論述本體論證明的時候,透露出他對本體論的看法,他把本體論理解為,純粹概念的推論其中,上帝論證最核心就是本體論證明,他們置一切經驗於不顧,完全是先天地從純粹的概念去推論最高原因的存在本體論使用的是一種特殊規定的語言,他的意義來源於概念之間的關係之中,柏拉圖後期理念論中所使用的理念或通種,就是些這樣的概念。
  • 晉梅:金融知識圖譜的應用探索
    以下整理來自嘉賓分享實錄:金融知識圖譜的概念和應用在信息爆炸時代,對客觀事實的各種描述是海量的、無序的、混亂的信息,而知識被定義為是對客觀規律和信息的歸納總結。基於此概念,知識圖譜是一種用圖的結構對知識進行表達的方式,它的基本組成要素是節點和邊,節點用於表示實體,邊用於呈現關係。
  • 聯通主義:「網際網路+教育」的本體論
    不同的教育哲學觀有著不同的教育本體認知。教育哲學的本體論是教育哲學的根基,教育哲學的本體論決定著教育哲學的認識論。不同的教育本體論會帶來不同的認識論,同時不同的教育本體論也會帶來不同的教育理論思想和教育行為(楊志成,2017)。教育本體是形成教育本質的終極原因。教育規律隨教育本質的變化而變化。
  • 解析|如何構建知識圖譜
    編輯導語:知識圖譜可以說是一個資料庫,在如今大數據時代,知識圖譜已經是企業中能夠起到很大作用的一個環節,可以提高工作效率等;本文作者分享了關於構建知識圖譜以及問題的解答,我們一起來看一下。
  • 水之本體論還是人地關係論
    水之本體論還是人地關係論——文學地理批評視野中的《水地篇》作者:陶禮天(首都師範大學文學院教授)  編者按20世紀初期以來,不少學者把《水地篇》類比或等同於古希臘泰勒斯以水為萬物之本原的本體論,從而導致對其主旨的誤解。《水地篇》水土「本原」論的主要內涵,是指最重要的生成條件或要素之意。但目前對《水地篇》主旨詮釋仍不明晰,必須首先進行分析。《水地篇》內容可分為三個部分:第一部分,提出該文主旨的前提性論點,即水土乃萬物生長之根本要素和條件:「地者,萬物之本原,諸生之根菀也,美惡賢不肖愚俊之所生也。
  • 【乾貨】最全知識圖譜的概念篇
    知識圖譜(Knowledge Graph) 以其強大的語義處理能力和開放組織能力,為網際網路時代的知識化組織和智能應用奠定了基礎。最近,大規模知識圖譜庫的研究和應用在學術界和工業界引起了足夠的注意力。知識圖譜旨在描述現實世界中存在的實體以及實體之間的關係。
  • 文藝的人民本體論
    我們沿著這一思考脈絡去研讀習近平同志在文藝工作座談會上的重要講話,就不難發現,其「人民本體論」作為馬克思主義文藝學當代中國本體追問的命題形態,其理論建構意義和命題實踐張力,足以使我們用本體論知識分析的學理方式去給予深度闡釋和把握,否則就會出現命題指涉的意義流失與價值低估。
  • 中國哲學有沒有本體論?
    我們看黑格爾時代的分類,哲學分為理論哲學和實踐哲學,理論哲學又分為邏輯和形上學,形上學又分為本體論和宇宙論等。這個本體論是討論Being(本體、是者)的問題,不是宇宙論,不是討論宇宙的生成變化,所以不要直接把凡有關宇宙生成變化的內容就叫做本體論。中國學問中有討論關於宇宙生成變化的,但這不就是本體論的主要內容。本體論也不是討論世界本原的問題。