...圖譜Open Academic Graph,如何高效精準生成6500萬對匹配關係?

2020-12-13 雷鋒網

雷鋒網 AI 科技評論按:近日,清華大學副教授、Arnetminer 創始人唐傑博士在微博上公開了開放學術組織(Open Academic Society)發布的億級學術圖譜——Open Academic Graph。據唐傑博士介紹,該圖譜目前集成了兩個最大的公開學術圖譜:微軟學術圖譜(MAG)和AMiner學術圖譜。具體來說,團隊通過集成MAG中1.66億學術論文和AMiner中1.55億學術論文的元數據信息,生成了這兩個學術圖譜之間近 6500 萬對連結(匹配)關係。

雷鋒網(公眾號:雷鋒網) AI 科技評論第一時間採訪了唐傑博士,詳細了解到這個億級學術圖譜和與之相關的研究難點以及技術突破。

億級數據,籌備半年

目前這個學術圖譜中的數據集主要是論文,包括論文中的題目、作者、會議、年份、摘要等元數據。不同於國內大的學術資料庫知網、萬方等以中文為主,Open Academic Graph中的論文主要是英文。根據唐傑博士的介紹,如此龐大的數據集,團隊前後花了半年時間籌備。

耗費如此多的時間和精力,做這個數據集目的何在?唐傑博士告訴雷鋒網AI科技評論,他們想要集成全球不同學術知識圖譜,並公開共享學術圖譜數據和相關學術搜索與挖掘服務。具體包括如下三點:

一是集成豐富的學術知識數據。目前開放學術圖譜的核心數據來自微軟學術圖譜和AMiner學術圖譜,下一步將集成更多其他學術圖譜數據,包括擴充不同類型實體(如作者、論文等)的語義數據。通過數據集成和數據挖掘算法將連結更多實體更精準和豐富的「畫像」數據,包括論文的元數據、概念網絡、研究領域、全文等和作者的基本信息(如:職位、單位、聯繫信息、國別、性別等)、研究興趣以及論文列表等。


二是數據共享。通過共享不同的學術知識圖譜以及它們的連結關係,我們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。同時,歡迎更多來自學術社區的貢獻來進一步增強開放學術圖譜。


三是服務共享。我們希望設計更加智能的學術圖譜連接系統,並提供相關的服務(如API),以方便更多人使用服務以及加入開放學術社區。

精準匹配,挑戰頗多

龐大的數據量,要實現精準匹配勢必會存在各種各樣的問題。唐傑博士坦言,在實際的研究過程中,由於學術數據在不同圖譜中的分布異構特點,同名異義和異名同義問題嚴重。對於出現的問題,他也舉了幾個實例來具體說明。

一是數據異構問題。由於數據分布在不同數據源,可能面臨數據異構的問題。比如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,論文所發表的期刊或會議有全稱或縮寫等多種形式。

二是同名消歧問題。同一名字可以表示多個實體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是匹配的難點。在2016 年,中國重名最多的30 個姓名中,每個姓名重名人次達到20 萬以上。對於論文來說,不同論文也可能有相同的題目,如:Data, data everywhere 在資料庫中可對應多篇文章。

除了前面提到的兩個問題,要想實現億級數據的集成,如何進行高效計算也是另一個重要挑戰。唐傑博士提到,以AMiner為例,已經公布的論文數據就有1.55億,而微軟學術圖譜的公開數據也達1.6億,計算兩個圖譜匹配關係的算法複雜度一般來說是O(n2),這需要大量計算。

精進算法,不斷突破

那麼團隊究竟如何處理這些問題?他們設計了一個折衷方法,同時考慮精度和效率。據介紹,他們的方法能將算法複雜度降低到O(nlogn)到O(n2)之間,目前每天能夠完成約2千萬篇論文的匹配,基本完成了合計3億篇論文的自動匹配,並保證了高匹配精度。

該算法是在RiMOM算法的基礎上進行了改進。

具體來說,我們設計了一個針對大規模論文匹配的異步搜索框架。對於AMiner中的每篇論文,我們根據題目在MAG中搜索可能匹配的論文,每次搜索的時間在幾百毫秒到幾秒不等。通過異步搜索的策略,可以做到平均每秒搜索到20餘篇論文,使得大規模的圖譜連結可以達到較快的速度。

為進一步提高自動集成速度,他們還嘗試了兩個新的匹配算法MHash和MCNN。

MHash是利用哈希算法,將每篇論文轉化為一串二值編碼,計算兩篇論文之間的漢明距離。由於使用了哈希,該算法速度很快,但同時精度也有所降低,大概能保持93+%的匹配準確率。MCNN是基於卷積神經網絡的深度學習方法,MCNN基於單詞之間的相似度構造兩篇論文的相似矩陣,然後利用卷積神經網絡來捕捉文本之間的相似模式。

採訪過程中,唐傑博士還提到在實際的操作過程中,該方法可以緩解數據異構的問題。如:對於作者Quoc Le 和Le, Quoc,它們對應位置上的單詞是不相似的,但是在相似矩陣中可以捕捉不對應位置上單詞的相似度。該方法可以達到非常高的匹配準確率(98%+)。兩個論文匹配算法均結合了論文的多個屬性,如題目、作者等減輕同名消歧問題。

總結

唐傑博士團隊與微軟聯合發布的Open Academic Graph,不管對學界還是對業界來說都有極大的意義。一方面能助力大家當前的研究,另一方面也能吸引更多人來進行學術知識圖譜相關的研究。

在未來,他們還將研究如何集成大規模異構學術圖譜中不同類型的實體(如作者、會議等),公布更多學術圖譜連接數據(如作者連接數據),設計更加智能的學術圖譜連接系統並提供相應的服務。

最快今年年底,我們可能就會看到更大的數據集。雷鋒網 AI 科技評論也將持續關注。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 微軟清華公布Open Academic Graph數據集推動數據集成研究,匹配...
    研究者生成了兩個學術圖表的 6463 萬個連結關係(matching),並表示在未來會呈現包括作者在內的更多連結結果。這個數據集可以用於進行引用網絡(citation network)、論文內容等多種數據集成研究。整個數據集包括以下三個方面,即連結關係、MAG 論文集及 AMiner 論文集。
  • 億級學術圖譜 Open Academic Graph 更新至 2.0 版本:包含約 7 億...
    OAG 2.0 版本下載網址:https://www.openacademic.ai/oag/OAG 2.0 版本 VS 1.0 版本於 2017 年開放的 OAG 1.0 版本,通過整合清華 AMiner 學術圖譜的 154,771,162 篇學術論文的元數據和微軟學術圖譜
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    這種有效的表示方式允許將巨大的KG直接存儲在GPU內存中,例如,包含1300萬實體和4300萬事實(facts)的WebQuestionsSP 的 Freebase轉儲,可以放到三個12-Gb 的 GPU中。而且,在進行QA時可以對整個圖譜進行推理,而不是生成候選對象(通常這是外部不可微操作)。
  • 知識圖譜KnowledgeGraph核心技術培訓班
    、高等院校及科研院所:隨著人工智慧的快速發展,知識圖譜knowledge graph作為一個主要領域活躍起來。>1.4 知識圖譜VS傳統知識庫VS關係資料庫1.5 經典的知識圖譜1.5.1 經典的CYC, WordNnet, WikiData, DBpedia, YAGO, NELL等知識庫1.5.2 行業知識圖譜:Google知識圖譜,微軟實體圖,阿里知識圖譜,醫學知識圖譜,基因知識圖譜等知識圖譜項目二、知識圖譜應用
  • Awesome Knowledge Graph : 知識圖譜資源匯總
    知識圖譜是近年來的研究熱點,知識圖譜的構建、推理、問答、向量表示等方向,都有很多熱門的研究,工業界也在不斷嘗試各種應用,例如美團的美團大腦
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    無論是從信息抽取做知識融合,還是做知識處理,最核心的三部分,一是實體涉及到的名詞,二是涉及到中間的關係,三是實體和關係之間,可能有同名,有共線(Co-references),如何衝突消解。對問題求解關注度比較高的一些描述形式,把馬爾可夫邏輯網介入到概念衍生過程中,達到高效的知識圖譜構建和利用。第二類知識圖譜的構建方法是隱含空間,涉及隱含變量,即有哪些背景知識來解釋文本。文本包含的社會背景、人物關係、組織結構,沒有在文本中體現,但是要進行了解、梳理。
  • 如何構建知識圖譜
    2)實現知識譜系化:對拆解好的知識內容,利用知識關聯算法和圖譜算法等,構建知識譜系,形成圖網,對實體、概念和語義關係進行抽離,讓知識之間形成關聯。3)構建知識協同化:對已經整理好的內容,進行數據整合,將知識內容與沉澱數據進行匹配,生成供前、後臺企業人員均可以使用的知識資源;前臺人員利用知識圖譜,識別到客戶畫像和營銷內容之間的匹配,後臺服務人員利用知識圖譜,識別到客戶想問的,和潛在要問的,進一步實現精準服務。3.
  • 知識圖譜注意力網絡:Knowledge Graph Attention Network
    In this work, we investigate the utility of knowledge graph (KG), which breaks down the independent interaction assumption by linking items with their attributes.
  • 知識圖譜系列:Task 1 知識圖譜介紹
    從實際應用的角度出發其實可以簡單地把知識圖譜理解成多關係圖(Multi-relational Graph)。Tom Gruber把本體定義為「概念和關係的形式化描述」。通俗點講,本體相似於資料庫中的Schema,比如足球領域,主要用來定義類和關係,以及類層次和關係層次等。OWL是最常用的本體描述語言。本體通常被用來為知識圖譜定義Schema。
  • 從ACL 2020看知識圖譜研究進展
    FB15k-237 中的知識圖譜快照,其中,實體用金色塊表示。知識圖譜嵌入方法大致可以分為兩類 [1]:基於距離的模型和語義匹配模型。基於距離的模型也被稱為加性模型,因為它將頭和尾部實體投影到同一個嵌入空間,使用兩個實體嵌入之間的距離評分來衡量給定三元組的合理性。TransE 是最有代表性的基於距離的模型[2]。
  • 使用Facebook的Pytorch的BigGraph從知識圖譜中提取知識
    node2vec生成的Les Misérables共現網絡的互補可視化,標籤顏色反映了同質(頂部)和結構等價性(底部)。知識圖譜下面我們將討論PYTORCH-BIGGRAPH:一個大規模的圖嵌入系統論文(進一步命名為PBG)以及相關論文。知識圖譜是一種特殊的圖形類型,它包含已知的實體和不同類型的邊。它代表結構知識。在知識圖譜中,節點通過不同類型的關係連接起來。
  • 早餐 | 第二十八期 · Graph Transformation(一)
    Front Phase Transformations●Pattern-Defined Front Phase Transformations – 當sub-graph匹配定義的Pattern時會觸發。●Specific Operation Front Phase Transformations – 當節點匹配指定op 屬性值時會觸發。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    4、深度學習時代的知識圖譜深度學習時代的知識圖譜擁有大量的實體和關係,然而大量不同的關係上很難定義邏輯規則,在知識圖譜上「推理」也轉入黑盒模型預測的範式。由於知識圖譜本身是對機器友好的結構,如果有了相應的SPARQL語句,即可很容易地在知識圖譜中查詢到最終的答案。因此,難度主要集中在如何將自然語言問題解析為知識圖譜內存在的關係或者實體的合法查詢。針對這個問題,Dai等人[19]提出了CFO模型,Huang等人[20]提出了KEQA,後者預測實體的嵌入並從知識圖譜嵌入中尋找附近的結果,把自然語言處理中的預測模型與知識圖譜嵌入的工作結合了起來。
  • 這周日,北理工將邀數位大咖研討「知識圖譜與智能問答」
    作為技術負責人,他帶領團隊構建的語義搜索系統在十億三元組挑戰賽(Billion Triple Challenge)中獲得全球第 2 名的好成績;在著名的本體匹配競賽OAEI 的實體匹配任務中獲得全球第 1 名的好成績。他帶領團隊構建了第一份中文語義互聯知識庫 zhishi.me,被邀請參加 W3C 的 multilingual 研討會並做報告。
  • 解鎖這項AI黑科技,馬上實現人崗匹配自由
    在人力資本領域,求職者、公司、職位、專業、技能等不同的實體間存在著多種類型的關係,構成了一個知識圖譜(Knowledge Graph)。這裡,我們主要關注的是Graph Embedding(其實也可以稱為Network Embedding)。
  • 如何構建知識圖譜?
    1.1 什麼是知識圖譜知識圖譜是谷歌在2012年提出來的,最初的目的是優化其搜尋引擎。在現實世界中是存在很多的實體的,各種人、物,他們之間是相互聯繫的。知識圖譜就是對這個真實世界的符號表達,描述現實世界中存在的一些概念,以及它們之間的聯繫。具體來說是一個具有屬性的實體,通過關係連接而成的網狀知識庫。
  • 多知識圖譜的融合算法探索
    所謂融合,可以理解存在以下三種操作:1)實體詞在新的上下級位置上進行插入;2)不同圖譜中的同義實體詞完成合併;3)三元組關係隨著實體詞位置變化而動態調整單看這些任務,類似的技術我們在《知識圖譜構建技術綜述與實踐》、《抽取獲得的知識圖譜三元組該如何質檢?》和《如何擴充知識圖譜中的同義詞》均有部分提及。本文我們來系統地看一下在不同階段,圖譜融合該採取什麼策略,以及相關的算法論文調研。
  • 知識圖譜推理問答:如何讓機器像人類一樣學會推理
    AITimer-何文莉 AI TIME 論道近年來,知識圖譜問答任務取得較大進展,但當問題變得複雜,涉及多個實體的比較和推理時,機器尚不能很好地解答。如何讓機器像人類一樣學會推理,從而處理複雜問題,是當前的一個研究熱點和難點。
  • 深度學習中不得不學的Graph Embedding方法
    典型的場景是由用戶行為數據生成的和物品全局關係圖(圖1),以及加入更多屬性的物品組成的知識圖譜(圖2)。圖1 由用戶行為序列生成的物品全局關係圖 (引自阿里論文)阿里的Graph Embedding方法EGES2018年阿里公布了其在淘寶應用的Embedding方法EGES(Enhanced Graph Embedding with Side Information),其基本思想是在DeepWalk生成的graph embedding基礎上引入補充信息。
  • Graph Neural Networks 綜述
    綜上所述,圖神經網絡需要解決的難點就是如何根據相鄰節點特徵和邊的信息對當前節點特徵進行更新!這種思路就是希望藉助圖譜的理論來實現拓撲圖上的卷積操作。Spectral graph theory簡單的概括就是藉助於圖的拉普拉斯矩陣的特徵值和特徵向量來研究圖的性質。背景知識(1) 拉普拉斯矩陣對於一個圖Graph,其拉普拉斯(Laplacian)矩陣的定義如下: