第四範式NeurIPS 2020:知識圖譜嵌入的自動化

2020-11-28 機器之心Pro

機器之心發布

機器之心編輯部

人工智慧頂級會議 NeurIPS 2020 將於 12 月 6 日 - 12 日線上舉行。機器之心聯合多位研究者舉辦了線上分享活動,前不久,來自第四範式的資深研究員姚權銘博士和大家分享了其參與並被 NeurIPS 2020 接收的論文《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。

這項研究受神經架構搜索(NAS)的啟發,提出將 Interstellar 作為一種處理關係路徑中信息的循環架構。此外,該研究中的新型混合搜索算法突破了 stand-alone 和 one-shot 搜索方法的局限,並且有希望應用於其他具有複雜搜索空間的領域。

視頻連結:https://v.qq.com/x/page/n3207ugke4j.html?start=6

知識圖譜嵌入(Knowledge Graph Embedding)目前在學習知識圖譜(KG)中的知識表達上具有很強的能力。在以往的研究中,很多工作主要針對單個三元組(triplet)建模,然而對 KG 而言,三元組間的長鏈依賴信息在一些任務上也很重要。

在第四範式、香港科技大學這篇被 NeurIPS 2020 會議接收的論文中,研究者基於由三元組組成的關係路徑(relational path)提出 Interstellar 模型,通過搜索一種遞歸神經網絡,來處理關係路徑中的短鏈、長鏈信息。

論文連結:https://arxiv.org/pdf/1911.07132.pdf

代碼連結:https://github.com/AutoML-4Paradigm/Interstellar

首先,該研究通過一組模擬實驗分析了用單一模型對不同任務中關係路徑建模的難度,並由此提出通過搜索的方式對不同任務針對性地建模。為了提高搜索效率,該研究提出了一種混合搜索算法(hybrid-search algorithm),在連結預測(link prediction)和結點匹配(entity alignment)任務上,能高效地搜索到具有更好效果的模型。

背景介紹

知識圖譜嵌入(KG Embedding)旨在把圖譜中的結點(entities)和關係(relations)映射到一個低維空間,同時保留圖中的重要性質。在目前學術領域,一些工作基於單個三元組(s,r,o)建模,如 TransE、RESCAL、DistMult、RotatE、ConvE、SimplE 等,它們在連結預測任務(即給定頭結點 s 和關係 r ,預測尾結點 o )上表現良好,而在結點匹配任務(即給定兩個 KG,預測哪些結點有相同含義)上性能一般。另一類基於關係路徑的工作,如 IPTransE、Chains、RSN 等則在結點匹配任務上表現更好。

研究人員觀察到,關係路徑包含多種重要信息,如單個三元組的短鏈信息、多個關係的複合、多個三元組之間的長鏈信息等等。基於此,該研究提出 Interstellar 模型,通過搜索的方式來根據不同任務,有針對性地對關係路徑進行建模。

動機

為了驗證不同模型對不同任務的擬合能力不同,研究人員設計了一組模擬實驗。Countries 數據集有 S1-S3 三個不同任務,預測難度逐一增大,需要模擬的預測路徑逐漸變長。為此研究者基於先驗知識(prior knowledge)設計了 4 類模式 P1-P4,分別用於建模單個三元組、連續的兩個三元組、多重關係的複合,以及全遞歸連接。直觀上看,P4 的建模能力更強,但在有限的樣本上,樣本複雜度同樣重要,選擇更能擬合數據規律的模型能夠獲得更好的效果。

如下表所示,在 S1 這個簡單任務上,基於單個或兩個三元組的模型 P1 和 P2 表現更好,在 S2 上 P1-P3 均優於 P4,而在 S3 上,遞歸模型 P4 由於能模擬更長路徑而勝出。由此我們可以得出,關係路徑上的建模應該是模型相關的,如果我們能夠通過搜索的方式把專家的先驗知識融入到建模能力中,那麼針對不同任務,模型就可以自動地找到更優解。

問題定義與搜索空間

首先,研究者將 Interstellar 定義為一個遞歸式地處理關係路徑的模型,在每一個遞歸步中,模型關注到一個三元組,信息在三元組之內、之間以不同方式穿梭。與傳統 RNN 不同,這裡的每一步有兩個輸入,同時由於需要考慮知識圖譜相關的領域知識,單純地使用 RNN 對其建模是不合適的。為了利用好知識圖譜領域的先驗知識,同時使模型可以適用於不同任務,受神經網絡搜索技術(Neural Architecture Search)的啟發,該研究把建模問題定義為搜索問題,來自適應地對不同任務建模。

通過對知識圖譜嵌入領域相關模型的總結,該研究提出上圖的搜索空間,利用運算單元 O_s 來處理結點嵌入 s_t ,用 O_r 來處理關係嵌入 r_t ,用 O_v 來輸出向量 v_t 從而預測下一個結點 s_t+1 。具體而言,該研究在 macro-level 搜索不同單元間的連接方式(connections)和複合方式(combinators),在 micro-level 搜索激活函數(activation)與權重矩陣(weight matrix)。

搜索算法

該研究的目標是更快地在搜索空間中找到能在驗證集上達到更好性能的模型,這可以通過 bi-level 優化方式來定義。為了求解這個優化問題,學術界目前有兩類方法。一類是 stand-alone 算法,對每個模型單獨訓練參數 F 至收斂,這樣可以得到準確的性能評估 Μ ,但訓練代價較高;另一類是 one-shot 算法,建立一個包含所有網絡的超網絡(supernet),不同模型在超網絡中採樣,同時可以參數共享,這樣的評估方式更高效,但不總能保證可靠性。研究人員觀察到在 Interstellar 的建模上,one-shot 方式並不可靠。

為了解決這些問題,該研究提出 Hybrid 搜索算法,在 macro-level 採用 stand-alone 方式,給定 α_2 ,從 Α_1 中採樣不同的 α_1 ,訓練模型參數至收斂,拿到對 α_1 的可靠評估;在 micro-level 採用 one-shot 方式,給定 α_1 ,從 Α_2 中採樣不同的 α_2 ,同時讓不同 α_2 對應的模型在超網絡中共享參數,加速訓練評估的過程。二者結合,即保證了搜索準確性,又保證了搜索效率。

實驗結果

在搜索效果上,該方法在結點匹配和連結預測任務中,都能針對不同數據任務搜索到更好的模型,這得益於 Interstellar 上合理的搜索空間和高效的搜索算法。

在搜索效率上,Hybrid 算法能夠比隨機搜索(Random)、強化學習(Reinforce)、貝葉斯優化(Bayes)算法更快地得到更好的模型,同時下圖中的兩條虛線(表示單獨的 one-shot 算法)表明其在這個問題上性能並不好。在搜索時間上,Hybrid 算法和調參(如 learning rate、batch size 等參數)時間是相當的,說明這個搜索方法代價並不高。在新的問題中,先搜索模型再進行調參是一個不錯的選擇。

相關焦點

  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    機器之心聯合多位研究者舉辦了線上分享活動,前不久,來自第四範式的資深研究員姚權銘博士和大家分享了其參與並被 NeurIPS 2020 接收的論文《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。
  • 第四範式入圍Forrester機器學習平臺Wave 位列前列
    (來源:《Forrester WaveTM:PAML In China, Q4 2020》)因高度契合Forrester評判標準,且在企業級技術產品體系、應用落地成效等多方面優勢明顯,第四範式在報告中被列為企業數位化轉型的理想之選:第四範式實現了自動化機器學習,降低了AI應用門檻。
  • 論文淺嘗 | 基於超平面的時間感知知識圖譜嵌入
    本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間注釋的事實預測temporal scopes 。實驗結果表明該模型與傳統模型或者同類模型相比都有著突出的表現。
  • 第四屆達觀杯 x CCKS算法大賽圓滿收官,激發知識圖譜實踐新思路
    經過幾個月的激烈角逐,實力卓群的國家電網旗下國網信通產業集團從幾千名參賽選手中脫穎而出榮獲冠軍,並在第十四屆全國知識圖譜與語義計算大會(CCKS-2020)上進行方案分享,達觀數據副總裁王文廣為冠軍團隊頒發獎項。
  • 從ACL 2020看知識圖譜研究進展
    我們選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。其中,第一篇重點關注知識圖譜本身,提出了一種基於距離的知識圖譜中的源實體到目標實體的連結預測(Link Prediction)方法。第二篇文章是知識圖譜在摘要生成任務中的應用,第三篇文章是知識圖譜在會話生成任務中的應用。1.
  • 微軟《第四範式:數據密集型科學發現》中文版發布
    本書擴展了開創性計算機科學家、圖靈獎獲得者、微軟研究院技術院士吉姆•格雷(Jim Gray)的思想,基於e-Science提出了科學研究的第四範式:以大數據為基礎的數據密集型科學研究(Data-intensive Science)以及學術交流。該書從地球環境、健康醫療、科學的基礎架構以及學術交流等四大部分,對數據密集型科學研究願景進行了探討,就如何充分利用科學發展的第四範式提供了深刻見解。
  • 深度圖高斯過程 | NeurIPS 2020論文分享第一期
    採用深度學習層次化建模範式的「深度高斯過程」則進一步增強了其建模能力,拓寬了其應用範圍。然而,絕大多數現有方法不能很好的擴展到圖結構數據。為了學習圖信號之間的映射關係及其不確定性,同時利用圖結構的連接信息,本期分享嘉賓提出了面向圖結構數據的深度圖高斯過程DGPG。
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動構建 來源:財訊網 • 2020-07-13 11:06:30
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    深度學習時代的知識圖譜擁有大量的實體和關係,然而大量不同的關係上很難定義邏輯規則,在知識圖譜上「推理」也轉入黑盒模型預測的範式。Bordes 等人的知識庫結構嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先將神經網絡引入 知識圖譜 的研究,特別是後者將知識圖譜中實體和關係的單詞嵌入的平均作為該節點的表示,訓練神經網絡判斷(頭實體、關係、尾實體)的三元組是否為真,在知識圖譜補全(推理)任務中取得了很好的效果。
  • 觀點摘錄 | 新興技術論壇:雲時代的科學第四範式
    2020年浦江創新論壇-新興技術論壇「雲時代的科學第四範式」於10月29日下午在錦江飯店錦江小禮堂舉行。表型組學-大數據時代生命科學範式變革○ 1.傳統的科學研究是問題導向的研究,而大數據時代的科學第四範式下的科學研究是產生問題,核心是通過產生大量數據而產生問題。
  • 觀點摘錄 | 新興技術論壇:雲時代的科學第四範式
    2020年浦江創新論壇-新興技術論壇「雲時代的科學第四範式」於10月29日下午在錦江飯店錦江小禮堂舉行。○ 1.傳統的科學研究是問題導向的研究,而大數據時代的科學第四範式下的科學研究是產生問題,核心是通過產生大量數據而產生問題
  • 第四範式:借勢PC霸主,推出企業級AI作業系統
    2020年的發布會傳達出,第四範式想做的是,「心法」+「做法」的雙重智慧,這些都需要一個平臺屬性的產品去承載。什麼是數據形式?過去的五年裡,第四範式也有用高人力成本為合同項目填坑的事情,客戶有時並不接受建議的方法論。
  • ACL2020|基於正交關係轉換與圖上下文建模的知識圖嵌入
    作者 | 夏楓單位 | 廈門大學今天給大家介紹京東AI研究院的研究人員發表在ACL2020上的一篇文章。1研究背景知識圖譜是一種多關係圖,節點表示實體,邊表示實體之間的關係。知識圖譜嵌入表示了連續向量空間中的實體和關係,可以用於連結預測等方面,大致可以分為基於距離和語義匹配模型兩類。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    01 新基建與知識圖譜概述 新基建的內涵和外延 發力於科技端的信息數位化基礎設施建設 2020年4月20日,國家發改委將新型基礎設施初步定義為:以新發展理念為引領
  • 17篇論文,詳解圖的機器學習趨勢 | NeurIPS 2019
    不過沒關係,這篇文章裡有對相關的群論知識做簡要介紹。不過這個工作在如何將這個工作拓展到1-N或N-N的關係上,還有很大的gap。實際上,這也是我關注的焦點之一,因為標準基準數據集FB15K(-237)和WN18(RR)僅包含實例和關係,而沒有任何類歸因。顯然,大型知識圖譜具有數千種類型,處理該信息可以潛在地改善連結預測和推理性能。我還是很高興看到有越來越多的方法(如E2R)提倡將符號信息包含在嵌入中。
  • 《第四範式:數據密集型科學發現》中文版圖書正式發布
    10月23日,《第四範式:數據密集型的科學發現》中文版圖書在中國科學院國家科學圖書館正式發布。微軟研究院的《第四範式:數據密集型的科學發現》(The Fourth Paradigm: Data-intensive Scientific Discovery)是第一本、也是至今為數不多的從研究模式變化角度來分析「大數據」及其對革命性影響的專著。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    為推動領域大數據知識圖譜的研究,交流相關研究進展與成果,《中國科學: 信息科學》在2020年第50卷第7期組織出版「領域大數據知識圖譜專題」,經過嚴格的同行評議, 專題共收錄 7 篇文章, 主題涵蓋推薦系統、科技知識圖譜、事理認知圖譜、人物關係圖譜、地理知識圖譜、篇章事件連通圖、旅遊知識圖譜等方面的內容。
  • 晉梅:金融知識圖譜的應用探索
    在首都金融創新與發展公開課的第四模塊「金融科技創新與賦能」中,我們非常榮幸邀請到了頂象首席金融風控專家晉梅做客直播間,帶來《金融知識圖譜的應用探索》主題分享。金融知識圖譜在風控場景的實戰案例下圖是知識圖譜的風控方案概覽。
  • 試驗知識圖譜分析
    【試驗工程師·公益學習營】第九期第2講【試驗工程師·公益學習營】總第42講,於2020年10月30日如期舉行,本期講師是瑞風協同技術總監,他具有20餘年軟體開發和架構設計經驗,參與多個領域的設計仿真平臺、材料庫、知識庫系統建設,重點研究方向為大數據技術和人工智慧技術,專注於文本挖掘技術、自然語言處理技術在知識庫自動構建、知識自動分類、知識智能推送、知識關聯挖掘