知識圖譜從哪裡來:實體關係抽取的現狀與未來

2021-01-09 機器之心Pro

機器之心轉載作者:韓旭、高天宇、劉知遠

本文是清華大學劉知遠老師和學生韓旭、高天宇所寫的關於知識圖譜相關的介紹。文章回顧了知識圖譜領域的發展歷程,並綜述了近年來的研究進展,機器之心獲授權轉載。

最近幾年深度學習引發的人工智慧浪潮席捲全球,在網際網路普及帶來的海量數據資源和摩爾定律支配下飛速提升的算力資源雙重加持下,深度學習深入影響了自然語言處理的各個方向,極大推動了自然語言處理的發展。來到 2019 年的今天,深度學習的諸多局限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠數據標註與算力投入無法解決本質問題。如果沒有先驗知識的支持,「中國的桌球誰都打不過」與「中國的足球誰都打不過」,在計算機看來語義上並沒有巨大差異,而實際上兩句中的「打不過」意思正好相反。因此,融入知識來進行知識指導的自然語言處理,是通向精細而深度的語言理解的必由之路。然而,這些知識又從哪裡來呢?這就涉及到人工智慧的一個關鍵研究問題——知識獲取。

知識圖譜

現有大型知識圖譜,諸如 Wikidata、Yago、DBpedia,富含海量世界知識,並以結構化形式存儲。如下圖所示,每個節點代表現實世界中的某個實體,它們的連邊上標記實體間的關係。這樣,美國作家馬克·吐溫的相關知識就以結構化的形式記錄下來。

目前,這些結構化的知識已被廣泛應用於搜尋引擎、問答系統等自然語言處理應用中。但與現實世界快速增長的知識量相比,知識圖譜覆蓋度仍力有未逮。由於知識規模巨大而人工標註昂貴,這些新知識單靠人力標註添加幾無可能完成。為了儘可能及時準確地為知識圖譜增添更加豐富的世界知識,研究者們努力探索高效自動獲取世界知識的辦法,即實體關係抽取技術。

具體來說,給定一個句子和其中出現的實體,實體關係抽取模型需要根據句子語義信息推測實體間的關係。例如,給定句子:「清華大學坐落於北京近鄰」以及實體「清華大學」與「北京」,模型可以通過語義得到「位於」的關係,並最終抽取出(清華大學,位於,北京)的知識三元組。

實體關係抽取是一個經典任務,在過去的 20 多年裡都有持續研究開展,特徵工程、核方法、圖模型曾被廣泛應用其中,取得了一些階段性的成果。隨著深度學習時代來臨,神經網絡模型則為實體關係抽取帶來了新的突破。

神經網絡關係抽取模型

面向自然語言文本序列已經有很多神經網絡類型,例如循環神經網絡(RNN、LSTM)、卷積神經網絡(CNN)和 Transformer 等,這些模型都可以通過適當改造用於關係抽取。最初,工作 [1,2] 首次提出使用 CNN 對句子語義進行編碼,用於關係分類,比非神經網絡方法比性能顯著提升;工作 [3,4] 將 RNN 與 LSTM 用於關係抽取;此外,工作 [5] 提出採用遞歸的神經網絡對句子的語法分析樹建模,試圖在提取語義特徵的同時考慮句子的詞法和句法特徵,這個想法也被不少後續工作的進一步探索。這裡,我們列出一個表格,總結各類典型神經網絡在基準測試數據集合 SemEval-2010 Task-8 [6] 上的效果。

從上表可以看出,這些神經網絡模型均取得了優異的實驗結果,且相互之間沒有顯著的性能差異。這是否意味著關係抽取問題就此解決了呢?實際上並非如此。SemEval-2010 Task-8 的任務設定為,對預先定義好的關係類別標註大量的訓練和測試樣例,樣例都是相對簡單的短句,而且每種關係的樣例分布也比較均勻。然而,實際應用中往往面臨很多挑戰:

數據規模問題:人工精準地標註句子級別的數據代價十分高昂,需要耗費大量的時間和人力。在實際場景中,面向數以千計的關係、數以千萬計的實體對、以及數以億計的句子,依靠人工標註訓練數據幾乎是不可能完成的任務。學習能力問題:在實際情況下,實體間關係和實體對的出現頻率往往服從長尾分布,存在大量的樣例較少的關係或實體對。神經網絡模型的效果需要依賴大規模標註數據來保證,存在」舉十反一「的問題。如何提高深度模型的學習能力,實現」舉一反三「,是關係抽取需要解決的問題。複雜語境問題:現有模型主要從單個句子中抽取實體間關係,要求句子必須同時包含兩個實體。實際上,大量的實體間關係往往表現在一篇文檔的多個句子中,甚至在多個文檔中。如何在更複雜的語境下進行關係抽取,也是關係抽取面臨的問題。開放關係問題:現有任務設定一般假設有預先定義好的封閉關係集合,將任務轉換為關係分類問題。這樣的話,文本中蘊含的實體間的新型關係無法被有效獲取。如何利用深度學習模型自動發現實體間的新型關係,實現開放關係抽取,仍然是一個」開放「問題。所以說,SemEval-2010 Task-8 這樣的理想設定與實際場景存在巨大鴻溝,僅依靠神經網絡提取單句語義特徵,難以應對關係抽取的各種複雜需求和挑戰。我們亟需探索更新穎的關係抽取框架,獲取更大規模的訓練數據,具備更高效的學習能力,善於理解複雜的文檔級語境信息,並能方便地擴展至開放關係抽取。

我們認為,這四個方面構成了實體關係抽取需要進一步探索的主要方向。接下來,我們分別介紹這四個方面的發展現狀和挑戰,以及我們的一些思考和努力。

更大規模的訓練數據

神經網絡關係抽取需要大量的訓練數據,但是人工標註這些訓練數據非常費時昂貴。為了自動獲取更多的訓練數據訓練模型,工作 [16] 提出了遠程監督(Distant Supervision)的思想,將純文本與現有知識圖譜進行對齊,能夠自動標註大規模訓練數據。

遠程監督的思想並不複雜,具體來說:如果兩個實體在知識圖譜中被標記為某個關係,那麼我們就認為同時包含這兩個實體的所有句子也在表達這種關係。再以(清華大學,位於,北京)為例,我們會把同時包含「清華大學」和「北京」兩個實體的所有句子,都視為「位於」這個關係的訓練樣例。

遠程監督的這種啟發式標註規則是把雙刃劍,它是自動標註訓練數據的有效策略,但其過強的設定不可避免地產生錯誤標註。例如對於知識圖譜中(清華大學,校長,邱勇)這個三元組事實,句子「邱勇擔任清華大學校長」可以反映「清華大學」與「邱勇」之間「校長」的關係;但是句子「邱勇考入清華大學化學與化學工程系」以及「邱勇擔任清華大學黨委常委」並不表達「校長」關係,但卻會被遠程監督的啟發式規則錯誤地標註為「校長」關係的訓練實例。

雖然遠程監督思想非常簡單也存在很多問題,不過它為更多收集訓練數據開啟了新的紀元。受到這個思路的啟發,很多學者積極考慮如何儘可能排除遠程監督數據中的噪音標註的幹擾。從 2015 年開始,基於遠程監督與降噪機制的神經關係抽取模型得到了長足的發展,工作 [17] 引入了多實例學習方法,利用包含同一實體對的所有實例來共同預測實體間關係。我們課題組林衍凱等人工作 [19] 提出句子級別注意力機制,對不同的實例賦予不同的權重,用以降低噪音實例造成的影響。工作 [20] 引入對抗訓練來提升模型對噪音數據的抵抗能力。工作 [21] 則構建了一套強化學習機制來篩除噪音數據,並利用剩餘的數據來訓練模型。

總結來說,已有對遠程監督的降噪方法可以兼顧了關係抽取的魯棒性與有效性,也具有較強的可操作性和實用性。不過,使用已有知識圖譜對齊文本來獲取數據訓練關係抽取模型,再利用該模型來抽取知識加入知識圖譜,本身就有一種雞生蛋與蛋生雞的味道。不完善的知識圖譜對齊所得到的文本訓練數據也將是不完善的,對那些長尾知識而言,仍難以通過這種遠程監督機制來得到訓練實例。如何提出更有效的機制來高效獲取高質量、高覆蓋、高平衡的訓練數據,仍然是一個值得深入思考的問題。

更高效的學習能力

即使通過遠程監督等辦法能夠自動獲取高質量的訓練數據,由於真實場景中關係和實體對的長尾分布特點,絕大部分的關係和實體對的可用樣例仍然較少。而且,對於醫療、金融等專業領域的專門關係,受限於數據規模的問題可用樣例也很有限。而神經網絡模型作為典型的 data-hungry 技術,在訓練樣例過少時性能會受到極大影響。因此,研究者們希望探索有效提升模型學習能力的方法,以更好地利用有限訓練樣例取得滿意的抽取性能。

實際上,人類可以通過少量樣本快速學習知識,具有「舉一反三」的能力。為了探索深度學習和機器學習「舉一反三」的能力,提出了少次學習(Few-shot learning)任務。通過設計少次學習機制,模型能夠利用從過往數據中學到的泛化知識,結合新類型數據的少量訓練樣本,實現快速遷移學習,具有一定的舉一反三能力。

過去少次學習研究主要集中於計算機視覺領域,自然語言處理領域還少有探索。我們課題組韓旭同學等的工作 [21] 首次將少次學習引入到關係抽取,構建了少次關係抽取數據集 FewRel,希望推動驅動自然語言處理特別是關係抽取任務的少次學習研究。如下圖所示,關係抽取少次學習問題僅為每種關係提供極少量樣例(如 3-5 個),要求儘可能提高測試樣例上的關係分類效果。

FewRel 論文工作初步嘗試了幾個代表性少次學習方法包括度量學習(Metric learning)、元學習(Meta learning)、參數預測(Parameter prediction)等,評測表明即使是效果最佳的原型網絡(Prototypical Networks)模型,在少次關係抽取上的性能仍與人類表現相去甚遠。

為了更好解決遠程監督關係抽取的少次學習問題,我們課題組的高天宇同學等的工作 [22] 提出了基於混合注意力機制的原型網絡,同時考慮實例級別和特徵級別的注意力機制,在減少噪音標註影響的同時,能更好地關注到句中的有用特徵,實現高效少次學習。工作 [23] 提出多級匹配和整合結構,充分學習訓練樣例之間的潛在關聯,儘可能挖掘為數不多的樣例中的潛在信息。工作 [24] 則採用了預訓練語言模型 BERT 來處理關係抽取中的少次學習問題,基於海量無監督數據訓練的 BERT,能夠為少次學習模型提供有效的語義特徵,在 FewRel 數據上取得了超過人類關係分類的水平。

在對少次學習關係抽取探究的過程中,課題組的高天宇同學等進一步發現兩個長期被忽視的方面 [25]:要將少次學習模型用於生產環境中,應具備從資源豐富領域遷移到資源匱乏領域(low-resource domains)的能力,同時還應具備檢測句子是否真的在表達某種預定義關係或者沒有表達任何關係的能力。為此他們提出了 FewRel 2.0,在原版數據集 FewRel 的基礎上增加了以下兩大挑戰:領域遷移(domain adaptation)和「以上都不是」檢測(none-of-the-above detection)。

對於領域遷移挑戰,FewlRel 2.0 採集了大量醫療領域的數據並進行標註,要求關係抽取模型在原語料進行訓練後,還可以在這些新領域語料上進行少次學習。對於「以上都不是」檢測,FewRel 2.0 在原 N-way K-shot 設定(給定 N 個新類型,每個類型給定 K 個訓練樣本)上,添加了一個「以上都不是」選項,大大增加了分類和檢測難度。

初步實驗發現,以往有效的模型(包括基於 BERT 的模型)在這兩大挑戰任務均有顯著性能下降。儘管高天宇同學等在 FewRel 2.0 論文中也嘗試了一些可能的解決思路:例如對於領域遷移嘗試了經典的對抗學習方法,模型性能得到了一定的提升;對於「以上都不是」檢測,提出了基於 BERT next sentence prediction task 的 BERT-PAIR 模型,可以在」以上都不是」挑戰取得一點效果。但這兩大挑戰依然需要更多創新探索。

總結來說,探索少次學習關係抽取,讓關係抽取模型具備更強大高效的學習能力,還是一個非常新興的研究方向,特別是面向關係抽取的少次學習問題,與其他領域的少次學習問題相比,具有自身獨有的特點與挑戰。不論是基於已有少次學習技術作出適於 NLP 和關係抽取的改進,還是提出全新的適用於關係抽取的少次學習模型,都將最大化地利用少量標註數據,推動關係抽取技術的落地實用。

更複雜的文本語境

現有關係抽取工作主要聚焦於句子級關係抽取,即根據句內信息進行關係抽取,各類神經網絡模型也擅長編碼句子級語義信息,在很多公開評測數據能夠取得最佳效果。而在實際場景中,大量的實體間關係是通過多個句子表達的。如下圖所示,文本中提到多個實體,並表現出複雜的相互關聯。根據從維基百科採樣的人工標註數據的統計表明,至少 40%的實體關係事實只能從多個句子中聯合獲取。為了實現多個實體間的跨句關係抽取,需要對文檔中的多個句子進行閱讀推理,這顯然超出了句子級關係抽取方法的能力範圍。因此,進行文檔級關係抽取勢在必行。

文檔級關係抽取研究需要大規模人工標註數據集來進行訓練和評測。目前文檔級關係抽取數據集還很少。工作 [26,27] 構建了兩個遠程監督的數據集,由於沒有進行人工標註因此評測結果不太可靠。BC5CDR [28] 是人工標註的文檔級關係抽取數據集,由 1,500 篇 PubMed 文檔構成是生物醫學特定領域,且僅考慮「化學誘導的疾病」關係,不一定適合用來探索文檔級關係抽取的通用方法。工作 [29] 提出使用閱讀理解技術回答問題的方式從文檔中提取實體關係事實,這些問題從」實體-關係「對轉換而來。由於該工作數據集是針對這種方法量身定製的,也不那麼適用於探索文檔級關係抽取的通用方法。這些數據集或者僅具有少量人工標註的關係和實體,或者存在來自遠程監督的噪音標註,或者服務於特定領域或方法,有這樣或那樣的限制。

為了推動文檔級關係抽取的研究,課題組姚遠同學等 [30] 提出了 DocRED 數據集,是一個大規模的人工標註的文檔級關係抽取數據集,基於維基百科正文和 WikiData 知識圖譜構建而成,包含 5,053 篇維基百科文檔,132,375 個實體和 53,554 個實體關係事實,是現有最大的人工標註的文檔級關係抽取數據集。如下圖所示,文檔級關係抽取任務要求模型具有強大的模式識別、邏輯推理、指代推理和常識推理能力,這些方面都亟待更多長期的研究探索。

更開放的關係類型

現有關係抽取工作一般假設有預先定義好的封閉關係集合,將任務轉換為關係分類問題。然而在開放域的真實關係抽取場景中,文本中包含大量開放的實體關係,關係種類繁多,而且關係數量也會不斷增長,遠超過人為定義的關係種類數量。在這種情況下,傳統關係分類模型無法有效獲取文本中蘊含的實體間的新型關係。如何利用深度學習模型自動發現實體間的新型關係,實現開放關係抽取,仍然是一個」開放「問題。

為了實現面向開放領域的開放關係抽取,研究提出開放關係抽取(Open Relation Extraction,OpenRE)任務,致力於從開放文本抽取實體間的任意關係事實。開放關係抽取涉及三方面的「開放」:首先是抽取關係種類的開放,與傳統關係抽取不同,它希望抽取所有已知和未知的關係;其次是測試語料的開放,例如新聞、醫療等不同領域,其文本各有不同特點,需要探索跨域魯棒的算法;第三是訓練語料的開放,為了獲得儘可能好的開放關係抽取模型,有必要充分利用現有各類標註數據,包括精標註、遠程監督標註數據等,而且不同訓練數據集的關係定義和分布也有所不同,需要同時利用好多源數據。

在前深度學習時代,研究者也有探索開放信息抽取(Open Information Extraction,OpenIE)任務。開放關係抽取可以看做 OpenIE 的特例。當時 OpenIE 主要通過無監督的統計學習方法實現,如 Snowball 算法等。雖然這些算法對於不同數據有較好的魯棒性,但精度往往較低,距離實用落地仍然相距甚遠。

最近,課題組吳睿東同學等的工作 [31] 提出了一種有監督的開放關係抽取框架,可以通過」關係孿生網絡「(Relation Siamese Network,RSN)實現有監督和弱監督模式的自由切換,從而能夠同時利用預定義關係的有監督數據和開放文本中新關係的無監督數據,來共同學習不同關係事實的語義相似度。具體來說,關係孿生網絡 RSN 採用孿生網絡結構,從預定義關係的標註數據中學習關係樣本的深度語義特徵和相互間的語義相似度,可用於計算包含開放關係文本的語義相似度。而且,RSN 還使用了條件熵最小化和虛擬對抗訓練兩種半監督學習方法進一步利用無標註的開放關係文本數據,進一步提高開放關係抽取的穩定性和泛化能力。基於 RSN 計算的開放關係相似度計算結果,模型可以在開放域對文本關係進行聚類,從而歸納出新型關係。

課題組高天宇同學等人工作 [32] 則從另一個角度出發,對於開放域的特定新型關係,只需要提供少量精確的實例作為種子,就可以利用預訓練的關係孿生網絡進行滾雪球(Neural SnowBall),從大量無標註文本中歸納出該新型關係的更多實例,不斷迭代訓練出適用於新型關係的關係抽取模型。

總結來說,開放域關係抽取在前深度學習時代取得了一些成效,但如何在深度學習時代與神經網絡模型優勢相結合,有力拓展神經網絡關係抽取模型的泛化能力,值得更多深入探索。

總結

為了更及時地擴展知識圖譜,自動從海量數據中獲取新的世界知識已成為必由之路。以實體關係抽取為代表的知識獲取技術已經取得了一些成果,特別是近年來深度學習模型極大地推動了關係抽取的發展。但是,與實際場景的關係抽取複雜挑戰的需求相比,現有技術仍有較大的局限性。我們亟需從實際場景需求出發,解決訓練數據獲取、少次學習能力、複雜文本語境、開放關係建模等挑戰問題,建立有效而魯棒的關係抽取系統,這也是實體關係抽取任務需要繼續努力的方向。

我們課題組從 2016 年開始耕耘實體關係抽取任務,先後有林衍凱、韓旭、姚遠、曾文遠、張正彥、朱昊、於鵬飛、於志竟成、高天宇、王曉智、吳睿東等同學在多方面開展了研究工作。去年在韓旭和高天宇等同學的努力下,發布了 OpenNRE 工具包 [33],經過近兩年來的不斷改進,涵蓋有監督關係抽取、遠程監督關係抽取、少次學習關係抽取和文檔級關係抽取等豐富場景。此外,也花費大量科研經費標註了 FewRel(1.0 和 2.0)和 DocRED 等數據集,旨在推動相關方向的研究。

本文總結了我們對實體關係抽取現狀、挑戰和未來發展方向的認識,以及我們在這些方面做出的努力,希望能夠引起大家的興趣,對大家有些幫助。期待更多學者和同學加入到這個領域研究中來。當然,本文沒有提及一個重要挑戰,即以事件抽取為代表的複雜結構的知識獲取,未來有機會我們再專文探討。

限於個人水平,難免有偏頗舛誤之處,還請大家在評論中不吝指出,我們努力改進。需要說明的是,我們沒想把這篇文章寫成嚴謹的學術論文,所以沒有面面俱到把每個方向的所有工作都介紹清楚,如有重要遺漏,還請批評指正。

廣告時間

我們課題組在實體關係抽取方面開展的多項工作(如 FewRel、DocRED 等)是與騰訊微信模式識別中心團隊合作完成的。微信模式識別中心是微信 AI(WeChat AI)下轄的中心之一,主要關注自然語言處理相關的研究和產品。研究方面,他們的研究工作涵蓋對話系統、知識學習、認知推理、機器翻譯等多個方向,今年在 ACL、EMNLP、AAAI 等會議上發表論文 20 多篇,也在多個比賽中獲得優異成績,學術成果頗豐。產品方面,他們開發的小微對話系統和微信對話開放平臺在音箱、公眾號自動客服等場景方面也有不俗的表現,但投入的人力比亞馬遜 Alex 團隊要少得多,也算是對微信「小」團隊做大事風格的一種體現。微信模式識別中心團隊學術與產品雙強的特點也為我們的合作帶來了不一樣的體驗,一方面雙方都對世界前沿技術的研究保持了高度的熱情,能夠一起勠力同心做一些需要時間打磨、但影響深遠的探索,另一方面真實的產品也為我們的研究提供了不同的視角和應用的場景,真正做到了強強聯合、優勢互補,是非常值得合作的團隊。

我們與騰訊微信的這些合作是基於「清華-騰訊聯合實驗室」開展的。我們與騰訊高校合作中心合作多年,參與了包括清華-騰訊聯合實驗室(與清華各院系開展合作的學校級平臺)、犀牛鳥專項基金(面向各類老師的前沿探索研究性項目)、犀牛鳥精英人才培養計劃(面向學生,騰訊和清華雙導師聯合在騰訊培養科研型人才)等項目。感謝騰訊高校合作中心為高校與騰訊搭建的協作共贏的產學研合作平臺,大家可以關注騰訊高校合作微信公眾號 Tencent_UR 了解最新信息。

這裡還要特別介紹我們與微信模識中心的對接人 Patrick Li(由於不可言說的原因只好用他英文名,並非為了裝 B)和林衍凱。Patrick 是我的師弟,跟我已經有十幾年的交情,清華貴系 2005 級本科生,2009 級博士生。他從本科時就加入我們課題組,當時我與他合作發表了我的第一篇 EMNLP 2009 論文,後來他來我們課題組讀博,跟隨孫茂松老師和劉洋老師從事機器翻譯研究,做出很多有影響力的成果。他是我們合作項目的負責人,目前在微信模式識別中心負責領導 NLP 基礎技術的研究和應用工作,在技術和人品方面都可謂有口皆碑,與他合作過的同學都印象深刻。現在,他主要關注自動問答、信息抽取、機器翻譯等方面工作。也許正是受到 Patrick 的」感召「,我們組的林衍凱同學(http://nlp.csai.tsinghua.edu.cn/~lyk/)今年博士畢業後,也選擇加入了他們團隊,也在和我們一起合作開展知識圖譜和自動問答方面的研究工作。

圖窮匕見,讀者中如果有希望找自然語言處理和知識圖譜方面實習或工作的同學,歡迎聯繫 Patrick Li(patrickpli@tencent.com),讓我們共同努力,開展有意思有意義的研究工作。Patrick Li:http://www.lpeng.net作者簡介

韓旭,清華大學計算機科學與技術系博士三年級同學,主要研究方向為自然語言處理、知識圖譜、信息抽取。在人工智慧領域國際著名會議 AAAI、ACL、EMNLP、COLING、NAACL 上發表多篇論文,是 OpenKE、OpenNRE 等開源項目的開發者之一。主頁:

https://thucsthanxu13.github.io/thucsthanxu13.github.io高天宇,清華大學計算機系大四本科生,主要研究方向為自然語言處理、知識圖譜、關係抽取。在人工智慧領域國際著名會議 AAAI、EMNLP 上發表多篇論文,是 OpenNRE 等開源項目的主要開發者之一。主頁:

gaotianyu.xyz劉知遠,清華大學計算機系副教授、博士生導師。主要研究方向為表示學習、知識圖譜和社會計算。主頁:

nlp.csai.tsinghua.edu.cn原文連結:https://zhuanlan.zhihu.com/p/91762831參考文獻

[1] ChunYang Liu, WenBo Sun, WenHan Chao, Wanxiang Che. Convolution Neural Network for Relation Extraction. The 9th International Conference on Advanced Data Mining and Applications (ADMA 2013).

[2] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao. Relation Classification via Convolutional Deep Neural Network. The 25th International Conference on Computational Linguistics (COLING 2014).

[3] Dongxu Zhang, Dong Wang. Relation Classification via Recurrent Neural Network. arXiv preprint arXiv:1508.01006 (2015).

[4] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[5] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. The 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012).

[6] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid Séaghdha, Sebastian Padó, Marco Pennacchiotti, Lorenza Romano, Stan Szpakowicz. SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations between Pairs of Nominals. The 5th International Workshop on Semantic Evaluation (SEMEVAL 2010).

[7] Thien Huu Nguyen, Ralph Grishman. Relation Extraction: Perspective from Convolutional Neural Networks. The 1st Workshop on Vector Space Modeling for Natural Language Processing (LatentVar 2015).

[8] Cícero dos Santos, Bing Xiang, Bowen Zhou. Classifying Relations by Ranking with Convolutional Neural Networks. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).

[9] Shu Zhang, Dequan Zheng, Xinchen Hu, Ming Yang. Bidirectional Long Short-Term Memory Networks for Relation Classification. The 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015).

[10] Minguang Xiao, Cong Liu. Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attention. The 26th International Conference on Computational Linguistics (COLING 2016).

[11] Kun Xu, Yansong Feng, Songfang Huang, Dongyan Zhao. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[12] Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[13] Yang Liu, Furu Wei, Sujian Li, Heng Ji, Ming Zhou, Houfeng Wang. A Dependency-Based Neural Network for Relation Classification. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).

[14] Yan Xu, Ran Jia, Lili Mou, Ge Li, Yunchuan Chen, Yangyang Lu, Zhi Jin. Improved Relation Classification by Deep Recurrent Neural Networks with Data Augmentation. The 26th International Conference on Computational Linguistics (COLING 2016).

[15] Rui Cai, Xiaodong Zhang, Houfeng Wang. Bidirectional Recurrent Convolutional Neural Network for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[16] Mike Mintz, Steven Bills, Rion Snow, Daniel Jurafsky. Distant Supervision for Relation Extraction without Labeled Data. The 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009).

[17] Daojian Zeng, Kang Liu, Yubo Chen, Jun Zhao. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[18] Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, Maosong Sun. Neural Relation Extraction with Selective Attention over Instances. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[19] Yi Wu, David Bamman, Stuart Russell. Adversarial Training for Relation Extraction. The 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017).

[20] Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. Reinforcement Learning for Relation Classification from Noisy Data. The 32th AAAI Conference on Artificial Intelligence (AAAI 2018).

[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).

[22] Tianyu Gao, Xu Han, Zhiyuan Liu, Maosong Sun. Hybrid Attention-based Prototypical Networks for Noisy Few-Shot Relation Classification. The 33th AAAI Conference on Artificial Intelligence (AAAI 2019).

[23] Zhi-Xiu Ye, Zhen-Hua Ling. Multi-Level Matching and Aggregation Network for Few-Shot Relation Classification. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).

[24] Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, Tom Kwiatkowski. Matching the Blanks: Distributional Similarity for Relation Learning. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).

[25] Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou. FewRel 2.0: Towards More Challenging Few-Shot Relation Classification. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).

[26] Chris Quirk, Hoifung Poon. Distant Supervision for Relation Extraction beyond the Sentence Boundary. The 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2017).

[27] Nanyun Peng, Hoifung Poon, Chris Quirk, Kristina Toutanova, Wen-tau Yih. Cross-Sentence N-ary Relation Extraction with Graph LSTMs. Transactions of the Association for Computational Linguistics (TACL 2017).

[28] Chih-Hsuan Wei, Yifan Peng, Robert Leaman, Allan Peter Davis, Carolyn J. Mattingly, Jiao Li, Thomas C. Wiegers, Zhiyong Lu. Overview of the BioCreative V Chemical Disease Relation (CDR) Task. The 5th BioCreative Challenge Evaluation Workshop (BioC 2015).

[29] Omer Levy, Minjoon Seo, Eunsol Choi, Luke Zettlemoyer. Zero-Shot Relation Extraction via Reading Comprehension. The 21st Conference on Computational Natural Language Learning (CoNLL 2017).

[30] Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, Maosong Sun. DocRED: A Large-Scale Document-Level Relation Extraction Dataset. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).

[31] Ruidong Wu, Yuan Yao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Open Relation Extraction: Relational Knowledge Transfer from Supervised Data to Unsupervised Data. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).

[32] Tianyu Gao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Neural Snowball for Few-Shot Relation Learning. The 34th AAAI Conference on Artificial Intelligence (AAAI 2020).

[33] Xu Han, Tianyu Gao, Yuan Yao, Deming Ye, Zhiyuan Liu, Maosong Sun. OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2019).

相關焦點

  • 愛分析·中國知識圖譜應用趨勢報告
    目前,通過知識圖譜技術分析展示實體間關聯關係已在多領域有廣泛的應用;準確性:知識圖譜構建的語義網絡中具有多種語義關係,多角度挖掘信息,保證相關信息的準確性;關聯分析:知識圖譜本身具備「邊」的概念,強調實體間的關聯與屬性。在實際業務場景中,利用知識圖譜技術能快速有效地發現無關實體間的隱性關聯關係。
  • 萬字詳解:騰訊如何自研大規模知識圖譜 Topbase
    其中知識圖譜體系是知識圖譜的骨架,決定了我們採用什麼樣的方式來組織和表達知識,數據生產流程是知識圖譜構建的核心內容,主要包括下載平臺,抽取平臺,知識規整模塊,知識融合模塊,知識推理模塊,實體重要度計算模塊等。Topbase 應用層涉及知識問答(基於 topbase 的 KB-QA 準確率超 90%),實體連結(2017 圖譜頂級賽事 KBP 雙料冠軍),相關實體推薦等。
  • 知識圖譜前沿跟進,看這篇就夠了,Philip S. Yu 團隊發布權威綜述...
    構建好的大型知識圖譜對於很多下遊應用是很有用的,可以賦予基於知識的模型常識推理的能力,因此為實現人工智慧打下基礎。知識獲取的主要任務包括關係抽取、知識圖譜補全、以及其它面向實體的獲取任務,如實體識別和實體對齊。大多數方法單獨地形式化定義知識圖譜補全和關係抽取。然而,這兩種任務也可以被整合到一個統一的框架中。
  • 蘇寧金融科技運用知識圖譜提升「千言」客服機器人效能
    近日,「千言」機器人開始引入知識圖譜,強化機器人的知識構建能力,提升整體服務效能。據了解,知識圖譜(Knowledge Graph)是以結構化的形式描述客觀世界中概念、實體及其關係,將網際網路的信息表達成更接近人類認知世界的形式,是一種更好地組織、管理和理解網際網路海量信息的能力。
  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    其中,HAO 圖譜屬於認知系統的範疇。HAO 圖譜,可以獨立運行,也可交付給企業技術團隊進行二次開發,核心模塊包括語音流監聽,語音轉文本,標點預測,口語順滑,文本補全,實體關係抽取,實體對齊,以及圖譜話題切換。
  • 星環科技發布新一代高性能全場景知識圖譜解決方案
    很多知識圖譜技術前沿都在研究融入「時空地」等信息,將知識圖譜更加具象化,便於分析人員使用。未來,知識圖譜將更多地融入時間、空間、地理信息分析,包括星環科技參與的鐘南山院士團隊預測疫情發展項目的模型建設中,也用到了知識圖譜對於疫情傳播分析,結合地理空間信息進行構建疫情風險高危地區識別模型。
  • 騰訊雲小微獲首批知識圖譜產品認證,加速AI交互能力升級
    騰訊雲小微深耕知識圖譜技術,算法模型行業領先 據介紹,首批知識圖譜產品認證的測評,主要從知識圖譜構建平臺的知識獲取、知識抽取、知識存儲、知識建模等功能的完整度與算法性能指標。 此次通過認證的騰訊雲小微知識圖譜產品,依託了騰訊雲小微自研的知識圖譜算法和深度學習技術,基於平臺對行業知識的長期積累,能快速搭建多個領域的知識結構,有效地從非結構化文件中抽取關鍵信息,為行業提供全流程知識圖譜構建服務。
  • 關係抽取調研——學術界
    P@N(最高置信度預測精度): 通常在遠監督關係抽取中使用到,由於知識庫所含關係實例的不完善,會出現高置信度包含關係實例的實體對被叛為負例,從而低估了系統正確率。此時可以採用人工評價,將預測結果中知識庫已包含的三元組移除,然後人工判斷抽取關係實例是否正確,按照top N的準確率對抽取效果進行評價。
  • 零氪科技斬獲CHIP2020關係抽取、術語標準化2項冠軍
    CHIP2020 是中國中文信息學會(CIPS)醫療健康與生物信息處理專業委員會主辦的關於醫療、健康和生物信息處理和數據挖掘等技術的年度會議,是中國健康信息處理領域最重要的學術會議之一,會議聚焦「數據和知識驅動的醫療AI」,聚集全國頂尖的醫療信息處理學者與醫療專家。
  • 騰訊醫療AI實驗室:3篇論文被國際頂尖會議收錄 ——騰訊醫療知識...
    在醫療領域,專業知識和病人信息均存儲在複雜多樣的文本中,如醫療文獻、臨床病例等。文本數據中的多重表達形式和噪聲給基於文本數據的AI醫療服務帶來挑戰和困難。知識圖譜能夠以結構化的形式存儲醫學中實體以及實體間的關係,能將信息表達成更容易被計算機處理的形式。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    對NMN進行評估,其中月有25%的DROP數據可通過其模塊來回答,在DROP dev測試中獲得了77.4 的F1 分數 和74 的EM 分數。二、知識圖譜增強的語言模型將知識融入語言模型,目前已是大勢所趨。
  • 本體和知識圖譜之間的區別是什麼?
    隨著語義應用程式成為業界越來越熱門的話題,客戶經常來EK詢問有關本體和知識圖譜的問題。具體來說,他們想知道兩者之間的區別。本體和知識圖譜是一回事嗎?它們有何不同?兩者之間是什麼關係?在這篇博客中,我將引導您了解本體和知識知識圖譜,講述它們之間的區別以及它們如何組織大量數據和信息。
  • 星環科技作為最佳實踐案例入選《愛分析·知識圖譜應用趨勢報告》
    以某股份制商業銀行為例,與星環科技合作建設知識圖譜分析應用體系,知識圖譜平臺功能主要包括圖譜存儲、圖譜分析、圖譜可視化和圖譜應用四個方面,用於客戶精準營銷、風險防控、運營優化以及管理決策。
  • 平安產險在ICDM 2020 知識圖譜國際大賽中斬獲冠軍
    安徽商報合肥網訊 近日,平安產險在國際電氣與電子工程師協會(IEEE)旗下 ICDM(International Conference on Data Mining)國際數據挖掘會議主辦的知識圖譜大賽中脫穎而出,擊敗257家參賽單位和隊伍,在競賽單元和論文單元綜合排名首位。這是繼2019年智能單證識別技術榮獲第一後,平安產險在數據挖掘領域再次摘得世界桂冠。
  • 淵亭科技推出國防領域首個「億級規模武器裝備知識圖譜平臺」
    構建起專有的武器裝備知識圖譜,不僅能夠直觀立體展現現有的武器裝備關聯關係,還可以提供一個統一數據模型和數據標準,靈活集成、關聯不同類型、不同用途,甚至不同時代的武器裝備數據,並在知識圖譜中挖掘間接的、隱藏的、內部的聯繫,實現多維度裝備體系分析,打通各軍兵種不同業務領域間的信息隔閡,提高
  • BERT融合知識圖譜之模型及代碼淺析
    所以接下來我們要「創造」出擁有以上技能的老師,幸運的是,得益於過去一年NLP技術井噴式的發展,學術界和工業界的大佬們,基於BERT提出了一些結合知識圖譜的混合模型方案,為我們量身打造出了這樣「老師」:比如北大-騰訊聯合推出知識賦能的K-BERT模型、百度提出的通過知識集成增強語義表示的模型ERNIE、清華和華為提出的信息實體的增強語義模型ERNIE。
  • 除了知識圖譜,圖還能做什麼?
    提到圖,大家可能不怎麼了解,但是提到知識圖譜(knowledge graph),絕對是當前的熱門話題。近年來,各個行業湧現出大量的垂直應用及服務提供商,各個企業,從技術到業務的各個條線,紛紛學習知識圖譜的概念、技術、建設方法。知識圖譜,是對現實世界的抽象,通過點和邊描述實體之間的關係,構成一個大型的語義網絡,提供一種從關係的視角來觀察世界的方法。
  • 聚焦CCKS 2020 |醫渡雲運用知識圖譜技術 更好發揮「黑盒」和...
    醫渡雲算法工程師焦曉康受邀參加此次會議,並在知識圖譜工業界論壇發表了主題演講。 本屆大會吸引眾多人工智慧、知識圖譜領域的專家出席,中國科學院數學與系統科學研究院研究員、中國科學院院士陸汝鈐院士,作為大會特邀嘉賓,在開幕式上發表了關於發展知識圖譜支撐平臺研究的主題報告,並在報告中回顧了學術界和企業界對知識圖譜支撐平臺的研究現狀。
  • 汪偉:知識圖譜在商業地產管理中的應用案例
    平安科技知識圖譜副總工程師汪偉精彩觀點:商業地產管理擺脫傳統的經驗化,要將個案情況向整個面的關係網絡覆蓋,通過知識圖譜的網絡結構,把一個企業的方方面面,包括企業客戶的供應商客戶一、知識圖譜的特徵與價值引言:知識圖譜這個概念從表面上看它就是一些關係的點,比如張三和李四結合在一起會成為一對關係,兩個實體有兩個人,他們婚姻的關係是這樣的關係對。在現實中,這種連接有些什麼樣的意義和價值?
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    白皮書從善政、惠民、興業、智融四個部分對知識圖譜技術在其他行業中的代表性應用場景進行梳理,對知識圖譜未來的發展和應用做出展望,同時對人工智慧「新基建」下,城市數位化、智慧化發展的創新場景進行展示。01善政城市治理知識圖譜應用場景:知識圖譜賦能城市智能公共管理系統,打造城市「數字大腦」環保知識圖譜應用場景:構建生態環境知識庫,形成統一環境數據標準