...最大的實體關係抽取數據集!清華大學自然語言處理團隊發布 FewRel

2020-12-05 手機鳳凰網
  • FewRel 網站地址:https://thunlp.github.io/fewrel.html

    論文地址:http://aclweb.org/anthology/D18-1514

    關係抽取(relation extraction)是自然語言處理中的一項重要任務,其通過從純文本中抽取關係事實,來構建和擴充知識圖譜(knowledge graph)。例如,從句子「馬雲創辦了阿里巴巴」中,可以抽取出關係事實(馬雲, 創始人, 阿里巴巴),其中馬雲和阿里巴巴被稱為實體(entity),而創始人則是他們的關係(relation)。關係抽取是知識獲取的重要途徑,對於理解自然語言和理解世界知識意義重大。

    目前的關係抽取模型面臨著一個極大的問題:訓練數據不足。相比計算機視覺中的相關任務,語言相關的標註更加困難,需要標註者掌握相應的知識。就如下表 1 中所示,已有精標註關係抽取數據集在關係數量和實例數量上都較少,這極大限制了關係抽取的發展。

    數據集
    關係數量 實例數量(不包括 NA)
    SemEval-2010 Task 8
    9
    6,674
    ACE 2003-2004
    24 16,771
    TACRED 42 21,784
    FewRel
    100
    70,000

    表 1:常用精標關係抽取數據集對比

    作為目前關係抽取領域最大的精標註數據集,FewRel 中有 100 類關係,共 70,000 個實例,是很好的實驗數據集。此前,加州大學聖巴巴拉分校計算機科學系助理教授王威廉實驗室與IBM合作的 NAACL 2019 論文 Sentence Embedding Alignment for Lifelong Relation Extraction 就用到了這個數據集。

    FewRel 是以 Wikipedia 作為語料庫,以 Wikidata 作為知識圖譜構建的。

    圖 1: Wikidata 和 Wikipedia(圖來自 Wikidata 和 Wikipedia 官網)

    Wikipedia 作為網際網路上的自由百科全書,因其巨大的體量和蘊含的豐富知識而備受 NLP 學者青睞。與其相對應的知識圖譜 Wikidata,則是 Wikipedia 中知識的結構化。目前 Wikidata 中已有超過 5000 萬個實體,千餘種關係。

    清華大學自然語言處理實驗室數據集團隊首先利用這兩者構造了一個遠監督的數據集。那麼,什麼是遠監督?知識圖譜中已經包含了許多實體以及他們之間的關係,我們可以假設,若兩個實體 h 和 t 間有關係 r,而一個句子中同時出現了 h 和 t,則該句子表達了它們之間的關係 r。通過這種方法可以自動獲得大規模的標註數據,然而這一數據是充滿噪聲的,幾乎無法直接用來訓練模型。在遠監督數據集的基礎上,去掉出現重複實體對的句子,去掉少於 1000 個樣本的類,最終留下 122 類,共 122,000 個實例,然後進行人工標註。

    在這一過程中,每個實例都會有多個標註員進行標註,通過冗餘保證標註質量。在此之後再進行一輪質量篩選,最後留下 100 類,共 70,000 句高質量標註的關係抽取數據。最終數據集中,每句的平均長度為 24.99,一共出現 124,577 個不同的單詞/符號。

    據了解,FewRel 的意義不僅僅是一個大規模的數據集。因為關係數量的眾多,學界可以在 FewRel 上進行更多維度的探索,其中很重要的一個方向就是少次學習(few-shot learning)。人可以接觸很少的例子而學會認知一種新的事物,從這一點出發,深度學習模型能否具備從少量樣本中快速學習的能力呢?目前在 CV 領域已有了很多這方面的嘗試,但在 NLP 當中,尤其是關係抽取上,還缺乏類似的探索。尤其因為以往的關係抽取數據集關係數量和實例數量較少,而通常 few-shot 模型需要在大規模數據上預訓練,需要在類別較多的數據上做 sample 評測,所以很難開展相關工作。

    FewRel 的出現打開了少例關係抽取的大門,其名字中的 Few 也正是取自 Few-shot。通過下面的表 2 我們可以看到,FewRel 與 CV 中的 few-shot 數據集 mini-ImageNet 具有相同的規模,可見其足以支撐相關的研究。

    數據集 類別數 每類實例
    總實例
    Omniglot 1,623
    20 32,460
    mini-ImageNet 100 600
    60,000
    FewRel 100 700
    70,000

    表 2:FewRel 與兩個 CV 中 Few-Shot 數據集對比

    除此之外,FewRel 還可以幫助科研人員進行需要較多關係類別的相關研究,終身學習(lifelong learning)就是其中一個方向。目前大部分關係抽取模型都是在預先定義好的類別中進行探索,而我們知道,世界知識是不斷增長的,關係數量也不是停滯的,如何讓一個模型能不斷接收新的訓練樣本,同時不至遺忘之前的知識,是一個十分值得探索的課題。而相關實驗需要有大量關係類別的精標數據,FewRel 正好滿足條件。

    據了解,未來 FewRel 團隊還將公開其構建數據集時所使用的基於 Wikipedia 的遠監督數據,將遠監督數據與精標數據相結合,研究人員可以進一步探索遠監督的降噪機制,以及如何使用兩種數據進行半監督學習。

    由於精標數據可以被視作「種子」,遠監督數據可以被看作巨大的語料庫,FewRel 還可以用在主動學習(active learning)和自啟動算法(bootstrapping)方面的研究中。然而,近幾年來,在關係抽取領域少有人進行類似探索,其原因就是數據集的缺乏。伴隨著 FewRel 的出現,相信接下來這些重要方向的研究必然會有所推進。

    雷鋒網雷鋒網

  • 相關焦點

    • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
      最近幾年深度學習引發的人工智慧浪潮席捲全球,在網際網路普及帶來的海量數據資源和摩爾定律支配下飛速提升的算力資源雙重加持下,深度學習深入影響了自然語言處理的各個方向,極大推動了自然語言處理的發展。來到 2019 年的今天,深度學習的諸多局限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠數據標註與算力投入無法解決本質問題。
    • 清華大學馮珺:當強化學習遇見自然語言處理有哪些奇妙的化學反應?|...
      在近期雷鋒網GAIR大講堂上,來自清華大學計算機系的博士生馮珺,為大家介紹了如何利用強化學習技術,更好地解決自然語言處理中的兩個經典任務:關係抽取和文本分類。 本文根據視頻直播分享整理而成,內容若有疏漏,以原視頻嘉賓所講為準。
    • NLP:關係抽取到底在乎什麼
      這是來自EMNLP20上清華大學劉知遠團隊的「靈魂發問」~ 關係抽取是每一位NLPer都很熟知的任務,特別是基於BERT的神經關係抽取模型已經登頂各大榜單SOTA,某些甚至直逼人類表現。但也許你和JayJay一樣,可能只是調個包、從不過問關係抽取的核心要素是啥吧~ 在劉知遠老師的EMNLP20論文《Learning from Context or Names?
    • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
      機器學習算法與自然語言處理出品@公眾號原創專欄作者 劉浪
    • 清華大學人工智慧研究院知識中心成立儀式隆重舉行,發布知識計算...
      XLORE 集成了多項創新研究成果:利用基於連結因子圖模型的知識連結方法,實現對不同語言知識資源之間的實體知識關聯;利用跨語言概念層次關係的驗證保證生成跨語言本體中概念關係的質量,並進一步研究了跨語言知識圖譜的概念層次剪枝和優化算法以規範知識分類體系;利用因子圖模型建立跨語言屬性間的對應關係,減少知識圖譜的冗餘;聯合使用 DBpedia
    • 人工智慧難點之——自然語言處理(NLP)
      (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
    • ...2020年清華大學劉知遠新書《自然語言處理表示學習技術》(全英文)
      內容簡介 · · · · · ·《Representation Learning for Natural Language Processing(自然語言處理表示學習技術)》本書全面介紹了自然語言處理表示學習技術的理論
    • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
      選自Github作者:Sebastian Ruder機器之心編譯參與:思源、曉坤自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的性能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。
    • 平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取
      近日,在全球權威NLP大賽SemEval-2020 中,平安人壽AI團隊斬獲自由文本信息抽取(DeftEval: Extracting term-defination pairs in free text)競賽關係抽取賽道冠軍。該賽題任務包含了定義抽取、實體標註、關係抽取三項NLP技術難點。
    • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
      本文作者:陳肇江、王勳、陳旭、吳永科、蘇海波信息抽取、知識圖譜及自然語言處理  1. 信息抽取的內涵與外延  新基建的大潮湧中,人工智慧、大數據與5G應用是人們競相追逐的燈塔,在描繪數字經濟時代宏偉藍圖的時候,知識圖譜與自然語言處理成為追捧的香餑餑。
    • 蘇州大學張民教授兩小時講座精華摘錄:自然語言處理方法與應用
      一、AI、自然語言和自然語言處理從農業社會、工業社會到信息社會,從數據到信息、到知識到智能的演變,代表了人類社會的巨大進步,展現了人類對於不同概念的詮釋與理解的演變:數據可以理解為人類對主觀/客觀世界事物的數量、屬性、位置及其相互關係的抽象表示;信息是具有時效性的、有一定含義的、有邏輯的、經過加工處理的、對決策有價值的數據流,也就是加工後有邏輯的數據
    • 陳丹琦新作:關係抽取新SOTApipeline挫敗joint
      :命名實體識別和關係抽取。,該方法學習兩個獨立編碼器,分別用於實體識別和關係抽取的。如下圖所示,首先將輸入句子饋入實體模型,該模型為每一個 span 預測實體類型;然後通過嵌入額外的 marker token 在關係模型中獨立處理每對候選實體,以突出顯示主語、賓語及其類型。
    • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
      自然語言處理技術不僅僅需要算法、算力和數據,同時也需要不斷地凝練知識,需要語言處理跟我們認識世界、改造世界的過程相結合,所以仍然有很多創新突破的空間。」他希望通過本次論壇,青年學者們能夠增進交流,碰撞新的火花,一起推動自然語言處理的發展及產業化的進程,在人工智慧時代幫助我們的生活變得更加美好。
    • AI能看懂英文,阿里巴巴奪實體發現測評全球第一
      KBP是由NIST(National Institute of Standards and Technology,美國國家標準與技術研究院)指導、美國國防部協辦的賽事,主要任務為從自然書寫的非結構化文本中抽取實體,以及實體之間的關係。
    • 金融領域中的自然語言處理,弄懂這五個問題就夠了
      在本期的MioTech黑板報中,妙盈科技CTO劉濤將通過五個問題,為我們解釋自然語言處理(NLP)的基本概念與發展歷程,以及針對中文與英文NLP面臨的問題有哪些不同,金融領域中的NLP已經有了哪些應用?又存在哪些挑戰?什麼是自然語言處理?與其他領域相比,針對金融領域的自然語言處理有何不同?
    • 復旦大學黃萱菁:自然語言處理中的表示學習
      近年來擔任2014年ACM 信息與知識管理會議競賽主席,2015年ACM 網際網路搜索與數據挖掘會議組織者,2015年社會媒體處理大會程序委員會副主席,2016年、2019年全國計算語言學會議程序委員會副主席,2017年國際自然語言處理與中文計算會議程序委員會主席等學術職務,併入選由清華大學—中國工程院知識智能聯合研究中心和清華大學人工智慧研究院聯合發布的「2020年度人工智慧全球女性」及「2020年度
    • 資源| MIT自然語言處理數據集和語料庫集合
      原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 >機器之心編譯 參與:李澤南 最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的數據集/語料庫列表,以時間順序排列。
    • 自然語言處理學術會議AACL線上召開 聚焦亞太地區NLP技術進展
      同時,按照ACL年會慣例,此次亞太分會年會與第十屆國際自然語言處理聯席會議(International Joint Conference on Natural Language Processing, IJCNLP)聯合召開。會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。
    • 陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型
      從非結構化文本中抽取實體及其關係是信息抽取中的基本問題。這個問題可以分解為兩個子任務:命名實體識別和關係抽取。早期研究採用 pipeline 方法:訓練一個模型來抽取實體,另一個模型對實體之間的關係進行分類。而近期,端到端關係抽取任務已經成為聯合建模子任務系統的天下。
    • 聚焦多模態自然語言處理等AI技術,京東智聯雲亮相NLPCC 2020
      近年來,人工智慧 (AI) 在涉及單一模態如語音、自然語言和視覺等領域,取得了重大突破。在單一模態的任務上,如物體識別、語音識別、機器翻譯等,AI 系統在特定數據集上的表現水平與人類相當。隨著單模態人工智慧潛在問題的解決,研究人員意識到更高層次的AI任務往往涉及到跨多種模式的更複雜的信息處理。同時,局限於單一模態的研究往往不能充分利用跨模態信息。