實體-關係信息抽取上線使用F1值87.1% (附數據集)

2021-02-20 機器學習AI算法工程

向AI轉型的程式設計師都關注了這個號👇👇👇

機器學習AI算法工程公眾號：datayx

基於 TensorFlow 的實體及關係抽取，2019語言與智能技術競賽信息抽取（實體與關係抽取）任務解決方案。

給定schema約束集合及句子sent，其中schema定義了關係P以及其對應的主體S和客體O的類別，例如（S_TYPE:人物，P:妻子，O_TYPE:人物）、（S_TYPE:公司，P:創始人，O_TYPE:人物）等。任務要求參評系統自動地對句子進行分析，輸出句子中所有滿足schema約束的SPO三元組知識Triples=[(S1, P1, O1), (S2, P2, O2)…]。輸入/輸出: (1) 輸入:schema約束集合及句子sent (2) 輸出:句子sent中包含的符合給定schema約束的三元組知識Triples

例子輸入句子： "text": "《古世》是連載於雲中書城的網絡小說，作者是未弱"

輸出三元組： "spo_list": [{"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "未弱", "subject": "古世"}, {"predicate": "連載網站", "object_type": "網站", "subject_type": "網絡小說", "object": "雲中書城", "subject": "古世"}]}

數據簡介

本次競賽使用的SKE數據集是業界規模最大的基於schema的中文信息抽取數據集，其包含超過43萬三元組數據、21萬中文句子及50個已定義好的schema，表1中展示了SKE數據集中包含的50個schema及對應的例子。數據集中的句子來自百度百科和百度信息流文本。數據集劃分為17萬訓練集，2萬驗證集和2萬測試集。其中訓練集和驗證集用於訓練，可供自由下載。

項目代碼和數據集獲取：

關注微信公眾號 datayx 然後回復 文本標註 即可獲取。

AI項目體驗地址 https://loveai.tech

「信息抽取」任務冠軍隊伍報告

閱讀過本文的人還看了以下文章：

TensorFlow 2.0深度學習案例實戰

基於40萬表格數據集TableBank，用MaskRCNN做表格檢測

《基於深度學習的自然語言處理》中/英PDF

Deep Learning 中文版初版-周志華團隊

【全套視頻課】最全的目標檢測算法系列講解，通俗易懂！

《美團機器學習實踐》_美團算法團隊.pdf

《深度學習入門：基於Python的理論與實現》高清中文PDF+源碼

特徵提取與圖像處理(第二版).pdf

python就業班學習視頻，從入門到實戰項目

2019最新《PyTorch自然語言處理》英、中文版PDF+源碼

《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》完整版PDF+附書代碼

《深度學習之pytorch》pdf+附書源碼

PyTorch深度學習快速實戰入門《pytorch-handbook》

【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》

《Python數據分析與挖掘實戰》PDF+完整源碼

汽車行業完整知識圖譜項目實戰視頻(全23課)

李沐大神開源《動手學深度學習》，加州伯克利深度學習（2019春）教材

筆記、代碼清晰易懂！李航《統計學習方法》最新資源全套！

《神經網絡與深度學習》最新2018版中英PDF+源碼

將機器學習模型部署為REST API

FashionAI服裝屬性標籤圖像識別Top1-5方案分享

重要開源！CNN-RNN-CTC 實現手寫漢字識別

yolo3 檢測出圖像中的不規則漢字

同樣是機器學習算法工程師，你的面試為什麼過不了？

前海徵信大數據算法：風險概率預測

【Keras】完整實現『交通標誌』分類、『票據』分類兩個項目，讓你掌握深度學習圖像分類

VGG16遷移學習，實現醫學圖像識別分類工程項目

特徵工程(一)

特徵工程(二) :文本數據的展開、過濾和分塊

特徵工程(三):特徵縮放,從詞袋到 TF-IDF

特徵工程(四): 類別特徵

特徵工程(五): PCA 降維

特徵工程(六): 非線性特徵提取和模型堆疊

特徵工程(七)：圖像特徵提取和深度學習

如何利用全新的決策樹集成級聯結構gcForest做特徵工程並打分？

Machine Learning Yearning 中文翻譯稿

螞蟻金服2018秋招-算法工程師（共四面）通過

全球AI挑戰-場景分類的比賽源碼(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（列印收藏）

python+flask搭建CNN在線識別手寫中文網站

中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程

不斷更新資源

深度學習、機器學習、數據分析、python

搜索公眾號添加： datayx

機大數據技術與機器學習工程

搜索公眾號添加： datanlp

長按圖片，識別二維碼

相關焦點

學界| ReQuest: 使用問答數據產生實體關係抽取的間接監督

ReQuest 框架可以將隱藏於問答數據 (以及用戶反饋信息) 內的關於實體關係的知識遷移到實體關係抽取任務上，提升信息抽取系統的效能。關係提取是一項重要的任務，通過將非結構化文本數據轉換成關係元組作進一步分析，它可以被用於理解大量的文本語料。
【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)

：從自然語言文本中抽取指定類型的實體、關係、事件等事實信息，並形成結構化數據輸出的文本處理技術信息抽取是從文本數據中抽取特定信息的一種技術。文本數據是由一些具體的單位構成的，例如句子、段落、篇章，文本信息正是由一些小的具體的單位構成的，例如字、詞、詞組、句子、段落或是這些具體的單位的組合。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取，當然，文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。
實體關係的聯合抽取總結

ACL (1) 2016動機：在關係抽取中詞序信息和樹結構信息是可以互補的。比如，在句子「This is …, one U.S. source said」中，詞之間的依存信息不足以預測『source』和『U.S.』之間的『ORG-AFF』關係。很多傳統的基於特徵工程的關係分類方法從序列和解析樹中抽取特徵。
【信息抽取】NLP中關係抽取的概念,發展及其展望

作者&編輯 | 小Dream哥 1 什麼是RE 信息抽取（Information Extraction，IE）的工作主要是從非結構化的文本中抽取結構化的信息，是自然語言處理中非常重要的一個子領域。
關係抽取調研——學術界

1. 任務 1.1. 任務定義自動識別句子中實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取（兩個實體）和多元關係抽取（三個及以上實體）。
中科院:基於新標註方案的實體與關係聯合抽取

然後，基於我們的標註方案，我們研究了不同的端到端模型來直接提取實體及其關係，而不是分別識別實體和關係。對遠程監督方法產生的公開數據集進行實驗，實驗結果表明基於標註的方法優於現有的多數流水線和聯合學習方法。此外，本文提出的端到端模型在公開數據集上取得了最好的效果。
NLP:關係抽取到底在乎什麼

；實體信息中最重要的實體類型信息，但模型會存在對實體信息的過度依賴問題；現有的數據集可能會通過實體洩漏淺層的啟發式信息，導致當前關係任務的指標虛高！論文通過上述設置在最大的有監督關係數據集TACRED上（共42種關係，10w+實例）進行了相關實驗，結果如下（指標為micro F1值）：
知識圖譜實體與關係抽取,這3篇新論文不要錯過

（2）構造含有多個注意力機制的關係抽取器。採用BGRU作為句子語義抽取器，抽取器中添加面向單詞的注意力和面向實體的注意力。然後採用面向句子的注意力方法，結合一個實體對對齊的多個句子的信息作為實體對間關係的語義表示，用於後續的關係分類。（3）參數遷移初始化。
SOTA集結,2020登頂關係抽取的3篇佳作

作者 | 辰鴻來源 | 文末『閱讀原文』處編輯 | NewBeeNLP公眾號2020實體關係聯合抽取一片紅海，各種SOTA方法你方唱罷我方登場，在一些數據集上也是不斷刷出新高度，為信息抽取領域帶來了新思路，推動了信息抽取領域的發展。本文梳理了實體關係聯合抽取取得SOTA的三種方法，以做總結。
賽爾原創 | IJCAI 2018基於圖結構的實體和關係聯合抽取模型簡介

1. 前言實體和關係抽取是信息抽取領域的的重要研究問題。
基於Bert-NER構建特定領域的中文信息抽取框架(上)

AI 前線導讀：知識圖譜（Knowledge Graph）主要由實體、關係和屬性構成，而信息抽取（Information Extraction）作為構建知識圖譜最重要的一個環節，目的就是從文本當中抽取出三元組信息，包括「實體 - 關係 - 實體」以及「實體 - 屬性 - 實體」兩類。
劉知遠老師的「靈魂發問」:關係抽取到底在乎什麼?

我們廢話不說，先po結論（劃重點）：1、對關係抽取的兩個主要特徵（上下文信息和實體信息），進行了對比分析發現：2、構建了關係預訓練模型，基於關係抽取的實體遮蔽的對比學習框架：Q1: 關係抽取為什麼主要利用
NER信息抽取在OCR中的應用

即從自然語言文本中，抽取出特定的事件或事實信息，幫助我們將海量內容自動分類、提取和重構。這些信息通常包括實體（entity）、關係（relation）、事件（event）。本文重點介紹NER作為信息抽取的手段，在OCR中的應用。 OCR全稱：Optical Character Recognition，光學字符識別。
知識圖譜入門 , 知識抽取

關係抽取關係抽取是從文本中抽取出兩個或多個實體之間的語義關係。它是信息抽取研究領域的任務之一。如:- 王健林談兒子王思聰:我期望他穩重一點。那麼就認為出現賈伯斯和蘋果公司的句子就是表述創始人這項關係。因此可構建訓練正例：賈伯斯是蘋果公司的聯合創始人和CEO。遠程監督流程為：- 從知識庫中抽取存在關係的實體對。- 從非結構化文本中抽取含有實體對的句子作為訓練樣例。遠程監督可以利用豐富的知識庫信息，減少一定的人工標註，但它的假設過於肯定，如賈伯斯被趕出蘋果公司。
平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取

在比賽中，壽險AI團隊圍繞解決三個賽題子任務，提出了一整套信息抽取技術方案，綜合運用聯合訓練框架、上下文實體定義位置捕獲、數據增強等前沿技術手段，大幅提升算法模型對專業概念名詞和複雜句式的理解和處理的能力，最終以滿分成績奪得關係抽取賽道排名第一。
知識圖譜從哪裡來:實體關係抽取的現狀與未來

總結來說，開放域關係抽取在前深度學習時代取得了一些成效，但如何在深度學習時代與神經網絡模型優勢相結合，有力拓展神經網絡關係抽取模型的泛化能力，值得更多深入探索。總結為了更及時地擴展知識圖譜，自動從海量數據中獲取新的世界知識已成為必由之路。
百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用

而R2RML映射語言可靈活定製從關係型資料庫數據實例轉換為RDF數據集的映射規則，符合R2RML映射算法的工具輸入是關係資料庫檢索數據的邏輯表，邏輯表通過三元組映射轉換為具有相同數據模式的RDF並作為輸出結果。2.
新刊概覽∣ 《中文信息學報》2021年第1期(35卷第1期)

以中國的「五年計劃」作為基礎時間周期，對各周期模型預測值與現實觀測值的差值進行分析，並與隨機打亂後的文本計算結果進行對比，進一步驗證了實驗的結果。研究發現隨著時間變化，詞彙增長呈現出一定的傾向性：在深化改革、新政策出臺等時期，一般需要更多的詞語來描述，此時觀測值高於預測值，而在政策相對穩定的時期，對原有詞彙的使用較多，此時觀測值低於預測值。
「數據架構」實體關係模型介紹

邏輯數據模型邏輯ER模型不需要概念ER模型，特別是當邏輯ER模型的範圍僅包括開發不同的信息系統時。邏輯ER模型比概念ER模型包含更多的細節。除了主數據實體之外，現在還定義了操作和事務數據實體。開發每個數據實體的詳細信息，並建立這些數據實體之間的關係。
賽爾筆記|文檔級事件抽取簡述

該事件信息如表1所示：表1 舉例事件相關信息事件抽取的目標即自動化的從非結構化的信息中完成上述信息的獲取，並結構化進行展示。事件抽取是信息抽取領域中一項重要且具有挑戰性的任務。其可以為知識庫構建，問答以及語言理解任務提供有效的結構化信息。

實體-關係信息抽取上線使用F1值87.1% (附數據集)

相關焦點

學界| ReQuest: 使用問答數據產生實體關係抽取的間接監督

【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)

實體關係的聯合抽取總結

【信息抽取】NLP中關係抽取的概念,發展及其展望

關係抽取調研——學術界

中科院:基於新標註方案的實體與關係聯合抽取

NLP:關係抽取到底在乎什麼

知識圖譜實體與關係抽取,這3篇新論文不要錯過

SOTA集結,2020登頂關係抽取的3篇佳作

賽爾原創 | IJCAI 2018基於圖結構的實體和關係聯合抽取模型簡介

基於Bert-NER構建特定領域的中文信息抽取框架(上)

劉知遠老師的「靈魂發問」:關係抽取到底在乎什麼?

NER信息抽取在OCR中的應用

知識圖譜入門 , 知識抽取

平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取

知識圖譜從哪裡來:實體關係抽取的現狀與未來

百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用

新刊概覽∣ 《中文信息學報》2021年第1期(35卷第1期)

「數據架構」實體關係模型介紹

賽爾筆記|文檔級事件抽取簡述