百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用

2021-01-11 網易

  

編者按
坦率地講,各行各業對如何落地知識圖譜這個問題,或多或少都心存一絲疑惑。人類知識和機器可理解的知識有什麼區別?知識圖譜如何突破自身局限性,從「萬事通」轉為「科學家」?百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。

  本文作者:陳肇江、王勳、陳旭、吳永科、蘇海波

信息抽取、知識圖譜及自然語言處理

  1. 信息抽取的內涵與外延

  新基建的大潮湧中,人工智慧、大數據與5G應用是人們競相追逐的燈塔,在描繪數字經濟時代宏偉藍圖的時候,知識圖譜與自然語言處理成為追捧的香餑餑。

  如何從海量的文本或網頁的原始數據中提取有價值的信息是行業知識圖譜構建的關鍵因素,信息抽取(Information Extraction,IE)作為自然語言處理技術的任務,該任務的重點在於從機器可讀取的非結構化或半結構化的文本中抽取信息,最終以結構化的形式進行描述,使信息可以存入資料庫以供進一步處理。

  在下文探討信息抽取技術之前,首先釐清幾個重要概念的內涵與外延,方便讀者更加清晰地理解本文的意圖。

  1.1 知識與知識圖譜:人類知識和機器可理解的知識有什麼區別?

  哲學家柏拉圖把知識定義為確證的真信念(Justified True Belief),滿足該定義的知識具有三個要素:合理性(Justified)、真實性(True)、被相信(Believed)[1]。柏拉圖三要素原則是哲學界對於知識定義的主流觀點,即人類的知識是通過觀察、學習和思考有關客觀世界的各種現象而獲得和總結出的所有事實(Facts)、概念(Concepts)、規則或原則(Rules&Principles)的集合。人類發明了各種手段來描述、表示和傳承知識,如自然語言、繪畫、音樂、數學語言、物理模型、化學公式等,可見對於客觀世界規律的知識化描述對於人類社會發展的重要性[2]。

  知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其之間的關係,將網際網路的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解網際網路海量信息的能力[3]。知識圖譜本質上是以三元組結構(主語-謂語-賓語)表示實體及實體關係的語義網絡,谷歌公司於2012年重新提出了知識圖譜的概念以保持其在智能搜尋引擎的領先地位。時任谷歌副總裁阿密特·辛格(Amit Singhal)指出知識圖譜是「Things,Not Strings」,在此之前搜尋引擎是通過爬取網頁並基於關鍵詞返回網頁排序結果,而基於知識圖譜得到的是與關鍵詞有關聯的表示真實世界中的實體的圖文描述信息。

  在行業的實踐中之所以對知識圖譜期望太高,是因為人類知識和知識圖譜這兩個概念容易引起歧義:人類知識包括原理、技能等高級知識,而知識圖譜源自語義網絡、本體論,藉助RDF三元組及模式(schema)的形式構建計算機可理解、可計算的實體及實體之間關聯的事實性知識庫,即圖譜可形象地稱作「萬事通」而非「科學家」

  1.2 知識獲取、知識抽取與信息抽取的區別與聯繫

  行業用戶往往希望,結構化的知識靠AI自動化構建,不用介入任何人工,即可產生低成本、高質量的知識,然而這些是不切實際的幻想。因此,這裡要正本清源,辨析知識圖譜的常規的獲取知識方式。

  知識獲取是組織從某種知識源中總結和抽取有價值的知識的活動(GB/T23703定義)[4],我們認為,根據該定義,知識獲取強調的是獲取知識的一種活動,包括從結構化、半結構化和非結構化的信息資源中提取出計算機可理解和計算的結構化數據,以供進一步分析和利用。因此,其範圍應包括知識抽取和信息抽取。

  知識抽取,即從不同來源、不同結構的數據中進行知識提取,形成知識(結構化數據)存入到知識圖譜[2]。信息抽取,即從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術[5]。

  數據、信息和知識的關係為:信息是存在於數據(數字、文本、圖像等)中的反映客觀世界的實體,通過提煉、加工建立實體之間的聯繫形成了知識,知識是對世界客觀規律的歸納和總結。因此,知識抽取在方法上包括了信息抽取和ETL(數據倉庫),但方法不局限於結構化信息的生成或關係資料庫模式(schema)的直接轉換,還需藉助本體庫或自動方法歸納新的模式。

  在本文中,知識抽取和信息抽取的內涵與外延近乎等價,兩者都是應用自然語言技術從文本獲取實體、關係、屬性和事件知識。

  

  圖1 知識相關概念的包含關係

  總的來說,知識、知識圖譜、知識獲取、知識抽取、信息抽取這些概念逐層遞進,以一張韋恩圖表示(如圖1所示):知識的表示、獲取和處理是人類特有的能力,知識圖譜架起了一座基於人類知識和計算機獲取認知能力的橋梁,知識獲取涵蓋了產生機器可理解的知識的活動,知識抽取強調通過數據模式組織三元組知識,而信息抽取是藉助自然語言處理技術生產知識的能力。信息抽取是知識工程、大數據、機器學習、自然語言處理的交叉技術。下文將重點探討信息抽取在知識圖譜的應用與實踐。

  2. 融合信息抽取的知識圖譜構建範式

  近年來,自然語言處理技術的飛速發展尤其是深度遷移學習技術給方興未艾的知識圖譜注入了一針「強心劑」。預訓練語言模型性能的提升降低了從海量的非結構化文本中獲取知識的成本,推動了知識圖譜在行業企業的落地應用。

  如圖3所示的體系架構,百分點公司在行業知識圖譜的實踐應用中,信息抽取技術佔據著核心地位。行業知識圖譜構建的生命周期歷經知識定義、知識獲取、知識融合、知識存儲、知識應用多個環節,這些過程的每一步都需要專業的信息處理技術與技能才能完成。下面重點闡述信息抽取相關的知識定義及知識獲取環節內容。

  

  圖2 融合信息抽取的知識圖譜構建流程

  2.1 知識定義

  傳統的知識工程研究領域人們以本體、主題詞表、元數據、數據模式來建立結構化的知識,在本文知識定義泛指結構化的數據模型,即通過構建圖譜模式(schema)規範數據層的表達與存儲。數據模型是線狀或網狀的結構化知識庫的概念模板,知識圖譜一般採用資源描述框架(RDF)、RDF模式語言(RDFS)、網絡本體語言(OWL)及屬性圖模型。

  (1)RDF模型

  RDF在形式上以三元組表示實體及實體之間的關係,反映了物理世界中具體的事物及關係,如圖3所示。

  

  圖3 RDF數據模型示例

  (2)RDFS模型

  RDFS在RDF的基礎上定義了類、屬性以及關係來描述資源,並且通過屬性的定義域和值域來約束資源。RDFS在數據層的基礎上引入了模式層,模式層定義了一種約束規則,而數據層是在這種規則下的一個實例填充,如圖4所示。

  

  圖4 RDFS數據模型示例

  (3)OWL模型

  OWL是對RDFS關於描述資源詞彙的一個擴展,OWL中添加了額外的預定義詞彙來描述資源,具備更好的語義表達能力。

  (4)屬性圖

  屬性圖數據模型由頂點、邊及其屬性構成,圖資料庫通常是指基於屬性圖模型的圖資料庫[6]。屬性圖與RDF圖最大的區別在於:RDF圖可以更好地支持多值屬性;RDF圖不支持兩頂點間多個相同類型的邊;RDF圖不支持邊屬性。

  

  圖5 屬性圖數據模型

  知識定義與信息模型的概念類似,可借鑑元數據和本體論技術,描述定義域的實體類型及其屬性、關係和實體上的允許操作,常見的流行方法包括自上而下(Top-down)的構建方式、自下而上(Bottom-up)的構建方式。自上而下,即由行業專家預先定義圖譜模式,再以模式組織數據層資源建設;自下而上,即通過信息抽取技術從文本中抽取出實體,再依賴大數據挖掘、機器學習技術分析實體的語義關聯關係來構建模式。自上而下顯然更加準確,然而自下而上代表著數據驅動的自動圖譜構建模式,不論是哪一種方法知識定義應是信息抽取的前提條件。

  2.2 知識獲取

  按數據源類型劃分,知識獲取包括從結構化、半結構化和非結構化的數據中獲取知識。

  從結構化數據中獲取知識,需把關係資料庫中的數據轉換成RDF形式的知識,可使用開源工具D2RQ等將關係資料庫轉換為RDF,但難點在於難以自動與圖譜模式結合與映射,需要依賴人工編寫映射規則;從半結構化的網頁數據獲取知識主要採用包裝器方法,而對於行文格式穩定的文本可視作半結構化數據,可通過格式解析、基於規則的方法進行抽取。

  

  圖6 知識獲取[7]

  對於非結構化的文本數據,抽取的知識包括實體、關係、屬性、事件。

  對應的研究問題有四個:一是實體抽取,也即命名實體識別,實體包括概念、組織機構、人名、地名、時間等;二是關係抽取,即兩個實體之間的關聯性知識等,包括上下位、類屬關係等;三是屬性抽取,即實體或關係的特徵信息,關係反映實體與外部的聯繫,而屬性體現實體的內部特徵;四是事件抽取,事件是發生在某個特定時間點或時間段、某個特定地域範圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變[8]。

  非結構化數據的抽取問題,研究的人比較多,對於具體的語料環境,採取的技術也不盡相同。對於純文本一般按照篇、章、段、句進行文本切割,基於主題詞對文本分類、聚類預處理,並由人工開展數據標註與模型訓練,最後集成多種信息抽取模型抽取知識。

基於信息抽取算法構建百分點行業知識圖譜

  知識定義是信息抽取的前提條件,結合當前結構化、半結構化和非結構化信息抽取的理論、工具和經典算法,百分點通過創新實踐,探索出了一套行業知識圖譜構建流程方法。

  1. 結構化信息抽取

  行業知識圖譜的構建過程往往需要將業務系統的部分關係型資料庫的數據抽取出來,並轉換為RDF模型或屬性圖模型的形式存入圖譜資料庫中,這種從關係型資料庫接入數據、預處理並映射為圖譜模式的抽取方式稱為結構化信息抽取。

  W3C為此制定了兩個知識映射標準語言:R2RML及直接映射(DM),DM和R2RML映射語言用於定義關係資料庫中的數據如何轉換為RDF數據的各種規則,具體包括URI的生成、RDF類和屬性的定義、空節點的處理、數據間關聯關係的表達等[9]。

  直接映射將關係型資料庫中的一張表映射為RDF的類(Class),表中的列映射為屬性(Property),表的一行映射為一個資源或實體並創建資源標識符,單元格值映射為屬性值[9]。直接映射可將關係資料庫表結構和數據直接轉換為RDF圖,但直接映射僅僅提供簡單轉換能力。而R2RML映射語言可靈活定製從關係型資料庫數據實例轉換為RDF數據集的映射規則,符合R2RML映射算法的工具輸入是關係資料庫檢索數據的邏輯表,邏輯表通過三元組映射轉換為具有相同數據模式的RDF並作為輸出結果。

  2. 半結構化信息抽取

  半結構化數據是一種特殊的結構化數據形式,該形式的數據不符合關係資料庫或其他形式的數據表形式結構,但又包含標籤或其他標記來分離語義元素並保持記錄和數據欄位的層次結構[9]。針對網頁數據的信息抽取技術較為成熟,可依網頁結構化的不同程度分別採用人工方法、半自動或全自動的方法開發包裝器進行信息抽取。

  基於有監督學習的包裝器歸納方法,首先從已標註的訓練數據中學習網頁信息抽取規則,然後對具有相同結構的網頁數據進行抽取,一般的開發流程遵循「網頁清洗、數據標註、包裝器空間生成、評估」四個步驟,該方法依賴人工長期維護更新包裝器。手工方法開發包裝器首先通過人工分析網頁的結構和代碼,並編寫網頁的數據抽取表達式;表達式的形式一般可以是XPath表達式、css選擇器的表達式等,該方法適合簡單、結構穩定的網站的抽取。

  3. 非結構化信息抽取

  3.1 信息抽取框架

  如前文所述,非結構化文本的信息抽取主要包括命名實體識別、屬性抽取、關係抽取、事件抽取等四個任務。命名實體識別是知識圖譜構建和知識獲取的基礎和關鍵,屬性抽取可看做實體和屬性值之間的一種名詞性關係而轉化為關係抽取,因此信息抽取可歸納為實體抽取、關係抽取和事件抽取三大任務。

  3.2 命名實體識別

  目前為止,命名實體識別主流方法可概括為:基於詞典和規則的方法、基於統計機器學習的方法、基於深度學習、遷移學習的方法等[10],如圖7所示。在項目實際應用中一般應結合詞典或規則、深度學習等多種方法,充分利用不同方法的優勢抽取不同類型的實體,從而提高準確率和效率。在中文分詞領域,國內科研機構推出多種分詞工具(基於規則和詞典為主)已被廣泛使用,例如哈工大LTP、中科院計算所NLPIR、清華大學THULAC和jieba分詞等。

  基於統計機器學習的方法可細分為兩類:第一類,分類方法,即首先識別出文本中所有命名實體的邊界,再對這些命名實體進行分類;第二類,序列化標註方法,即對於文本中每個詞可以有若干個候選的類別標籤,每個標籤對應於其在各類命名實體中所處的位置,通過對文本中的每個詞進行序列化的自動標註(也即分類),再將自動標註的標籤進行整合,最終獲得有若干個詞構成的命名實體及其類別[11]。序列化標註曾經是最普遍並且有效的方法,典型模型包括條件隨機場(CRF)、隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)、最大熵(ME)、支持向量機(SVM)等。

  

  圖7 命名實體識別常見算法

  深度學習、遷移學習使用低維、實值、稠密的向量形式表示字、詞、句,再使用RNN/CNN/注意力機制等深層網絡獲取文本特徵表示,避免了傳統命名實體識別人工特徵工程耗時耗力的問題,且得到了更好的效果,目前常用的框架方法有BiLSTM-CRF、BERT-CRF/BERT-BiLSTM-CRF。

  在百分點的知識圖譜構建應用中,法律百科概念詞條領域實體,採用基於詞典和規則的方法從文本中抽取實體類知識,具有更高的準確率;而抽取人名、地名、組織機構等,由於無法構建完整的詞典且規則很難適應數據變化,採用基於序列標註的命名實體抽取模型BiLSTM-CRF 或者BERT-CRF 實現。

  3.3 關係抽取

  從前文可知,關係抽取指三元組抽取,實體間的關係形式化地描述為關係三元組(主語,謂語,賓語),其中主語和賓語指的是實體,謂語指的是實體間的關係。早期的關係抽取方法包括基於規則的關係抽取方法、基於詞典驅動的關係抽取方法、基於本體的關係抽取方法[12]。基於機器學習的抽取方法以數據是否被標註作為標準進行分類,包括:有監督的關係抽取算法、半監督的關係抽取算法、無監督的關係抽取算法[12],如圖8所示。

  

  圖8 關係抽取常見算法

  有監督的機器學習方法將一般的二元關係抽取視為分類問題,通常需預先了解語料庫中所有可能的目標關係的種類,並通過人工對數據進行標註,建立訓練語料庫,使用標註數據訓練的分類器對新的候選實體及其關係進行預測、判斷。

  同樣地,傳統機器學習的關係抽取方法選擇的人工特徵工程十分繁雜,而深度學習的關係抽取方法通過訓練大量數據自動獲得模型,無需人工提取特徵。深度學習經過多年的發展,逐漸被研究者應用在實體關係抽取方面,有監督的關係抽取方法主要有流水線學習(Pipeline)和聯合學習(Joint)兩種。

  (1)流水線式關係抽取方法

  該方法將關係抽取分為兩階段任務:第一階段對輸入的句子進行命名實體識別;第二階段對命名實體進行兩兩組合,再進行關係分類,把存在關係的三元組作為輸出結果[12]。流水線方法將實體識別、關係抽取分為兩個獨立的過程,關係抽取依賴實體抽取的結果,容易造成誤差累積。

  當前深度學習的關係抽取主要聚焦在有監督學習的句子級別的關係抽取,根據使用的編碼器以及是否使用依存句法樹,可以大致將相關系統劃分為三種:基於卷積神經網絡的關係抽取,基於循環神經網絡的關係抽取和基於依存句法樹的關係抽取。

  (2)實體關係聯合學習抽取方法

  實體關係聯合學習方法主要包括以下兩種:

  a. 基於共享參數的方法:典型方法有BiLSTM、BiLSTM+Attention等,命名實體識別和關係抽取兩階段任務通過共享編碼層在訓練過程中產生的共享參數相互依賴,最終訓練得到最佳的全局參數。流水線方法中存在的錯誤累積傳播問題和忽視兩階段子任務間關係依賴的問題在該方法中可得到改善,並提高模型的魯棒性。

  b. 基於序列標註的方法:由於基於共享參數的方法容易產生信息冗餘,如果將命名實體識別和實體關係抽取融合成一個序列標註問題,可同時識別出實體和關係,值得注意的是應使用新的標註策略標註(實體位置、關係類型、關係角色)[13]。該方法利用一個端到端的神經網絡模型抽取出實體之間的關係三元組,減少了無效實體對模型的影響,提高了關係抽取的召回率和準確率。

  在百分點的知識圖譜構建應用中,構建法律百科概念詞條圖譜時從法律文件、權威案例和法律圖書抽取概念實體的定義(可視作屬性抽取)等行文格式較為規範、固定的文本抽取三元組採用基於模板的方法;警務文本的警務要素及內容抽取等較為開放的關係抽取採用BERT作為多分類器的關係分類抽取或序列標註方法。

  3.4 事件抽取

  「事件」被用於描述事情的發生或事務狀態的改變,而事件抽取任務則是一種從自然語言文本中提取出具有事件框架的結構化信息的方法。具體地,一個事件的主要組成如表 1所示。

  表1 事件組成框架[14]

  

  從上述定義可以看出,實體、觸發詞、事件論元以及事件類型四者相互之間存在著包含或約束的關係。其中,實體是一種適用於所有文本的概念,但在自動內容抽取(Automatic Content Extraction,ACE)評測會議標準定義的事件中,實體是事件論元的主要組成。值得注意的是,實體本身的類型並不代表著其作為論元時在事件中的角色。事件論元的角色只與事件類型和觸發詞有關。事件論元的角色可以通過與事件句內觸發詞或其他實體的關係挖掘而確定。一般事件類型具有該類型下的事件模板,當中包含了固定的事件論元角色[14]。此外,由於觸發詞是事件發生的標誌,因此事件類型的判別往往通過觸發詞的識別完成。事件抽取任務主要包含兩個部分:

  (1)事件類型檢測

  通常觸發詞與事件類型之間存在著對應關係,因此對事件類型的判定可通過觸發詞的識別和匹配實現。

  (2)事件論元識別

  在確定了事件類型後,根據該類型所具有的事件模板找到事件參與者的角色,再通過語義關係解析從事件句中挖掘相關論元。因此,基於ACE標準的完整事件抽取架構包括:文本預處理、事件類型檢測和事件論元識別,如圖9所示。

  

  圖9 基於ACE 標準的事件抽取任務架構[13]

  在百分點的知識圖譜構建應用中,警情文本的要素抽取符合事件論元抽取理論,該類非結構化的文本包含社會安全類、事故災難類等事件類型及子類型,警務專家為子類型在內的所有事件類型制定了參考的事件模板,匯總觸發詞、事件類型和事件論元及角色。下文3.3節將給出基於事件論元的警情事件要素結構化案例介紹。

百分點信息抽取算法創新應用及實踐效果

  1. 基於模板的法百科信息抽取方法

  (1)應用場景:法律百科概念詞條圖譜信息抽取

  法律百科概念詞條圖譜信息抽取主要目的是構建法律行業的百科全書,以便於用戶查找專業法律詞條知識。數據共分為三個來源數據,分別是法律文件、權威案例和法律圖書,需要從數據中提取對應領域的專業詞條名稱及對應的相關釋義。例如:從法律文件中提取「警用車船」詞條,並給出對應的釋義:車船稅法第三條第三項所稱的警用車船,是指公安機關、國家安全機關、監獄、勞動教養管理機關和人民法院、人民檢察院領取警用牌照的車輛和執行警務的專用船舶。法百科詞條構建及管理界面示例如圖10所示。

  

  圖10 法百科詞條構建及管理界面示例

  (2)基於模板的知識抽取

  通過人工研究法律文件、權威案例等法律領域的專業詞條的寫作規律和句式結構,分析法律相關概念實體與概念定義之間的特徵,構建抽取的語言模板,通過模板從文本中匹配出實體之間的關係,該方法在構建法律詞條這一特定領域內,可以取得較好的結果。

  (3)應用效果

  在相關文本數據上進行了足量的數據標註,並基於此對信息抽取進行了相關指標的考評,結果如表2所示,詞條名稱及釋義整體準確率超過90%。

  表2 法百科詞條抽取評價指標

  

  2. 基於有監督學習的警務文本信息抽取

  2.1 基於序列標註框架的命名實體識別

  (1)應用場景:警務文本命名實體識別

  警務文本包括案件敘述性文本描述數據,如案件卷宗、審訊筆錄/口供、簡要案情等等類型的數據,文本涉及到的與業務分析和研判相關的案發場所、嫌疑人特徵等核心要素,通常可轉化為自然語言處理中的實體識別問題。警務系統業務中有研判價值的實體通常包括:姓名、地址、組織機構、聯繫方式、公民身份號碼、時間等。對於警務文本中的身份證號、手機號實體,應採用基於規則或基於詞典的方法進行命名實體識別。而文本中的人名、地名、組織機構名稱等實體信息在文本中的表述形式是多樣並且難以完整列舉,當前主要採用基於序列標註的有監督學習抽取方法。命名實體識別採用前文介紹的基於規則的方法及基於BERT+CRF序列標註模型進行抽取。

  (2)BiLSTM/BERT+CRF模型架構

  百分點在基於深度學習、遷移學習的實體識別實踐中沉澱了兩套經典的模型:BiLSTM+CRF模型架構、BERT+CRF模型架構。兩套架構自底向上遵循詞編碼器、序列編碼器、序列解碼器三層結構。BiLSTM+CRF模型架構的詞編碼器採用Word Embedding,序列編碼器採用BiLSTM,序列解碼器採用CRF模型,模型架構如圖11所示。

  

  圖11 BiLSTM+CRF序列標註模型架構

  BERT+CRF模型架構詞編碼器採用WordPiece、字符位置編碼器採用正弦位置嵌入(Postional Embedding)及句子嵌入(Segment Embedding)、序列編碼器採用Transformer結構,序列解碼器採用CRF模型,模型架構如圖12所示。

  

  圖12 BERT+CRF序列標註模型架構

  在序列標註的命名實體識別模型中,對於每個單詞都需要預測一個多元分類問題。在經過序列編碼器之後,每個單詞都有一個向量表示,為了預測每個單詞對應的標籤,需要序列解碼器來完成從序列向量到對應預測標籤的轉換。這兩套模型的序列解碼器都採用CRF模型作為解碼器。

  (3)警務文本實體抽取應用效果

  警務文本的命名實體識別評價指標如表3所示。

  表3 警務文本命名實體識別指標

  

  2.2 基於關係分類的關係抽取

  (1)應用場景:警務文本關係抽取

  由於警務文本數據關注的是以人為核心的實體,因此當文本中出現一個以上的人員及其相關實體信息時候,需要在提取的姓名、性別、地址、聯繫方式、公民身份號碼的基礎上梳理清楚各個實體之間的對應關係或從屬關係。簡單而言就是將人名實體找到其對應的地址、公民身份號碼、聯繫方式、性別等人員屬性,可以表示為五元組<姓名,性別,公民身份證號,手機號,關聯地址>。N元組本質上可以拆分成多個三元組,因此警務文本中的N元組關係對抽取形式如表 4所示。

  表4 警務文本N元組關係對

  

  (2)基於BERT的關係分類模型

  BERT通過大型跨域語料庫使用遮蔽語言模型和下一句預測任務共同預訓練文本表示。警務文本信息抽取對BERT的應用方法如圖13所示,模型的輸入序列的整體結構為:{[CLS],w1,w2,…,wn, [SEP],s1,s2,...,si, [SEP],o1,o2,...,oj, [SEP]},w為句子序列,s和o為實體序列。序列經過BERT分詞處理,將字符轉換為字id,然後映射到字嵌入向量,字嵌入向量E表示為E={E1,E2,...,En}。經過多層Transformer的Encoder編碼,最後得到句子的編碼向量。取「[CLS]」這個特殊開始字符對應的向量(「[CLS]」的編碼表示經常用於判斷下一個句子)將編碼序列的第一個結果作為關係抽取的語義向量。該語義向量在關係分類器層,經過一層全連接層,然後使用softmax函數計算關係概率。

  

  圖13 基於BERT的關係分類模型

  (3)關係抽取應用效果

  警務文本的關係抽取如圖14所示(示例數據是模擬的,已經完全脫敏):

  

  圖14 警務文本信息抽取輸入示例

  關係抽取結果如圖15所示(示例數據是模擬的,已經完全脫敏):

  

  圖15 警務文本信息抽取結果實例

  在相關警務文本數據上進行了足量的數據標註,並基於此對實體抽取和關係抽取的N元組進行了相關指標的考評,結果如表 5所示,採用流水線式的命名實體識別及關係抽取整體的準確率和召回率在95%以上。

  表5 警務文本信息抽取評測指標

  

  3. 警情事件論元聯合信息抽取

  3.1 應用場景:警情事件論元抽取

  警情事件識別與抽取是構建警情知識圖譜的重要環節,目的是從非結構化警情文本中識別出描述事件的句子,並從中抽取出與事件描述相關的信息(事件元素、因果關係),最後以結構化的形式存儲。警情文本的事件類型包括社會安全類、事故災難類、網絡輿情類、治安和刑事案件類、公共衛生類等5大類。

  事件類型還可根據警情業務進一步細分為子類型,比如社會安全類可分為社會安全事件、涉穩事件、涉外事件、恐怖主義事件等4小類。事件發生子類的事件採用2.3.4節表示方法,將事件表示為實體、觸發詞、事件論元以及事件類型組成的複合知識單元。如圖16所示(示例數據是模擬的,已經完全脫敏),警情案件文本按照圖9所示流程識別觸發詞為「家門被撬」後判別事件類型為盜竊案件,最終抽取出事件論元及角色實現文本結構化分析。

  

  圖16 警情案件事件論元抽取例子

  3.2 事件論元角色聯合抽取模型

  在實踐應用中百分點參考分層二進位標註框架(Hierarchical Binary Tagging)[15],將論元抽取視作事件觸發詞與事件論元的映射關係,模型的整體結構如圖17所示,主要包括如下幾個部分:

  (1)BERT 編碼器:通過BERT得到每個詞的詞表徵,把BERT的輸出當作詞向量使用;

  (2)事件論元標註器:該部分用於識別所有可能的事件論元。其通過對每一個位置的編碼結果用兩個分類器(全連接層)進行分類,來判斷其是否是事件論元的開始或結束位置,激活函數為Sigmoid。

  (3)事件角色標註器:針對每一個事件論元,都需要對其進行之後的事件論元的角色進行預測。由圖中可知,其與事件論元標註器基本一致,主要區別在於每一個事件類型獨享一組事件論元角色分類器,同時還要將事件論元作為特徵和BERT詞向量拼接後作為輸入。

  

  圖17 事件論元、角色聯合抽取

  警情文本事件論元角色聯合信息抽取在大多數人工標註數據集及實際應用中取得了較好的結果,在效果較差的某些事件類型的文本中通過增加人工標註數據可提升模型的準確率。

  總結與展望

  本文首先辨析了知識獲取、知識抽取、信息抽取類似概念本質的區別與聯繫,然後總結了百分點行業知識圖譜構建流程方法,指出知識定義是信息抽取的前提條件,在此基礎上介紹了當前結構化、半結構化和非結構化信息抽取的理論、工具和經典算法。文末結合百分點公司在法律百科詞條、警務文本實際圖譜構建項目中,介紹信息抽取算法應用方法和效果,幫助讀者深入了解信息抽取的實踐應用狀況。總的來說,信息抽取對構建行業知識圖譜具有重要的價值,同時面臨著巨大的挑戰,應充分藉助深度遷移學習的發展帶來的機遇,一方面發展數據智能標註技術降低人工標註成本,另一方面突破模型對於標註數據數量的依賴,並在更多的實際業務需求中進行實踐和應用。

  參考資料

  [1]中國中文信息學會.知識圖譜發展報告(2018)

  [2]中國電子技術標準化研究院.知識圖譜標準化白皮書,2019年

  [3]清華大學人工智慧研究院.人工智慧之知識圖譜,2019年第2期

  [4]GB/T 23703.2 知識管理 第2部分:術語

  [5]趙軍,劉康,周有光等.開放式文本信息抽取. 中科院自動化所,中文信息學報,2011年

  [6]圖資料庫白皮書.中國信息通信研究院雲計算與大數據研究所.2019年

  [7]王昊奮.行業知識圖譜構建與應用101.PlantData

  [8]陳玉博.事件抽取與金融事件圖譜構建.中科院自動化所,2018年

  [9]王昊奮,漆桂林,陳華鈞.知識圖譜方法、實踐與應用.電子工業出版社

  [10]黃晴雁,牟永敏.命名實體識別方法研究進展.現代計算機,2018年12月

  [11]劉瀏,王東波.命名實體識別研究綜述.情報學報,2018年

  [12]李冬梅,張揚等.實體關係抽取方法研究綜述.計算機研究與發展,2019年6月

  [13]Suncong Zhend等.JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.中科院自動化所,ACL2017

  [14]鄒馨儀.基於深度學習的金融事件抽取技術研究.電子科技大學,2017年

  [15]Zhepei Wei等.ANovel Cascade Binary Tagging Framework for Relational Triple Extraction,吉林大學.2020ACL

相關焦點

  • 百分點認知智能實驗室:基於知識圖譜的問答技術和實踐
    編者按:隨著網際網路軟硬體相關技術的飛速發展,人們逐漸從資訊時代進入智能時代。知識圖譜作為承載底層海量知識並支持上層智能應用的重要載體,在智能時代中扮演了極其重要的角色。而利用知識圖譜支撐上層應用仍存在諸多挑戰,因此基於知識圖譜的自然語言問答展開研究是十分有必要的。
  • 百分點科技首批通過「知識圖譜產品認證」 並加入產業推進方陣
    論壇期間,百分點智能融合大數據分析平臺首批通過「知識圖譜產品認證」,百分點公安知識圖譜應用案例入選《認知智能時代:知識圖譜實踐案例集》,同時,百分點科技深度參與知識圖譜產業推進方陣籌備會。首批通過「知識圖譜產品認證」電子標準院作為國家信息技術領域標準化的綜合性研究機構,在標準化制定方面發揮著核心的技術基礎作用。
  • 愛分析·中國知識圖譜應用趨勢報告
    知識圖譜技術是指在建立知識圖譜中使用的技術,是融合認知計算、知識表示與推理、信息檢索與抽取、自然語言處理與語義Web、數據挖掘與機器學習等技術的交叉研究。兩種方式的主要區別在於,在構建的過程中是否先定義本體與數據模式。目前,大多數知識圖譜採用自底向上的方式進行構建。  在知識圖譜的構建過程中,存在幾項關鍵步驟,即知識抽取、知識表示、知識融合、知識推理、知識存儲以及知識圖譜應用等。  其中,知識抽取與知識融合環節是知識圖譜構建的基礎。
  • 百分點入選《2020中國數據智能產業圖譜》四大細分領域
    近日,國內知名大數據產業創新服務媒體數據猿發布了《2020中國數據智能產業圖譜》,系統梳理中國數據智能行業發展現狀,釐清行業發展脈絡,為企業和從業者提供有價值的借鑑。其中,百分點作為數據智能產業典型代表企業,入選該圖譜中政務、安防、自然語言處理和可視化四大細分領域。
  • 百分點科技集團獲中國智能科技最高獎:吳文俊人工智慧科學技術獎
    本次獲獎項目基於「面向海量的處理流程架構+面向多源異構數據的結構化和融合技術+基於知識圖譜的增強分析和交互技術」的研究思路,圍繞行業需求場景落地,在大規模多源異構數據的治理和分析、多模態數據的信息抽取和融合、動態知識圖譜、基於自然語言和語音的會話式分析等方面取得了突破性進展,因此也得到評委組的一直認可。
  • 知識圖譜在金融資管領域的應用、實踐與展望
    知識圖譜是人工智慧的一個重要分支,對可解釋人工智慧具有重要作用。金融知識圖譜作為專業領域知識圖譜,在智能投研、智能風控、智能客服、智能合規等領域有著重要的應用價值。本文綜合熵簡科技三年以來的產業實踐,結合知識圖譜領域的技術前沿,以及資管場景的落地應用,淺談知識圖譜在金融資管領域的發展現狀與應用展望。
  • 百分點認知智能實驗室出品:情感分析在輿情中的研發實踐(上)
    百分點認知智能實驗室基於前沿的自然語言處理技術和實際的算法落地實踐,真正實現了整體精度高、定製能力強的企業級情感分析架構。從單一模型到定製化模型演變、文本作用域優化、多模型(相關度)融合、靈活規則引擎、以及基於實體的情感傾向性判定,探索出了一套高精準、可定製、可幹預的智能分析框架,為輿情客戶提供了高效的預警研判服務。
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    是面向清華大學知識工程實驗室構建的面向科技領域的知識圖譜,項目實現了高精度學者畫像、同名消歧、智能推薦、趨勢分析等關鍵技術。例如,知識圖譜很難構建百分百正確的、超大規模的知識圖譜,因此,針對這些不足,認知圖譜應運而生。 本質上,認知圖譜的改進思路是減少圖譜構建時的信息損失,將信息處理壓力轉移給檢索和自然語言理解算法,同時保留圖結構進行可解釋關係推理。
  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    業內有一種聲音得到了大量認同:人工智慧的進一步發展與突破,需要從感知智能向認知智能的突破,知識圖譜能有效從數據中挖掘出知識,以更具可解釋性的 AI 指導人類在更多複雜場景中的智能決策和行動。HAO 圖譜,源自於 2018 年明略科技提出的 HAO 智能理論框架。HAO 智能旨在集成人類智能(HI)、人工智慧(AI)和組織智能(OI),打通感知、認知和行動系統,幫助企業和組織實現智能化發展。其中,HAO 圖譜屬於認知系統的範疇。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    【點擊論文題目可閱讀全文】 「基於知識圖譜的推薦系統研究綜述」針對基於知識圖譜的推薦系統這一領域進行了全面的綜述。介紹了推薦系統與知識圖譜中的一些基本概念,以及現有方法如何挖掘知識圖譜不同種類的信息並應用於推薦系統。總結了相關的一系列推薦應用場景, 提出了對基於知識圖譜的推薦系統前景的看法, 展望了該領域未來的研究方向。
  • 第四屆達觀杯 x CCKS算法大賽圓滿收官,激發知識圖譜實踐新思路
    從第一屆的「個性化推薦」為賽題,第二屆「文本分類」;第三屆文本智能信息抽取」,到第四屆與CCKS聯合舉辦的「基於本體的金融知識圖譜自動化構建技術評測」,達觀數據持續通過在技術與應用場景之間搭建互通的橋梁,讓優秀的技術在解決實際問題中發揮最大價值。在第十四屆全國知識圖譜與語義計算大會現場,達觀數據副總裁王文廣總結了本次測評大賽的情況。
  • 知識圖譜如何打破人工智慧的認知天花板?
    近年來,知識圖譜技術熱度不減,作為實現認知智能的核心驅動力,已廣泛應用在金融、電商、醫療、政務等諸多領域。 知識圖譜究竟能解決哪些問題、應用在哪些場景?其技術架構如何發展演變?又將如何支撐實現認知智能的終極目標?成為技術圈熱議的焦點。
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    隨著大數據時代的到來和人工智慧技術的進步,知識圖譜的應用邊界被逐漸拓寬,越來越多的企業開始將知識圖譜技術融入其已經成型的數據分析業務,有的甚至使用知識圖譜作為其數據的基礎組織與存儲形式,成為其數據中臺的核心基建。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • 百分點科技入選機器之心最具產業價值技術應用落地案例TOP30
    構建符合深圳應急管理需求的大數據治理體系,支撐地市級應急數據中臺典範建設,支撐自然災害、安全生產和城市安全等領域的智能應用,為深圳應急管理事前、事發、事中和事後四個階段,提供科學決策支持,推動被動的應急管理向主動的應急「智」理轉變。
  • 蘇寧金融科技運用知識圖譜提升「千言」客服機器人效能
    為專注好服務,蘇寧金融科技打造的「千言」智能客服機器人上線後,不斷在功能和算法方面進行優化。近日,「千言」機器人開始引入知識圖譜,強化機器人的知識構建能力,提升整體服務效能。據了解,知識圖譜(Knowledge Graph)是以結構化的形式描述客觀世界中概念、實體及其關係,將網際網路的信息表達成更接近人類認知世界的形式,是一種更好地組織、管理和理解網際網路海量信息的能力。利用知識圖譜技術可以將當前靜態無關聯的單條知識,轉換為具有一定關聯的圖結構,從而使機器人具有一定的推理能力,回答問題更加精準和多樣,提升機器人的智能化水平。
  • 華為開發者大會HDC.Cloud硬核技術解讀:知識圖譜構建流程及方法
    自底向上構建方式則是從開放的Open Linked Data中抽取置信度高的知識,或從非結構化文本中抽取知識,完成知識圖譜的構建。該方式更適用於常識性的知識,比如人名、機構名等通用知識圖譜的構建。本文側重介紹自頂向下構建方式的相關流程和技術,並用於構建企業知識圖譜。目前業界暫無知識圖譜雲服務,也沒有統一標準的自頂向下構建流程。
  • AI產品經理的入門必修課(4)——知識圖譜
    編輯導語:通過知識圖譜,不僅可以將網際網路的信息表達成更接近人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關於AI產品經理的知識圖譜簡介以及利用,我們一起來了解一下。
  • 中國認知智能行業報告
    而更高級階段的NLP則能夠基於詞性標註、實體命名識別、關係抽取等功能,從各類數據源中提取特定類型的信息,將非結構化文本轉化成結構化的文本,再通過語義分析掌握用戶需求,並基於與知識圖譜的融合,最終為用戶提供分析決策。
  • 百度祝恆書:百度智能招聘技術和應用實踐
    因此,百度構建了一套用於簡歷篩選和評優的相關技術,基於網際網路大數據構建了一個招聘領域的知識圖譜,這是基於百度的招聘數據和搜索數據、百度百科等知識庫構建的。根據該知識領域圖譜,百度進一步研發了智能化的簡歷框架技術,希望通過知識圖譜以及相關評優的機器學習算法對簡歷進行自動化的關鍵技能的抽取,同時能夠對簡歷進行自動化的評優。