平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取

2020-12-06 機器之心Pro

近日,在全球權威NLP大賽SemEval-2020 中,平安人壽AI團隊斬獲自由文本信息抽取(DeftEval: Extracting term-defination pairs in free text)競賽關係抽取賽道冠軍。該賽題任務包含了定義抽取、實體標註、關係抽取三項NLP技術難點。在比賽中,壽險AI團隊圍繞解決三個賽題子任務,提出了一整套信息抽取技術方案,綜合運用聯合訓練框架、上下文實體定義位置捕獲、數據增強等前沿技術手段,大幅提升算法模型對專業概念名詞和複雜句式的理解和處理的能力,最終以滿分成績奪得關係抽取賽道排名第一本文將對壽險AI團隊的完整解題思路和技術細節進行詳解。

圖1.1 平安人壽AI團隊位列關係抽取賽道榜單第一

1.比賽介紹

1.1背景簡介

定義抽取是信息抽取的一個重要分支,是自然語言處理研究中的一個熱門領域,其目的是識別非結構化文本中的術語及相應的定義。目前自由文本和半結構化文本中Term-Definition Pair的定義抽取是一個極具挑戰性的領域。

1.2 賽題介紹

本次賽題旨在從DEFT語料庫中提取術語定義對。該語料庫包含了從cnx.org(課程資源平臺)的各種專業教科書中提取出來的大約7000組句子集。每個句子集反映一個上下文窗口,原始文本的作者在該窗口周圍標記一個黑體字以標示一個關鍵術語。每個分組可能有多個術語定義對,也可能沒有術語定義對。其中Train和Dev數據都是以類似CONLL制表符的格式提供的。每一行代表一個token及其特性,每個句子之間用一個空行分隔,每個上下文窗口之間用兩個空行分隔,每個token特性表示如下所示: [token][SOURCE][START_CHAR][END_CHAR][TAG][TAG_ID][ROOT_ID][RELATION]

其中:

SOURCE:表示摘錄的原始txt文件。

START_CHAR / END_CHAR:表示token字符的開始、結束索引邊界。

TAG:表示token的標籤(B-[TAG]、I-[TAG]分別表示開始和中間標籤,O表示不屬於任務關係定義)。

TAG_ID:表示與此標記關聯的ID(如果沒有,則為0)。

ROOT_ID :表示與此關係的根相關聯的ID(如果沒有關係即TAG為O,則ROOT_ID為1;如果是根,則ROOT_ID為0;如果不是根,則ROOT_ID為根的TAG_ID)。

RELATION:表示token之間的TAG關係(如果沒有,則為0)。

本次賽題主要包含三個子任務:

Subtask1: 句子分類任務,給定一個句子,對它是否包含定義進行分類,若包含定義則預測結果為1,否則為0,評價指標為F1值,這是傳統的定義抽取任務。

Subtask2: 序列標註任務,根據語料庫的標記規範,用BIO標記標註每個標記,即通過給定的token、SOURCE、START_CHAR 、END_CHAR信息,對TAG標籤進行預測。該子任務中,預測的標記類別包括:術語(Term)、別名術語(Alias-Term)、引用術語(Referential-Term)、定義(Definition)、引用定義(Referential-Definition)和限定符(Qualifier)。評估指標基於macro-averaged F1。

Subtask3: 關係抽取任務,給定標記序列標籤,根據語料庫的關係規範標記每個標記之間的關係,即通過給定的token、SOURCE、START_CHAR 、END_CHAR、TAG、TAG_ID信息,對ROOT_ID 及RELATION進行預測。該子任務中,評價關係包括:直接定義(Direct-Defines)、間接定義(Indirect-Defines)、引用(Refers-To)、別名引用(AKA)和限定關係(Supplements)。評估指標基於macro-averaged F1。

1.3比賽挑戰

本次比賽任務難度非常大,一方面數據集涉及生物、歷史、物理、心理學、金融、社會、政治等非常多的專業領域的概念,很多的專業概念的理解對於人來說挑戰都很大,需要具備深厚的知識背景;另一方面數據集句子句式非常複雜,存在大量排比、倒裝、跨句指代、交叉引用、別名引用等複雜句式,而在實體的定義描述上存在直接定義、間接定義、補充定義、指代定義等多種關係。除此之外,部分數據集存在多重定義以及長距離的指代關係,同樣一句話存在不同的實體標註和關係,當前討論的實體在前文或者後文描述過,這些都對準確識別提出了很高的要求。

2.解決方案介紹

本次比賽,基於賽題任務的深度理解,平安人壽AI團隊提出了一整套的解決方案,最終取得了關係抽取賽道第一名的成績。

1、建模過程中,提出了多任務聯合訓練框架,設計出共享參數層,將多個任務的不同損失函數和評價指標融合在一起進行聯合訓練。

2、將底層BERT,ROBERTA,ALBERT,XLMROBERTA等基礎模型交叉驗證與最優尋參;最終產生20幾個模型進行融合;並將結果當作CRF的輸入,來學習到BIO序列標註的約束條件。

3、對BERT的輸入進行改造,用以捕獲長距離實體與定義之間的位置關係,並挖掘出了存在不同標註關係的句式結構,結合上下文實體信息對模型預測出來的結果做最後修正。

本次比賽定義抽取任務和實體序列標註任務在同一階段進行,

關係抽取任務在第二階段進行,因此我們分為兩部分對比賽的技術細節進行闡述。

2.1 定義抽取及序列標註方案

2.1.1模型結構設計

本次賽題的前兩個任務是分類任務、序列標註任務,為了將兩個任務特徵信息進行互補,我們提出了多任務聯合訓練框架,將定義分類任務和實體標註任務進行聯合訓練,設計出比單個模型魯棒性更強的集成模型,結構圖如下所示:

圖2.1.1-模型網絡結構

其中輸入部分,分類任務的輸入除了包含文本特性信息還包括實體抽取任務的標籤,同理實體抽取任務的輸入除了包含文本特性信息還包括分類任務的標籤。然後經過多層transformers模型,將輸入進行編碼,得到每個token對應的embedding vector。共享參數層可以是BERT,XLNET,ALBERT,ROBERTA等預訓練模型,如果基模型採用XLNET,這裡就是經過多層transformers-xl模型,最後送入特定任務網絡層。

對於實體標註任務,我們在最後一層使用CRF模型來學習序列間的約束信息,這些約束可以由CRF層在訓練數據集自動學習。

我們通過對數據進行概率統計,得到轉移矩陣如下:

直觀上來看,可以發現以下一些約束條件:

句子中第一個單詞的標籤應該是「B-[tag]」或「O」,而不是「I-[tag]」一個實體信息的第一個標籤應該「B-[tag]」而不是「I-[tag]」「B-tag1 I-tag2 I-tag3 …」中,tag1, tag2, tag3 …應該是相同的信息標籤基模型會得到發射概率,而CRF會訓練轉移矩陣得分,隨著訓練迭代,慢慢會學到一些標籤約束。模型得分為兩者之和如下所示:

其中為預測標籤序列,為第個位置softmax輸出為的概率,是從到的轉移概率,注意tag數為t時,增加開始結束位置之後轉移概率矩陣的維度為(t+2)*(t+2)。歸一化之後可以得到概率值:

2.1.2損失函數設計

聯合訓練的難點在於損失函數的設計,傳統的方法基本有基於直接加和的方式,我們提出一種基於任務的不確定性去捕捉分類任務和序列標註問題的權重係數,從而解決兩種任務不同的損失函數造成的不同的尺度問題。

假設真實序列標記為,序列標註的對數損失函數如下:

分類損失函數表示為:

利用同方差不確定性作為加權損失的基礎,我們在損失函數加入一個噪聲作為縮放因子:

序列標註的損失函數如上節公式(3)所示,聯合這兩個任務最小化目標為:

其中幅度和各自任務不確定性有關,決定了離散分布的均勻性。

2.1.3模型融合與調參

為了提升模型的泛化效果,解決數據偏少帶來的過擬合問題,我們使用了多模型rank average的方案,將底層BERT,ROBERTA,ALBERT,XLMROBERTA等基礎模型經過交叉驗證與最優尋參產生20幾個模型進行融合。最終輸出定義抽取和實體標註的結果。

同時訓練初期階段,由於模型權重變化較大,為了避免模型過擬合現象,保持分布的平穩,訓練初期暫時frozen某一任務權重,並減小另一個任務的學習率,調整warm-up比例。最終對比效果如下所示:

2.2實體關係抽取方案

在關係抽取任務中,使用BERT,ROBERTA,XLNET作為基模型對關係抽取任務進行建模,再進行結果融合,我們以BERT為例,其網絡輸入輸出格式如下圖所示,為了捕捉到長距離實體與定義的位置信息,模型輸入階段,我們在實體與定義的前後插入特殊字符#,輸入句子的構成設計為:[[CLS] sentence [#] definition1 [#]sentence [#] entity1 [#] sentence [#] entity2 [#] sentence]。

圖2.2 關係抽取網絡輸入輸出結構圖

輸入編碼除了包含新加的實體標註信息,類別標註信息,還包括TAG_ID,輸出等三部分特徵,最終預測ROOT_ID和關係類別。

圖中對於三個BIO TAG的特徵,Bert輸出對應位置隱藏向量分別如下:

其中向量為Bert對應於第一個BIO TAG序列中各個token所產生的隱藏狀態向量,向量為Bert對應於第二個BIO TAG序列中各個token產生的隱藏狀態向量,向量為Bert對應於BIO TAG序列中各個token產生的隱藏狀態向量。為某一個token對應的隱藏向量,對BIO TAG序列裡每一個token信息求一個平均然後接入tanh激活函數,同時權重係數為共享參數,偏置也為共享參數:。此外,我們在語句中的詞級別上添加了注意力機制,主要體現在實體和定義上,讓經過BERT編碼後的語義向量在語句中定義相關的詞上有了重心。

接著,我們對start,end較為接近的三個BIO TAG特徵輸出需要兩兩判斷是否屬於五類關係之一,對特徵向量算cosine餘弦距離,大於某個閾值則輸出1,否則輸出0,然後將對應標籤為1的情況進行關係匹配進而確定TAG_ID對應的ROOT_ID,最後根據匹配的ROOT_ID和TAG_ID進行關係類別的映射。

同時考慮到本次任務要考慮上下文信息,因此以文本窗口為單位進行擴充輸入。

由於本次賽題句式比較複雜,很多句子實體關係都是跨句定義的,需要結合上下文信息進行判斷預測,同時也存在一個相同的句子或句式結構對應不同的實體關係等問題,模型很難區分處理。因此,我們通過上下文實體標註及語法樹分析對一些特殊情況ROOT_ID的預測進行修正,再通過BIO_TAG,TAG_ID和ROOT_ID來確定實體關係,需要注意的是同一個定義對應的關係會隨著ROOT_ID的標註不同而隨著變化。

2.3數據增強

另一個值得一提的小技巧是數據增強,提升模型的泛化效果,同時解決用於數據類別不均衡問題。在本賽題裡,我們對於訓練數據較少的標籤,如Qualifier,Referential-Definition等進行了數據擴充,用到的方法包括基於詞向量的同義詞替換,單複數替換,代詞替換等。通過一定的數據增強方法,使得模型在小類別樣本上的泛化能力有一定的提升。

3.應用價值

平安人壽AI團隊此次參賽所應用到的創新技術,在實際業務場景中,可支持保險信息抽取、保險實體識別、文本挖掘等技術應用,對搭建壽險垂直領域的知識圖譜起到重要推動作用,能大幅提升對話式機器人的響應效率和服務體驗。目前對話式機器人作為平安人壽智能轉型的利器之一,在代理人賦能和客戶服務兩大業務體系中已大規模落地麼,覆蓋招聘、培訓、銷售支持、客服等業務場景,並將持續發揮價值。

Reference

1 Kendall A , Gal Y , Cipolla R . Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics[J]. 2017.

2 Wu S , He Y . Enriching Pre-trained Language Model with Entity Information for Relation Classification[J]. 2019.

3 Giorgi J , Wang X , Sahar N , et al. End-to-end Named Entity Recognition and Relation Extraction using Pre-trained Language Models[J]. 2019.

4 Soares L B , Fitzgerald N , Ling J , et al. Matching the Blanks: Distributional Similarity for Relation Learning[J]. 2019.

5 Sasha Spala, Nicholas A Miller, Yiming Yang, Franck Dernoncourt, Carl Dockhorn. DEFT: A corpus for definition extraction in free- and semi-structured text[J]. 2019. Association for Computational Linguistics

6 Fahmi, I., and Bouma, G.. Learning to identify definitions using syntactic features. In Proceedings of the Workshop on Learning Structured Information in Natural Language Applications[J]. 2006.

相關焦點

  • NLP:關係抽取到底在乎什麼
    這是來自EMNLP20上清華大學劉知遠團隊的「靈魂發問」~ 關係抽取是每一位NLPer都很熟知的任務,特別是基於BERT的神經關係抽取模型已經登頂各大榜單SOTA,某些甚至直逼人類表現。但也許你和JayJay一樣,可能只是調個包、從不過問關係抽取的核心要素是啥吧~ 在劉知遠老師的EMNLP20論文《Learning from Context or Names?
  • 平安人壽攜手世界自然基金會WWF 探尋神秘雪山大喵的秘密
    作為第二屆平安8.8粉絲節的主題活動之一,平安人壽聯合世界自然基金會(WWF)開啟"守護雪山大喵的秘密"公益活動。此次活動結合當前線上新玩法,聯合抖音、B站等推出熱門話題互動形式,抖音搜索"中國平安人壽"進入官抖,直接點擊主頁話題"#平安守護雪山大喵",即可參與相關內容共創活動。開啟保護雪豹的公益旅程。
  • 繁星節點匯聚成光,平安人壽攜手羅振宇跨年演講共話保險
    作為首席知識合作夥伴,平安人壽攜手《時間的朋友》與全國網友共話成長,重塑公眾對保險行業、保險業務員社會角色的認知。演講中,羅振宇從當前就業形勢切入,分析保險行業、保險代理人的前景,闡述平安人壽在科技賦能、職涯規劃等方面的優勢,並代表平安人壽邀請社會英才加入,和平安人壽一同傳遞保險的大愛與責任。
  • 平安人壽空中門店獲好評:黑科技加持,雲服務不打烊
    就在2月5日,一客戶撥打平安人壽客服熱線95511,想諮詢現階段不能出門,能否辦理保單生存金部分領取業務。「現在情況特殊,我這邊工程籤約急需4萬元現金,不然肯定要耽誤後面的工程進度。」客戶朱先生非常著急。
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    :從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術信息抽取是從文本數據中抽取特定信息的一種技術。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    為了儘可能及時準確地為知識圖譜增添更加豐富的世界知識,研究者們努力探索高效自動獲取世界知識的辦法,即實體關係抽取技術。具體來說,給定一個句子和其中出現的實體,實體關係抽取模型需要根據句子語義信息推測實體間的關係。例如,給定句子:「清華大學坐落於北京近鄰」以及實體「清華大學」與「北京」,模型可以通過語義得到「位於」的關係,並最終抽取出(清華大學,位於,北京)的知識三元組。
  • 平安人壽新「基本法」來了 待遇、關懷、管理三個維度全面升級
    上證報中國證券網訊 (記者 黃蕾)繼銀保渠道改革方案出爐後,備受業內關注的平安集團壽險改革再傳實質性進展。此次是傳統保險營銷渠道(代理人)的核心體制——「基本法」。據了解,平安人壽本次「基本法」升級,針對的是公司全體壽險代理人,主要體現在三大維度:待遇升級、關懷升級、管理升級。
  • 平安人壽楊晶晶:「變身」白衣天使
    (平安人壽保險供稿) [ 責編:馮浩 ]
  • 中國平安人壽投資連結保險投資單位價格公告
    客戶可以通過本公司的全國客戶服務熱線95511、中國平安保險集團網站(https://pingan.com)、金管家APP、客戶服務櫃面以及保險顧問查詢相關的保單信息。  中國平安人壽保險股份有限公司  以上數據由中國平安人壽保險股份有限公司提供投資帳戶名稱 2020-11-12 2020-11-13 2020-11-16 2020-11-17 2020-11-18 2020-11-19 投資帳戶設立時間 買入價 賣出價 買入價 賣出價 買入價 賣出價 買入價 賣出價 買入價 賣出價 買入價
  • 平安人壽:走好精準扶貧「最後一裡路」|2020 CSR年度盛典之傾聽...
    2020年,在平安集團整體扶貧戰略指導下,平安人壽希望既做好脫貧攻堅與鄉村振興戰略的銜接,亦在精準扶貧中重視經濟內循環發展的均衡性和可持續性,助力構建全面建成小康社會的美好新生活。為扶貧注入內生動力去年8月,平安人壽推出「精準扶貧信息管理系統」,將遍布全國的扶貧信息進行整合,實時分享優秀案例,打通全系統的扶貧工作。
  • 瑞士洛桑國際管理學院專家談平安成功三大原因:科技+生態讓平安...
    這個投資超過70億美元的科技平臺在之後的數十年裡,為平安不斷培育生態、孵化科技獨角獸。同時,平安通過在科技領域數年如一日的堅持投入,自建科技實力,取得了令人側目的成績:平安已經成立八大研究院,榮獲包括面部微表情識別、機器閱讀理解、機器語義識別等領域的諸多世界頂級競賽大獎,科技實力得到業內認可。
  • 平安人壽山東分公司:召開運營督導部第八屆高峰會
    為表彰在2020年度運營督導工作中表現優秀的個人和團隊,增強機構之間交流與互動,推動分公司運營督導各項工作的持續開展,10月26日-27日,平安人壽山東分公司運營督導部於濟寧順利召開了第八屆高峰會。
  • 平安人壽海南高層吳樹舉23日作客本網談發展
    南海網海口5月22日消息:5月23日,平安人壽海南高層吳樹舉將作客南海網談海南保險業發展。  2012年是海南省委、省政府確定的「項目建設年」,也是海南加快推進金融改革創新重要的一年。在經濟建設中,項目是載體,金融是血脈,改革創新是動力。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    卷積層可以有效地捕捉圖像中的局部特徵,並以層級的方式將許多這樣的模塊嵌套在一起,這樣 CNN 就可以試著提取更大的結構了。通過一系列卷積捕捉圖像的複雜特徵,CNN 可以將一張圖的內容編碼為緊湊表徵。但為了將單獨的像素映射給標籤,我們需要將標準 CNN 編碼器擴展為編碼器-解碼器架構。
  • 專欄| NLP概述和文本自動分類算法詳解
    文本挖掘系統整體方案 達觀數據一直專注於文本語義,文本挖掘系統整體方案包含了 NLP 處理的各個環節,從處理的文本粒度上來分,可以分為篇章級應用、短串級應用和詞彙級應用。 文章主題模型:抽取出文章的隱含主題。 為了實現這些頂層應用,達觀數據掌握從詞語短串分析個層面的分析技術,開發了包括中文分詞、專名識別、語義分析和詞串分析等模塊。
  • 「金猿技術展」文心ERNIE——基於知識增強的語義理解技術
    該技術由百度申報並參與「數據猿年度金猿策劃活動——2020大數據產業創新技術突破榜榜單及獎項」評選。文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。
  • 專訪前海人壽總經理沈成方:老齡化來臨 保險與醫療養老協同發展是...
    摘要 【專訪前海人壽總經理沈成方:老齡化來臨 保險與醫療養老協同發展是大方向】保險、醫療與養老三大板塊協同發展,是前海人壽近年戰略布局的大方向。近日,前海人壽總經理沈成方接受證券時報記者採訪,詳解了這一戰略布局的最新進展。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。
  • 百度工程師詳解技術選型與模型...
    「百度EasyDL AI開發公開課」中,百度資深研發工程師、文心語義理解平臺技術負責人龍心塵結合世界領先的文心(ERNIE)語義理解技術,通過產業實踐案例,深入解析技術選型和模型調優的方法,分享了工程實踐中的經驗。