陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型

2021-01-11 澎湃新聞

機器之心報導

編輯:魔王、小舟

端到端關係抽取涉及兩個子任務:命名實體識別和關係抽取。近期研究多採用 joint 方式建模兩個子任務,而陳丹琦等人新研究提出一種簡單高效的 pipeline 方法,在多個基準上獲得了新的 SOTA 結果。

端到端關係抽取旨在識別命名實體,同時抽取其關係。近期研究大多採取 joint 方式建模這兩項子任務,要麼將二者統一在一個結構化預測網絡中,要麼通過共享表示進行多任務學習。

而近期來自普林斯頓大學的 Zexuan Zhong、陳丹琦介紹了一種非常簡單的方法,並在標準基準(ACE04、ACE05 和 SciERC)上取得了新的 SOTA 成績。該方法基於兩個獨立的預訓練編碼器構建而成,只使用實體模型為關係模型提供輸入特徵。通過一系列精心檢驗,該研究驗證了學習不同的語境表示對實體和關係的重要性,即在關係模型的輸入層融合實體信息,併集成全局語境信息。

此外,該研究還提出了這一方法的高效近似方法,只需要在推斷時對兩個編碼器各執行一次,即可獲得 8-16 倍的加速,同時準確率僅小幅下降。

論文連結:https://arxiv.org/pdf/2010.12812.pdf

pipeline 方法重回巔峰?

從非結構化文本中抽取實體及其關係是信息抽取中的基本問題。這個問題可以分解為兩個子任務:命名實體識別和關係抽取。

早期研究採用 pipeline 方法:訓練一個模型來抽取實體,另一個模型對實體之間的關係進行分類。而近期,端到端關係抽取任務已經成為聯合建模子任務系統的天下。大家普遍認為,這種 joint 模型可以更好地捕獲實體與關係之間的交互,並有助於緩解誤差傳播問題。

然而,這一局面似乎被一項新研究打破。近期,普林斯頓大學 Zexuan Zhong 和陳丹琦提出了一種非常簡單的方法,該方法可以學習基於深度預訓練語言模型構建的兩個編碼器,這兩個模型分別被稱為實體模型和關係模型。它們是獨立訓練的,並且關係模型僅依賴實體模型作為輸入特徵。實體模型基於 span-level 表示而構建,關係模型則建立在給定 span 對的特定語境表示之上。

雖然簡單,但這一 pipeline 模型非常有效:在 3 個標準基準(ACE04、ACE05、SciERC)上,使用相同的預訓練編碼器,該模型優於此前所有的 joint 模型。

為什麼 pipeline 模型能實現如此優秀的性能呢?研究者進行了一系列分析,發現:

實體模型和關係模型的語境表示本質上捕獲了不同的信息,因此共享其表示會損害性能;

在關係模型的輸入層融合實體信息(邊界和類型)至關重要;

在兩個子任務中利用跨句(cross-sentence)信息是有效的;

更強大的預訓練語言模型能夠帶來更多的性能收益。

研究人員希望,這一模型能夠引發人們重新思考聯合訓練在端到端關係抽取中的價值。

不過,該方法存在一個缺陷:需要為每個實體對運行一次關係模型。為了緩解該問題,研究者提出一種新的有效替代方法,在推斷時近似和批量處理不同組實體對的計算。該近似方法可以實現 8-16 倍的加速,而準確率的下降卻很小(例如在 ACE05 上 F1 分數下降了 0.5-0.9%)。這使得該模型可以在實踐中快速準確地應用。

研究貢獻

該研究的主要貢獻有:

提出了一種非常簡單有效的端到端關係抽取方法,該方法學習兩個獨立編碼器,分別用於實體識別和關係抽取的。該模型在三個標準基準上達到了新 SOTA,並在使用相同的預訓練模型的時,性能超越了此前所有 joint 模型。

該研究經過分析得出結論:對於實體和關係而言,相比於聯合學習,學習不同的語境表示更加有效。

為了加快模型推斷速度,該研究提出了一種新穎而有效的近似方法,該方法可實現 8-16 倍的推斷加速,而準確率只有很小的降低。

方法

該研究提出的模型包括一個實體模型和一個關係模型。如下圖所示,首先將輸入句子饋入實體模型,該模型為每一個 span 預測實體類型;然後通過嵌入額外的 marker token 在關係模型中獨立處理每對候選實體,以突出顯示主語、賓語及其類型。

此外,研究者還介紹了該方法與 DYGIE++ 的區別(DYGIE++ 與該方法很接近,並且是最強的基線方法)。

1. 該研究提出的方法對實體模型和關係模型使用不同的編碼器,未使用多任務學習;預測得到的實體標籤直接作為關係模型的輸入特徵。

2. 關係模型中的語境表示特定於每個 span 對。

3. 該方法用額外的語境擴展輸入,從而納入跨句信息。

4. 該方法未使用束搜索或圖傳播層,因此,該模型要簡單得多。

有效的近似方法

該研究提出的方法較為簡潔有效,但是它的缺點是需要對每一個實體對運行一次關係模型。為此,研究者提出一種新型高效的替代性關係模型。核心問題在於,如何對同一個句子中的不同 span 對重用計算,在該研究提出的原始模型中這是不可能實現的,因為必須為每個 span 對分別嵌入特定的實體標記。因此,研究者提出了一種近似模型,該模型對原始模型做了兩個重要更改。

首先,該近似方法沒有選擇直接將實體標記嵌入原始句子,而是將標記的位置嵌入與對應 span 的開始和結束 token 聯繫起來:

其次,近似方法為注意力層添加了約束:使文本 token 只注意文本 token 不注意標記 token,實體標記 token 則可以注意所有文本 token,4 個標記 token 全部與同一個 span 對關聯。

這兩項更改允許模型對所有文本 token 重用計算,因為文本 token 獨立於實體標記 token。因而,該方法可以在運行一次關係模型時批量處理來自同一個句子的多個 span 對。

實驗

研究人員在三個端到端關係抽取數據集 ACE04、ACE054 和 SciERC 上進行方法評估,使用 F1 分數作為評估度量指標。

下表 2 展示了不同方法的對比結果:

從圖中可以看出,該研究提出的 single-sentence 模型實現了強大的性能,而納入跨句語境後,性能結果得到了一致提升。該研究使用的 BERT-base(或 SciBERT)模型獲得了與之前工作類似或更好的結果,包括那些基於更大型預訓練語言模型構建的模型,使用較大編碼器 ALBERT 後性能得到進一步提升。

近似方法的性能

下表展示了完全關係模型和近似模型的 F1 分數與推斷速度。在兩個數據集上,近似模型的推斷速度顯著提升。

這個 pipeline 模型為什麼超過了 joint 模型?

除了展示方法和性能以外,該研究還深入分析了這一 pipeline 模型取得如此優秀性能的原因。

鍵入文本標記(typed text marker)的重要性

該研究認為,為不同 span 對構建不同語境表示非常重要,早期融合實體類型信息可以進一步提升性能。

為了驗證鍵入文本標記的作用,研究者使用其不同變體在 ACE05 和 SciERC 數據集上進行實驗,包括 TEXT、TEXTETYPE、MARKERS、MARKERSETYPE、MARKERSELOSS、TYPEDMARKERS 六種。

下表 4 展示了這些變體的性能,從中可以看出不同的輸入表示確實對關係抽取的準確率產生影響。

實體和關係如何交互

人們對 joint 模型的主要認知是,對兩個子任務之間交互的建模對彼此有所幫助。但這項研究並未採取這種方式,而是使用了兩個獨立的編碼器。

研究人員首先研究了共享兩個表示編碼器能否提升性能。如下表 5 所示,簡單地共享編碼器對實體 F1 和關係 F1 分數均有所損害。研究人員認為,其原因在於兩個任務具備不同的輸入格式,需要不同的特徵來預測實體類型和關係,因此使用單獨的編碼器可以學得更好的任務特定特徵。

該研究的分析結果顯示:

實體信息有助於預測關係,但實驗未表明關係信息可以大幅提升實體性能。

僅共享編碼器對該研究提出的方法無益。

如何緩解 pipeline 方式中的誤差傳播問題

pipeline 訓練的一個主要缺陷是誤差傳播問題。使用 gold 實體(及其類型)進行關係模型訓練,使用預測實體進行推斷,可能會導致訓練和測試之間存在差異。

為此,研究人員首先探究在訓練階段使用預測實體(而非 gold 實體)能否緩解這一問題。該研究採用 10-way jackknifing 方法,結果發現這一策略竟然降低了最終的關係性能。研究人員假設其原因在於訓練階段引入了額外的噪聲。

在目前的 pipeline 方法中,如果在推斷階段 gold 實體沒有被實體模型識別出來,則關係模型無法預測與該實體相關的任何關係。於是,研究人員考慮在訓練和測試階段,對關係模型使用更多 span 對。實驗結果表明,這無法帶來性能提升。

這些常識未能顯著提升性能,而該研究提出的簡單 pipeline 方法卻驚人的有效。研究者認為誤差傳播問題並非不存在或無法被解決,我們需要探索更好的解決方案。

此外,該研究使用的跨句語境對性能提升有所幫助,參見表 2。

11 月 14 日,DevRun 開發者沙龍華為雲即將登陸上海。華為雲技術大咖將帶領開發者玩轉 ModelArts,並解讀華為雲 IoT 服務與 AI 如何實現互通;聚焦華為雲 ModelArts 和 IoT 智能設備,為開發者帶來一場乾貨滿滿的技術盛宴。掃描二維碼,參與報名。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com喜歡此內容的人還喜歡

原標題:《陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型》

閱讀原文

相關焦點

  • 陳丹琦新作:關係抽取新SOTApipeline挫敗joint
    近期研究多採用 joint 方式建模兩個子任務,而陳丹琦等人新研究提出一種簡單高效的 pipeline 方法,在多個基準上獲得了新的 SOTA 結果。端到端關係抽取旨在識別命名實體,同時抽取其關係。近期研究大多採取 joint 方式建模這兩項子任務,要麼將二者統一在一個結構化預測網絡中,要麼通過共享表示進行多任務學習。
  • 陳丹琦「簡單到令人沮喪」的屠榜之作:關係抽取新SOTA!
    該文光看題目就讓人眼前一亮:這究竟是種怎樣的簡單方法,讓實體關係的聯合抽取方法「沮喪」了?  本文將就這篇論文展開解讀,分析該關係抽取新SOTA的主要貢獻和結論。  現在的關係抽取SOTA不都是各種joint方式嗎?沒錯,我也有各種疑問:    現在的關係抽取不是都採取joint方式、魔改各種Tag框架和解碼方式嗎?    不是說pipeline方式存在誤差積累,還會增加計算複雜度(實體冗餘計算)嗎?
  • NLP:關係抽取到底在乎什麼
    2、構建了關係預訓練模型,基於關係抽取的實體遮蔽的對比學習框架: 能幫助模型更好地的藉助上下文信息和實體類型信息,避免「死記硬背」實體表面表述; 提高了多個場景下神經關係抽取模型的有效性和魯棒性,特別是在低資源場景下; Q1: 關係抽取為什麼主要利用「上下文信息」和「實體信息」?
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    :從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術信息抽取是從文本數據中抽取特定信息的一種技術。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。
  • GPT-3的最強落地方式?陳丹琦提出小樣本微調方法,比普通微調提升11%
    在普通的標準微調方法中(如上圖b所示),新參數的數量(獨立於原始預訓練模型外的參數)可能會很大,例如基於RoBERTa-large的二分類任務會新引入2048個參數,會使從小樣本(如32個標註數據) 中學習變得困難。
  • China, Russia launch gas pipeline
    The two presidents, Xi in Beijing and Putin in Sochi, Russia, greeted each other, and Xi expressed gratitude toward the workers building the pipeline.
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    通過設計少次學習機制,模型能夠利用從過往數據中學到的泛化知識,結合新類型數據的少量訓練樣本,實現快速遷移學習,具有一定的舉一反三能力。過去少次學習研究主要集中於計算機視覺領域,自然語言處理領域還少有探索。我們課題組韓旭同學等的工作 [21] 首次將少次學習引入到關係抽取,構建了少次關係抽取數據集 FewRel,希望推動驅動自然語言處理特別是關係抽取任務的少次學習研究。
  • 平安人壽SemEval冠軍方案詳解:長距離語義捕捉技術攻克關係抽取
    近日,在全球權威NLP大賽SemEval-2020 中,平安人壽AI團隊斬獲自由文本信息抽取(DeftEval: Extracting term-defination pairs in free text)競賽關係抽取賽道冠軍。該賽題任務包含了定義抽取、實體標註、關係抽取三項NLP技術難點。
  • 雅禮中學校友陳丹琦入選「35歲以下科技創新35人」中國榜單
    三湘都市報12月17日訊(通訊員 何仁芳 鍾漓 記者 劉鎮東 黃京)近日,EmTech China全球新興科技峰會揭曉第三屆「35歲以下科技創新35人」中國榜單,雅禮中學校友陳丹琦作為「先鋒者」入選其中。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    機器之心 SOTA 項目以前我們找 SOTA 模型,基本上只能靠背景知識與各種 Benchmark,頂多也是 Follow 一些收集頂尖模型的 GitHub 項目。但隨著任務細分與新數據集的不斷公布,這些只關注主流數據集的 Benchmark 就有些不太夠用了。
  • ...最大的實體關係抽取數據集!清華大學自然語言處理團隊發布 FewRel
    例如,從句子「馬雲創辦了阿里巴巴」中,可以抽取出關係事實(馬雲, 創始人, 阿里巴巴),其中馬雲和阿里巴巴被稱為實體(entity),而創始人則是他們的關係(relation)。關係抽取是知識獲取的重要途徑,對於理解自然語言和理解世界知識意義重大。 目前的關係抽取模型面臨著一個極大的問題:訓練數據不足。
  • FATE1.0重磅發布:首個可視化聯邦學習產品與聯邦pipeline生產服務...
    FATEFlow實現了pipeline的狀態管理及運行的協同調度,同時自動追蹤任務中產生的數據、模型、指標、日誌等便於建模人員分析。另外,FATEFlow還提供了聯邦機制下的模型一致性管理以及生產發布功能。在FATE 0.3版本以前,啟動任務的模塊是由Workflow完成。
  • 臺灣大學黃意堯:深度殘差網絡下的弱監督關係抽取 | EMNLP 2017
    SemEval 2010 的關係抽取資料庫上。問題探討我們使用卷積神經網絡來進行關係抽取,取經於計算機視覺與深度卷積神經網絡的成功,我們透過增加層數,來增加神經網絡的參數,希望可以幫助關係抽取的學習。在表一,我們可以看到,9 層的殘差網絡,與 state-of-the-art(PCNN+ATT) 的模型,有差不多的結果,並在高順位候選的關係上,有更棒的效能。證明,利用殘差網絡,可以在 distant supervision 的資料庫中,抽取更有用的特徵。
  • BERT-Flow | 文本語義表示新SOTA
    來源 | NewBeeNLP作者  | Maple小七BERT向量大家平時肯定經常在用,但你是否掌握正確使用姿勢? 來自字節跳動和CMU的 EMNLP2020工作深入分析了BERT向量,並扔給你一個SOTA模型
  • 助你成為模型的設計高手:目標-抽取本質-概念-內涵-定義-模型!
    任何一個模型,都是要對複雜的一類事物進行簡化,從複雜的一類事物之中抽取出本質屬性,用這個本質屬性來指代這類事物,這樣子才能從複雜走向簡單。抓住事物的本質特徵,捨棄掉次要的非本質特徵,才能達到簡單。從一類事物之中抽取出關鍵的本質特徵,捨棄掉次要的特徵,以達到對一類事物的共同抽象。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    本文作者:陳肇江、王勳、陳旭、吳永科、蘇海波信息抽取、知識圖譜及自然語言處理  1. 信息抽取的內涵與外延  新基建的大潮湧中,人工智慧、大數據與5G應用是人們競相追逐的燈塔,在描繪數字經濟時代宏偉藍圖的時候,知識圖譜與自然語言處理成為追捧的香餑餑。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。
  • 情感目標抽取 (ATE) 算法 DE-CNN
    因為考慮到 Aspect 和 Opinion 通常是成對出現的,所以 CMLA 和 HAST 模型在抽取 Aspect 的時候都利用了 Opinion 的信息,結構比較複雜。和 CMLA、HAST 不同,DE-CNN 不在模型中引入 Opinion 信息,只是把 Aspect 抽取看成是簡單的序列標註問題,如下所示:
  • 將Docker與pipeline一起使用
    Jenkinsfile(聲明性管道)pipeline { agent { docker { image 'node:7-alpine' } } stages { stage('Test') { steps { sh 'node --version' } } }}切換腳本管道 (高級)當管道執行時,Jenkins將自動啟動指定的容器並在其中執行定義的步驟:
  • 饑荒開發商新作《熾熱熔巖》靈感源於《CS》
    遊戲設計師Mark Laprairie稱開發團隊最初的想法是將《CS》中的相當硬核的攀登Mod進行改造,以讓玩家多受鼓舞、少些挫敗