NLP推出兩款句法分析應用工具,助力下遊任務效果提升

2021-01-09 百度AI

繼2020年8月份中文依存句法分析工具 DDParser 發布後,百度於近日發布兩款句法分析結果應用工具——基於句法分析的隱式向量表示工具和顯式結構表示工具。

句法分析利用句子中詞與詞之間的關係來表示詞語的句法結構信息,如「主謂」、「動賓」、「定中」等。本次發布的兩款應用工具分別從隱式和顯式兩方面利用句法結果,幫助開發者們更快速便捷地引入句法特徵來提升任務效果。

DDParser 介紹

DDParser(全稱為 Baidu Dependency Parser)是百度基於大規模標註數據和產業級深度學習平臺——飛槳研發的中文依存句法分析工具。為了便於開發者快速學習及使用,DDParser 採用簡單易理解的標註體系,且支持一鍵安裝部署及調用。

句法分析給出了詞之間的語法結構,這種表示不受詞之間距離限制,可給出長距離詞之間的依賴,如圖1所示。但該表示相對複雜,需要開發者有一定的自然語言處理背景,了解句法分析任務及標註標準。

▲ 圖1 句法分析實例

為了降低句法分析使用門檻,本次發布兩款基於句法分析的簡單易用的應用工具,分別為:

基於句法分析的隱式向量表示:將句法結果蘊含的結構上下文信息編碼進文本的隱式表示中,提升文本的語義表示能力。基於句法分析的顯式結構表示:從語義角度將句法分析結果以簡單易理解的結構呈現出來(如主謂賓、動補、名詞修飾等結構),便於開發者直接獲取輸入文本的結構化語義單元。

工具一:基於句法分析的隱式向量表示工具

常用的句子表示模型(如序列表示模型 LSTM)基於順序上下文給出當前詞的表示,其會受限於詞之間的距離,對長距離上下文依賴變弱。句法分析從語法結構上給出當前詞依賴的上下文,尤其可給出長距離依賴的上下文,其彌補常用句子表示模型的不足之處。

本次發布的基於句法分析的隱式向量表示工具將句法信息編碼進隱式向量表示中。如圖2中「基於句法樹的圖注意網絡」所示,本文將依存句法分析樹看作一個有向無環圖,在該圖上應用基於圖的注意力網絡機制獲取包含句法信息的表示。該向量表示與基於序列模型得到的向量表示連接在一起作為輸入文本最終的向量表示,增強了輸入文本的表示能力。其在下遊任務中的使用方式見圖2。

▲ 圖2 基於句法分析的隱式向量表示及應用示意圖

本工具應用於事件抽取、相似度計算任務,基於句法分析的隱式向量表示帶來了顯著效果提升。具體指標見表1。

▲ 表1 句法信息在事件抽取和相似度計算任務上的表現

在事件抽取任務上,為了更好地說明句法分析的作用,表2給出相關實例。由此可見,引入句法信息後,模型能夠學習到觸發詞與相關角色的句法路徑,進而提升了角色識別的召回率。

▲ 表2 實例展示:句法信息引入事件抽取任務

在相似度計算任務上,引入句法信息主要解決字面重合度高,但結構相同/不相同導致的語義一致/不一致的數據的計算問題,具體實例見表3。

▲ 表3 實例展示:句法分析引入相似度計算任務

工具二:基於句法分析的顯式結構表示工具

句法結構依賴於句子表述方式,語義同義但表述形式不同的兩個句子其句法結構往往差異較大。如圖3中實例所示,語義單元「納達爾擊敗梅德韋傑夫」在3種不同的表述形式下對應3種不同的句法結構。

▲ 圖3 「納達爾擊敗梅德韋傑夫」三種不同表述形式對應的句法分析結構

為了方便開發者更直接地獲取輸入文本中的結構化語義單元,本文研發了基於句法分析的顯式結構表示工具,其從文本表達的語義角度出發,直接提取文本中的主要內容並以結構化形式輸出。如圖4所示,輸入文本為「9月9日上午納達爾在亞瑟·阿什球場擊敗俄羅斯球員梅德韋傑夫」,本工具抽取出主謂賓結構(納達爾、擊敗、梅德韋傑夫)、名詞修飾結構(俄羅斯、球員)等。

本工具圍繞實體詞定義了7種常見結構,覆蓋了句法分析可表示的範圍,如主謂賓結構、動補結構、名詞修飾結構等。

▲ 圖4 顯式結構表示工具輸出示例

本工具有多種應用場景。這裡將介紹3種應用場景,如圖5所示。

▲ 圖5 顯式結構表示工具應用場景

開放域信息獲取:基於抽取的語義結構單元,獲得開放域信息,協助構建開放語義知識庫。相似度計算:基於抽取的語義結構單元,獲取基於結構的匹配度,可作為特徵加入到現有相似度計算模型。數據增廣:基於給定的結構,可生成不同表述形式、不同限定條件的數據,用於增廣現有數據集。

目前,基於依存句法分析的隱式向量表示工具和顯式結構表示工具已經開源,歡迎大家進入 DDParser 項目地址,了解更多技術詳情,並貢獻你的 Star 和 Fork!!!

DDParser 項目地址:

https://github.com/baidu/DDParser

相關焦點

  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 聯合漢語分詞和依存句法分析的統一模型:當前效果最佳
    這種模型將漢語分詞和依存句法分析集成在一個分析模型中。它比以前的聯合模型性能更好,並在漢語分詞和依存句法分析中實現了當前最佳的結果。與英語不同,漢語句子由連續的字符組成,詞語之間缺乏明顯的界限。由於詞語常被認為是最小語義單位,因此漢語分詞(CWS)成為下遊漢語自然語言處理的預處理步驟。
  • NLP 與 NLU:從語言理解到語言處理
    NLP的最終目的是通過機器讀取、解讀、理解和感知人類語言,將某些任務用機器來代替人類來處理,包括在線聊天機器人,文本摘要生成器,自動生成的關鍵字選項卡,以及分析文本情緒的工具。NLP的作用NLP在廣義上來說可以指廣泛的工具,例如語音識別、自然語言識別和自然語言生成。
  • NLP 句法結構解析樹
    句法解析是 NLP 中的一種關鍵技術,可以幫助分析句子的成分結構,以及單詞之間的依存關係。句法分析樹主要分兩大類:constituent tree 短語結構樹,dependency tree 依存結構樹。本文主要簡單介紹一下短語結構樹和依存結構樹的概念。
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    作者在精心設計的無監督和有監督的任務上對詞和跨度表示進行了廣泛的學習研究。結果表明:預訓練的表示可以在較低的層中學習到低級形態和句法任務相關的任務,並且可以在較高的層中學習到更長範圍的語義相關的任務。)來產生很大的效果。
  • 從想法到實幹,2018年13項NLP絕美新研究
    這些預訓練表徵在諸如 SQuAD、和 MultiNLI 等需要跨句推理的任務中很有效。我們可以期待看到更多可捕捉適用於特定下遊任務的預訓練模型,並且和更加通用的任務互補(例如語言建模)。OntoNotes 的句法、命題語料庫和共指標註。命題語料庫 SRL 參數和共指在句法成分之上標註。
  • PTMs|2020最新NLP預訓練模型綜述
    但是相反,nlp領域的優勢在於,存在大量的無監督數據集,如果能夠充分利用這類數據進行訓練,那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練,學習得到通用的語言表徵,有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」?
  • 最新中文NLP開源工具箱來了!支持6大任務,面向工業應用|資源
    在這個基於百度深度學習平臺飛槳(PaddlePaddle)開發的工具箱裡,裝有大量工業級中文NLP開源工具與預訓練模型。這個工具箱裡的工具全面,共支持的6大NLP任務,包括文本分類、文本匹配、序列標註、文本生成、語義表示與語言模型和其他複雜任務等。除了全面,PaddleNLP的效果也還不錯。
  • 二語寫作句法複雜性研究的新發展
    近幾年,二語句法複雜性研究吸引了廣大研究者的注意,成為應用語言學和二語習得研究領域的一個熱點議題。比如,Journal of Second Language Writing在2015年推出特刊,7篇以二語寫作複雜性為主題的文章中5篇為實證研究,全面展示了二語寫作複雜性研究的最新發展。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    這兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果,將該領域近年來廣泛使用的數據集上的分數全部刷至新高。今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    基於此,兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    「中文的分詞和詞性標註是自然語言處理的基本任務,對於後續的應用和任務處理非常重要。」兩篇論文的作者之一、創新工場大灣區人工智慧研究院執行院長宋彥告訴《中國科學報》,對於文本分類、情感分析、文本摘要、機器翻譯等,分詞和詞性標註是不可或缺的基本「元件」。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 百度NLP | 神經網絡語義匹配技術
    在實際應用場景下,海量的用戶點擊行為數據可以轉化大規模的弱標記數據,搭配我們研發的高效並行訓練算法,大數據訓練的 SimNet 顯著超越了主題模型類算法的效果,並首次實現了可完全取代基於字面匹配的策略,而且可以直接建模非相似度類的匹配問題。在網頁搜索任務上的初次使用即展現出極大威力,帶來了相關性的明顯提升。近年來,學術界相關的研究也逐漸增多。
  • 史上最強NLP知識集合:知識結構、發展歷程、導師名單
    • INTEX是一個適用於大規模語料分析的工具,已先後被世界五十多個研究中心採用。 Collobert和Weston發表於2008年的論文,影響遠遠超過了它在多任務學習中的應用。它開創的諸如預訓練詞嵌入和使用卷積神經網絡處理文本的方法,在接下來的幾年被廣泛應用。他們也因此獲得2018年機器學習國際會議(ICML)的test-of-time獎。 如今,多任務學習在自然語言處理領域廣泛使用,而利用現有或「人工」任務已經成為NLP指令庫中的一個有用工具。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    (雷鋒網)這篇研究涵蓋了40種類型多樣的語言(涵蓋12種語系),還包括9項需要共同對不同級別的句法或語義進行推理的任務。下圖展示了從預訓練到微調再到zero-shot遷移的三大流程:模型的跨語言遷移學習過程:1、針對多語言文本的預訓練;2、使用英語對下遊任務進行微調;3、使用 XTREME 進行 zero-shot 評估。實踐中,這種zero-shot設置的好處之一是能夠提升計算效率,即預訓練模型僅需要針對每個任務在英語數據上進行微調,便可以在其他語言上直接進行評估。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    近年來,隨著人工智慧的發展,語義分析也越發重要。word embedding 是很常見的 input feature,能夠很大程度地提升語義分析模型的性能。然而,對於 output 對語義分析模型性能的影響,大家的關注度卻並不是很高。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    兩篇技術論文均聚焦在中文分詞和詞性標註領域,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,取得的研究突破對於工業界來說有著十分可觀的應用前景。兩篇文章的作者包括華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合伙人張潼,創新工場 CTO 兼人工智慧工程院執行院長王詠剛等人。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    實驗表明,在多個任務上5%左右的稀疏化程度就可以達到很好的效果。此外,還提出了帶記憶的meProp,具有更好的穩定性,達到更好的反向傳遞。在進一步的自然語言處理任務中,可以把模型裁剪為原來的1/10左右[3],而保持效果基本不變。復旦大學計算機科學技術學院副教授邱錫鵬主要介紹了NLP中的表示學習進展。目前全連接自注意力模型在自然語言處理領域取得廣泛成功。