重磅開源!百度中文依存句法分析工具DDParser等你來體驗!

2020-12-27 百度NLP

繼百度詞法分析工具LAC 2.0開源之後，8月4日，百度NLP又重磅發布了中文依存句法分析工具—DDParser！

相較於目前的其他句法分析工具，DDParser基於大規模標註數據進行模型的訓練，採取了更加簡單易理解的標註關係，並且支持一鍵安裝及調用，更加適合開發者快速學習及使用。

01DDParser是什麼

DDParser（Baidu Dependency Parser）是百度NLP基於大規模標註數據和深度學習平臺飛槳研發的中文依存句法分析工具，可幫助用戶直接獲取輸入文本中的關聯詞對、長距離依賴詞對等。

如圖1所示，輸入文本通過DDParser輸出其對應的句法分析樹，其中，兩詞之間的弧表示兩個詞具有依賴關係，由核心詞指向依存詞，弧上的標籤表示依存詞對核心詞的關係。

圖1

02DDParser能做什麼

通過依存句法分析可直接獲取輸入文本中的關聯詞對、長距離依賴詞對等，其對事件抽取、情感分析、問答等任務均有幫助。

如圖1所示實例，在事件抽取任務中，我們通過依存分析結果可提取句子中所包含的各種粒度的事件，如「納達爾擊敗梅德韋傑夫」、「納達爾奪得冠軍」、「納達爾奪得2019年美網男單冠軍」。

相應的，在問答任務中，我們根據問題的句法樹與答案所在文本的句法樹進行基於樹的結構匹配，可獲取對應的答案。例如，問題「誰奪得了2019年美網男單冠軍」，句法樹見圖2，其答案所在文本的句法樹見圖1，我們通過兩棵樹的對應部分匹配，可得出答案為「納達爾」。

圖2

在情感分析任務中，依存分析可用於評價對象的情感極性判斷。如圖3所示，我們根據依存分析結果提取評價對象「羊肉串」的觀點：「羊肉串鹹」和「羊肉串不新鮮」，基於此來判斷該評價對象的情感極性。

圖3

利用依存分析結果可獲取詞之間的依賴關係和關聯路徑，如圖4所示實例。前半句中存在兩條路徑「打疫苗」和「在哪兒打」，後半句中存在兩條路徑「打疫苗」和「打在哪兒」，這些路徑信息可以給相似度計算等其他任務提供更多特徵。

圖4

總而言之，依存分析將句子表示為一棵樹，提供了詞之間的依賴關係和關聯路徑，其在句子序列基礎上提供了更多的句子結構信息，可幫助其他任務從句子結構角度獲取所需信息。

03DDParser的優勢

基於大規模優質標註數據

DDParser訓練數據近百萬，包含搜索query、網頁文本、語音輸入數據等，覆蓋了新聞、論壇等多種場景。從應用的角度出發，為了方便用戶快速上手，DDParser共設計了14種依存關係，並著重凸顯實詞間的關係，在隨機數據上LAS可達到86.9%。

基於深度學習框架，不依賴繁複的特徵工程

首先，DDParser採用bilinear attention mechanism對句子語義進行表示，代替複雜的特徵工程模式。其次，其輸入層加入了詞的char級別表示，緩解粒度不同帶來的效果下降，網絡結構如圖5所示。

圖5

調用便捷

DDParser支持Python一鍵安裝，方便用戶快速使用。

04DDParser與其他開源工具的效果對比

DDParser在與訓練數據同源分布的標準測試集合上，LAS達到92.9%。同時，為了驗證DDParser在中文句法分析的優勢，我們選擇市面上關注度高的2款句法分析開源工具進行效果對比，評估方式為專家根據各工具依存關係定義人工標註。

經測試，在從搜索、聊天、網頁文本、語音輸入等數據集合中隨機抽取構成的隨機測試集合上，DDParser效果達到了86.9%，效果優於同類工具，具體效果對比情況如表1所示。

表1

05DDParser如何安裝使用

DDParser支持pip一鍵安裝，兼容Windows、Linux和MacOS，調用方法如下所示：

pip install ddparser

from ddparser import DDParser

ddp = DDParser()

ddp.parse("百度是一家高科技公司")

具體安裝方法參見GitHub的README文檔中的快速開始。

如果您有任何意見或問題都可以提issue到Github，工具開發者將及時為您解答。

相關焦點

圖文並茂帶你了解依存句法分析

知乎: https://www.zhihu.com/people/gong-jun-min-74前言：上一期我們講了成分句法分析
句法分析綜述

按照百度百科的解釋就是指對句子中的詞語語法功能進行分析，例如「我來晚了」中，「我」是主語，「來」是謂語，「晚了」就是補語。這塊內容其實在語言學等領域已經有比較深入的研究，但是隨著數據的逐漸增多，這種分析就需要利用計算機自動化，句法分析就是這樣誕生的。那麼句法分析到底有什麼用呢？
聯合漢語分詞和依存句法分析的統一模型:當前效果最佳

因此，本文提出一種基於圖的統一模型來解決這些問題。這種模型將漢語分詞和依存句法分析集成在一個分析模型中。它比以前的聯合模型性能更好，並在漢語分詞和依存句法分析中實現了當前最佳的結果。與英語不同，漢語句子由連續的字符組成，詞語之間缺乏明顯的界限。
詳解Transition-based Dependency parser基於轉移的依存句法解析器

依存句法樹就是表示一個句子中詞與詞之間的依存關係，如下圖根據該表的父親節點索引和對應的弧上關係就能還原該依存句法樹。我們通常將依存句法的特徵融入到其他任務模型裡，比如機器翻譯、意見挖掘、語篇分析等，一般能得到更好的性能。那怎麼得到依存句法特徵呢？通常有兩種方法：什麼是Transition-based基於轉移的框架？這個框架由狀態和動作兩部分構成，其中狀態用來記錄不完整的預測結果，動作則用來控制狀態之間的轉移。
斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

新智元報導來源：stanfordnlp.github.io編輯：肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP，通過Python接口為53種語言提供標記、依存句法分析等
中心成果 |《中文句法語義分析及其應用》項目成果介紹

本項目為實現大規模中文句法語義資源建設目標，制定了《語篇句子成分標註規範》《塊依存篇章標註規範》。在這兩個基礎標註規範的指導下，項目組實現了句子結構、「塊依存」資源的大規模建設。課題組主要理論研究成果為「意合圖」中文語義表徵框架。中文句法語義分析是一項語言工程，需要較好的可計算性，並達到較高的形式化程度。
重磅|谷歌開源最精確自然語言解析器SyntaxNet的深度解讀:一次關鍵進步以及一個重要工具

SyntaxNet 將神經網絡和搜索技術結合起來，在解決歧義問題上取得顯著進展：SyntaxNet 能像訓練有素的語言學家一樣分析簡單句法。今天，谷歌開源了SyntaxNet，也發布了針對英語的預訓練解析程序 Parsey McParseface。除了讓更多人使用到最先進的分析技術之外，這次開源舉措也有利於公司藉助社區力量加快解決自然語言理解難題的步伐，惠及谷歌業務。
獨家| 人工智慧學習篇7:自然語言處理開源框架

如圖1所示，自然語言處理的基礎研究領域包括文本分類、依存分析、命名實體識別、詞性標註、中文分詞、情感分析、信息抽取、文本摘要等，這些任務主要在於「處理」，為後續進一步的「理解」和「應用」提供基礎。LTP（Language Technology Platform）是支持Java和Python接口的中文處理基礎平臺，是哈爾濱工業大學社會計算與信息檢索研究中心在2011年開發的基於GPL協議的開源軟體。LTP提供中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、高效、精準的自然語言處理模塊。
NLP、KG相關軟體、工具、資源匯總

ltp（https://github.com/HIT-SCIR/ltp）：由哈工大團隊開源，其提供了一系列中文自然語言處理工具，用戶可以使用這些工具對於中文文本進行分詞、詞性標註、句法分析等等工作功能包括：中文分詞、詞性標註、命名實體識別、依存句法分析、語義依存分析、新詞發現、關鍵詞短語提取、自動摘要、文本分類聚類、拼音簡繁轉換等jieba（https://github.com/fxsjy
百度深度學習中文詞法分析工具LAC試用之旅

之前在調研中文分詞和詞性標註相關工具的時候就發現了百度的深度學習中文詞法分析工具：baidu/lac（https://github.com/baidu
一個快要被NLP人遺忘的方向: 句法分析

句法分析包含：成分句法分析(constituent syntactic parsing) 依存句法分析(dependency syntacticparsing
開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文

百度NLP權威發布，可能是最好用的中文詞法分析工具——LAC 2.0閃亮登場！與LAC 1.0相比，LAC 2.0在性能與效果上有明顯提升，且支持多種開發語言，一鍵安裝調用，更加快速便捷。開源地址見下方評論區！
百度詞法分析工具 LAC 全面升級,2.0 版在線極速體驗

關於中文詞法分析（中文分詞、詞性標註、命名實體識別）相關的工具，我們在之前已經多次提到過百度LAC，除了在易用性上稍弱外，其他方面，特別在專名識別的橫向對比中還是很亮眼的。最近百度NLP發布了LAC 2.0：開源！我知道你不知道，百度開源詞法LAC 2.0幫你更懂中文，看完文章的第一感受就是易用性大大加強了，之前需要通過PaddleNLP或者PaddleHub調用lac，現在 "pip install lac" 後即可直接調用，相當方便。
小米開源NLP分詞工具

近日，小米NLP團隊開源了其分詞工具minlp-tokenizer，該分詞工具支持細粒度和
每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能

此外還存在著一些在線分詞工具，其分詞效果也不錯。國內一些科技大廠也早早投入到自然語言處理相關領域，如百度 NLP、阿里雲 NLP 等。就在近日，小米 AI 實驗室 NLP 團隊開發的小米自然語言處理平臺 MiNLP 現已開源了中文分詞功能。
NLP快速入門:手把手教你用HanLP做中文分詞

工具名稱是否開源工具描述Jieba（結巴分詞）免費使用jieba庫是一款優秀的支持 Python 第三方中文分詞庫，jieba支持三種分詞模式：精確模式、全模式和搜尋引擎模式。SnowNLP（中文的類庫）免費使用SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，誕生了一個方便處理中文的類庫。FoolNLTK（中文處理工具包）免費使用FoolNLTK是基於Bi-LSTM模型訓練成的中文分詞工具，僅適用於Linux系統。
上海科技大學屠可偉團隊:小談無監督依存句法解析

自然語言總有豐富的內部結構信息，而這些信息一般都是通過解析樹（parse tree）來進行表示。一般而言，我們把從一個句子到句法樹的這一過程稱為句法解析（parsing）。句法解析有很多種形式，最為常用的是基於短語的句法解析（constituency parsing）和依存句法解析（dependency parsing）。
【工具】語義分析工具匯總

之前丁爸在微信公眾號裡給大家推薦過一個在線語義分析工具，今天再次給大家分享幾個類似的語義分析工具。一、漢語分詞系統官網地址：http://ictclas.nlpir.org/三、Datamate Text Parser Lite 文本分析工具下載地址：http://www.chinamac.com/download/mac46541.html
從零開始學自然語言處理(七)—— 句法結構分析

在之前的從零開始學自然語言處理（六）—— 命名實體識別文章中，我們使用了 standford CoreNLP 工具，本文中，我們繼續會使用 standford CoreNLP 進行句法分析。句法分析分為句法結構分析（syntactic structure parsing）和依存關係分析(dependency parsing)。以獲取整個句子的句法結構為目的的稱為完全句法分析，而以獲得局部成分為目的的語法分析稱為局部分析，依存關係分析簡稱依存分析。今天我們看看句法結構分析。
語言資源高精尖創新中心「中文句法語義分析及其應用」項目系統研發與資源建設研討會順利召開

）意合圖、構式庫、語塊庫等語義資源建設；（3）標註與計算工具平臺；（4）句法語義分析器系統展示這四個方面進行了詳細匯報。張嶽博士做報告 5月22日，「中文句法語義分析及其應用」項目組邀請新加坡科技與設計大學助理教授張嶽博士作客「語言資源與智能」大講壇第十八講，為廣大師生帶來題為「Two Neural Models ForConstituent

重磅開源!百度中文依存句法分析工具DDParser等你來體驗!

相關焦點

圖文並茂帶你了解依存句法分析

句法分析綜述

聯合漢語分詞和依存句法分析的統一模型:當前效果最佳

詳解Transition-based Dependency parser基於轉移的依存句法解析器

斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言

中心成果 |《中文句法語義分析及其應用》項目成果介紹

重磅|谷歌開源最精確自然語言解析器SyntaxNet的深度解讀:一次關鍵進步以及一個重要工具

獨家| 人工智慧學習篇7:自然語言處理開源框架

NLP、KG相關軟體、工具、資源匯總

百度深度學習中文詞法分析工具LAC試用之旅

一個快要被NLP人遺忘的方向: 句法分析

開源!我知道你不知道,百度開源詞法LAC 2.0幫你更懂中文

百度詞法分析工具 LAC 全面升級,2.0 版在線極速體驗

小米開源NLP分詞工具

每天調用達80億次的小米MiNLP平臺,近期又開源了中文分詞功能

NLP快速入門:手把手教你用HanLP做中文分詞

上海科技大學屠可偉團隊:小談無監督依存句法解析

【工具】語義分析工具匯總

從零開始學自然語言處理(七)—— 句法結構分析

語言資源高精尖創新中心「中文句法語義分析及其應用」 項目系統研發與資源建設研討會順利召開

語言資源高精尖創新中心「中文句法語義分析及其應用」項目系統研發與資源建設研討會順利召開