繼2020年8月份中文依存句法分析工具 DDParser 發布後,百度於近日發布兩款句法分析結果應用工具——基於句法分析的隱式向量表示工具和顯式結構表示工具。
句法分析利用句子中詞與詞之間的關係來表示詞語的句法結構信息,如「主謂」、「動賓」、「定中」等。本次發布的兩款應用工具分別從隱式和顯式兩方面利用句法結果,幫助開發者們更快速便捷地引入句法特徵來提升任務效果。
DDParser 介紹
DDParser(全稱為 Baidu Dependency Parser)是百度基於大規模標註數據和產業級深度學習平臺——飛槳研發的中文依存句法分析工具。為了便於開發者快速學習及使用,DDParser 採用簡單易理解的標註體系,且支持一鍵安裝部署及調用。
句法分析給出了詞之間的語法結構,這種表示不受詞之間距離限制,可給出長距離詞之間的依賴,如圖1所示。但該表示相對複雜,需要開發者有一定的自然語言處理背景,了解句法分析任務及標註標準。
為了降低句法分析使用門檻,本次發布兩款基於句法分析的簡單易用的應用工具,分別為:
基於句法分析的隱式向量表示:將句法結果蘊含的結構上下文信息編碼進文本的隱式表示中,提升文本的語義表示能力。基於句法分析的顯式結構表示:從語義角度將句法分析結果以簡單易理解的結構呈現出來(如主謂賓、動補、名詞修飾等結構),便於開發者直接獲取輸入文本的結構化語義單元。
工具一:基於句法分析的隱式向量表示工具
常用的句子表示模型(如序列表示模型 LSTM)基於順序上下文給出當前詞的表示,其會受限於詞之間的距離,對長距離上下文依賴變弱。句法分析從語法結構上給出當前詞依賴的上下文,尤其可給出長距離依賴的上下文,其彌補常用句子表示模型的不足之處。
本次發布的基於句法分析的隱式向量表示工具將句法信息編碼進隱式向量表示中。如圖2中「基於句法樹的圖注意網絡」所示,本文將依存句法分析樹看作一個有向無環圖,在該圖上應用基於圖的注意力網絡機制獲取包含句法信息的表示。該向量表示與基於序列模型得到的向量表示連接在一起作為輸入文本最終的向量表示,增強了輸入文本的表示能力。其在下遊任務中的使用方式見圖2。
本工具應用於事件抽取、相似度計算任務,基於句法分析的隱式向量表示帶來了顯著效果提升。具體指標見表1。
在事件抽取任務上,為了更好地說明句法分析的作用,表2給出相關實例。由此可見,引入句法信息後,模型能夠學習到觸發詞與相關角色的句法路徑,進而提升了角色識別的召回率。
在相似度計算任務上,引入句法信息主要解決字面重合度高,但結構相同/不相同導致的語義一致/不一致的數據的計算問題,具體實例見表3。
工具二:基於句法分析的顯式結構表示工具
句法結構依賴於句子表述方式,語義同義但表述形式不同的兩個句子其句法結構往往差異較大。如圖3中實例所示,語義單元「納達爾擊敗梅德韋傑夫」在3種不同的表述形式下對應3種不同的句法結構。
為了方便開發者更直接地獲取輸入文本中的結構化語義單元,本文研發了基於句法分析的顯式結構表示工具,其從文本表達的語義角度出發,直接提取文本中的主要內容並以結構化形式輸出。如圖4所示,輸入文本為「9月9日上午納達爾在亞瑟·阿什球場擊敗俄羅斯球員梅德韋傑夫」,本工具抽取出主謂賓結構(納達爾、擊敗、梅德韋傑夫)、名詞修飾結構(俄羅斯、球員)等。
本工具圍繞實體詞定義了7種常見結構,覆蓋了句法分析可表示的範圍,如主謂賓結構、動補結構、名詞修飾結構等。
本工具有多種應用場景。這裡將介紹3種應用場景,如圖5所示。
開放域信息獲取:基於抽取的語義結構單元,獲得開放域信息,協助構建開放語義知識庫。相似度計算:基於抽取的語義結構單元,獲取基於結構的匹配度,可作為特徵加入到現有相似度計算模型。數據增廣:基於給定的結構,可生成不同表述形式、不同限定條件的數據,用於增廣現有數據集。
目前,基於依存句法分析的隱式向量表示工具和顯式結構表示工具已經開源,歡迎大家進入 DDParser 項目地址,了解更多技術詳情,並貢獻你的 Star 和 Fork!!!
DDParser 項目地址:
https://github.com/baidu/DDParser