NLP 句法結構解析樹

2020-12-06 NLP學習筆記

句法解析是 NLP 中的一種關鍵技術,可以幫助分析句子的成分結構,以及單詞之間的依存關係。句法分析樹主要分兩大類:constituent tree 短語結構樹,dependency tree 依存結構樹。本文主要簡單介紹一下短語結構樹和依存結構樹的概念。

1.短語結構樹

NLP 句法結構解析主要分為兩類:constituent tree 短語結構樹和 dependency tree 依存結構樹。

短語結構樹不斷地將句子的成分 (包括短語和句子) 按照規則組成新的短語,從而得到句子的結構。例如 "我的貓喜歡吃貓糧",首先可以得到短語 [我的貓] 和 [吃貓糧],然後又可以得到短語 [喜歡[吃貓糧]]。形成的短語結構樹如下:

短語結構樹

可以看到短語結構樹的每一個葉子節點都是原始句子中的單詞,而每個非葉子節點都是用於標記短語結構的。其中 NP 表示名詞短語,單詞 "我的" 和 "貓" 組成了名詞短語 "我的貓";VP 表示動詞短語,"吃貓糧" 就是一個動詞短語。

可以通過 Stanford Parser 解析句子得到短語結構樹,一般解析出來的表示如下。

(ROOT

(S

(NP (PRP$ 我的) (NN 貓))

(VP (VBZ 喜歡)

(S

(VP (VBG 吃)

(NP (NN 貓糧)))))

(. .)))

2.依存結構樹

依存結構樹和短語結構樹不同,依存樹主要用於表達句子中單詞之間的相互依存關係。通常可以表示成 (單詞1,關係,單詞2) 三元組,單詞2依賴於單詞1,例如主謂賓結構等。還是剛剛的句子 "我的貓喜歡吃貓糧",對應的依存結構樹如下:

依存結構樹

依存圖中子節點依存於父節點,例如 "我的" 依存於 "貓",nmod,dobj,nsubj 等表示單詞之間的依存關係。

通過 Stanford Parser 解析句子得到依存結構樹通常像下面的形式。

nmod(貓-2, 我的-1)

nsubj(喜歡-3, 貓-2)

root(ROOT-0, 喜歡-3)

xcomp(喜歡-3, 吃-4)

dobj(吃-4, 貓糧-5)

上面括號中的第二個詞依賴於第一個詞,他們的依賴關係寫在括號之前,單詞之後的數字表示單詞在句子中的位置。

相關焦點

  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • NLP推出兩款句法分析應用工具,助力下遊任務效果提升
    繼2020年8月份中文依存句法分析工具 DDParser 發布後,百度於近日發布兩款句法分析結果應用工具——基於句法分析的隱式向量表示工具和顯式結構表示工具。句法分析利用句子中詞與詞之間的關係來表示詞語的句法結構信息,如「主謂」、「動賓」、「定中」等。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    深度學習模型可以將文本中的詞高效地表示為分布式連續向量(word2vec),將詞語、文本由詞空間映射到語義空間,這樣的語義表示可以捕獲重要的句法和語義信息,一定程度上緩解了詞面不匹配、數據稀疏、語義鴻溝等問題。Word2vec 的應用可以使許多自然語言處理任務取得突出的表現。
  • NLP 與 NLU:從語言理解到語言處理
    NLU: from Understanding a Language to Its Processing作者 | Sciforce翻譯 | 蘿蔔菜在種樹     編輯 | 王立魚原文連結:https://medium.com/sciforce/nlp-vs-nlu-from-understanding-a-language-to-its-processing
  • 你需要先理解神經網絡的語言、樹和幾何性質
    關於一個句子的語言信息中,一大關鍵部分是其句法結構。這種結構可以表示成樹,其節點對應於句子的詞。Hewitt 和 Manning 在論文《A Structural Probe for Finding Syntax in Word Representations》中表明某些語言處理網絡能夠構建這種句法樹的幾何副本。
  • 史上最強NLP知識集合:知識結構、發展歷程、導師名單
    樹中的每個節點是通過子節點的表徵計算得到的。一個樹也可以視為在循環神經網絡上施加不同的處理順序,所以長短期記憶網絡則可以很容易地被擴展為一棵樹。 不只是循環神經網絡和長短期記憶網絡可以擴展到使用層次結構,詞嵌入也可以在語法語境中學習,語言模型可以基於句法堆棧生成詞彙,圖形卷積神經網絡可以樹狀結構運行。
  • 離合詞與詞法句法的分工
    但本文指出同源賓語說雖然堅持詞庫-句法應分清界限,實際上在離合同源結構的推衍過程中並未將詞彙主義貫徹到底, PF-刪略詞內成分違反了詞彙完整性假說,離合詞拷貝的名物化也無法解釋離合詞內賓語的特性。除了句法推衍的問題之外,本文還指出,同源賓語假設的一個前提,即離合詞是不及物動詞,不符合離合詞表現出的句法分布:離合詞與典型的及物動詞加賓語的結構具有相同的句法分布,與不及物動詞表現不同。
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    代表性論文:《語境化詞向量解析:架構和表示》(EMNLP 2018)該論文對預訓練語言模型表示實現了更好的理解。作者在精心設計的無監督和有監督的任務上對詞和跨度表示進行了廣泛的學習研究。結果表明:預訓練的表示可以在較低的層中學習到低級形態和句法任務相關的任務,並且可以在較高的層中學習到更長範圍的語義相關的任務。對我來說,這個結果真正表明了,預訓練語言模型確實捕獲到了與在 ImageNet 上預訓練的計算機視覺模型(https://thegradient.pub/nlp-imagenet/)相類似的屬性。
  • 2020年甘肅事業單位招聘考試備考:詞性句法功能中常見的短語結構
    2020年甘肅事業單位招聘考試備考:詞性句法功能中常見的短語結構 甘肅事業單位招聘即將拉開序幕,為了幫助各位考生比較好的備戰事業單位考試,甘肅中公教育為大家準備了事業單位職測考試答題技巧:詞性句法功能中常見的短語結構
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。
  • 對話句法:認知功能語言學的新領域
    由此,對話句法作為一個嶄新的理論得以正式確立。  對話句法理論是一種超越句子線性結構,將真實會話作為研究對象的句法理論。該理論的主要思想源於巴赫金(Bakhtin)的對話理論,並部分汲取了雅各布森(Jakobson)關於平行結構以及哈裡斯(Harris)在語篇分析中關於對等結構的部分理論。
  • 如何「錨定」NLP模型中的語言智慧?丨長文評析語言探針
    在這種情況下,如果探針可以檢測到 「主要助動詞」,則可以將其歸因於諸如語法解析樹之類的語言特徵,而非順序位置特徵。 我們可以解碼語言知識,而不是依賴於淺層探針分類器標籤嗎?在探索解碼語言知識的能力中發現,與解碼或構建語言知識的任務相比,分類任務的複雜性相對較低,那能否使用內部表示構建一個完整的依存解析樹呢?或許尋找恢復潛在語言知識的方法將會是一種非常有趣的體驗。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    displaCy網站上的可視化依賴解析樹https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!
  • Cython 助力 Python NLP 實現百倍加速
    在去年我們發布了用 Python 實現的基於神經網絡的相互引用解析包(Neural coreference resolution package)之後,在社區中獲得了驚人數量的反饋,許多人開始將該解析包用到各種各樣的應用中,有一些應用場景甚至已經超出了我們原本設計的對話框用例(Dialog use-case)。
  • 專欄| 中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡
    句法分析目前在做的句法分析包括句法樹 (Parse Tree) 和依存句法分析 (Dependency Parsing, DP),談到這兩點不得不放出下面這兩張圖:圖 (1)圖 (2)不同的詞類在句子中行使的功能是不一樣的。
  • 談談科技英語詞彙與句法的特點及翻譯
    下面,藍譯編譯從科技英語的詞彙和句法特點出發,探討科技英語在詞彙和句法方面的文體特徵和翻譯。一、科技英語詞彙特點及翻譯。科技詞彙在科技英語中大量使用,主要包括以下幾類:1.純科技詞彙,即那些只用於某個專業或學科的專門詞彙和術語。由於此類詞義精確而狹窄,了解專門詞彙和術語是準確翻譯的基礎。
  • 二語寫作句法複雜性研究的新發展
    除了低水平非母語使用者在從屬結構上的差別,句法複雜性指標無法區分本族語者和不同水平的二語使用者。針對調查對象話語產出的長度、從屬成分數量、並列成分數量和複雜短語等10個句法複雜性指標進行評估後發現,本族語者使用了更多的從屬成分,而非本族語者則使用了更多的並列成分和複雜短語;本族語者和高水平非母語者此類統計結果不顯著,本族語者和低水平非母語者在從屬結構上有適度差異。
  • CMU 2020年「神經網絡NLP」課程開課啦
    需要具備的知識參加學習的同學,需要具備一定的 NLP 知識,例如,n-gram 語言建模、CKY 解析、詞彙對齊等等。具體日程安排課程從 1 月 14 日開始,到 4 月底結束,總時長2個半月。注意力機制2020 年 2 月 6 日:分布詞義與詞向量2020 年 2 月 11 日:句子和上下文單詞表示法2020 年 2 月 13 日:調試神經網絡2020 年 2 月 18 日:具有本地獨立性假設的結構化預測2020 年 2 月 20 日:增量生成樹或圖
  • 英語句子層級結構計量分析
    英語句子層級結構計量分析 2017年02月27日 08:32 來源:外國語 作者:劉海濤 敬應奇 字號 內容摘要:語言作為一個複雜適應系統有著自身的演化和發展規律,採用計量方法可探究語言的系統特性。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    框架式:句法不同,但語義相同的句子在數據結構(幀)中被表示為程式化情景。理論式:這種方法基於的思路是,句子指代的真正的詞結合句子的部分內容可表達全部含義。交互式(學習):它涉及到語用方法,在交互式學習環境中用戶教計算機一步一步學習語言。我們為什麼需要 NLP有了 NLP,有可能完成自動語音、自動文本編寫這樣的任務。