哈工大 AAAI 2018 錄用論文解讀:基於轉移的語義依存圖分析 | 分享...

2021-01-11 雷鋒網

雷鋒網(公眾號:雷鋒網)AI科技評論按:語義依存是中文語義的深層分析,完善的語義表示體系對語義依存分析有重要作用。本文介紹的工作來自哈工大 SCIR 實驗室錄用於 AAAI 2018 的論文《A Neural Transition-Based Approach for Semantic Dependency Graph Parsing》。

在近期雷鋒網 GAIR 大講堂舉辦的線上公開課上,來自哈爾濱工業大學在讀博士生王宇軒分享了一篇他在 AAAI 2018 投中的論文:基於轉移的語義依存圖分析。

以下是王宇軒同學在線上直播課上的分享內容,雷鋒網編輯做了簡要回顧,完整視頻回放連結請點擊:http://www.mooc.ai/open/course/308

分享內容:

同學們,大家好,今天主要分享的是用一種基於轉移的方法來進行語義依存圖的分析。

首先介紹一下什麼是語義依存分析。語義依存圖是近年來提出的對樹結構句法或語義表示的擴展,它與樹結構的主要區別是允許一些詞擁有多個父節點,從而使其成為有向無環圖(direct edacyclic graph,DAG)。

右上圖是2012年和北京語言大學合作定義和標註的語義依存樹,通過一些依存弧把句子中有語義關係的詞連接起來。它是樹結構,所以成為語義依存樹。右下角是語義依存圖結構,因為在依存樹裡面,有一些詞之間的關係受限於樹結構,不能很好刻畫,所以就引入了依存圖概念。

語義依存圖與傳統樹結構的區別

左上第一個是句法依存樹,中間為語義依存樹,最下面是語義依存圖。圖結構與原來傳統的樹結構表示最大的不同就是存在有多個父節點,比如圖中的「我們」存在兩個父節點。

上圖左邊三個結構是另一種語義依存圖結構。它們是在英文語料上進行標註,並且有三種標註規範,分別是DM、PAS、PSD。由此可以看出在同一個句子中,由於標註規範不同,圖結構也是不同的。這是依存圖的第二個特點,具有多種標註規範。第三個特點事具有非投射性,弧之間有交叉。

語義依存圖實際上就是有向無環圖, 這篇論文的目的就是提出一個能適應多種標註規範的有向無環圖的一個分析器。

我們採用的是基於轉移的語義依存分析方法。該方法主要分為兩部分結構,一是預測,二是執行。預測部分是由一個分類器實現。執行部分需要一個轉移算法 ,包括一些預定義的轉移動作等。

關於轉移系統

首先有個緩存(buffer),用來保存將要處理的詞。接下來是一個棧(stack),保存正在處理的詞。還需要有一個存儲器(memory),用來記錄已經生成的弧。最後是一個deque, 暫時跳過一些詞。轉移狀態包括一個保存正在處理中的詞的棧(Stack),一個保存待處理詞的緩存(Buffer),和一個記錄已經生成的依存弧的存儲器。

用來處理傳統依存樹結構的轉移系統,以Choi等人在2013年提出的轉移系統為例。

生成圖中標紅的弧線,首先要通過一個LEFT-REDUCE轉移動作,LEFT是生成一條由緩存頂的詞指向棧頂詞的一條弧,REDUCE,是指生成弧之後,將棧頂詞消除掉。

如何生成圖中黃色的弧,首先執行一個LEFT-PASS轉移動作,暫時不把「他」消除,經過一系列轉移動作,再執行LEFT-REDUCE交互, 消除「他」。

接下來是用一個具體例子介紹整個轉移系統,包括更多的轉移動作,具體可觀看視頻回放。

基於轉移的語義依存分析方法中的分類器

圖中的分類器存在一些問題,緩存會損失一些信息,因為緩存只能通過單向LSTM學到正在緩存中的詞的表示,另外由於它是一個從右到左的單向LSTM,因此它會損失從左到右這部分信息。

為了解決這個問題,我們提出了Bi-LSTM模塊

我們提出的Incremental Tree-LSTM和傳統的Dependency-Based Recursive NN效果對比

關於Incremental Tree-LSTM

圖中大寫ABCD代表四個詞,下面的小寫可以認為它的向量化表示。

首相生成一個A指向B的弧,把A和B的子向量同時放到一個LSTM單元裡面,組合起來用a+b表示,放在A下面,以此類推,每次找到新的子節點都會把原來已找到的子節點拿來一起輸入,就不會損失C的信息。

上面提出的兩個模塊兒替換原來轉移系統後的效果圖

實驗結果

簡單介紹一下得到的實驗結果,首先是在一個中文語義依存圖的數據集SemEval 2016 Task9進行實驗,其中最重要的兩個評測指標LF和NLF。圖中BS是增加了第一種模塊後的性能,IT是增加第二個模塊兒後的性能,BS-ST是兩個模塊同時使用後整個模型的性能。

我們的模型和其他模型的性能對比

接下來是在SemEval 2015 Task 18上的英語數據集上的實驗。這個數據的測試集包括兩部分,紫色(in-domain)是指和訓練數據來自同領域的數據,綠色(out-of-domain)是指和訓練數據來自不同領域的數據,所以性能表現也不一樣。

值得一提的是,我們的模型可以通過模型融合的方法,在訓練過程中用不同的隨機化種子,訓練多個模型, 在預測的時候,用多個模型分別進行預測,得到多個當前狀態下要執行的轉移動作的概率分布,把多個概率分布對應的疊加起來,作為接下來判定的標準,這樣的簡單模型融合對模型性能有較大的提升效果。

最後給大家安利一個我們實驗室的中文語言處理工具包,包括最底層的分詞,詞性標註,一直到上層的句法分時,語義分析都能夠提供。可以下載到本地直接使用,也可以通過接口在線接入。

以上就是全部的分享內容。

雷鋒網更多公開課直播預告敬請關注公眾號「AI 研習社」。如果錯過了直播課程,還可到AI慕課學院查找該期的視頻回放。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AAAI 2018預講會在哈工大成功舉辦,25篇頂會文章講了什麼(下)
    照片由哈工大李家琦提供本次 AAAI 2018 預講會邀請了來自全國各地 15 所高校和研究單位的老師和同學分享他們在 AAAI 2018 中接收的 25 篇論文,內容覆蓋有聊天機器人、語義依存圖、文本摘要、機器翻譯、信息抽取、表示學習等多個領域的最新研究成果。會議吸引了 200 多名老師和學生來此參會並進行交流。
  • AAAI 2018全揭秘:1242篇中國投遞論文領跑全球,錄用數和美國平分秋色
    而在 AAAI 2018,論文投遞數和錄用數呈現了一個新的高峰:註冊人數達到 2296 人次,相較去年提升了 34%;而收到的投遞論文為 3808 篇,提升了 47%;今年的錄用論文數共有 938 篇。
  • ACL 2020 復旦大學系列論文解讀開始了!
    繼上周AI科技評論聯合哈工大 SCIR 實驗室推出「ACL 2020 哈工大系列解讀」之後,我們再次隆重推出 ACL 2020 實驗室系列解讀:ACL 2020 復旦大學系列解讀。復旦大學作為全國頂尖高校,在自然語言處理領域也當之無愧位列國內頂尖高校之列。
  • 百度AAAI 2018錄用論文:基於注意力機制的多通道機器翻譯模型
    這一論文已被 AAAI 2018 錄用。論文連結:https://arxiv.org/abs/1712.02109以下內容是雷鋒網 AI 科技評論根據論文內容進行的部分編譯。摘要:文章提出一種多通道的基於注意力機制(Attention-based)的編碼器(MCE,Multi-channel Encoder)。
  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網絡模型 | AAAI 2018
    雷鋒網 AI 科技評論按:第 32 屆 AAAI 大會(AAAI 2018)日前在美國紐奧良進行,於當地時間 2 月 2 日至 7 日為人工智慧研究者們帶來一場精彩的學術盛宴。AAAI 2018 今年共收到論文投稿 3808 篇,接收論文 938 篇,接收率約為 24.6 %。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文對其中一些重要論文進行了解讀。為了表徵這種語義,最近一些論文引入了場景圖(scene graph)的概念,其中的節點表示對象,邊則表示對象之間的關係。這裡的 MLE 主要是基於自回歸的形式,即最大化已知背景知識(對前面文本進行的編碼)後當前單詞的條件概率,這種做法導致了暴露偏差(exposure bias)問題,即在訓練階段模型對生成序列的暴露不足,從而導致測試時長序列的語義一致性快速降低。
  • 大連理工大學本科生論文被ACM Multimedia錄用
    大連理工大學本科生論文被ACM Multimedia錄用 2018-07-05 08:50 來源:澎湃新聞·澎湃號·政務
  • AAAI 2018 論文解讀:基於強化學習的時間行為檢測自適應模型 |...
    在近期雷鋒網 GAIR 大講堂舉辦的線上公開上,來自北京大學深圳研究生院信息工程學院二年級博士生黃靖佳介紹了他們團隊在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應調整檢測窗口大小及位置的方法,能對視頻進行高效的檢測。
  • AAAI 2021論文接收列表放出,IJCAI 2020即將召開!AI頂會最新動態...
    本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為 1692篇,接收率為21.4% 。  更多詳細報導請查看「 」一文  大會官網:https://aaai.org/Conferences/AAAI-21  2  IJCAI-PRICAI 2020
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • 西電陳渤團隊兩篇論文被頂級會議錄用
    今年,雷達信號處理國家級重點實驗室陳渤教授課題組的兩篇文章被NeurIPS2020錄用。相比傳統圖模型只考慮單一層次的邏輯關係,該模型能夠發掘樣本之間位於不同語義層次下的邏輯關係,即對觀測到的樣本間的邏輯關係按照語義層次進行分解,並將層次化的邏輯關係融入到相應語義層次下的樣本表示中。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    A 類學術會議 CVPR2019 收錄為 Oral 論文 。該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 「金猿技術展」文心ERNIE——基於知識增強的語義理解技術
    文心(ERNIE)是一個取得世界級突破的語義理解技術與平臺,依託百度的深度學習平臺飛槳打造,將機器理解語言的水平提升到新的高度,全面刷新了各項NLP任務的世界最好效果,取得了諸多權威語義評測比賽的世界冠軍。除語言理解外,提出的基於多流機制生成完整語義片段語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到世界領先水平。
  • 「GAIR 大講堂」大牛、學霸們的精華分享一次看個夠 | 年度盤點
    國際頂會論文解讀(線下)AAAI 2018預講會哈工大場(上)AAAI 2018預講會哈工大場(下)內容簡介:本次 AAAI 2018 預講會邀請了來自全國各地 15 所高校和研究單位的老師和同學分享他們在 AAAI 2018 中接收的 25 篇論文,內容覆蓋有聊天機器人、語
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    分享主題:語義分析介紹及跨語言信息在語義分析中的應用分享提綱:1.semantic parsing 背景介紹2.semantic parsing 模型介紹3.實驗分析雷鋒網 AI 研習社將其分享內容整理如下:今天跟大家分享的內容包括兩個部分:一是語義分析介紹,考慮參與分享的大多數朋友並不是從事 semantic parsing 的相關工作,所以我會從通俗易懂的角度為大家做一個普及;二是講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用
  • 「2018年全國知識圖譜與語義計算大會」開始徵文!
    全國知識圖譜與語義計算大會已經成為國內知識圖譜、語義技術、連結數據等領域的核心會議,聚集了知識表示、自然語言理解、機器學習、資料庫、圖計算等相關領域的重要學者和研究人員。2018 年全國知識圖譜和語義計算大會將於 2018 年 8 月 15 日至 8 月 18 日在天津召開。
  • 萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文
    8月16日,在北京中科院軟體研究所舉辦的「自然語言處理前沿技術研討會暨EMNLP2017論文報告會」上,邀請了國內部分被 EMNLP 2017錄用論文的作者來報告研究成果。整場報告會分為文本摘要及情感分析、機器翻譯、信息抽取及自動問答、文本分析及表示學習四個部分。感覺上次的 CCF-GAIR 參會筆記寫的像流水帳,這次換一種方式做筆記。
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
  • 論文推薦|[AAAI 2020] TextScanner:依序閱讀分類的魯棒場景文本識別
    本文簡要介紹AAAI 2020錄用論文TextScanner: Reading Characters in