鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...

2020-11-30 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 研習社編者按:語義分析(semantic parsing)是人工智慧的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。近年來,隨著人工智慧的發展,語義分析也越發重要。

word embedding 是很常見的 input feature,能夠很大程度地提升語義分析模型的性能。然而,對於 output 對語義分析模型性能的影響,大家的關注度卻並不是很高。

近日,在雷鋒網 AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果,並介紹了關於 output embedding 對於 semantic parsing 的影響。公開課回放視頻網址:http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan

鄒炎炎:新加坡科學設計大學博士在讀,主要研究方向為自然語言理解。

分享主題:語義分析介紹及跨語言信息在語義分析中的應用

分享提綱:

1.semantic parsing 背景介紹

2.semantic parsing 模型介紹

3. 如何學 output embedding

4. 實驗分析

雷鋒網 AI 研習社將其分享內容整理如下:

今天跟大家分享的內容包括兩個部分:

一是語義分析介紹,考慮參與分享的大多數朋友並不是從事 semantic parsing 的相關工作,所以我會從通俗易懂的角度為大家做一個普及;

二是講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用》(Learning Cross-lingual Distributed Logical Representations for Semantic Parsing)

對於做 nlp 的人來講,parsing 一般會被默認為 Syntactic Parsing——語法方面的分析,常見的分析有 Dependency parsing(依賴關係分析)和 Constituency parsing(成分句法分析)。

Wikipedia 上對 semantic parsing 的解釋是:把人類自然語言的話轉化為機器能夠讀懂的語言。

為了讓大家更好地區分語法分析和語義分析的不同點,我先介紹一下兩種分析的任務:

Dependency parsing :比如輸入一句話「I saw a girl with a telescope」,Dependency parsing 的目標就是找到哪兩個詞之間是存在依賴關係的,更進一步的話,可能需要給這種關係標記上 Label。例如 「I 」是 「saw」 的修飾詞,其他關係同理。

 

Constituency parsing:我們以同樣的句子為例,這裡我們關注的不是兩個詞之間是否存在修飾、依賴關係,而是關注哪些詞構成一個短語,一個短語即是一個成分,比如「a telescope」就是一個名詞短語。

 

Semantic Parsing 則是指輸入一段完整的話,最後輸出 semantic representations(MRL)。那 semantic representation 是什麼呢?就我了解的而言,主要有五種比較流行的 representations :

• Lambda calculus expressions(一般與 CCG 配合使用)。

• Lambda dependency-based compositional semantics(lambda-DCS)

• Forest, or DAG representations (AMR)

• SQL 

• FunQL (logical forms with tree structures)

本次分享中,我們主要採用了 FunQL 這種語義分析方式。

【更多關於這五種主流語義分析的講解細節,請回看視頻 00:08:30 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

從廣義上來講,Semantic Parsing 可以分為兩類:

• Task-independent:Semantic Parsing 只關注語義分析這一塊,input 就是一個句子,output 就是一個 representation,它的目標就是怎樣以更好的 Semantic Parsing,來預測句子的更準確的 representation,而不關注下面的任務是什麼。

• Task-specific:興趣點在於訓練一個能幫助完成 Answering questions、Taking actions 等這些任務的 Semantic Parsing。

【關於更多對二者的區別的講解以及案例,請回看視頻 00:15:45 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

總的來說,我們要把一個文本轉化為 semantic representation 的形式,本文採用 FunQL 這種 representation 的方式,目標就是將文本轉化為一個 semantic trees(語義樹)。當然這個 semantic trees 也可以反向轉化為 FunQL,使用 semantic trees 這個媒介,能幫助我們更好得學到句子的語法意義。

 

一般來說,Semantic Parsing 中一個比較流行的方法就是去學習 joint representation——可以同時將 input 的詞和 output 的 semantic units 進行對齊處理。

這次我主要介紹我們實驗室的一系列工作,包括:

Generative Hybrid Tree (Lu et al.,2008)

我們知道 input 是一句話,output 是一個 semantic trees,例子中,input 為「how many states do not have a river?」這句話,下面就是它的 semantic trees,我們可以將二者的對應關係表示為 Hybrid Tree 的形式,如下圖:

 

【關於 Generative Hybrid Tree 的更多講解,請回看視頻 00:19:17 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

Generative Hybrid Tree 有一些優點和缺點。

優點:第一,它是 Language-independent,不管 input 是中文還是英文,只要餵一個模型,系統就能輸出一個 Semantic Parsing;第二,可以很好地模擬出來詞與 semantic units 的對齊關係,這個對於 Semantic Parsing 來說非常重要;第三,效率性比較高。具體的推導,大家感興趣的話可以閱讀論文。

缺點:第一,無法獲得長距離的依賴關係;第二,能引入的特徵比較有限。

Discriminative Hybrid Tree (Lu,2014, 2015)

在這個工作中,我們採用了 log-linear model(對數線性模型)來解決上一篇論文存在的兩個問題。綠色字體是在 Generative Hybrid Tree 的基礎上新引入的,它們與 semantic units 保持著聯繫,它能將句子的節點與所有子節點的對齊關係都考慮進去。

 

【關於 Discriminative Hybrid Tree 的更多講解,請回看視頻 00:25:25 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

除了一般的特徵,Discriminative Hybrid Tree 這個模型還會考慮到 Word n-gram features、Character-level features、 Span features 這些額外的特徵。

Neural Hybrid Tree (Susanto、Lu, 2017)

現在 Neural Network 非常盛行,也有很多工作完全使用 Neural model 來完成 Semantic Parsing 的工作。Neural Hybrid Tree 其實就是 Discriminative Hybrid Tree 的一個擴展版本,引入了一些 Neural 特徵,來幫助我們更好地學習 Semantic Parsing。

 

【關於 Discriminative Hybrid Tree 的更多講解,請回看視頻 00:28:35 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

下面講一下我們在 ACL 2018 會議中的一篇短文——《跨語言信息在語義分析中的應用》。跨語言信息其實很少作為一個特徵用於 Semantic Parsing。那為什麼我們會想到使用跨語言信息去學習語義分析器呢?

 

例如 Machine Translation 將「How many states have no rivers?」轉化為中文「有多少洲沒有河流?」,可能會有很多種表達,但是語義是一樣的。不同的語言其實有一些共享的信息,那這些共享信息是否能幫助我們更好的去學 Semantic Parsing 呢?這就是我們的 Motivation。

【更多關於使用跨語言信息去學習語義分析器的 Motivation 的講解,請回看視頻 00:32:15 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

接下來就是怎麼去給這些共享信息建立模型。我們的目標就是在給定目標語言和輔助語言的情況下,比如要學英文的 Semantic Parsing,會以英文為目標語言,以中文、德文等其他語言為輔助語言,在訓練英文的 Semantic Parsing 前,我們會在輔助語言以及語言所對應的「語義樹」中學一些 cross-lingual information,之後我們會根據給定的數據,可以用 embedding 或者分布式表達去建立跨語言信息模型。

 

【更多關於建立跨語言信息模型的講解,請回看視頻 00:34:50 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

我們用一些實驗數據來證明 output embedding 對於模型的性能是有用的,如下圖中的表格:

 

【更多對該數據表格的詳細講解,請回看視頻 00:37:00 處,http://www.mooc.ai/open/course/544?=aitechtalkzouyanyan】

那學出來的 Cross-lingual Representation 到底表示什麼呢?我在這裡截取了其中的一部分,如圖:

 

如果 semantic units 擁有相似或者一樣的 functional symbol,它們傾向於組成一個 group,在二維空間中非常接近。比較接近的語義會離得比較近,相反的語義則會離得比較遠。

最後做一下總結,本次我們分享了語義分析的基本背景知識,我們實驗室工作中用到的一些語義分析模型、ACL 2018 會議中的短文《跨語言信息在語義分析中的應用》以及語義分析的一些表現。

接下來,我們會考慮用一個 joint 的形式同時去學跨語言的 representations 和跨語言的 semantic parser。

以上提到的三個 Hybrid Tree 模型以及我們在 ACL 2018 的論文的代碼,都可以在我們的官方主頁(http://statnlp.org/research.sp/)上下載。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區(https://club.leiphone.com/)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 復旦大學陳俊坤:自然語言處理中的多任務學習 | AI 研習社職播間第...
    近日,在雷鋒網 AI 研習社公開課上,復旦大學計算機系在讀碩士陳俊坤分享了其所在研究組關於多任務學習在自然語言處理領域的最新工作。公開課回放視頻網址:http://www.mooc.ai/open/course/574?
  • 哈工大 AAAI 2018 錄用論文解讀:基於轉移的語義依存圖分析 | 分享...
    :語義依存是中文語義的深層分析,完善的語義表示體系對語義依存分析有重要作用。以下是王宇軒同學在線上直播課上的分享內容,雷鋒網編輯做了簡要回顧,完整視頻回放連結請點擊:http://www.mooc.ai/open/course/308分享內容:同學們,大家好,今天主要分享的是用一種基於轉移的方法來進行語義依存圖的分析。首先介紹一下什麼是語義依存分析。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    醫學圖像分析中目標檢測任務的普遍性,使得開發目標檢測集成框架顯得必要。近日,在雷鋒網 AI 研習社公開課上,深圳市宜遠智能科技有限公司負責人吳博剖析了目標檢測已有的框架,重點分享如何對目標檢測框架進行改造,以便在醫學圖像分析中產生更好的效果。公開課回放視頻網址:http://www.mooc.ai/open/course/559?
  • 2019 語義分割指南
    這種分割在計算對象數量的應用程式中非常有用,例如計算商城的行人流量。它的一些主要應用是在自動駕駛、人機互動、機器人和照片編輯/創意工具中。例如,語義分割在汽車自動駕駛和機器人技術中是至關重要的,因為對於一個模型來說,了解其所處環境中的語義信息是非常重要的。
  • 從語義學角度分析知覺經驗表徵
    從語義學角度分析知覺經驗表徵 2018年06月27日 17:37 來源:《社科縱橫》 作者:胡瑞娜 郭幹 字號 內容摘要: 關鍵詞:
  • 語義分割概念及應用介紹
    比如自動駕駛汽車已經逐漸成為可能,但在整個深度學習過程,需要算法識別和學習作為原始數據提供的圖像,在這一過程中,應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。早期,計算機視覺的初始應用需求只是識別基本元素,例如邊緣(線和曲線)或漸變。然而,僅僅通過全像素語義分割的創造來理解像素級的圖像,它將屬於同一目標的圖像部分聚集在一起,從而擴展了語義分割的應用場景。
  • 鄭文琛:基於網絡功能模塊的圖特徵學習 | AI 研習社79期大講堂
    在這次分享中,嘉賓將用語義相關度搜索(Semantic Proximity Search)作為一個應用例子,來介紹他們最近在探索不同粒度的網絡功能模塊、以進行有效圖特徵學習的一些進展。分享嘉賓:鄭文琛,微眾銀行人工智慧項目組專家工程師和副總經理。
  • 語義幹擾效應40年研究的貝葉斯元分析
    我們以前介紹的都是frequentist meta-analysis。
  • MRCP學習筆記-自然語言語義標識語言(NLSML)
    Natural Language Semantics Markup Language的中文的全稱是自然語言語義標識語言。為了書寫方便,我們在接下來的部分使用其縮寫來表示。NLSML是W3C的一個發布標準,MRCP協議借用了NLSML的部分技術細節,經過一些裁剪實現了MRCP的NLSML版本。在今天的章節中,我們將涵蓋MRCP的自然語言語義標識語言一些關鍵配置參數和使用示例。
  • 地圖中的語義理解 | 雷鋒網公開課
    因此可以看到語義理解技術至少有兩個關鍵的因素,第一是自然語言處理技術,利用統計自然語言處理算法提取文本中的實體詞以及依存關係;第二是要有全面而豐富的知識庫,配合自然語言處理技術,才能得到用戶的準確意圖。結合到上面的例子,如果知識庫中「天安門」是作為一個地名,那麼「怎麼去天安門」,就可以被以很高的準確率劃分為用戶出行意圖。
  • 2018 公開課盤點企業篇:十家企業帶你看 AI 的實際應用成果及人才...
    而在今年,為了幫廣大學術青年看到技術在企業中的實際應用成果,並同時保持學術性科研職業路徑的可能性,我們增設了「職播間」這個公開課類目,依託於 AI 研習社社群和雷鋒網在 AI 行業的影響力,邀請了數十家中國 AI 企業的工程師、 管理者們來分享自己企業的研發成果、技術追求以及人才招聘需求。
  • 百度NLP | 神經網絡語義匹配技術
    除網頁搜索產品外,還成功應用到了廣告、新聞推薦、機器翻譯、深度問答等多個產品線和應用系統中,並取得了顯著效果。特別需要指出的是,與學術界的一些研究工作相比,我們除了模型算法本身的優化改進之外,還特別注重了深度學習模型與自然語言處理基礎技術的結合,尤其深入考慮了中文的語言特性,更多從實用性角度提升了神經網絡語義匹配技術的應用效果。
  • 香港中文大學胡梟瑋:用於陰影檢測的 DSC 特徵 | AI研習社64期大...
    與此同時,陰影的存在也為計算機視覺中進一步理解圖像的算法,例如物體的檢測與跟蹤,帶來了障礙。來自香港中文大學的胡梟瑋採用了提取 DSC 特徵的方式來解決這個問題,他在近日的 AI 研習社大講堂上向我們分享了具體操作思路。
  • 百度NLP主任架構師全面講解百度語義表示技術及最新進展
    相關技術包含語義表示、語義匹配、語義分析、多模態計算等。本文主要介紹百度在語義表示方向的技術發展和最新的研究成果艾尼(ERNIE),同時也會介紹工業應用價值很大、百度積累多年的語義匹配SimNet的相關內容,最後再談談未來的重點工作。
  • 語義理論新轉向:語義最小主義
    所謂「最小」,指的是存在可確定真值的最小的句子內涵,這一內容由構成句子的詞項意義以及這些詞項的句法組合模式所決定,不取決於語言使用者的意圖及他們具有的情境知識。這一觀點被認為是「最小主義的語言學新轉向」。語義最小論在西方語義學和語言哲學界引發了一定的爭論。筆者將在本文中就相關問題進行簡要介紹。
  • 代碼質量與安全–架起程序語義和業務邏輯之間的橋梁
    目前,我領導著鑑釋科技靜態應用程式安全測試(SAST)工具的核心開發工作。該工具能夠分析處於靜態狀態的原始碼,即在軟體編譯和運行之前檢查軟體是否存在錯誤。為了做到這一點,我們的工作已經超越了程式語言的語法範圍。它不僅僅要檢查原始碼的「語法和拼寫」,還要檢查系統語義以及系統中的數據流。
  • 解鎖三角獸,語義分析如何成就爆款產品?
    4A 被小米稱為首臺人工智慧語音電視,這背後集聚了三角獸科技的模糊語義理解和問答技術,而這家公司也曾因為向錘子科技 Big Bang 語義識別功能提供底層技術而備受關注。三角獸致力於利用自然語言處理(下簡稱 NLP)、深度學習技術,打造中文聊天對話系統。對話系統是人工智慧的一個子領域,實現人與機器自然交流。「這三四年來,我們發現越來越可以接近這個目標。
  • 語義學者:尚需進階的「學術秘書」
    針對學術搜尋引擎的種種不足,2015年,艾倫人工智慧研究所首次推出「語義學者」。「語義學者」本質上是一個旨在解決信息過載問題的學術搜尋引擎,它能幫助用戶篩選科學論文,並在一定程度上理解檢索到的論文內容。該搜尋引擎檢索的文獻庫最初集中在計算機科學,此後逐步向其他領域擴展。2016年,該研究所更新了「語義學者」的功能。
  • 前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索
    近年來,基於神經網絡的自然語言理解研究取得了快速發展(尤其是學習語義文本表示),這些深度方法給人們帶來了全新的應用,且還可以幫助提高各種小數據集自然語言任務的性能。本文討論了兩篇關於谷歌語義表示最新進展的論文,以及兩種可在 TensorFlow Hub 上下載的新模型。
  • 香港中文大學胡梟瑋:用於陰影檢測的 DSC 特徵 | AI研習社64期大講堂
    雷鋒網AI研習社按:陰影檢測向來是計算機視覺中基礎且富有挑戰性的問題——對於一張輸入圖像,我們通過生成二進位圖像來標記陰影區域,陰影區域的檢測為進一步獲取圖像中的光照情況、物體的形狀與位置,以及攝像機的參數提供了可能。與此同時,陰影的存在也為計算機視覺中進一步理解圖像的算法,例如物體的檢測與跟蹤,帶來了障礙。