01 Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder
02 Slot Transferability for Cross-domain Slot Filling
03 Modeling Discriminative Representations for Out-of-Domain Detection with Supervised Contrastive Learning
04 Novel Slot Detection: A Benchmark for Discovering Unknown Slot Types in the Task-Oriented Dialogue System
05 ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer
06 From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding
07 Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval
計算語言學協會年會(ACL 2021)於2021年8月1日至6日在泰國曼谷舉辦(虛擬線上會議)。ACL是計算語言學和自然語言處理領域最重要的頂級國際會議,該會議由國際計算語言學協會組織,每年舉辦一次。據谷歌學術計算語言學刊物指標顯示,ACL影響力位列第一,是CCF-A類推薦會議。今年ACL的主題是「NLP for Social Good」。據官方統計信息,本次會議共收到3350篇有效投稿,共計接收710篇主會論文(接受率為21.3%),493篇Findings論文(接受率為14.9%)。
美團技術團隊共有7篇論文(其中6篇長文,1篇短文)被ACL 2021接收,這些論文是美團在事件抽取、實體識別、意圖識別、新槽位發現、無監督句子表示、語義解析、文檔檢索等自然語言處理任務上的一些技術沉澱和應用。
針對於事件抽取,我們顯示地利用周邊實體的語義級別的論元角色信息,提出了一個雙向實體級解碼器(BERD)來逐步對每個實體生成論元角色序列;針對於實體識別,我們首次提出了槽間可遷移度的概念,並為此提出了一種槽間可遷移度的計算方式,通過比較目標槽與源任務槽的可遷移度,為不同的目標槽尋找相應的源任務槽作為其源槽,只基於這些源槽的訓練數據來為目標槽構建槽填充模型;針對於意圖識別,我們提出了一種基於監督對比學習的意圖特徵學習方法,通過最大化類間距離和最小化類內方差來提升意圖之間的區分度;針對於新槽位發現,我們首次定義了新槽位識別(Novel Slot Detection, NSD)任務,與傳統槽位識別任務不同的是,新槽位識別任務試圖基於已有的域內槽位標註數據去挖掘發現真實對話數據裡存在的新槽位,進而不斷地完善和增強對話系統的能力。
此外,為解決BERT原生句子表示的「坍縮」現象,我們提出了基於對比學習的句子表示遷移方法—ConSERT,通過在目標領域的無監督語料上Fine-Tune,使模型生成的句子表示與下遊任務的數據分布更加適配。我們還提出了一種新的無監督的語義解析方法——同步語義解碼(SSD),它可以聯合運用複述和語法約束解碼同時解決語義鴻溝與結構鴻溝的問題。我們還從改進文檔的編碼入手來提高文檔編碼的語義表示能力,既提高了效果也提高了檢索效率。
接下來,我們將對這7篇學術論文做一個更加詳細的介紹,希望能對那些從事相關研究的同學有所幫助或啟發,也歡迎大家在文末評論區留言,一起交流。
01 Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder論文下載
論文作者:習翔宇,葉蔚(北京大學),張通(北京大學),張世琨(北京大學),王全修(RICHAI),江會星,武威
論文類型:Main Conference Long Paper(Oral)
事件抽取是信息抽取領域一個重要且富有挑戰性的任務,在自動文摘、自動問答、信息檢索、知識圖譜構建等領域有著廣泛的應用,旨在從非結構化的文本中抽取出結構化的事件信息。事件論元抽取對具體事件的描述信息(稱之為論元信息)進行抽取,包括事件參與者、事件屬性等信息,是事件抽取中重要且難度極大的任務。絕大部分論元抽取方法通常將論元抽取建模為針對實體和相關事件的論元角色分類任務,並且針對一個句子中實體集合的每個實體進行分離地訓練與測試,忽略了候選論元之間潛在的交互關係;而部分利用了論元交互信息的方法,都未充分利用周邊實體的語義級別的論元角色信息,同時忽略了在特定事件中的多論元分布模式。
針對目前事件論元檢測中存在的問題,本文提出顯示地利用周邊實體的語義級別的論元角色信息。為此,本文首先將論元檢測建模為實體級別的解碼問題,給定句子和已知事件,論元檢測模型需要生成論元角色序列;同時與傳統的詞級別的Seq2Seq模型不同,本文提出了一個雙向實體級解碼器(BERD)來逐步對每個實體生成論元角色序列。具體來說,本文設計了實體級別的解碼循環單元,能夠同時利用當前實例信息和周邊論元信息;並同時採用了前向和後向解碼器,能夠分別從左往右和從右往左地對當前實體進行預測,並在單向解碼過程中利用到左側/右側的論元信息;最終,本文在兩個方向解碼完成之後,採用了一個分類器結合雙向編碼器的特徵來進行最終預測,從而能夠同時利用左右兩側的論元信息。
本文在公開數據集ACE 2005上進行了實驗,並與多種已有模型以及最新的論元交互方法進行對比。實驗結果表明該方法性能優於現有的論元交互方法,同時在實體數量較多的事件中提升效果更加顯著。
02 Slot Transferability for Cross-domain Slot Filling論文下載
論文作者:陸恆通(北京郵電大學),韓卓芯(北京郵電大學),袁彩霞(北京郵電大學),王小捷(北京郵電大學),雷書彧,江會星,武威
論文類型:Findings of ACL 2021, Long Paper
槽填充旨在識別用戶話語中任務相關的槽信息,是任務型對話系統的關鍵部分。當某個任務(或稱為領域)具有較多訓練數據時,已有的槽填充模型可以獲得較好的識別性能。但是,對於一個新任務,往往只有很少甚至沒有槽標註語料,如何利用一個或多個已有任務(源任務)的標註語料來訓練新任務(目標任務)中的槽填充模型,這對於任務型對話系統應用的快速擴展有著重要的意義。
針對該問題的現有研究主要分為兩種,第一種通過建立源任務槽信息表示與目標任務槽信息表示之間的隱式語義對齊,來將用源任務數據訓練的模型直接用於目標任務,這些方法將槽描述、槽值樣本等包含槽信息的內容與詞表示以一定方式進行交互得到槽相關的詞表示,之後進行基於「BIO」的槽標註。第二種思路採用兩階段策略進行,將所有槽值看作實體,首先用源任務數據訓練一個通用實體識別模型識別目標任務所有候選槽值,之後將候選槽值通過與目標任務槽信息的表示進行相似度對比來分類到目標任務的槽上。
現有的工作,大多關注於構建利用源-目標任務之間關聯信息的跨任務遷移模型,模型構建時一般使用所有源任務的數據。但是,實際上,並不是所有的源任務數據都會對目標任務的槽識別具有可遷移的價值,或者不同源任務數據對於特定目標任務的價值可能是很不相同的。例如:機票預定任務和火車票預定任務相似度高,前者的槽填充訓練數據會對後者具有幫助,而機票預定任務和天氣查詢任務則差異較大,前者的訓練數據對後者沒有或只具有很小的借鑑價值,甚至起到幹擾作用。
再進一步,即使源任務和目標任務很相似,但是並不是每個源任務的槽的訓練數據都會對目標任務的所有槽都有幫助,例如,機票預定任務的出發時間槽訓練數據可能對火車票預定任務的出發時間槽填充有幫助,但是對火車類型槽就沒有幫助,反而起到幹擾作用。因此,我們希望可以為目標任務中的每一個槽找到能提供有效遷移信息的一個或多個源任務槽,基於這些槽的訓練數據構建跨任務遷移模型,可以更為有效地利用源任務數據。
為此,我們首先提出了槽間可遷移度的概念,並為此提出了一種槽間可遷移度的計算方式,基於可遷移度的計算,我們提出了一種為目標任務選擇出源任務中能夠提供有效遷移信息的槽的方法。通過比較目標槽與源任務槽的可遷移度,為不同的目標槽尋找相應的源任務槽作為其源槽,只基於這些源槽的訓練數據來為目標槽構建槽填充模型。具體來說,可遷移度融合了目標槽和源槽之間的槽值表示分布相似度,以及槽值上下文表示分布相似度作為兩個槽之間的可遷移度,然後對源任務槽依據其與目標槽之間的可遷移度高低進行排序,用可遷移度最高的槽所對應訓練語料訓練一個槽填充模型,得到其在目標槽驗證集上的性能,依據按照可遷移度排序加入新的源任務槽對應訓練語料訓練模型並得到對應的驗證集性能,選取性能最高的點對應的源任務槽及可遷移度高於該槽的源任務槽作為其源槽。利用選擇出來的源槽構建目標槽槽填充模型。
槽填充模型依據槽值信息及槽值的上下文信息對槽值進行識別,所以我們在計算槽間可遷移度時,首先對槽值表示分布與上下文表示分布上的相似性進行了度量,然後我們借鑑了F值對於準確率及召回率的融合方式,對槽值表示分布相似性及槽值上下文表示分布相似性進行了融合,最後利用Tanh將所得到的值歸一化到0-1之間,再用1減去所得到的值,為了符合計算得到的值越大,可遷移度越高的直觀認知。下式是我們所提出的槽間可遷移度的計算方式:
我們並沒有提出新的模型,但是我們提出的源槽選擇方法可以與所有的已知模型進行結合,在多個已有模型及數據集上的實驗表明,我們提出的方法能為目標任務槽填充模型帶來一致性的性能提升(ALL所在列表示已有模型原始的性能,STM1所在列表示用我們的方法選出的數據訓練的模型性能。)
03 Modeling Discriminative Representations for Out-of-Domain Detection with Supervised Contrastive Learning論文下載
論文作者:曾致遠(北京郵電大學),何可清,嚴淵蒙(北京郵電大學),劉子君(北京郵電大學),吳亞楠(北京郵電大學),徐紅(北京郵電大學),江會星,徐蔚然(北京郵電大學)
論文類型:Main Conference Short Paper (Poster)
在實際的任務型對話系統中,異常意圖檢測(Out-of-Domain Detection)是一個關鍵的環節,其負責識別用戶輸入的異常查詢,並給出拒識的回覆。與傳統的意圖識別任務相比,異常意圖檢測面臨著語義空間稀疏、標註數據匱乏的難題。現有的異常意圖檢測方法可以分為兩類:一類是有監督的異常意圖檢測,是指訓練過程中存在有監督的OOD意圖數據,此類方法的優勢是檢測效果較好,但缺點是依賴於大量有標註的OOD數據,這在實際中並不可行。另一類是無監督的異常意圖檢測,是指僅僅利用域內的意圖數據去識別域外意圖樣本,由於無法利用有標註OOD樣本的先驗知識,無監督的異常意圖檢測方法面臨著更大的挑戰。因此,本文主要是研究無監督的異常意圖檢測。
無監督異常意圖檢測的一個核心問題是,如何通過域內意圖數據學習有區分度的語義表徵,我們希望同一個意圖類別下的樣本表徵互相接近,同時不同意圖類別下的樣本互相遠離。基於此,本文提出了一種基於監督對比學習的意圖特徵學習方法,通過最大化類間距離和最小化類內方差來提升特徵的區分度。
具體來說,我們使用一個BiLSTM/BERT的上下文編碼器獲取域內意圖表示,然後針對意圖表示使用了兩種不同的目標函數:一種是傳統的分類交叉熵損失,另一種是監督對比學習(Supervised Contrastive Learning)損失。監督對比學習是在對比學習的基礎上,改進了原始的對比學習僅有一個Positive Anchor的缺點,使用同類樣本互相作為正樣本,不同類樣本作為負樣本,最大化正樣本之間的相關性。同時,為了提高樣本表示的多樣性,我們使用對抗攻擊的方法來進行虛擬數據增強(Adversarial Augmentation),通過給隱空間增加噪聲的方式來達到類似字符替換、插入刪除、回譯等傳統數據增強的效果。模型結構如下:
我們在兩個公開的數據集上驗證模型的效果,實驗結果表明我們提出的方法可以有效的提升無監督異常意圖檢測的性能,如下表所示。
04 Novel Slot Detection: A Benchmark for Discovering Unknown Slot Types in the Task-Oriented Dialogue System論文下載
論文作者:吳亞楠(北京郵電大學),曾致遠(北京郵電大學),何可清,徐紅(北京郵電大學),嚴淵蒙(北京郵電大學),江會星,徐蔚然(北京郵電大學)
論文類型:Main Conference Long Paper (Oral)
槽填充(Slot Filling)是對話系統中一個重要的模塊,負責識別用戶輸入中的關鍵信息。現有的槽填充模型只能識別預先定義好的槽類型,但是實際應用裡存在大量域外實體類型,這些未識別的實體類型對於對話系統的優化至關重要。
在本文中,我們首次定義了新槽位識別(Novel Slot Detection, NSD)任務,與傳統槽位識別任務不同的是,新槽位識別任務試圖基於已有的域內槽位標註數據去挖掘發現真實對話數據裡存在的新槽位,進而不斷地完善和增強對話系統的能力,如下圖所示:
對比現有的OOV識別任務和域外意圖檢測任務,本文提出的NSD任務具有顯著的差異性:一方面,與OOV識別任務相比,OOV識別的對象是訓練集中未出現過的新槽值,但這些槽值所屬的實體類型是固定的,而NSD任務不僅要處理OOV的問題,更嚴峻的挑戰是缺乏未知實體類型的先驗知識,僅僅依賴域內槽位信息來推理域外實體信息;另一方面,和域外意圖檢測任務相比,域外意圖檢測僅需識別句子級別的意圖信息,而NSD任務則面臨著域內實體和域外實體之間上下文的影響,以及非實體詞對於新槽位的幹擾。整體上來看,本文提出的新槽位識別(Novel Slot Detection, NSD)任務與傳統的槽填充任務、OOV識別任務以及域外意圖檢測任務有很大的差異,並且面臨著更多的挑戰,同時也給對話系統未來的發展提供了一個值得思考和研究的方向。
基於現有的槽填充公開數據集ATIS和Snips,我們構建了兩個新槽位識別數據集ATIS-NSD和Snips-NSD。具體來說,我們隨機抽取訓練集中部分的槽位類型作為域外類別,保留其餘類型作為域內類別,針對於一個句子中同時出現域外類別和域內類別的樣例,我們採用了直接刪除整個樣本的策略,以避免O標籤引入的bias,保證域外實體的信息僅僅出現在測試集中,更加的貼近實際場景。同時,我們針對於NSD任務提出了一系列的基線模型,整體的框架如下圖所示。模型包含兩個階段:
訓練階段:基於域內的槽標註數據,我們訓練一個BERT-based的序列標註模型(多分類或者是二分類),以獲取實體表徵。測試階段:首先使用訓練的序列標註模型進行域內實體類型的預測,同時基於得到的實體表徵,使用MSP或者GDA算法預測一個詞是否屬於Novel Slot,也即域外類型,最後將兩種輸出結果進行合併得到最終的輸出。我們使用實體識別的F1作為評價指標,包括Span-F1和Token-F1,二者的區別在於是否考慮實體邊界,實驗結果如下:
我們通過大量的實驗和分析來探討新槽位識別面臨的挑戰:1. 非實體詞與新實體之間混淆;2. 不充分的上下文信息;3. 槽位之間的依賴關係;4. 開放槽(Open Vocabulary Slots)。
05 ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer論文下載
論文作者:嚴淵蒙,李如寐,王思睿,張富崢,武威,徐蔚然(北京郵電大學)
論文類型:Main Conference Long Paper (Poster)
句向量表示學習在自然語言處理(NLP)領域佔據重要地位,許多NLP任務的成功離不開訓練優質的句子表示向量。特別是在文本語義匹配(Semantic Textual Similarity)、文本向量檢索(Dense Text Retrieval)等任務上,模型通過計算兩個句子編碼後的embedding在表示空間的相似度來衡量這兩個句子語義上的相關程度,從而決定其匹配分數。儘管基於BERT的模型在諸多NLP任務上取得了不錯的性能(通過有監督的Fine-Tune),但其自身導出的句向量(不經過Fine-Tune,對所有詞向量求平均)質量較低,甚至比不上Glove的結果,因而難以反映出兩個句子的語義相似度。
為解決BERT原生句子表示這種「坍縮」現象,本文提出了基於對比學習的句子表示遷移方法—ConSERT,通過在目標領域的無監督語料上fine-tune,使模型生成的句子表示與下遊任務的數據分布更加適配。同時,本文針對NLP任務提出了對抗攻擊、打亂詞序、裁剪、Dropout四種不同的數據增強方法。在句子語義匹配(STS)任務的實驗結果顯示,同等設置下ConSERT 相比此前的 SOTA (BERT-Flow)大幅提升了8%,並且在少樣本場景下仍表現出較強的性能提升。
在無監督實驗中,我們直接基於預訓練的BERT在無標註的STS數據上進行Fine-Tune。結果顯示,我們的方法在完全一致的設置下大幅度超過之前的SOTA—BERT-Flow,達到了8%的相對性能提升。
06 From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding論文下載
論文作者:吳杉(中科院軟體所),陳波(中科院軟體所),辛春蕾(中科院軟體所),韓先培(中科院軟體所),孫樂(中科院軟體所),張偉鵬,陳見聳,楊帆,蔡勳梁
論文類型:Main Conference Long Paper
語義解析(Semantic Parsing)是自然語言處理中的核心任務之一,它的目標是把自然語言轉換為計算機語言,從而使得計算機真正理解自然語言。目前語義解析面臨的一大挑戰是標註數據的缺乏。神經網絡方法大都十分依賴監督數據,而語義解析的數據標註非常費時費力。因此,如何在無監督的情況下學習語義解析模型成為非常重要的問題,同時也是有挑戰性的問題,它的挑戰在於,語義解析需要在無標註數據的情況下,同時跨越自然語言和語義表示間的語義鴻溝和結構鴻溝。之前的方法一般使用複述作為重排序或者重寫方法以減少語義上的鴻溝。與之前的方法不同,我們提出了一種新的無監督的語義解析方法——同步語義解碼(SSD),它可以聯合運用複述和語法約束解碼同時解決語義鴻溝與結構鴻溝。
語義同步解碼的核心思想是將語義解析轉換為複述問題。我們將句子複述成標準句式,同時解析出語義表示。其中,標準句式和邏輯表達式存在一一對應關係。為了保證生成有效的標準句式和語義表示,標準句式和語義表示在同步文法的限制中解碼生成。
我們通過複述模型在受限的同步文法上解碼,利用文本生成模型對標準句式的打分,找到得分最高的標準句式(如上所述,空間同時受文法限制)。本文給出了兩種不同的算法:Rule-Level Inference以語法規則為搜索單元和Word-Level Inference使用詞作為搜索單元。
我們使用GPT2.0和T5在複述數據集上訓練序列到序列的複述模型,之後只需要使用同步語義解碼算法就可以完成語義解析任務。為了減少風格偏差影響標準句式的生成,我們提出了適應性預訓練和句子重排序方法。
我們在三個數據集上進行了實驗:Overnight(λ-DCS)、GEO(FunQL)和GEOGranno。數據覆蓋不同的領域和語義表示。實驗結果表明,在不使用有監督語義解析數據的情況下,我們的模型在各數據集上均能取得最好的效果。
07 Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval論文下載
論文作者:唐弘胤,孫興武,金蓓弘(中科院軟體所),王金剛,張富崢,武威
論文類型:Main Conference Long Paper (Oral)
文檔檢索任務的目標是在海量的文本庫中檢索出和給定查詢語義近似的文本。在實際場景應用中,文檔文檔庫的數量會非常龐大,為了提高檢索效率,檢索任務一般會分成兩個階段,即初篩和精排階段。在初篩階段中,模型通過一些檢索效率高的方法篩選出一部分候選文檔,作為後續精排階段的輸入。在精排階段,模型使用高精度排序方法來對候選文檔進行排序,得到最終的檢索結果。
隨著預訓練模型的發展和應用,很多工作開始將查詢和文檔同時送入預訓練進行編碼,並輸出匹配分數。然而,由於預訓練模型的計算複雜度較高,對每個查詢和文檔都進行一次計算耗時較長,這種應用方式通常只能在精排階段使用。為了加快檢索速率,一些工作開始使用預訓練模型單獨編碼文檔和查詢,在查詢前提前將文檔庫中的文檔編碼成向量形式,在查詢階段,僅需利用查詢編碼和文檔編碼進行相似度計算,減少了時間消耗。由於這種方式會將文檔和查詢編碼為稠密向量形式,因此這種檢索也稱作「稠密檢索」(Dense Retrival)。
一個基本的稠密檢索方法會將文檔和查詢編碼成為一個向量。然而由於文檔包含的信息較多,容易造成信息丟失。為了改進這一點,有些工作開始對查詢和文檔的向量表示進行改進,目前已有的改進方法大致可分為三種,如下圖所示:
我們的工作從改進文檔的編碼入手來提高文檔編碼的語義表示能力。首先,我們認為稠密檢索的主要瓶頸在於編碼時,文檔編碼器並不知道文檔中的哪部分信息可能會被查詢,在編碼過程中,很可能造成不同的信息互相影響,造成信息被改變或者丟失。因此,我們在編碼文檔的過程中,對每個文檔構建了多個「偽查詢向量」(Pseudo Query Embeddings),每個偽查詢向量對應每個文檔可能被提問的信息。
具體而言,我們通過聚類算法,將BERT編碼的Token向量進行聚類,對每個文檔保留Top-k個聚類向量,這些向量包含了多個文檔Token向量中的顯著語義。另外,由於我們對每個文檔保留多個偽查詢向量,在相似度計算時可能造成效率降低。我們使用Argmax操作代替Softmax,來提高相似度計算的效率。在多個大規模文檔檢索數據集的實驗表明,我們的方法既可以提高效果也提高了檢索效率。
寫在後面以上這些論文是美團技術團隊與各高校、科研機構通力合作,在事件抽取、實體識別、意圖識別、新槽位發現、無監督句子表示、語義解析、文檔檢索等領域所做的一些科研工作。論文是我們在實際工作場景中遇到並解決具體問題的一種體現,希望對大家能夠有所幫助或啟發。
美團科研合作致力於搭建美團各部門與高校、科研機構、智庫的合作橋梁和平臺,依託美團豐富的業務場景、數據資源和真實的產業問題,開放創新,匯聚向上的力量,圍繞人工智慧、大數據、物聯網、無人駕駛、運籌優化、數字經濟、公共事務等領域,共同探索前沿科技和產業焦點宏觀問題,促進產學研合作交流和成果轉化,推動優秀人才培養。面向未來,我們期待能與更多高校和科研院所的老師和同學們進行合作,歡迎大家跟我們聯繫(meituan.oi@meituan.com)。