ACL 2019論文分享:讓機器有自主意識地和人類對話

2020-12-12 飛槳深度學習學院

ACL 2019 收錄論文分享:《Proactive Human-Machine Coversation with Explicit Conversation Goals》。

一、動機

人機對話是人工智慧的一項基本挑戰,涉及語言理解、對話控制和語言生成等關鍵技術,受到了學術界和工業界的廣泛關注。但目前的人機對話普遍存在以下問題:

機器大多是被動對話形式,即機器的回覆是用於響應用戶的輸入,無法像人一樣進行充分的信息交互機器的對話漫無目的,缺乏像人一樣的自主意識因此,我們提出了主動對話任務:

給機器設定對話目標讓機器根據給定的知識圖譜信息主動引領對話進程,完成對話目標達到信息充分交互,實現機器具備自主意識的目的 二、主動對話任務設置

我們給機器設置的對話目標是從當前話題跳轉到目標話題上,由於目標話題和當前話題存在相關和不相關兩種情況,因此我們在對話目標設定上同時考慮這兩種情況,如圖1左下所示,首先讓機器從當前話題(Start)跳轉到任意目標話題A(紅海行動),然後進一步跳轉到和話題A相關的另一目標話題B(林超賢)上。

圖1 主動對話示例

如圖1左上部分所示,給機器提供的知識圖譜信息是目標話題A和B相關的子圖信息。圖1右側為主動對話示例,機器主動發起對話,根據知識圖譜信息主動引領對話進程,自然流暢的實現話題的遷移目標。

三、數據集建設

目前已有的對話數據集不適用於我們提出的主動對話任務,因此我們通過人工標註方式在電影和娛樂人物領域建設了一個新的對話數據集(DuConv),用於主動對話技術的研究。整個數據集建設經過了知識挖掘、圖譜建設、對話目標設定和語料眾包標註四個階段。

1、知識挖掘

我們在時光網(www.mtime.com)上挖掘了電影和娛樂人物相關的結構化和非結構化知識信息,如電影的票房、導演、評論,相關人物的祖籍、代表作和評論等。我們根據網上挖掘的這些靜態知識進一步計算出動態知識以豐富知識內容,比如根據票房信息計算出電影之間的票房排行,根據評分信息離散化得到電影或人物的口碑信息等。經過數據清洗後總共得到約14萬實體360萬條知識的數據,每條知識以三元組<實體,屬性,值>的形式組織,經過抽樣評估,我們挖掘的知識準確率為97%。

2、圖譜建設

類似於傳統的圖譜建設,我們以挖據的三元組知識中的實體和值為節點,屬性為邊建立一階圖譜關係,除此之外,我們對有相同屬性和值的兩個實體建立二階關係,如「紅海行動」和「湄公河行動」的導演都是林超賢,這兩個實體則存在二階關聯關係。

3、對話目標設定

如圖1所示,每組對話都有對話目標和關聯的知識信息,我們從圖譜中提取任意兩個關聯的實體作為對話目標中的目標話題A和B,包括一階關係和二階關係的關聯實體。然後進一步提取關聯實體所在的知識子圖作為目標話題A和B的附加知識信息。

4、語料眾包標註

不同於self-play一人扮演對話雙方的標註方式,我們在眾包平臺test.baidu.com上隨機挑選兩個標註人員模擬真實對話的雙方標註出每組對話數據。為保證至少有兩個標註人員同時進入對話標註任務,我們安排多個外包團隊進入標註平臺開展對話標註。標註時,每組對話隨機挑選兩個標註人員標註,其中之一扮演機器角色根據提供的知識子圖信息主動引領對話進程完成設定的對話目標,另一個標註人員扮演真實用戶角色響應機器角色的對話即可。由此共標註了約3萬組含有27萬對話句子的語料,詳細統計信息如下:

圖2 標註語料統計

四、基線模型建設

目前人機對話任務主要有檢索和生成兩種主流的技術方向,我們在這兩個方向上都建立了主動對話的基線模型。

1、檢索模型

圖3 檢索模型

檢索模型借鑑信息檢索的方法從對話語料庫中檢索候選回復,然後使用排序模型對候選回復進行排序,再選取高相關性的回覆進行輸出,如圖3左側所示。

我們的候選回復是從訓練集中相同對話目標類型(如「Start」->[Movie]->[Person], 「Start」->[Movie]->[Movie]等)相同輪次的機器回覆中隨機選取的,並對候選回覆中的知識根據屬性名稱替換成當前對話的相應知識,減少知識衝突現象。

排序階段,使用二分類方法判斷每個候選回復Y屬於正確回復的概率,如圖3右側所示,首先將候選回復Y和對話歷史X(包括當前輪的用戶輸入)使用分隔符拼接成一串字符序列,然後使用Transformer方法進行編碼表示,再聯合attention方法選取的相關知識信息通過softmax層進行二分類判斷。為了簡便,該方法中將對話目標Goal作為知識信息的一部分使用。

2、生成模型

圖4 後驗生成模型

生成模型借鑑最早用於機器翻譯的Seq2Seq模型,將輸入的對話歷史X使用encoder編碼表示,然後使用decoder逐步解碼出回復的每個字符。如圖4所示,我們在Seq2Seq框架基礎上使用Memory Network方法表示知識信息,通過attention方式選擇輸出回復需要使用的知識信息,並引入decoder中。我們發現:通過輸出回復的loss信息再經decoder的長距離梯度回傳很難有效指導模型進行知識選擇。

因此我們提出了一種新的解決方法(使用該方法的模型稱為後驗生成模型):

在訓練階段使用標準回復Y中的後驗知識信息指導模型進行先驗知識選擇,即讓先驗知識分布p(ki|x)擬合後驗知識分布p(ki|x,y),訓練時將這兩個分布向量的KL散度作為Loss的一部分。KL散度計算方法如下:

為避免在計算後驗知識分布時存在嚴重信息損失,借鑑自編碼的思想,訓練階段讓標準回復計算的後驗知識分布能解碼出標準回複本身,即用後驗分布預測標準回復的每個詞,預測結果的BOW Loss也作為整體Loss的一部分,BOW Loss計算如下:

該方法中對話目標Goal作為輸入信息的一部分共同參與知識信息的選擇和回復的解碼。

五、實驗及結果

實驗中使用的模型除了上文介紹的檢索模型(retrieval)和後驗生成模型(generation)外,增加了Seq2Seq模型進行對比,該模型只有encoder和decoder,語料中的對話歷史、知識信息和對話目標拼接成一個字符串作為模型的輸入。

我們使用百度的深度學習平臺飛槳(PaddlePaddle)實現所有的基線模型,每個模型都使用預訓練的word2vec詞表進行熱啟動,詞表大小為3萬,隱層維度為300,訓練階段使用Adam方式對模型進行優化,生成模型中使用大小為10的beamsize進行解碼。

由於對話的開放性,對話效果的自動評估仍然是一個難題,因此我們在自動評估的基礎上進一步使用人工評估的方式來衡量對話的效果。

1、自動評估

由於無法自動生成用戶的回覆,因此自動評估只能進行單輪評估,即給定對話歷史(包括當前用戶輸入)時,評估系統輸出的機器回復。評估指標上既有檢索相關的指標Hits@k又有生成相關的PPL、F1、BLEU和DISTINCT指標,同時使用準確召回指標衡量回覆中的知識使用情況。評估估結果如下:

圖5 自動評估結果

結論:

(1)為了觀察知識的作用,每個模型都做了引入知識(w/)和不引入知識(w/o)的對比,從實驗結果中可以看出引入知識能有效提升系統的效果,尤其是生成模型

(2)由於知識本身具有稀疏性,尤其是知識中的實體名稱,因此我們進一步對知識進行了歸一化處理(normalization,簡寫成norm),將語料中的實體名稱槽位化,回復輸出前再將槽位替換為相應的實體名稱,從實驗結果可以看到三個模型做了知識歸一化處理後可以有效提升模型的泛化能力,效果提升非常顯著

(3)從表中還可以看到後驗生成模型要顯著優於Seq2Seq模型,可見後驗信息能夠有效指導模型進行知識選擇

(4)通過自動評估指標很難判斷檢索模型和生成模型的優劣,檢索模型在檢索指標上Hits@k要顯著優於生成模型,而生成模型在生成指標F1/BLEU上要顯著優於檢索模型,推測這和兩種模型各自的優化指標有關。知識使用上兩種模型無顯著區別。

2、人工評估

我們進一步對自動評估中效果最好的三個norm模型進行人工評估,分別從單輪或多輪兩個層級進行評估。多輪評估時使用類似於數據標註的方法先生成多輪評估數據,不同的是將數據標註時扮演機器角色的標註專員替換成候選模型。每個模型生成100組評估數據,然後使用三個評估專員共同評估。多輪評估指標有Goal完成度和多輪一致性coherence兩個維度。Goal完成度有三檔,評估標準如下:

(1)0檔,表示Goal未完成,即沒有按Goal設定完成話題遷移目標。

(2)1檔,表示Goal完成,但沒有充分利用知識信息,整個多輪對話中使用的知識信息少於3條。

(3)2檔,表示Goal完成,而且充分利用知識信息,整個多輪對話中使用的知識信息大於等於3條。

Coherence是根據多輪對話中每個機器回復是否存在句內流暢性和句間一致性問題統計的,每個句內問題記0.5分,每個句間問題記1分,然後根據整體計分將coherence劃分為四檔:>2分表示存在大量的問題,為0檔;[1.5, 2]為1檔;[0.5, 1]為2檔;0分表示沒有任何問題,標記為第3檔。多輪的評估結果如圖6:

圖6 多輪評估結果

結論:

(1)從人工評估指標可以看出生成模型要優於檢索模型,結合圖7的case可以發現,這主要是由於檢索模型檢索出的回覆雖然經過了歸一化處理但仍然存在殘餘知識信息與當前對話中的知識信息衝突的情況

(2)單輪指標上Seq2Seq模型在流暢性(fluency)和上下文一致性(coherence)要優於後驗生成模型,但是在信息豐富度上(informativeness)要遠遠差於後驗生成模型,這與Seq2Seq的安全回復問題有關,從圖7中的case可以發現Seq2Seq傾向於安全的不含知識信息的回覆,因此在衡量是否能主動提及新知識的主動性(proactivity)指標上也略遜於後驗生成模型。

(3)多輪指標上後驗生成模型在Goal完成度上明顯好於Seq2Seq模型,因為後驗生成模型能更加充分利用知識信息完成Goal設定的話題轉移,而且能保持句子的流暢性和上下文一致性(coherence)。從Goal完成度和coherence目前的效果可以看出主動對話模型還有很大的提升空間。

圖7 不同模型生成的主動人機對話示例

六、開源

我們建設的數據集DuConv以及相應的基線系統已經在PaddleNLP開源:

(1) 數據集:

http://ai.baidu.com/broad/subordinate?dataset=dureader

(2)基線系統:

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-DuConv

PaddleNLP(nlp.baidu.com/homepage/nlptools/)是基於飛槳(PaddlePaddle)深度學習框架打造的領先、全面、易用的NLP開源工具集與預訓練模型集。PaddleNLP開源內容覆蓋了工業應用和學術研究;為開發者提供了多種業內效果領先的NLP應任務模型和前沿的論文、代碼、數據,讓開發者能以超低門檻獲取多種頂尖NLP能力;為研究者提供百度NLP前沿研究成果的代碼與數據等,讓研究者們可以快速復現實驗,並據此開展新的研究。

PaddleNLP-研究版:開源了NLP領域最新研究成果的代碼及數據,包括領域權威會議ACL、NAACL、IJCAI等,權威競賽MRQA、SemEval等,可以幫助研究者快速了解百度NLP的前瞻研究成果,並在此基礎上開展研究。

七、競賽

為了鼓勵更多的研究人員參與主動人機對話技術的研究,我們使用建設的數據集DuConv在中國計算機學會、中國中文信息學會和百度公司聯合舉辦的「2019語言與智能技術競賽」上設立了知識驅動對話競賽任務,目前競賽已經結束,共收到了1536支隊伍報名,其中有178支隊伍提交了結果。競賽分為三階段:

第一階段通過自動評估指標在小測試集上自由打榜進行模型優化,歷時一個半月;

第二階段通過自動評估指標在最終測試集上正式打榜進行效果排名,歷時一周;

第三階段通過人工評估方法對上階段Top10隊伍的模型進行多輪評估確立獲獎名單,多輪評估的方法和指標同上文介紹的Goal完成度和Coherence一致,歷時一周。

最終的榜單如圖8所示,效果最好的模型相比於基線系統相對提升了37%。詳細信息參見比賽官網:http://lic2019.ccf.org.cn/talk

為了供研究人員持續打榜,我們在數據集開放頁面上也設置了榜單:

https://ai.baidu.com/broad/leaderboard?dataset=duconv

圖8 知識驅動對話競賽Top 5

八、總結

我們針對目前人機對話中普遍存在的無意識被動對話問題,提出了主動對話任務,給機器設定了對話目標,讓機器根據提供的知識圖譜信息主動引領對話進程完成對話目標,使機器具備有自主意識的對話能力。為此我們建設了一個有3萬組對話27萬個句子的對話語料DuConv以及兩個主動對話基線模型,並已經開放數據集、開源基線模型。同時為鼓勵更多研究人員參與主動對話技術的研究,使用DuConv數據集開展了一屆對話競賽任務,影響廣泛,效果提升也明顯。目前的主動對話技術還有很大的提升空間,期待更多的研究人員共同參與研究。

至此,《Proactive Human-Machine Coversation with Explicit Conversation Goals》論文的分享到此結束,敬請期待2019百度被ACL收錄的其他論文。

相關焦點

  • 從ACL 2019 看 NLP 未來發展趨勢
    和其它會議一樣,有時參加 ACL 就像是在大浪淘沙,你會被淹沒在論文、演講和各種思維的海洋中。在本文中,我希望提煉出我花費了一周時間收集到的 NLP 研究社區的關鍵知識點和發展趨勢,並適當地參考相關論文,重點介紹可以預見到的一些趨勢。
  • ACL2019最佳論文獎出爐,華人包攬眾多獎項
    ACL2019最佳論文出爐,共八篇文章獲獎。
  • ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二
    機器之心報導參與:魔王、小舟、杜偉在陸續放出時間檢驗獎、終身成就獎和傑出服務獎之後,ACL 2020 終於公布了今年的最佳論文獎。該獎項由來自微軟研究院、華盛頓大學和加州大學歐文分校的研究者摘得,主題是與任務無關的 NLP 模型測試方法。
  • ACL 2019 知識圖譜的全方位總結
    值得一提的是,在本屆ACL中熱門話題(例如BERT系列、Transformers、機器翻譯等)受到熱烈關注,但除此之外還有一些新的趨勢,例如對抗學習、自然語言生成、知識圖譜等。以知識圖譜為例,本次會議中共有30篇接收論文,大約佔了所有接收論文的5%。會後總結是優秀學者的必要行動。隨著ACL會議的結束,在網上已經先後出現了多篇關於ACL大會上各細分領域的總結文章。
  • 在剛剛結束的ACL 2019上,知識圖譜領域都發生了哪些大事?
    例如,Mihail Eric 編寫了一篇關於通用 ACL 趨勢的精彩文章(https://www.mihaileric.com/posts/nlp-trends-acl-2019/)。除了 BERTology,transformers 和機器翻譯等熱門話題之外,還出現了新的趨勢,例如對抗學習,自然語言生成和知識圖譜(KG)。
  • ACL 2019年度回顧:自然語言處理發展趨勢
    作為NLP研究最大規模的會議之一,ACL 2019的規模也再破新高,共接收到2900多份論文,比2018年增加75%!在今年的會議中,NLP應用全面開花,而以BERT為代表的NLP預訓練技術也不出意料地搶盡風頭。除此之外,NLP技術可解釋性和評判體系等更為基礎的研究也都有新突破。
  • ACL 2019最佳論文出爐:華人團隊包攬最佳長短論文一作
    ACL 2019接收了765篇論文,接受率為25.8%,相較於前兩年的24%左右略有上升。其中,長論文接收了447篇,短論文接收213篇,34篇demo論文被接收,還有71篇student workshop。
  • 中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉
    機器之心報導機器之心編輯部不久自然語言處理領域頂級會議 ACL 已於當地時間 7 月 28 日在義大利佛羅倫斯開幕。不久之前,ACL 2019 官方網站公布了入圍論文獎項的 32 篇候選論文。剛剛,ACL 2019 最終獲獎論文公布,多所國內高校及眾多華人學者獲得榮譽。
  • ACL 2019 接收論文榜單發布,我們做了可視化分析
    今天,ACL 2019 官方網站公布了接收論文列表,機器之心對今年接收論文的關鍵詞等信息進行了可視化分析。接收論文列表:http://www.acl2019.org/EN/program/papers.xhtml在論文接收列表中,我們可以看到清華大學的孫茂松組共有 9 篇論文被接收,來自加州大學聖芭芭拉分校(UCSB)的王威廉組(William Yang Wang)有 8 篇論文被接收,全組共有 7 長兩短;哈工大劉挺教授也有
  • 技術動態 | ACL 2019 知識圖譜的全方位總結
    值得一提的是,在本屆ACL中熱門話題(例如BERT系列、Transformers、機器翻譯等)受到熱烈關注,但除此之外還有一些新的趨勢,例如對抗學習、自然語言生成、知識圖譜等。以知識圖譜為例,本次會議中共有30篇接收論文,大約佔了所有接收論文的5%。會後總結是優秀學者的必要行動。隨著ACL會議的結束,在網上已經先後出現了多篇關於ACL大會上各細分領域的總結文章。
  • ACL 2019 所有獲獎論文將出自這32篇,多所國內高校、機構入選
    機器之心報導參與:路、張倩自然語言處理領域頂級會議 ACL 將於 7 月 28 日至 8 月 2 日在義大利佛羅倫斯舉行。今天,ACL 2019 官方網站公布了入圍論文獎項的候選名單。今年 3 月,自然語言處理頂會 ACL公布了今年收到的論文投稿數量——2906,相比於去年的 1544 篇出現了大幅增長。ACL 2019 也毫無爭議地成為了目前規模最大的一場 NLP 學術會議。
  • ACL 2019全程回顧:自然語言處理趨勢及NLP論文乾貨解讀
    他將自己在ACL 2019一周時間裡的所見所聞梳理了出來,從中我們得以更直接的了解NLP領域在2019年的動態和趨勢,以及未來的發展方向。ACL主席周明在開幕致辭中指出,今年的ACL是歷史上規模最大的,共提交了2900多份論文,比2018年增加了75%!自然語言處理領域炙手可熱,學術和行業熱情創歷史新高。
  • 剛剛,ACL2019最佳論文獎出爐,劉群團隊獲最佳長論文獎
    雷鋒網 AI 科技評論按:剛剛,ACL2019最佳論文出爐,共八篇文章獲獎。其中包含一篇最佳長論文、一篇最佳短論文、五篇傑出論文、一篇最佳 Demo 論文。值得注意的是,最佳長論文獎、最佳短論文獎以及兩篇傑出論文獎(共5篇)一作皆為華人。其中最佳長論文獎由張文(計算所)、馮洋(計算所)、孟凡東(騰訊)、Di You(Worcester)和劉群(華為諾亞方舟)獲得。最佳短論文由俄亥俄州立大學的Nanjiang Jiang獲得。南京理工大學夏睿團隊和港科大的 Pascale Fung 團隊分別獲得了傑出論文獎。
  • ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了
    作者:Sudha Rao & Hal Daumé III論文地址:https://arxiv.org/pdf/1805.04655.pdf論文摘要提問(inquiry)是溝通的基礎。除非能提出問題,機器無法有效地與人類合作。
  • ACL 2020接收論文公布,會議將改為線上舉行
    機器之心報導機器之心編輯部不久之前,自然語言處理領域國際頂級會議 ACL 2020 論文接收結果公布。此外,受疫情影響,該會議也將改為線上舉辦。ACL 年會是計算語言學和自然語言處理領域最重要的頂級國際會議,被CCF 與清華均列為頂級 A 類會議,由計算語言學協會主辦,每年舉辦一次。
  • 11篇論文、首屆同傳研討會、技術分享,百度AI閃耀ACL2020
    這次會議,百度共有11篇論文被錄用,覆蓋自然語言處理眾多前沿研究方向;百度聯合谷歌、Facebook、清華大學等全球頂尖機構,共同舉辦首屆同聲傳譯研討會;在線上展臺主題技術TALK環節,百度還就開放域人機對話技術、ERNIE核心技術等業內關注的話題展開分享,展現了中國企業在自然語言處理及人工智慧領域的技術創新與落地實踐能力。
  • ACL 2019 27 篇論文實現代碼(持續更新中)
    ACL 2019 共接收了 765 篇論文,目前官網已經全部公布了,官方連結:http://www.acl2019.org/EN/program/papers.xhtml但是官網沒有公布連結,部分論文也沒有展示出來。所以AI研習社給大家整理了343篇論文,供大家學習!
  • ACL 2019論文分享:百度閱讀理解知識和文本融合模型KT-NET
    ACL 2019 收錄論文分享:《Enhancing Pre-trained Language Representations with Rich
  • 百度10篇論文被自然語言處理頂級會議ACL 2019錄用
    百度被錄用的10篇論文,覆蓋了信息抽取、機器閱讀理解、對話系統、視頻語義理解、機器翻譯等諸多NLP領域的熱點和前沿研究方向,提出了包括基於注意力正則化的ARNOR該技術可以使機器具備從文本數據中獲取知識並回答問題的能力,是構建通用人工智慧的關鍵技術之一,長期以來受到學術界和工業界的廣泛關注。近兩年,預訓練語言表示模型在機器閱讀理解任務上取得了突破性進展。通過在海量無標註文本數據上預訓練足夠深的網絡結構,當前最先進的語言表示模型能夠捕捉複雜的語言現象,更好地理解語言、回答問題。
  • ACL2019正會開幕:會議狀況全覽,周明大會演講
    與其它會議(比如 2019 年的 NAACL、EMNLP-IJCNLP)的舉辦時間沒能拉開足夠間隔給 ACL2019 的審稿過程增加了一些額外的麻煩;實際上論文作者們自己也希望不同會議之間能間隔得久一點,能夠有時間把被拒的論文做修改後再投下一個會議。ACL 也希望未來不同學術會議之間可以多考慮一下協調舉辦日期,給各個環節的學者和工作人員們都留下更充沛的時間。