原創 Synced 機器之心
機器之心原創
作者:仵冀穎
編輯:H4O
2020 年 2 月 7 日至 12 日,AAAI 2020 將於美國紐約舉辦。今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
在本篇提前看中,我們重點聚焦 AAAI 2020 中與問答系統(Q&A)相關的文章。問答系統是自然語言處理領域的一個重要研究方向,近年來各大國際會議、期刊都發表了大量與問答系統相關的研究成果,實際工業界中也有不少落地的應用場景,核心算法涉及機器學習、深度學習等知識。問答系統(Q&A)的主要研究點包括模型構建、對問題/答案編碼、引入語義特徵、引入強化學習、內容選擇、問題類型建模、引入上下文信息以及實際應用場景問題解決等。在本次 AAAI2020 中,直接以「Question/Answer」作為題目的論文就有 40 餘篇。本文選取了其中三篇進行詳細討論,內容涉及語義特徵匹配、模型構建和醫學場景應用等。
1、Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring
論文地址:https://arxiv.org/pdf/1912.00879.pdf
本文介紹的是佛羅裡達大學吳大鵬教授組的工作,主要聚焦問答系統(Q&A)的反問題---問題生成(Question Generation,Q&G)。問題生成的目的是在給定上下文和相應答案的情況下生成語義相關的問題,問題生成在教育場景、對話系統、問答助手等應用領域具有巨大的潛力。問題生成任務可分為兩類:一類是基於規則的方法,即在不深入理解上下文語義的情況下手動設計詞彙規則或模板,將上下文轉換成問題。另一類是基於神經網絡的、直接從語句片段中生成問題詞彙的方法,包括序列-序列模型(seq-to-seq)、編碼器解碼器(encoder-decoder)等。本文討論的是後一種基於神經網絡的問題生成方法。
目前,基於神經網絡的問題生成模型主要面臨以下兩個問題:(1)錯誤的關鍵詞和疑問詞:模型可能會使用錯誤的關鍵詞和疑問詞來提問(見表 1);(2)糟糕的複製機制:模型複製與答案語義無關的上下文單詞(見表 2)。表 1 和表 2 中使用的基線算法為 NQG++[1] 和 Pointer-generator[2]。
表 1. 關鍵詞和疑問詞錯誤的基線實驗
表 2. 複製機制錯誤的基線實驗
作者認為,現有的基於神經網絡的問題生成模型之所以出現上述兩個問題是因為:(1)解碼器在生成過程中可能只關注局部詞語義而忽略全局問題語義;(2)複製機制沒有很好地利用答案位置感知特徵,導致從輸入中複製與答案無關的上下文單詞。為了解決這兩個問題,作者提出以多任務學習(Multi-Task Learning,MTL)的方式學習句子級語義,以及引入答案位置感知,如表 1 和表 2 所示,「Our model」為本文提出模型在相同實驗條件下生成的問題。圖 1 給出本文提出的具有句子級語義匹配、答案位置推斷和門控融合的神經問題生成模型圖。
圖 1. 本文提出的模型圖
給定包含答案 A 的語句 X=[x1,x2,...,xm],基於連續擴展的語句,生成與 X 和 A 語義匹配的問題 Y。與文獻 [1] 的方法一致,利用擴展的語義和詞彙特徵、部分語音標籤、答案位置特徵等作為 seq-to-seq 模型嵌入層的輸入,利用雙向 LSTM 作為編碼器,通過連結前向隱藏狀態和後向隱藏狀態生成句子表示 H=[h1,h2,...,hm]:
答案感知門控融合(Answer-aware Gated Fusion):使用兩個由 Sigmoid 函數計算的信息流門來控制句子向量和答案向量的信息流,將答案起始位置的隱藏狀態作為答案向量 h_a,使用雙向 LSTM 編碼整個答案語義。
解碼器(Decoder):以編碼器的隱藏狀態 H=[h1,h2,…,hm] 作為上下文和改進的答案感知句子向量 z 作為初始隱藏狀態 s1,一層單向 LSTM 用先前解碼的單詞作為輸入 wt 更新其當前隱藏狀態 st。
利用注意力機制將當前解碼器狀態 s_t 賦給編碼器上下文 H=[h1,h2,…,hm]。使用歸一化處理後的注意向量α_t 的加權求和結果計算上下文向量 c_t。基於詞典 V,計算問題單詞 y_t:
其中,f 由兩層前饋網絡實現。
注意力機制(Copy Mechanism):使用注意力機制生成大小為 V 的單詞,或從輸入語句 X 中複製單詞。在生成問題詞 y_t 時,考慮到當前解碼器的隱藏狀態 s_t 和上下文向量 c_t,計算一個複製開關來確定生成的詞是從字典生成的還是從源語句複製的。
生成模式概率和複製模式概率相結合,得到最終的單詞分布:
使用負對數似然來計算序列-序列的損失:
句子級語義匹配(Sentence-level Semantic Matching):通過門控融合得到了改進的答案感知句子向量 z。對於解碼器(單向 LSTM),採用最後一個隱藏狀態 s_n 作為問題向量。訓練兩個分類器,分別將非語義匹配對 [z,S』_n](S,Q』)和 [z』,S_n](S,Q)與語義匹配對 [z,S_n](S,Q)區分開來,其中 z』和 s』是同一段落中隨機抽取的不匹配句子和問題的向量。
將兩個分類器的二元交叉熵之和作為句子級語義匹配損失:
具體流程見圖 2 所示。
圖 2. 句子級語義匹配
答案位置推斷(Answer Position Inferring):引入雙向注意力流網絡 [3] 推斷答案位置,見圖 3。
圖 3. 答案位置推斷框架
採用句子對問題(Sentence-to-Question,S2Q)注意和問題對句子(Question-to-Sentence,Q2S)注意來強調每個句子詞和每個問題詞之間的相互語義關聯,並利用相似的注意機製得到了問題感知的句子表徵 H 和句子感知的問題表徵 S:
然後,使用兩個兩層雙向 LSTMs 來捕獲以問題為條件的句子詞之間的相互作用。答案起始索引和結束索引由輸出層使用 Softmax 函數預測:
其中,f 函數是一個可訓練的多層感知(MLP)網絡。使用真值答案起始標記 y1 和結束標記的負對數似然來計算損失:
為了在多任務學習方法中聯合訓練生成模型和所提出的模塊,訓練過程中的總損失函數記為:
作者在 SQuAD 和 MARCO 兩個數據集上進行了實驗,使用 NQG++[1]、Point-generator[2] 以及 SOTA 模型、門控自注意力機制模型等作為基線對比算法。表 3 給出了 SQuAD 和 MS-MARCO 數據集上不同模型的主要指標,在文章所述的實驗條件下,本文提出的模型在全部主要指標上都優於基線對比算法。
表 3. SQuAD 和 MARCO 數據集主要指標的模型性能比較
小結:與現有的問答系統、問題生成模型的處理方式不同,本文並不是通過引入更多的有效特徵或者改進複製機制本身等來改進模型效果,而是直接在經典序列-序列模型(seq-to-seq)中增加了兩個模塊:句子級語義匹配模塊和答案位置推斷模塊。此外,利用答案感知門控融合機制來增強解碼器的初始狀態,從而進一步改進模型的處理效果。
2、TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection
論文地址:https://arxiv.org/pdf/1911.04118.pdf
這篇文章聚焦的是問答系統(Q&A)中的另外一個問題:回答句子選擇(Answer Sentence Selection,AS2),給定一個問題和一組候選答案句子,選擇出正確回答問題的句子(例如,由搜尋引擎檢索)。AS2 是目前虛擬客服中普遍採用的技術,例如 Google Home、Alexa、Siri 等,即採用搜尋引擎+AS2 的模式。
在自然語言處理領域中使用基於神經網絡的模型,通過對大量數據進行神經網絡預訓練來獲取單詞及其複合詞之間的依賴關係,之後再做精調(fine-tuning)以滿足在專門的目標領域中的應用。本文的主要工作包括兩方面:一,提出一種基於變壓器(Transformer-based)的 AS2 模型,為解決 AS2 的數據稀缺性問題和精調步驟的不穩定性提供了有效的解決方案。二,構建了一個應用於 AS2 的資料庫 ASNQ(Answer Sentence Natural Questions)。
本文提出了一種用於自然語言任務的預訓練變換模型精調的有效技術-TANDA( Transfer AND Adapt)。首先通過使用一個大而高質量的數據集對模型進行精調,將一個預先訓練的模型轉換為一個用於一般任務的模型。然後,執行第二個精調步驟,以使傳輸的模型適應目標域。TANDA 架構如圖 4(以 BERT 為例)。
圖 4. TANDA 整體架構
AS2 任務:給定問題 q 和答案句子庫 S={s1,...,sn},AS2 任務目的是找到能夠正確回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神經網絡模型計算 p(q,s_i)。
變壓器模型 (Transformer Model):變壓器模型的目的是捕獲單詞間的依賴關係。圖 5 給出文本對分類任務的變壓器模型架構。輸入包括兩條文本,Tok^1 和 Tok^2,由三個標記 [CLS]、[SEP] 和 [EOS] 分隔。將根據令牌、段及其位置編碼的嵌入向量作為輸入,輸入到多頭注意力機制、歸一化、前向反饋處理的神經網絡中。輸出為表徵文本對的嵌入向量 x,x 描述單詞、句子分段之間的依賴關係。將 x 輸入到全連接層中,輸出層用於最終的任務,例如,應用 softmax 對文本對分類的概率進行建模:
圖 4. 帶有線性分類器的變壓器結構
其中,W_T、B_T 為全連接層的權重。在實際應用中,一般需要使用大量監督數據完成這一步的訓練任務。
圖 5. 使用線性分類器做 AS2 精調的變壓器結構
TANDA:在經典的任務中,一般只針對目標任務和域進行一次模型精調。對於 AS2,訓練數據是由問題和答案組成的包含正負標籤(答案是否正確回答了問題)的句子對。當訓練樣本數據較少時,完成 AS2 任務的模型穩定性較差,此時在新任務中推廣需要大量樣本來精調大量的變壓器參數。本文提出,將精調過程分為兩個步驟:轉移到任務,然後適應目標域。
首先,使用 AS2 的大型通用數據集完成標準的精調處理。這個步驟應該將語言模型遷移到具體的 AS2 任務。由於目標域的特殊性(AS2),所得到的模型在目標域的數據上無法達到最佳性能,此時採用第二個精調步驟使分類器適應目標域。
TANDA 的處理方式是在通用資料庫和目標域資料庫中分別做精調(一次 fine-tuning → 二次 fine-tuning)。這裡有一個很直觀的質疑,同時在通用資料庫和目標資料庫中訓練+精調是否也可以達到同樣的效果且節省處理時間?但是實際上,這樣的組合很難優化,因為在精調模型步驟中,處理目標數據與處理通用數據所需要的權重並不相同。作者在後續的實驗中專門針對這個問題進行了驗證,即在通用、目標資料庫中做兩次精調處理的效果優於在合併的通用+目標資料庫做一次精調處理的效果。
ASNQ:本文構建了一個專門適用於 AS2 任務的通用資料庫 ASNQ。ASNQ 基於經典 NQ 語料庫建設 [4],NQ 是用於機器閱讀(Machine Reading,MR)任務的語料庫,其中每個問題與一個 Wiki 頁面關聯。針對每一個問題,一個長段落 (long_answer) 包含從參考頁面中提取的答案,其中包含多個標記為 short_answer 的段落。由於 long_answer 中包含多條語句,因此 NQ 並不直接適用於 AS2 任務。
在構建 ASNQ 的過程中,針對目標問題,正標籤的答案數據表示在 NQ 中 long_answer 中出現的語句,它可能包含了多個 short answer;其餘的語句均標記為負標籤,具體包括:1)在 NQ 中 long_answer 中出現的語句但是不包括標記的 short answer;2)沒在 NQ 中 long_answer 中出現的語句,但是包含了 short answer;3)沒在 NQ 中 long_answer 中出現的語句,也不包含 short answer。
ASNQ 有四個標籤,用來描述候選句子可能的混淆程度。對 NQ 的訓練集和開發集執行相同的處理,圖 6 中示出了一個示例,表 4 則給出了 ASNQ 統計信息。ASNQ 在訓練集中包含 57242 個不同的問題,在開發集中包含 2672 個不同的問題,這比大多數公開的 AS2 數據集都大一個數量級。對於 TANDA 中的轉移(Transfer)步驟,我們使用帶有標籤 1、2 和 3 的 ASNQ 句子對作為否定,標籤 4 作為肯定。
圖 6. 從 NQ 到 ASNQ 的數據轉換示例
表 4. ASNQ 的標籤說明。這裡的 S、LA、SA 分別指的是回答句、長句和短句
本文分別在實驗庫和工業環境庫中進行實驗。其中,實驗基準庫為 WikiQA、TREC-QA 和 ONLI。在神經網絡模型的選擇上,使用預先訓練的 BERT-Base(12 層)、BERT-Large(24 層)、RoBERTa-Base(12 層)和 RoBERTa-Large-MNLI(24 層)模型。訓練階段,採用 Adam 優化器,將 BERT/RoBERTa 的最大序列長度設為 128 個 Token。
表 5.WikiQA 數據集上不同模型的性能
表 5 給出 WikiQA 數據集上不同模型的性能,這裡 Comp-Agg+LM+LC 是指 Y-oon 等人提出的具有語言建模和潛在聚類的比較格雷蓋特模型 [5]。TL(QNLI)是指從 QNLI 語料庫中進行的遷移學習。L 和 B 分別達標較大資料庫和基線資料庫。相較於其它算法,TANDA 獲得了很大的改進,RoBERTa-Large TANDA 使用 ASNQ→WikiQA 在 WikiQA 上 MAP 為 0.920、MRR 為 0.933。最後,在本實驗中,僅在 ASNQ 中的標準精調處理就已經超過了先前模型效果,這主要是因為 ASNQ 和 WikiQA 都是由 Wikipedia 的答案組成的。
表 6. 不同模型在 TREC-QA 數據集上的性能
表 6 給出不同模型在 TREC-QA 數據集上的性能,在本實驗中,TANDA 的效果優於已有模型。另外,僅在 ASNQ 上使用精調(FT)得到的模型效果與預期相同,由於 TREC 問題的目標域與 ASNQ 的目標域顯著不同,因此僅在 ASNQ 中的標準精調處理的性能遠低於任何 TANDA 模型,也低於直接在 TREC-QA 上進行精調處理的性能。
本文還針對直接合併 ASNQ 和 TREC-QA 的數據集進行了精調測試,在 ASNQ->TREC-QA 上精調的 BERT-Base 模型得到的 MAP 和 MRR 分別為 0.898 和 0.929,明顯低於表 6 中給出的 0.912 MAP 和 0.951 MRR 的值。
最後,本文選擇亞馬遜的 Alexa Visual Assistant 進行工業場景中的實驗。基於三個帶有信息意圖的問題樣本構建了三個測試集,這些問題可以用非結構化文本來回答。樣本 1 的問題是從 NQ 問題中提取的,而樣本 2 和樣本 3 的問題是從 Alexa 用戶的問題中生成的。對於每個問題,我們從搜尋引擎檢索的頂級文檔中選擇了 100 個句子候選:(i)對於生成樣本 1 和樣本 2,使用了一個彈性搜索系統,該系統包含多個 web 域,範圍包括 Wikipedia、 toreference.com、coolantarctica.com、www.cia.gov/library 等;(ii)對於生成樣本 3,使用一個商業搜尋引擎以獲得更高的檢索質量。此外,使用與樣本 2 相似的方法構建了一個噪聲數據集(NAD),每個問題只檢索 10 個候選。這使得對大量問題進行更便宜的注釋成為可能,對於構建有效的訓練集非常重要。表 7 給出資料庫的情況。
表 7. 樣本 1、2、3 統計精確測試集和添加噪聲的數據集
使用 ASNQ 作為通用數據集,使用 NAD 作為自適應步驟的目標數據集。表 8 中所有使用 NAD 進行訓練和精確數據集進行測試的實驗均表明,TANDA 對真實的 NAD 噪聲具有很強的魯棒性,其效果總是優於簡單的精調方法。
表 8. 基於 Alexa 真實數據集的精調 FT 與 TANDA 的比較
小結:本文的工作實際上是將經典的精調(fine-tuning)過程拆成了兩次,其中一次針對通用數據集,另一次針對目標數據集,此外,還專門構建了適用於 AS2 任務的通用數據集 ASNQ。本文在兩個著名的實驗基準庫:WikiQA 和 TREC-QA 上進行實驗,分別達到了 92% 和 94.3% 的 MAP 分數,超過了近期獲得的 83.4% 和 87.5% 的最高分數。本文還討論了 TANDA 在受不同類型噪聲影響的 Alexa 特定數據集中的實驗,確認了 TANDA 在工業環境中的有效性。
3、On the Generation of Medical Question-Answer Pairs
論文地址:https://arxiv.org/pdf/1811.00681.pdf
這篇文章具體介紹問答系統(Q&A)在醫學場景中的應用。隨著網絡發展,越來越多的人希望能夠在線獲取醫療健康相關的幫助,特別是對於醫療資源有限的地區,這種方式能夠大大減少病人到醫院就診的次數,從而緩解醫療壓力。儘管問答系統在諸多領域中應用都獲得了很好的效果,但在醫學場景中仍面臨很多困難。首先,醫療在線問答依賴於準確、專業的醫學知識;其次,用預訓練模型的高質量的醫學標記問答語句對非常少,基於神經網絡的問答系統在缺少訓練數據的情況下,很難生成有效模型。
本文的工作主要是生成醫學問答語句對(QA 對)。假設每個醫學答案對應一個有效問題的分布,而有效問題的分布應該受到外部醫學知識的約束。遵循這一假設,如果能夠在與原始 QA 對相同的知識基礎上生成更多的高質量 QA 對,就可以補充現有醫學 QA 對的潛在分布,從而使醫學 QA 系統更容易學習無偏模型。醫學 QA 對的生成面臨的主要問題是很難同時保持生成 QA 對的多樣性和有效性。
為了解決多樣性和有效性的問題,本文提出了整合結構化和非結構化知識的兩種機制來生成 QA 對。首先利用分層條件變分自動編碼器(Conditional Variational Auto-encoder,CVAE)框架來解決全局短語級別的多樣性和有效性問題,該框架模擬了原始醫學 QA 對中的短語級別關係,在不破壞這些關係的情況下生成新的 QA 對。然後,本文提出了一個多通道解碼器,其中所有的本地組件(短語類型、每個短語中的實體)耦合在一起,並以端到端的方式進行聯合優化。框架整體結構見圖 7,整個框架包括一個關鍵短語檢測器和一個基於實體引導的 CVAE 生成器(eg-CVAE),最終將原始的和由該框架生成的 QA 對輸入到 QA 系統中完成訓練。
圖 7. 本文提出的生成 QA 對的框架圖示
由於醫學問題的特殊性,在進行醫學領域問答系統研究時,一般假定多個問題可能對應同一個答案。由此,生成醫學 QA 對的問題可以看做:給定一個答案,生成可能的問題語句。本文提出的生成醫學 QA 對的框架可以看做是給定答案和新問題樣本的情況下,計算問題潛在可能性的問題。根據圖 7 所示,該框架由下述幾個部分組成。
關鍵短語檢測器(Key Phrase Detector):每一條醫學問題 Q 都由多個短語 Pk 組成,包括病人的症狀、檢查結果等,每個短語都包含若干個單詞。所述關鍵短語是指與答案高度相關的短語。
首先使用每個醫療 QA 對作為查詢,對給定的醫療信息執行基於 Elasticsearch 的檢索 [6]。同時,使用規則來確保檢索文本中存在答案,表示為 Ri, i∈[1,M](M 表示檢索文本的數量)。本文提出了一種無監督的匹配策略,通過將某個短語的 Pk 與所有的 Ri 進行匹配,來建立該短語 Pk 與答案的相關性模型。具體來講,將每個 Ri 劃分為短語 P^(Ri)。通過對詞嵌入特徵 v_j, j∈[1,L] 進行多級池化處理,在同一個向量空間中表示 P^(Ri) 和 Pk[7]。計算每個 Pk 與其對應的 P^(Ri),i∈[1,M] 的 cosine 距離,將最高值存儲為 (s_k)^(Ri)。QA 對中每個短語 Pk 的這些分數將被規範化為 s_k,s_k∈[0,1],以便使用最小-最大方法進行最終抽樣決策。
基於實體引導的 CVAE 生成器(Entity-guided CVAE based Generator):一個醫學問題有兩個層次結構:一個結構存在於短語中,它由涉及的醫療實體的局部信息支配,另一個結構是一個獨特的跨短語結構,它主要由短語類型和相應的答案等決定。本文在兩個層次中探索答案條件下的醫學問題生成:子序列(迭代短語生成過程)和單詞子序列。首先,使用條件變分自動編碼器(VAE)對整個問題進行約束建模,之後,再對每個短語的內部結構進行建模。在內部建模過程中引入了三步解碼過程:先隱式類型(type)建模,然後顯式實體(entity)建模,最後是短語解碼。
(1)CVAE 生成器的整體結構見圖 8。本文使用經典的 CAVE 框架 [7] 用於生成對話,該框架將生成過程看作是一個迭代的短語處理過程。使用三個隨機變量表示每個短語生成過程:短語上下文 c、目標短語 x 和用於捕獲所有有效短語的潛在分布的潛在變量 z。對於每個短語,c 由問題中其他短語的順序和相應的答案組成。短語生成過程的條件分布為:P(x, z|c) = P(x|c, z) · P(z|c),學習目標則是通過神經網絡優化逼近 P(z|c) 和 P(x|c, z)。令 P_θ(z|c) 作為先驗網絡,P_θ(x|c, z) 為目標短語解碼器。目標短語 x 的生成過程為:首先從 P_θ(z|c) 抽樣潛變量 z (假定為參數化高斯分布),然後通過 P_θ(x|c, z) 生成 x。
CVAE 的訓練目標是,假設兩個 z 都服從對角協方差矩陣的多元高斯分布,給定 c 最大化 x 的條件對數似然概率,同時最小化後驗分布 P(z|x, c) 和先驗分布 P(z|c) 之間的 KL 散度。此外, 引入一個識別網絡 Q_φ(z | x, c) 來近似真實的後驗分布 P (x, z | c)。通過最大化條件對數似然的變分下界實現 CVAE 訓練:
在一個時間戳 k 的時間內,整個生成過程中產生一個問題短語,短語編碼器是一種帶有門控反覆單元(GRU)的雙向遞歸神經網絡。通過將前向 RNN 和後向 RNN 的最後隱藏狀態 (hv_k) 串聯起來,將每個短語 Pk 編碼成固定大小的向量。將短語文本編碼器的最後一個隱藏層狀態 hv^c 與對應的答案 a 串聯起來生成 c=[hv^c,a]。假定 z 滿足各向同性的高斯分布:
時間戳 k 的最後一個短語解碼器是一個單層的 GRU 網絡,初始狀態設置為 W_k[z, c] + b_k。
圖 8. CAVE 生成器整體結構
(2)短語增強編碼器(Phrase-type Augmented Encoder)
短語包含兩層特徵:作為周圍或上下文短語類型信息的全局特徵,以及,每個短語中的實體類型知識的局部特徵。由於直接從專家處獲取已標記的醫學數據非常困難,本文建議直接使用結構化實體詞典並對短語類型進行建模。在預訓練任務中,採用了一個 Bi-LSTM-CRF 模型,該模型以每個詞在問題中的嵌入作為輸入,詞的類型作為輸出。使用 Bi-LSTM 層來編碼單詞級的局部特徵,使用 CRF 層來捕獲句子級的類型信息。
每個單詞 k 的 Bi-LSTM 隱藏層狀態 h_k 可以通過上下文類型信息進行編碼。考慮到每個短語都可以被分成多個單詞,通過在每個單詞的 h_k 上執行最大池化操作來引入短語類型信息。將時間戳 k 的上下文類型信息 t_k 與隱藏層狀態級聯後生成短語特徵向量 hv_k。
(3)實體引導的解碼器(Entity-guided Decoder)
在解碼過程中,除了對相應的答案進行調節外,本文還對潛在 z 引入了額外的約束。本文提出了一種將短語層間信息和短語層內信息作為約束條件的多步解碼方法。首先,對實體字典在第一次遍歷時的上下文類型 t 進行建模,以確保跨短語的類型信息的一致性。然後,第二遍顯式建模實體 e。通過在推理過程中添加實體級別的變化來促進生成過程的多樣性,從而允許生成對相同答案具有相似語義但包含不同實體的短語。
我們假設短語 Pk 的生成取決於 c、z、t 和 e,其中 e 依賴於 c、z、t,t 依賴於 c、z。在訓練過程中,最後一個解碼器的初始狀態為 d_k= W_k[z, c, t, e] + b_k,輸入為 [w, t, e_k],其中 w 為 x 中單詞的詞嵌入,e_k 為 x 中完整實體嵌入的平均池化嵌入。
在第一個類型預測階段,基於 z 和 c 預測 t』:t『』= M LP_t(z, c)。在第二個實體預測階段,基於 z、c、t,預測 e_softmax』 = M LP_e(z, c, t)。最後,e_softmax』與整個實體嵌入矩陣相乘,生成 e』_k 的聚合。在測試階段,t』和 e』_k 用語最終的短語解碼。
(4)訓練目標函數
通過引入第一階段訓練的短語類型信息,沒有實體建模的 eg-CVAE 的修正變分下界為:
為了在第二階段訓練中將短語類型信息細化為詳細的實體,在假設 x 的生成分為兩個階段的基礎上對 e 進行顯式建模:利用短語類型生成 e;利用 e、t、c、z 生成 x,最終的 eg-CVAE 模型優化目標函數為:
為了驗證所提方法的有效性,本文在實驗過程中收集了來自中國國家醫療執業資格考試 (NMLEC_QA) 的真實醫學 QA 對。收集到的 NMLEC_QA 數據集包含 18,798 個 QA 對,作者根據這些原始的 QA 對生成新的 QA 對。使用 NMLEC 2017 作為評估 QA 系統的測試集,而不用於生成 QA 對。醫學實體字典是從醫學維基百科頁面中提取出來的,構建的字典涵蓋了 19 種類型的醫學實體。非結構化醫學教材由 2130128 篇醫學領域發表的論文和 518 本專業醫學教材組成。
作者在實驗中選擇 HRED(多級 RNN 編碼器的序列到序列模型)[9] 和 VHRED(多級條件 VAE 模型)[10] 作為基線對比算法。自動評估指標下的性能比較見表 9。其中,BLEU 是一種常用的度量方法,用長度懲罰來度量修改後的 n-gram 精度的幾何平均值;BOW Embedding 通過對短語中所有單詞的平均、極端或貪婪策略來匹配短語嵌入的度量方式;Distinct:計算生成短語的多樣性的度量,進一步將 intra-dist 定義為每個抽樣短語中不同值的平均值,inter-dist 定義為所有抽樣短語中不同值的平均值。
表 9. 不同方法的評估指標
在表 9 中,BLEU 和 BOW 度量的主要目的是檢驗結果的相似性。eg-CVAE 的設計目的是為了促進語義的多樣性,因此語義相似度得分不是很高。基於 CVAE 的 VHRED 不涉及對 z 的潛在分布的任何約束,HRED 對解碼過程進行了明確的建模,而沒有對隱藏上下文進行進一步的操作,因此它們的語義相似度得分屬於中等。本文提出的 type-CVAE 考慮了先驗類型信息,entity-CVAE 則考慮了實體顯示信息,這些約束有助於模型生成更多與原始 QA 對相似的 QA 對。另一方面,從多樣性的角度來看,eg-CVAE 在不同的度量上得分最高。這是因為 eg-CVAE 基於潛在的答案條件分布,而不是一個確定的解碼過程來分層生成新的問題。
本文還利用 NMLEC_QA 數據集中 10% 的樣本進行人工評估。三位專家 (真正的醫生) 被要求從三個角度來評估每一對 QA: 1) 一致性:生成的 QA 與原始的 QA 有多一致?2) 提供信息:生成的 QA 提供了多少信息?3)流利:生成的問題的短語有多流利? 每個問題都用 1(最差) 到 5(最好) 的分數進行評估。平均結果如表 10 所示。
表 10. 人工評價結果
表 10 中的結果表明,本文提出的方法效果優於 HRED 和 VHRED。通過對類型層次和實體層次的建模能夠有效捕獲關鍵信息,同時來自這兩層建模的先驗信息也保證了本文的模型產生信息豐富和流暢的問題的良好能力。
為了進一步研究生成的 QA 對的有效性,作者將這些生成的 QA 對集成到一個問答系統中,該系統是一個針對 NMLEC_QA 資料庫的基於注意力機制的模型 [11]。結果如表 11 所示。本文提出的 eg-CVAE 方法結合了 entity-CVAE 和 type-CVAE 的優點,構建了一個三階段解碼流程,從而改進了 QA 系統,達到了最高的準確率。這些觀察結果進一步證明了 eg-CVAE 生成的 QA 對的有效性。
表 11. 生成的 QA 對的有效性
小結:由於外部知識的需求和高質量培訓數據的不足,在醫學領域等現實場景中應用問答系統仍然具有挑戰性。針對這些挑戰,本文研究了生成醫學 QA 對的任務。基於每個醫學問題都可以看作是給定答案的潛在分布樣本的觀點,本文提出了一個自動的醫學 QA 對生成框架,該框架由一個無監督的關鍵短語檢測器組成,該檢測器探索非結構化材料的有效性,以及包含多通解碼器以整合結構知識以實現多樣性的產生器。
總結
在本篇提前看中,我們選取了 AAAI2020 的三篇關於問答系統的文章進行分析。問答系統近年來廣泛應用於很多實際場景,包括手機廠商的語音助手(Siri、Alexa、Bixby...)、APP 的各類問答應用(度秘、玩秘...)以及醫學和教育學等專業領域的虛擬客服等。從 AAAI 2020 的錄用論文也可以看出,在接受的 1591 篇文章中,專門研究問答系統的文章超過了 40 篇。
目前,神經網絡仍然是問答系統所主要採用的方法,在本文的三篇文章中,第一篇使用序列-序列模型,第二篇使用 BERT,而第三篇文章為了驗證提取的 QA 對的有效性,使用了基於注意力機制的模型。為了改進問答系統的效果,目前一些方法的主要目的仍然是基於訓練庫提取更多有效的信息,一方面可以改進訓練庫(第二篇文章使用了通用資料庫+專門目標域資料庫的方式),另一方面嘗試提取全局信息、上下文信息等複雜的語義信息(第一篇文章提出的句子級語義匹配、答案位置推斷的方法)。此外,針對專門的應用領域,需要結合單詞、句子和文本的特徵進行具體的分析和處理。
作者介紹:仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。
本文提到的文獻:
[1] Zhou, Q.; Y ang, N.; Wei, F.; Tan, C.; Bao, H.; and Zhou, M. 2017. Neural question generation from text: A preliminary study. In National CCF Conference on Natural Language Processing and Chinese Computing, 662–671. Springer
[2] See, A.; Liu, P . J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:1704.04368
[3] Seo, M.; Kembhavi, A.; Farhadi, A.; and Hajishirzi, H. 2016. Bidirectional attention flow for machine comprehension. arXiv preprint arXiv:1611.01603
[4] Kwiatkowski, T.; Palomaki, J.; Redfield, O.; Collins, M.; Parikh, A.; Alberti, C.; Epstein, D.; Polosukhin, I.; Kelcey, M.; Devlin, J.; Lee, K.; Toutanova, K. N.; Jones, L.; Chang, M.-W.; Dai, A.; Uszkoreit, J.; Le, Q.; and Petrov, S. 2019. Natural questions: a benchmark for question answering research. TACL .
[5]Y oon, S.; Dernoncourt, F.; Kim, D. S.; Bui, T.; and Jung, K. A compare-aggregate model with latent clustering for answer selection. CoRR abs/1905.12897
[6] Gormley, C., and Tong, Z. 2015. Elasticsearch: The definitive guide: A distributed real-Time search;analytics engine.
[7] Shen, D.; Wang, G.; Wang, W.; Min, M. R.; Su, Q.; Zhang, Y.; Li, C.; Henao, R.; and Carin, L. 2018. Baseline needs more love: on simple word-embedding-based models; associated pooling mechanisms. In Proceedings of ACL.
[8] Serban, I. V .; Sordoni, A.; Lowe, R.; Charlin, L.; Pineau, J.; Courville, A.; and Bengio, Y . 2017. A hierarchicazl latent variable encoder-decoder model for generating dialogues. In Proceedings of AAAI
[9] Serban, I. V .; Sordoni, A.; Bengio, Y .; Courville, A.; and Pineau, J. 2016a. Building end-to-end dialogue systems using generative hierarchical neural network models. In Proceedings of AAAI
[10] Serban, I. V .; Garc´ ıa-Durán, A.; Gulcehre, C.; Ahn, S.; Chandar, S.; Courville, A.; and Bengio, Y . 2016b. Generating factoid questions with recurrent neural networks: the 30m factoid question-answer corpus. In Proceedings of ACL.
[11] Cui, Y .; Chen, Z.; Wei, S.; Wang, S.; Liu, T.; and Hu, G. 2017. Attention-over-attention neural networks for reading comprehension. In Proceedings of the ACL.
本文為機器之心原創,轉載請聯繫本公眾號獲得授權。
✄---
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報導:content@jiqizhixin.com
廣告 & 商務合作:bd@jiqizhixin.com
原標題:《AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展》
閱讀原文