從ACL 2020看知識圖譜研究進展

2020-12-14 機器之心Pro

機器之心分析師網絡

作者：仵冀穎

編輯：H4O

本文選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。

國際計算語言學協會年會 ACL 2020 按照原定時間已經於 7 月 5 日至 10 日召開，受到疫情影響，本次會議全部改為線上會議。ACL 2020 共收到了 3429 篇論文，收錄其中 779 篇論文，包括 571 篇長論文和 208 篇短論文，論文的總接收率為 22.7%。ACL 2020 收錄文章數量前五位的主題分別是：機器學習（Machine Learning for NLP）、對話和交互技術（Dialog and Interactive Technologies）、機器翻譯（Machine Translation）、信息提取（Information Extraction）和 NLP 應用（NLP Application）。

目前，ACL 2020 收錄的文章大部分已經在網上公開。從論文的題目、主題等關鍵詞可以看出，主要的研究方向包括人機對話，多模態、多語言和多領域，圖神經網絡，以及經典的信息提取類問題，包括實體抽取（NER）、事件抽取以及關係抽取等。研究手段則仍集中於各類機器學習的方法，包括：神經網絡、預訓練、注意力、知識圖譜等。還有一些文章特別關注了低資源、少樣本等實際應用中經常會遇到的問題。

我們選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。其中，第一篇重點關注知識圖譜本身，提出了一種基於距離的知識圖譜中的源實體到目標實體的連結預測（Link Prediction）方法。第二篇文章是知識圖譜在摘要生成任務中的應用，第三篇文章是知識圖譜在會話生成任務中的應用。

1. Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding

論文地址：https://arxiv.org/pdf/1911.04910.pdf

本文是京東人工智慧研究院的一篇文章，具體是提出了一種新的基於距離的知識圖譜嵌入方法，稱為基於圖上下文的正交變換嵌入（ orthogonal transform embedding，OTE），以解決知識圖譜中 1-to-N、N-to-1 和 N-to-N 的連結預測問題。京東人工智慧研究院在關於京東智聯雲的工作中，應用知識圖譜技術構建了基於商品的「商品圖譜」，並將「商品圖譜」與語言模型相結合實現了營銷內容智能生成，可以說是 NLP 技術很好的一個應用實例。本文是關於知識圖譜本身構建的工作，目的是改進知識圖譜中源實體到目標實體的連結預測水平。

1.1 背景知識介紹

知識圖譜（Knowledge Graph）是一種多關係圖，其中，節點表示實體，邊表示實體之間的關係。知識圖譜存儲來自不同來源的關於人、地方和世界的事實。這些事實以三元組形式保存（頭實體、關係實體、尾部實體），並表示為(h, r, t) 。知識圖譜在很多 NLP 領域中應用獲得了很好的效果，例如推薦系統、問答系統，文本生成任務等。不過，知識圖譜需要定期更新事實，為此，人們提出了許多知識圖譜嵌入方法來完成知識圖譜的連結預測（Link Prediction）。

本文重點關注的就是知識圖譜中的連結預測問題。1-to-N、N-to-1 和 N-to-N 的連結預測是目前知識圖譜連結預測中的主要難點。以圖 1 中所示為例，關係「profession」展示了一個 N-to-N 的例子，該示例中重點關注的邊被突出顯示為綠色。假設三元組（SergeiRachmaninoff, Profession, Pianist）是未知的。連結預測模型以「SergeiRachmaninoff」和關係「Profession」為基礎，對知識圖譜中的所有實體進行排序，對「Pianist」（「鋼琴家」）進行預測。實體「SergeiRachmaninoff」通過關係「profession」連接到多個作為頭實體的實體，而作為尾部實體的「Pianist」也通過關係「profession」到達多個實體。從單個實體 - 關係對出發，會出現映射到多個不同的實體的情況，這使得 N-to-N 預測變得非常困難。同樣的問題也發生在 1-to-N 和 N-to-1 的預測中。

圖 1. FB15k-237 中的知識圖譜快照，其中，實體用金色塊表示。

知識圖譜嵌入方法大致可以分為兩類 [1]：基於距離的模型和語義匹配模型。基於距離的模型也被稱為加性模型，因為它將頭和尾部實體投影到同一個嵌入空間，使用兩個實體嵌入之間的距離評分來衡量給定三元組的合理性。TransE 是最有代表性的基於距離的模型[2]。語義匹配模型通常採用乘法得分函數來計算給定三元組的似然性。本文採用的是基於距離的模型，通過將上下文信息直接集成到距離評分函數中，實現在連結預測的過程中引入知識圖譜的結構以及相鄰節點和邊的上下文信息。

1.2 方法介紹

把知識圖譜看作是一個三元組的集合 D={(h,r,t) }，其中 V 是圖的節點集，r 是圖的邊集。每個三元組都有一個頭實體 h 和尾部實體 t。關係 r 用從頭到尾的方向連接兩個實體。1-to-N、N-to-1 和 N-to-N 的連結預測問題是通過如下方法解決的：1）在嵌入空間組上實現的正交關係變換。每個小組都是獨立建模和評分的，最終得分是所有小組得分的總和。因此，每個組可以解決實體 - 關係對的不同方面，以解決 1-to-N 和 N-to-N 關係映射問題；2）引入有向圖上下文，整合知識圖譜結構信息，減少歧義。

本文的工作主要受到 RotatE 啟發[3]。在 RotatE 中，距離評分是通過定義在復域上的 Hadamard 乘積（元素級）來完成的。對於三元組(h,r,t)，對應的嵌入為 e_h, θ_r, e_t。對應關係和頭實體的 t 的投影 e_t 以正交變換形式表達，如下所示：

其中，M_r(i) 為 2D 正交矩陣。雖然 RotatE 是一種簡單有效的知識圖連結預測方法，但它定義在二維復域中，建模能力有限。

本文考慮的是正交嵌入變換（Orthogonal Transform Embedding，OTE）。使用用 e_h、M_r、e_t 來表示頭、關係和尾實體的嵌入。實體嵌入 e_x，其中 x ={ rh， tx}，進一步的劃分為 K 個子嵌入, e_x=[e_x(1);...;e_x(K)]。對於每個關係 t 的子嵌入 e_t(i)，定義從 h 和 r 到 t 的映射為：

表示 Gram-Schmidt 過程。 (M_r(i)) 為正交矩陣。進一步的，使用標量張量 s_r(i) 來分別縮放每組嵌入的 L2 範數。則上式改寫為：

相應的距離評分函數定義為：

對於頭實體 h 的每個子嵌入 e_h(i) ，定義從 r 和 t 到 h 的投影，如下所示：

對應的距離評分函數為：

知識圖譜是有向圖，即存在(h, r, t)，不代表存在(t, r, h)。因此，對於知識圖譜中給定的實體，有兩種上下文信息：進入它的節點和離開它的節點。特別地，在本文中，對於每個實體 e 考慮以下兩個上下文設置：

如果 e 是尾，那麼尾為 e 的訓練三元組中的所有（head, relation）對定義為「頭 -- 關係對上下文」（Head Relation Pair Context）；

如果 e 是頭，那麼訓練三元組中頭為 e 的所有 (relation, tail) 對都被定義為「關係—尾對上下文」（Relation Tail Pair Context）。

給定一個尾 t，三元組中以 t 為尾的全部頭 -- 關係對 (h』, r』) 看作是 t 的圖上下文，定義為 N_g(t)。首先，計算頭 -- 關係對上下文表示如下：

其中，e_t 為 t 的嵌入，f(h』, r』)為利用公式（2）計算得到的表示。當 N_g(t)為空時，在式（6）中引入 e_t，從而保證上下文表示的計算成為可能。這可以看作是上下文表示計算的一種加性平滑。然後，計算 t 的頭相關上下文和相應的基於正交變換的三元組表示的距離，如下所示：

圖上下文建模沒有引入新的參數，因為消息傳遞是通過 OTE 實體關係映射來完成的，通過替換 OTE，圖上下文可以很容易地應用到其他平移嵌入算法中，如 RotatE 和 TransE 等。

對於給定的頭實體 h，將頭部為 h 的三元組的所有尾 -- 關係對視為其圖形上下文，並表示為 N_g(h) 。首先，計算尾 -- 關係對上下文表示如下：

其中 f(r』,t』)為公式（4）的計算結果。然後，計算 h 的尾 -- 關係對上下文和相應的基於正交變換的三元組表示的距離，如下所示：

進一步，將上面討論的四個距離分數（式 3、式 5、式 7 和式 9）結合起來作為圖上下文正交變換嵌入（Graph Context-OTE，GC-OTE）的最終距離分數，用於訓練和推理。

因此，完整的 GC-OTE 模型可以看作是 K 個局部 GC-OTE 模型的集合。

1.3 實驗分析

本文使用兩個基準資料庫（FB15k-237 和 WN18RR）來評估性能。FB15k-237[12]數據集包含知識庫關係三元組和自由基實體對的文本提及。FB15k-237 中的知識庫三元組是 FB15K[13]的子集，最初取自 Freebase，但在構建 FB15k-237 時取消了逆關係。WN18RR[14]源自 WN18，WN18 是 WordNet 的一個子集。WN18 由 18 個關係和 40943 個實體組成。然而，WN18 中許多文本三元組是通過從訓練集中反轉三元組得到的。因此，創建 WN18RR 的目的是以確保評估數據集不會因冗餘的反向關係而出現測試洩漏。

兩個庫中的連結預測性能見表 1。從表 1 可以看出：1）在 FB15k-237 上，OTE 的性能優於 RotatE，GC-OTE 在所有指標上都優於其他所有模型。具體地說，MRR 從 0.338（RotatE）增加到 0.361，相對性能提高了約 7%。OTE 將子嵌入維度數從 2 增加到 20，每一個圖上下文都貢獻了大約一半的改進；2）在 WN18RR 上，OTE 的性能優於 RotatE 和 GC-OTE，達到了最新的最優結果（據作者從已發表的論文中所知）。這些實驗結果證明了所提出的 OTE 和圖上下文對於知識圖譜中缺失連結的預測是有效的。

表 1. FB15k-237 和 WN18RR 實驗集中的連結預測性能

1.4 文章小結

本文提出了一種新的基於距離的知識圖嵌入方法。它主要包括兩個部分：首先，利用正交關係變換將 RotatE 從二維復域擴展到高維空間。第二，提出用圖上下文將圖結構信息集成到距離評分函數中，以衡量三元組在訓練和推理過程中的合理性。

2. Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward

論文地址：https://arxiv.org/pdf/2005.01159.pdf

本文是美國東北大學和 IBM 研究人員的研究成果。本文重點關注知識圖譜在摘要生成任務中的應用，提出了一種引入圖譜增強和語義驅動 RewarD 的摘要生成框架（Abstractive Summarization with Graph Augmentation and semantic-driven RewarD，ASGARD）。使用雙編碼器（dual encoders）：順序文檔編碼器和圖形結構編碼器，來提取知識圖譜中實體的全局上下文特徵和局部特徵。進一步，設計了一個基於多項選擇完形填空測試（a reward based on a multiple choice cloze test）的獎勵，以驅動模型更好地捕捉實體間的交互信息。

摘要生成（Abstractive Summarization）目的是產生簡潔、信息豐富的摘要，從而促進有效的信息消費和知識獲取。針對單文檔摘要生成任務，基於序列對序列的神經網絡模型取得了很好的效果。然而，由於模型結構和基於詞預測的學習目標的局限性，這些模型往往產生不真實的內容和過於精練的摘要。這些情況表明，現有的模型缺乏對輸入的語義解釋，而對語義的正確理解對於摘要生成任務來說是至關重要的。本文作者認為，摘要的信息性和簡潔性的生成需要結構化的表示，以便於實現相關主題之間的聯繫，並保持有全局上下文信息，如實體交互和主題流。以圖 1 為示例，與同一實體相關的複雜事件可能跨越多個句子，這使得現有的序列模型難以捕捉這些信息。相反，圖表示能夠產生一個結構化的摘要，並突出了相關概念的近似性。

圖 1. 根據文章片段構造的示例知識圖譜，知識圖譜將實體或事件的相關信息局部化，並提供全局上下文信息。

本文提出了一個基於圖譜增強和語義驅動的抽象摘要框架（Abstractive Summarization with Graph-Augmentation and semantic-driven RewarD，ASGARD）。在編解碼框架（encoder-decoder framework）下，利用開放信息抽取（OpenIE）系統的輸出，用單獨的圖結構編碼器增強常規文檔編碼器，以保持實體的全局上下文信息和局部特徵。

此外，本文還提出了一種新的多選完形填空（multi-choice cloze）獎勵來驅動模型獲得對輸入文檔的語義理解。具體地說，在設計完型填空問題時，移除與謂詞相關的成對實體或在人類生成的摘要句中同時出現的實體。而以往的研究中，一般只考慮使用單個實體來構造問題。與知識圖譜編碼相結合，引入完形填空獎勵進一步通過強化學習獲得全局實體的交互信息。

2.1 方法介紹

2.1.1 編碼器部分

為了從輸入文檔構建知識圖譜，利用 Stanford CoreNLP [4]首先從共指消解（coreference resolution）和開放信息抽取（open information extraction，OpenIE）模型中獲得輸出 [5]。接下來，利用 OpenIE 提取的 < subject，predicate，object > 三元組，去掉論點（主語或賓語）超過 10 個單詞的任何三元組。如果兩個三元組只相差一個參數，並且論點重疊，則保留較長的三元組。

將主客體視為由有向邊連接的節點，謂詞作為屬性。進一步，將同一實體的共同提及考慮為一個節點。通過這一點，可以定位與每個實體相關的顯著內容，以及通過圖路徑連接展開的實體。ASGARD 框架如圖 2 所示。

圖 2. ASGARD 框架。通過同時關注圖譜和輸入文檔生成摘要。

模型以一個文檔作為輸入，表示為一系列的符號 x={x_k}，以及一個由節點 {v_i} 組成的知識圖譜 G。首先將 x 輸入 RoBERTa[6]，將最後一層的輸出作為嵌入。將嵌入輸入雙向 LSTM（Bi-LSTM），生成 k 時刻的編碼隱狀態 h_k。利用上文生成的知識圖譜，為謂詞創建節點。增加從主語到謂語以及從謂語到賓語的有向、無標記的邊。進一步，添加反向邊和自循環來增強信息流，從而形成知識圖譜 G。

節點初始化（Node Initialization）。每個節點通常包含一個實體的多個引用。因此，通過使用其符號的平均嵌入來初始化節點表示 v_i。本文利用文檔編碼器的隱藏狀態 h_k 作為符號的上下文表示。文檔中提到的節點次數作為一個額外的編碼添加到 v_i 中，以增強實體的顯著性。

上下文節點編碼（Contextualized Node Encoding）。圖編碼器改進了圖注意力網絡（Graph Attention Networks，GATs）[7]，增加了層間的剩餘連接。每個節點 vi 由其相鄰節點的加權平均值表示：

其中，|| 表示 n 頭連接，每個都生成一個與 v_i 同等維度的向量。上述圖編碼器通過捕獲上述文檔的全局關係圖和編碼圖對文檔級的文檔進行編碼，稱為 DOCGRAGH。

進一步的，捕獲主題移位信息以得到 SEGGRAGH。通過對主題轉換和重現進行建模可以識別出文檔中的顯著內容，從而有利於生成摘要。由於段落自然地將一個文檔分成不同的主題段，因此可以直接擴展 DocGragh。首先使用相同的圖編碼器將每個段落編碼為子圖 G_p（對於第 p 個段落），然後用 BiLSTM 連接所有子圖。首先從最終 GAT 層的輸出對子圖 G_p 中的所有節點進行最大池化處理。然後將池化的結果用作為 BiLSTM 的輸入，以產生 G_p 的最終子圖表示(h_p)^g。

2.1.2 摘要解碼器

摘要解碼器在步驟 t 使用一個單層單向 LSTM 生成隱藏狀態 s_t，它通過共同關注輸入文檔和圖來循環生成摘要符號。

注意力圖表（Attending the Graph）。在每個解碼步驟 t，計算一個帶有注意機制的圖上下文向量 (c_t)^v：

注意力文件（Attending the Document）。類似地，通過考慮圖上下文向量(c_t)^v，在輸入符號上計算文檔上下文 c_t：

符號預測 (Token Prediction)。圖和文檔上下文向量被視為從兩個來源總結得到的文檔顯著內容，與解碼器隱藏狀態 s_t 連接以生成詞彙分布 P_vocab：

通過使用輸入嵌入矩陣和矩陣 W_out 之間的權重共享，以允許復用語言知識。進一步，添加了一個複製機制，計算複製概率為：

類似於上文針對 SegGraph 的處理，引入分級注意機制。使用標量乘法和重整化對輸入中的所有節點進行處理，從而將子圖中節點的注意(a_t)^g 與先前計算得到的注意(a_t)^v 相結合。

2.1.3 訓練

首先考慮一個最大似然（ML）訓練目標，最小化下述損失函數：

其中 x 是文檔，y 是取自訓練集 D 的已知文檔，而θ是模型參數。該目標函數的作用是使得生成的文檔 x 最大限度的與已知訓練集中的已知確定文檔保持一致，從而實現對知識圖譜中節點所表徵的文檔的局部特徵進行準確描述。

除了對節點的局部特徵進行建模外，本文還增加了一個目標函數來標記節點的顯著性，即節點顯著性標記（Node Salience Labeling）。例如，節點中的實體是否在作為參考的摘要中出現過？在每個節點被傳遞到圖編碼器之前，在每個節點中引入一個軟掩碼層（Soft Mask Layer），用以表徵該節點的顯著性。該層的作用類似於一個「信息通道（information gate）」。針對每個節點 v_i 預測得到一個實數 m_i（m_i 大小滿足[0，1]），使用 m_i 乘以 v_i 得到掩碼。對於節點 v_i，掩碼計算為：

其中，u_2 為訓練參數。在訓練期間，如果在參考引用的摘要中包含該節點的至少一個內容詞，則該節點的標準掩碼 m_i 設置為 1，否則為 0。對資料庫 D 中的全部節點都增加下面的目標函數：

最終得到的優化目標函數為：

2.1.4 完形填空強化學習

在使用 L_ml 進行極大似然訓練後，作者在第二階段強化學習（RL）中進一步設計了一個多項選擇完形填空獎勵，使得模型能夠生成更真實、信息更豐富的摘要。

對於 RL，本文引入一種自判別策略梯度算法（a self-critical policy gradient algorithm）[8]。在訓練過程中，會生成兩個摘要：第一，摘要 y^s，在每個解碼步驟基於概率分布 p（y^s | x；θ）抽樣符號；第二，基線摘要 y^，在每個步驟中貪婪選擇概率最高的符號。定義目標函數如下：

本文獎勵函數使用 ROUGE 和下面介紹的多項選擇完形填空得分的組合：R(y) = R_rouge(y) +γ_clozeR_cloze。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)，是一種常用的機器翻譯和文章摘要評價指標[9]，其表徵的意義是系統算法生成的摘要與參考摘要相同的 N-gram 數 / 參考摘要中的 N-gram 總數。本文提出了一種新的多選完形填空獎勵，用以引導摘要模型提高實體互動的意識。將系統生成的摘要視為上下文（context）。另外，提供了一組由人手工編寫的對應於參考摘要自動生成的問題（questions）。分別訓練了一個問答（QA）模型，通過閱讀上下文來解決問題。如果系統摘要與參考文獻共享了顯著信息，問答模型將能夠以較高的概率給出正確答案。本文使用正確答案的平均概率作為完形填空的獎勵。本文對 RoBERTa 進行微調，以構建 QA 模型。

2.2 實驗分析

本文實驗採用兩個包含多個句子的摘要數據集：紐約時報注釋語料庫（NYT）和 CNN / 每日郵報數據集（CNN/DM）。本文提出的方法與不同基線方法的實驗對比結果分別見表 1（NYT 庫）和表 2（CNN/DM 庫）。對於本文所提出的方法，除了使用 ML 目標訓練的 ASGARD-DOC 和 ASGARDSEG 外，表 1 和表 2 的實驗中還給出了用 ROUGE 作為獎勵（R_rouge）和使用一個額外的完形填空獎勵（R_cloze）訓練的結果。最後，還給出了一個消除圖編碼器的變體方法 NOGRAPH 的實驗結果。

表 1. NYT 資料庫中 ROUGE 自動評價結果，最優結果以粗體表示，本文模型最好的結果以斜體表示

表 2. CNN/DM 資料庫中 ROUGE 自動評價結果，最優結果以粗體表示，本文模型最好的結果以斜體表示

2.3 文章小結

本文提出了一種知識圖譜增強摘要生成框架，並提出了一種用於強化學習的多項選擇完形填空獎勵。該模型能夠從輸入文本中捕捉實體的局部特徵和全局交互信息，從而生成高質量的摘要。與圖表示相結合，本文引入的多項選擇完形填空獎勵進一步改進了摘要內容。

3. Grounded Conversation Generation as Guided Traverses in Commonsense Knowledge Graphs

論文地址：https://arxiv.org/pdf/1911.02707v2.pdf

本文是清華大學劉知遠老師組與來自於布朗大學、微軟的研究人員共同完成的。本文主要關注知識圖譜在會話生成任務中的應用，具體提出了一種新的會話生成模型：ConceptFlow，它利用常識知識圖譜對會話流進行顯式建模。通過將會話連接到概念空間，ConceptFlow 將潛在的會話流表示為沿常識關係在概念空間中的遍歷。在概念圖中，以圖注意力為導向，在概念空間中向更有意義的方向移動，以產生更具語義性和包含更多信息量的會話回答。

隨著語言模型和自然語言理解技術的發展，會話生成任務獲得了廣泛的應用。然而，生成模型可能會產生枯燥和重複的內容，在會話助手應用中，這會導致生成離題和無用的回答，從而損害用戶體驗。解決這一問題的有效方法是與外部知識（如開放領域知識圖譜、常識知識庫或背景文檔）進行對話。然而，人類的對話並不是「靜止的」——人們在談論一組相關概念的時候，經常會將討論從一個概念轉移到另一個概念，並且可能會完全切換對話主題。

本文提出了概念流（Conversation Generation with Concept Flow，ConceptFlow），它利用常識知識圖譜在顯式概念空間中對會話流進行建模。例如，如圖 1 所示，Reddit 的對話概念從聊天（chat）和未來（future）轉移到相鄰的概念——對話（talk），還沿著常識關係跳躍到遙遠的概念——夢（dream），這是自然對話中的一種非常典型的情況。為了更好地捕捉這種對話結構，ConceptFlow 明確地將會話建模為常識知識圖譜中的遍歷：它從基礎概念（如聊天（chat）和未來（future））開始，並通過沿著常識關係跳轉到相關概念（如談話（talk）和夢想（dream）），從而生成更有意義的對話。概念圖中的遍歷由 ConceptFlow 的圖注意機制引導，通過圖神經網絡學習，利用會話話語、連接的概念以及它們之間的關係來關注更合適的概念。因此，模型學習在常識知識圖中沿著更有意義的關係來建模會話發展。因此，ConceptFlow 學會了通過從會話話語、常識關係跳到更遙遠但仍然有意義的概念，來「擴大」基礎概念——這將引導生成器能夠生成包含更多信息性和更具主題相關性的回答。

圖 1. 對話中概念轉變的示例。深綠色表示更高的相關性，更寬的箭頭表示更強烈的概念轉換（由 ConceptFlow 捕獲）。

3.1 方法介紹

3.1.1 對話任務構建

給定一個具有 m 個單詞的用戶話語 X={x_1；...；x_m}，典型的會話生成模型通常使用編解碼器架構來生成回答 Y={y_1；...；y_n}。編碼器將用戶話語 X 表示為表示集 H={h1；...；h_m}。使用門控循環單元（GRU）完成：

其中，x_i→ 為單詞 x_i 的嵌入。解碼器根據先前的 t-1 個生成的單詞和用戶話語 X 生成回答中的第 t 個字：

然後將交叉熵損失 L 最小化，並端到端優化所有參數：

圖 2 給出 ConceptFlow 的整體結構。ConceptFlow 首先根據與真實概念之間的距離（hops）構造一個概念圖 G，包括中心圖 G_central 和外部圖 G_outer（3.1.2 小節）。然後利用圖神經網絡和概念嵌入技術，將中心和外部 ConceptFlow 編碼到中心圖 G_central 和外部圖 G_outer 中（3.1.3 小節）。解碼器模塊利用 ConceptFlow 和用戶話語的編碼來生成用於回答的單詞或概念（3.1.4 小節）。

圖 2. ConceptFlow 整體架構

3.1.2 概念圖構造（Concept Graph Construction）

概念圖從固定概念（零跳概念（zero-hop）：V^0）開始，這些概念出現在會話話語中，並由實體連結系統進行標註。然後，ConceptFlow 用一跳概念（one-hop）v^1 和兩跳概念（two-hop）v^2 擴大零跳概念 v^0。v^0 和 v^1 中的概念以及它們之間的所有關係構成了中心概念圖 G_central，它與當前的會話主題密切相關。v^1 和 v^2 中的概念及其連接構成了外部圖 G_outer。

3.1.3 編碼潛在概念流（Encoding Latent Concept Flow）

構造的概念圖提供了關於概念如何與常識知識相關的明確語義。ConceptFlow 利用它來建模對話並指導生成回答。它從用戶發布開始，經過中心圖 G_central 和外部圖 G_outer。這一步驟是通過根據用戶話語對中心和外部 ConceptFlow 進行編碼來實現的。

中心流編碼（Central Flow Encoding）。中心概念圖 G_central 由一個圖神經網絡編碼，該網絡將用戶話語 H 的信息傳播到中心概念圖。具體而言，它將概念 e_i 編碼生成表示 g_ei：

外部流編碼（Outer Flow Encoding）。外部流 f_ep 從 e_p 跳轉到其連接的兩跳概念 e_k，通過注意機制編碼生成 f_ep→：

注意力 θ^(e_k) 聚合概念三元組 (e_p,r,e_k) 以得到 f_ep→：

3.1.4 用概念生成文本（Generating Text with Concepts）

為了生成第 t 個時刻的回答符號，首先根據話語編碼和潛在 ConceptFlow 計算 t 次解碼的輸出上下文表示：

式中，y_t-1→ 是第（t-1）步生成的符號 y_t-1 的嵌入，上下文表示 c_t-1→ 連接基於文本的表示 c_(t-1)^text→ 和基於概念的表示 c_(t-1)^concept->：

基於文本的表示 c_(t-1)^text→ 以標準的注意機制讀取用戶的話語編碼：

基於概念的表示 c_(t-1)^concept→是中心和外部流的編碼組合

第 t 次輸出表示 s_t→包含了來自話語文本、具有不同跳步的概念及其注意機制的信息。解碼器利用 s_t→生成第 t 個符號，以形成包含更多信息量的回答。它通過選擇單詞（ σ*=0）、中心概念（V^0,1，σ* =1）和外部概念集（V^2，σ*=2）使用門 σ* 來控制生成：

在詞彙表、中心概念集 V^0,1 和外部概念集 V^2 上計算單詞 w、中心概念 e_i 和外部概念 e_k 的生成概率：

3.2 實驗分析

本文實驗使用的是常識會話數據集（Commonsense Conversation Dataset）[10]。該數據集中包含的數據來自於 Reddit 的單輪對話。該數據集共包含 3384185 個訓練對、10000 個驗證對和 20000 個測試對。本文使用概念網（Concept-Net）作為知識圖譜[11]。Concept-Net 包含 120850 個三元組、21471 個概念和 44 個關係類型。對於 Reddit 上的對話，中心概念和兩跳概念的平均數量分別為 98.6 和 782.2。

作者選擇了六個基線對比算法，這些算法主要屬於三類：標準 Seq2Seq、知識增強型系統和微調的 GPT-2 系統。具體包括：Seq2Seq（語言生成任務的最基本的編解碼器模型）、知識增強型系統（MenmNet、CopyNet、CCM）、微調的 GPT-2 系統（用於語言生成任務的基本預訓練模型 GPT-2 的兩種微調：像語言模型一樣進行訓練的 GPT-2 lang 和用編解碼器架構擴展並使用回答數據監控的 GPT-2conv）。此外，本文分別使用 TransE 嵌入和 Glow 嵌入初始化概念表示和單詞表示。採用學習率為 0.0001 的 Adam 優化器訓練模型。

作者使用不同指標從相關性、多樣性和新穎性三個方面對生成的對話的回答質量進行評價。表 1 和表 2 給出實驗結果。在表 1 中，所有評估指標都用於計算生成的回答和標準回答之間的相關性。ConceptFlow 優於所有基線模型。ConceptFlow 生成的回答更具主題相關性，與基本事實回答更吻合。表 2 中 Dist-1、Dist-2 和 ENT-4 用于衡量所生成回答的多樣性，其餘指標則是通過將生成的回答與用戶的話語進行比較來衡量其新穎性。ConceptFlow 所生成的回答在新穎性和多樣性方面都獲得了較好的效果。GPT-2 生成的回答更具有多樣性，這可能是由它在解碼過程中的採樣機制所導致的。但是，與 ConceptFlow 相比，GPT-2 生成的回答的新穎性和主題相關性要差一些。

表 1. 生成的回答與標準回答之間的相關性

表 2. 所生成的回答的多樣性（越高越好）和新穎性（越低越好）。根據生成的回答中計算多樣性；新穎性則是將生成的回答與輸入的內容進行比較。

表 3 列出了從三種對話模型生成的一些回答實例。其中，CCM 生成的回答可能會不斷重複相同的內容，因為它沒有在概念空間中顯式地建模遍歷。例如，第一個和第三個案例的回答總是重複「我不確定」。GPT-2 能夠生成更為流利和順暢的回答。然而，表 3 中一些 GPT-2 生成的答案案例僅僅是從給定的帖子中複製內容或概念。例如，對於第三種情況，GPT-2（conv）主要討論概念音樂。相比之下，ConceptFlow 生成的回答比 CCM 和 GPT-2 生成的回答更流暢、更具信息量。例如，在第三種情況下，ConceptFlow 將相關的概念聲音（sound）和檢查（check）引入到了回答生成中，從而能夠從固定的概念音樂（music）和建議（advice）中跳脫出來。引入這些多跳概念有效地提高了所生成回答的信息主題相關性和多樣性。

表 3. 不同的模型生成的回答實例，其中，零概念，一跳概念和兩跳概念的符號做了突出顯示。

3.3 文章小結

本文提出的 ConceptFlow 將會話結構顯式地建模為潛在概念空間中的轉換，從而能夠生成具有更多信息量和更有意義的回答。未來的工作中，作者計劃探索如何將多跳概念與預先訓練的深層語言模型（即 GPT-2）相結合，以及如何有效地在生成模型中引入更多的多跳概念。

參考文獻

[1] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo. Knowledge graph embedding: A survey of approaches and applications. TKDE, 29:2724–2743.

[2] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko. Translating embeddings for modeling multirelational data. In NeurIPS.

[3] Zhiqing Sun, Zhi-Hong Deng, Jing Nie, and Jian Tang. Rotate: Knowledge graph embedding by relational rotation in complex space. In ICLR.

[4] Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David Mc-Closky. 2014. The Stanford CoreNLP natural language processing toolkit. In Association for Computational Linguistics (ACL) System Demonstrations, pages 55–60.

[5] Gabor Angeli, Melvin Jose Johnson Premkumar, and Christopher D. Manning. 2015. Leveraging linguistic structure for open domain information extraction. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 344–354, Beijing, China. Association for Computational Linguistics.

[6] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019.

[7] Petar Veliˇckovic, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Li`o, and Yoshua Bengio. 2018. Graph Attention Networks. International Conference on Learning Representations. Accepted as poster.

[8] Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. 2017. Self-critical sequence training for image captioning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7008–7024.

[9] Chin-Yew Lin and Eduard Hovy. 2003. Automatic Evaluation of Summaries Using N-gram Cooccurrence Statistics. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1, pages 71–78.

[10] Hao Zhou, Tom Young, Minlie Huang, Haizhou Zhao, Jingfang Xu, and Xiaoyan Zhu. 2018a. Commonsense

knowledge aware conversation generation with graph attention. In IJCAI, pages 4623–4629.

[11] Robyn Speer, Joshua Chin, and Catherine Havasi. 2017. Conceptnet 5.5: An open multilingual graph of general

knowledge.

[12] Kristina Toutanova and Danqi Chen. 2015. Observed versus latent features for knowledge base and text inference. In Proceedings of the 3rd Workshop on Continuous Vector Space Models and their Compositionality.

[13] Antoine Bordes, Sumit Chopra, and Jason Weston. 2014. Question answering with subgraph embeddings. In EMNLP.

[14] Andrew M. Saxe, James L. McClelland, and Surya Ganguli. 2013. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. In ICLR.

分析師介紹：

本文作者為仵冀穎，工學博士，畢業於北京交通大學，曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理，現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺，愛好科研，希望能保持學習、不斷進步。

從ACL 2020看知識圖譜研究進展

相關焦點

在剛剛結束的ACL 2019上,知識圖譜領域都發生了哪些大事?

一文全覽,ICLR 2020 上的知識圖譜研究

基金委發布深時地球科學知識圖譜與知識演化研究項目指南

知識圖譜前沿跟進,看這篇就夠了,Philip S. Yu 團隊發布權威綜述...

ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二

「神經+符號」:從知識圖譜角度看認知推理的發展

王昊奮:大規模知識圖譜技術

以史為鑑:從數字計算機到知識圖譜的這 60 多年

從神經轉化到符號:從知識圖譜的角度看認知推理的發展

ACL 2020 清華大學 THUNLP 系列解讀

ACL2020|基於正交關係轉換與圖上下文建模的知識圖嵌入

深蘭科技斬獲CCKS2020三冠,實力助推知識圖譜、語義計算發展

圖靈獎得主論體系結構創新,自動構建知識圖譜,盡在WAIC開發者日

推薦文章|基於知識圖譜分析的國內外智慧教育研究熱點

老三觀天下:人物關係-知識圖譜

AI產品經理的入門必修課(4)——知識圖譜

人工智慧大神深度解剖知識圖譜的六大應用-虎嗅網

這周日,北理工將邀數位大咖研討「知識圖譜與智能問答」

當代腦計劃研究進展

長篇大論中抓取精華,語音實時生成知識圖譜,這個系統可謂是首個