使用圖模型解決問題時,面對實際環境中來源多樣、形式複雜的數據,怎樣將多種信息進行合理融合是一個值得關注的問題。本文將介紹兩篇發表於KDD 2020的與圖模型信息融合相關的工作。
第一篇工作為《HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness》,該工作主要是基於異質圖來解決多模態學習中在信息融合時會遇到的模態缺失問題。
第二篇工作為《Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion》,該工作通過引入兩個外部知識圖譜豐富會話的語義信息,並通過互信息最大化彌補知識圖譜間的語義鴻溝以提升會話推薦系統的表現。
2 HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness2.1 引言多模態數據指的是從多種來源收集到的異構數據,例如人機互動場景中識別人類行為與情感時收集到的視覺、聲音、語言數據;進行生物醫學數據分析時收集的實驗、基因序列以及醫療記錄數據等。多模態數據能為實際問題提供相互補充的信息,對其進行學習具有很高的價值。多模態學習包含多模態數據融合、多模態情感分析以及圖像問答等多個分支,本文關注的是多模態數據的融合任務,即將高度交互的多種模態數據進行合理融合後用作下遊任務的決策。
然而,在實際的多模態數據收集過程中,由於傳感器故障、數據損壞以及人為失誤等多種原因,最終收集的數據常常存在不同程度的模態缺失。下圖展示了一個具有模態缺失問題的三模態數據集。
模態缺失導致多模態數據在融合過程中會遇到以下三個技術挑戰:
樣本具有不同程度的模態丟失,從而具有不一致的特徵空間以及維度有效的多模態融合需要同時學習模態內部特有以及多模態間的交互信息總之,如何有效地將不完整並高度交互的多模態數據進行融合仍是一個極具挑戰性的問題。與已有的基於不完整數據的直接刪除或數據插補(data imputation)的解決方案不同的是,本文提出了一種通過構建異質圖並在異質圖嵌入的同時實現不完整多模態數據融合的方法。
2.2 模型作者提出的Heterogeneous Graph-based Multimodal Fusion(HGMF)模型總覽如下:
首先,作者將具有不完整模態的數據點構建成為一張異質超點圖;接下來,作者通過一個基於圖神經網絡的學習框架,從高度交互的不完整多個模態中提取互補信息並將信息從不同子空間融合至一個統一的空間內。2.2.1 異質超點圖的構建異質超點圖中的節點具有不同數量以及維度的特徵,被稱為超點;一條邊可同時連接
本文中,作者定義不完整模式為模態的一種組合方式。對於一個具有模態缺失問題的
作者首先將數據集中的所有數據按照可用模態的不同組合方式分為
將所有塊分別構建得到的子圖統一到一個圖中,可以得到最終的異質超點圖。注意到,在這樣的一種構圖方法中,兩個數據點的部分公共模態特徵相近就可能被超邊連接,即缺失某種模態的數據點與含有該種模態的數據點可能被連接,從而在一定程度上減輕模態不完整的問題。
2.2.2 節點內編碼器每個超節點內部本身就包含高度交互的多模態內容,作者對這部分內容進行了編碼。
作者首先使用CNN、Bi-LSTM或全連接網絡等DNN對單模態特徵進行嵌入,得到第
若
若
編碼器通過對節點內部模態內部以及模態間交互的捕捉,將原始的模態特徵集
2.2.3 多折雙層圖注意力
由於不同節點的模態組合不同,上步編碼之後得到的圖仍是異質的。為實現異質圖上的多模態信息融合,作者使用雙層圖注意力機制。首先聚合同種模式下鄰居的信息,接著聚合不同模式信息。
對於節點
在聚合完模式內部信息之後,下一步是學習不同模式之間的關係,使得有不同模態缺失情況的數據點可以彼此學習,彌補缺失信息。聚合一個數據點的不同模式表示採用類似的注意力機制:
堆疊多個以上雙層圖注意力層以實現異質多模態數據的層級交互與融合。
實驗包含3D物體識別以及情感識別兩個任務,前者使用雙模態數據集ModelNet40以及NTU進行,後者選擇三模態數據集IEMONAP進行。為了模擬實際應用中可能出現的模態缺失情況,作者設置了多模態不完整比例
HGMF以及其他baseline在不同多模態不完整比例下進行3D物體識別實驗的結果如下(CPL代表模態數據完整):
三粒度情感識別的實驗結果如下:
可以看到,HGMF在模態不完整比例較高時的表現與其他baseline相比得到了穩定提升,說明其確實具有緩解模態缺失問題的能力。
3 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion3.1 引言會話推薦系統(Conversation Recommender System, CRS)作為一種通過與用戶的交互式對話生成高質量推薦商品的推薦系統,近年來越來越多地受到人們的關注。一個電影推薦場景下的CRS工作示例如下所示。
CRS需要推薦模塊和對話模塊的無縫整合。對話模塊負責理解用戶意圖,並生成恰當的回覆語句;而推薦模塊負責學習用戶偏好,並基於上下文內容為用戶推薦高質量商品。目前針對CRS的研究中主要存在以下兩個問題需要解決。
與傳統推薦系統能夠利用用戶的歷史交互序列或用戶屬性不同的是,CRS使用的對話數據缺少足夠的上下文內容幫助精確理解用戶偏好;對話以自然語言的形式展示,而實際的用戶偏好是反映在商品或實體上的。這兩類數據信號間存在天然的語義鴻溝。為解決上述問題,本文提出了基於知識圖譜的語義融合模型KG-based Semantic Fusion(KGSF),通過引入面向詞語的知識圖譜ConceptNet和面向商品的知識圖譜DBPedia豐富對話信息,並通過互信息最大化消除兩個知識圖譜之間的語義鴻溝。基於對齊之後的語義表示,作者還設計了KG增強的推薦模塊用於生成精確推薦以及KG增強的對話模塊用於在回復文本中生成信息量豐富的關鍵詞或商品。
3.2 模型3.2.1 編碼外部知識圖譜本文使用GCN編碼ConceptNet,每次更新時執行以下聚合操作:
Item間的關係比詞語間要複雜的多,本文使用關注節點間關係的R-GCN來學習item的表示:
3.2.2 使用互信息最大化的知識圖譜融合消除word與item在表示上的語義鴻溝的核心思想在於使對話中共現的word和item在知識圖譜中有相近的節點表示,這樣能夠統一兩個語義空間中的數據表示。本文使用互信息最大化的方法達到以上目的。
給定兩個變量
其中,
互信息的準確數值通常很難計算得到,通常轉化為計算其下界,通過抬高互信息下界值來間接使得互信息最大化:
其中,
由(4)式和(5)式,可以得到知識圖譜嵌入模塊的優化目標函數。
3.2.3 知識圖譜增強的推薦模塊本文將對話經知識圖譜嵌入並使用自注意力機制後得到的詞向量
商品被推薦給用戶的概率為:
使用如下交叉熵損失函數學習參數:
其中,
3.2.4 知識圖譜增強的回覆生成模塊本文沿用了Transformer的編碼器-解碼器架構,並對解碼器進行了改進,在自注意力子層之後,又使用了兩個融合知識圖譜的注意力層:
其中,
回復生成模塊的損失函數如下:
3.2.5 參數學習參數學習的完整流程如下:
首先通過互信息最大化對兩個知識圖譜的嵌入圖神經網絡進行預訓練;接下來通過推薦item的交叉熵損失學習推薦模塊參數並同時微調圖神經網絡參數;最後是回復生成模塊參數的單獨學習。
3.3 實驗本文在CRS數據集ReDial上分別進行推薦任務以及對話生成任務實驗,並對比了KGSF與其他baseline的表現。
3.3.1 推薦任務可以看到,不論是在常規推薦場景下還是冷啟動(上下文未提及任何商品或屬性)場景下,KGSF都能取得最優表現。
MIM模塊在提升模型表現的同時,也能縮短模型的收斂時間。
3.3.2 對話生成任務KGSF在對話生成任務上也能取得最優效果。
本文介紹的第一篇工作研究如何將有模態缺失問題的多模態數據集構建成為異質圖並在圖上進行合理的多模態信息交互,達到相互補充與融合的效果;第二篇工作則在引入面向word以及面向item的兩個知識圖譜後,通過互信息最大化對齊這兩個知識圖譜在語義上的表示空間,從而提升會話推薦效果。
專知便捷查看
便捷下載,請關注專知公眾號(點擊上方藍色專知關注)