近日,中國人民大學高瓴人工智慧學院師生有5篇長文被國際學術會議ACM CIKM(2020)錄用。第28屆國際計算機學會信息與知識管理大會(The 29th ACM International Conference on Information and Knowledge Management, CIKM 2020)將於2020年10月19日-10月23日在線上召開。 CIKM是CCF推薦的B類國際學術會議,是信息檢索和數據挖掘領域頂級學術會議之一。本屆CIKM會議共收到投稿920篇,其中錄用論文193篇,錄取率約為21%。
論文題目:Diversifying Search Results using Self-Attention Network(長文)
作 者:秦緒博(人大博士生),竇志成,文繼榮
通訊作者:竇志成教授
論文概述:搜索結果多樣化的目標是使得檢索得到的結果能夠儘量覆蓋用戶提出問題的所有子話題。已有的多樣化排序方法通常基於貪心選擇(Greedy Selection)過程,獨立地將每一個候選文檔與已選中的文檔序列進行比較,選擇每一個排序位置的最佳文檔,生成最後的文檔排序。而相關研究證明由於各候選文檔的邊際信息收益並非彼此獨立,貪心選擇得到的各個局部最優解將難以導向全局最佳排序。本文介紹了一種基於自注意力網絡(Self-Attention Network)的方法,可以同步地衡量全體候選文檔間的關係,以及候選文檔對不同用戶意圖的覆蓋程度,有效地克服原有方法受限於貪心選擇過程的局限性,並在TRECWebTrack09-12數據集上獲得更好的性能。
論文題目:PSTIE: Time Information Enhanced Personalized Search(長文)
作 者:馬正一(人大碩士生),竇志成,邊關月,文繼榮
通訊作者:竇志成教授
論文概述:基於深度學習的個性化搜索模型通過序列神經網絡(例如RNN)對用戶搜索歷史進行序列建模,歸納出用戶的興趣表示,取得了當前最佳的效果。但是,這一類模型忽略了用戶搜索行為之間細粒度的時間信息,而只關注了搜索行為之間的相對順序。實際上,用戶每次查詢之間的時間間隔可以幫助模型更加準確地對用戶查詢意圖與文檔興趣的演化進行建模。同時,用戶歷史查詢與當前查詢之間的時間間隔可以直接幫助模型計算用戶的重查找(re-finding)行為概率。基於此,本文提出了一個時間信息增強的個性化搜索模型。我們設計了兩種時間感知的LSTM結構在連續時間空間中對用戶興趣進行建模,同時直接將時間信息利用在計算用戶重查找概率中,計算出了更加準確的用戶長短期興趣表示。我們提出了兩種將用戶興趣表示用於個性化排序的策略,並在兩個真實數據集上取得了更好的效果。
論文題目:Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network(長文)
作 者:卞書青(人大博士生),陳旭,趙鑫,周昆,侯宇蓬,宋洋,文繼榮
通訊作者:趙鑫教授
論文概述:隨著在線招聘規模的不斷增長,求職領域下的人崗匹配已經成為最重要的任務。人崗匹配任務通常可以看作文本匹配問題。當監督數據足夠多時,模型的學習效果是有用的。但是在線招聘平臺上,職位和簡歷的交互數據稀疏且帶有噪聲,這會影響求職簡歷匹配算法的性能。為了緩解這些問題,本文提出了一種多視圖協同教學網絡用來解決人崗匹配中的數據稀疏和噪聲問題,匹配網絡包含兩個主要模塊,即基於文本的匹配模型和基於關係的匹配模型。這兩個部分在兩個不同的視圖中捕獲了語義信息並且相互補充。為解決數據稀疏和噪聲數據帶來的挑戰,我們設計了兩種特定策略。首先,兩個模塊共享學習的參數和表示,以增強每個模塊的初始的表示。更重要的,我們採用了一種協同教學的機制來減少噪聲對訓練數據的影響。核心思想是讓這兩個模塊通過選擇更可靠的訓練實例來互相幫助。這兩種策略分別關注於表示增強和數據增強。與基於純文本的匹配模型相比,所提出的方法能夠從有限的甚至稀疏的交互數據中學習更好的表示,對訓練數據中的噪聲具有一定的抵抗能力。實驗結果表明,我們的模型均優於現有的方法。
論文題目:Knowledge-Enhanced Personalized Review Generation with Capsule Graph Neural Network(長文)
作 者:李軍毅(人大博士生),李思晴,趙鑫,何高樂,魏志成,袁晶,文繼榮
通訊作者:趙鑫教授
論文概述:個性化評論生成(PRG)任務旨在自動生成反映用戶偏好的評論文本。以前的大多數研究都沒有明確建模物品的事實描述,因此傾向於生成無信息的內容。而且,這些研究主要集中在單詞層面的生成,無法準確反映出用戶在多個主題上的抽象偏好。針對上述問題,我們提出了一種基於膠囊圖神經網絡(Caps-GNN)的知識增強個性化評論生成模型。我們首先構造一個異構知識圖譜(HKG),充分利用豐富的物品屬性。我們採用Caps-GNN學習到HKG圖膠囊,用於編碼HKG的隱含特徵。我們的生成過程包含兩個主要步驟,即主題序列生成和句子生成。首先,基於圖膠囊,我們自適應地學習了主題膠囊,以推斷主題序列。然後,根據推斷的主題標籤,我們設計了一種基於圖的拷貝機制,通過引入HKG的相關實體或單詞來生成句子。本文是第一個將知識圖譜用於個性化評論生成任務,引入的KG信息能夠增強用戶在主題和單詞層面上的偏好。實驗表明,我們的模型對於個性化評論生成任務具有更好的效果。
論文題目:S3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization(長文)
作 者:周昆(人大博士生),王輝(人大碩士生),趙鑫,朱餘韜,王思睿,張富錚,王仲遠,文繼榮
通訊作者:趙鑫教授
論文概述:近年來,深度學習在序列化推薦領域取得了巨大成功,已有的序列化推薦模型通常依賴於商品預測的損失函數進行參數訓練。但是該損失函數會導致數據稀疏和過擬合問題,其忽視了上下文數據與序列數據之間的關聯,使得數據的表示學習的並不充分。
為解決該問題,本文提出了S3-Rec這一模型,該模型基於自注意力是模型框架,利用四個額外的自監督訓練函數來學習屬性、商品、序列之間的特殊關係。在這裡,本文採用了互信息最大化技術來構造這些自監督函數,以此來統一這些關係。在六個數據集上的充分實驗表明本文提出的模型能夠取得State-of-the-art的效果,其在數據量受限和其他推薦模型上也能帶來較大的提升。