新智元報導
編輯:張佳、大明、鵬飛
【新智元導讀】多媒體國際頂級會議 ACM Multimedia 2019已於2019年10月21日至25日在法國尼斯舉行。圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。來新智元 AI 朋友圈和AI大咖們一起討論吧。
多媒體國際頂級會議 ACM Multimedia 2019已於2019年10月21日至25日在法國尼斯舉行。圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。
1. MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video
作者:Yinwei Wei,Xiang Wang,Liqiang Nie,Xiangnan He,Richang Hong,Tat-Seng Chua。
摘要:個性化推薦在許多在線內容共享平臺中起著核心作用。為了提供優質的微視頻推薦服務,重要的是考慮用戶與項目(即短視頻)之間的交互以及來自各種模態(例如視覺,聽覺和文本)的項目內容。現有的多媒體推薦作品在很大程度上利用多模態內容來豐富項目表示,而為利用用戶和項目之間的信息交換來增強用戶表示並進一步捕獲用戶對不同模式的細粒度偏好所做的工作卻較少。在本文中,我們建議利用用戶-項目交互來指導每種模式中的表示學習,並進一步個性化微視頻推薦。我們基於圖神經網絡的消息傳遞思想設計了一個多模態圖卷積網絡(MMGCN)框架,該框架可以生成用戶和微視頻的特定模態表示,以更好地捕獲用戶的偏好。具體來說,我們在每個模態中構造一個user-item二部圖,並用其鄰居的拓撲結構和特徵豐富每個節點的表示。通過在三個公開可用的數據集Tiktok,Kwai和MovieLens上進行的大量實驗,我們證明了我們提出的模型能夠明顯優於目前最新的多模態推薦方法。
網址:
https://dl.acm.org/citation.cfm?id=3351034
2. Routing Micro-videos via A Temporal Graph-guided Recommendation System
作者:Yongqi Li,Meng Liu,Jianhua Yin,Chaoran Cui,Xin-Shun Xu,Liqiang Nie。
摘要:在過去的幾年中,短視頻已成為社交媒體時代的主流趨勢。同時,隨著短視頻數量的增加,用戶經常被他們不感興趣的視頻所淹沒。儘管現有的針對各種社區的推薦系統已經取得了成功,但由於短視頻平臺中的用戶具有其獨特的特徵:多樣化的動態興趣,多層次的興趣以及負樣本,因此它們無法應用於短視頻的一種好的方式。為了解決這些問題,我們提出了一個時間圖指導的推薦系統。特別是,我們首先設計了一個新穎的基於圖的順序網絡,以同時對用戶的動態興趣和多樣化興趣進行建模。同樣,可以從用戶的真實負樣本中捕獲不感興趣的信息。除此之外,我們通過用戶矩陣將用戶的多層次興趣引入推薦模型,該矩陣能夠學習用戶興趣的增強表示。最後,系統可以通過考慮上述特徵做出準確的推薦。在兩個公共數據集上的實驗結果證明了我們提出的模型的有效性。
網址:
https://dl.acm.org/citation.cfm?id=3350950
3. MvsGCN: A Novel Graph Convolutional Network for Multi-video Summarization
作者:Jiaxin Wu,Sheng-hua Zhong,Yan Liu。
摘要:試圖為視頻集合生成單個摘要的多視頻摘要,是處理不斷增長的視頻數據的重要任務。在本文中,我們第一個提出用於多視頻摘要的圖卷積網絡。這個新穎的網絡衡量了每個視頻在其自己的視頻以及整個視頻集中的重要性和相關性。提出了一種重要的節點採樣方法,以強調有效的特徵,這些特徵更有可能被選擇作為最終的視頻摘要。為了解決視頻摘要任務中固有的類不平衡問題,提出了兩種策略集成到網絡中。針對多樣性的損失正則化用於鼓勵生成多樣化的摘要。通過大量的實驗,與傳統的和最新的圖模型以及最新的視頻摘要方法進行了比較,我們提出的模型可有效地生成具有良好多樣性的多個視頻的代表性摘要。它還在兩個標準視頻摘要數據集上達到了最先進的性能。
網址:
https://dl.acm.org/citation.cfm?doid=3343031.3350938
4. Deep Adversarial Graph Attention Convolution Network for Text-Based Person Search
作者:Jiawei Liu,Zheng-Jun Zha,Richang Hong,Meng Wang,Yongdong Zhang。
摘要:新出現的基於文本的行人搜索任務旨在通過對自然語言的查詢以及對行人的詳細描述來檢索目標行人。與基於圖像/視頻的人搜索(即人重新識別)相比,它實際上更適用,而不需要對行人進行圖像/視頻查詢。在這項工作中,我們提出了一種新穎的深度對抗圖注意力卷積網絡(A-GANet),用於基於文本的行人搜索。A-GANet利用文本和視覺場景圖,包括對象屬性和關係,從文本查詢和行人畫廊圖像到學習信息豐富的文本和視覺表示。它以對抗性學習的方式學習有效的文本-視覺聯合潛在特徵空間,彌合模態差距並促進行人匹配。具體來說,A-GANet由圖像圖注意力網絡,文本圖注意力網絡和對抗學習模塊組成。圖像和文本圖形注意網絡設計了一個新的圖注意卷積層,可以在學習文本和視覺特徵時有效利用圖形結構,從而實現精確而有區別的表示。開發了具有特徵轉換器和模態鑑別器的對抗學習模塊,以學習用於跨模態匹配的聯合文本-視覺特徵空間。在兩個具有挑戰性的基準(即CUHK-PEDES和Flickr30k數據集)上的大量實驗結果證明了該方法的有效性。
網址:
https://dl.acm.org/citation.cfm?id=3350991
5. DoT-GNN: Domain-Transferred Graph Neural Network for Group Re-identification
作者:Ziling Huang,Zheng Wang,Wei Hu,Chia-Wen Lin,Shin』ichi Satoh。
摘要:大多數行人再識別(ReID)方法的重點是從收集的個人圖像資料庫中檢索感興趣的人。除了單獨的ReID任務外,在不同的攝像機視圖中匹配一組人在監視應用程式中也起著重要作用。這種組重新標識(G-ReID)任務非常具有挑戰性,因為我們不僅要面對個人外觀變化所面臨的障礙,而且還要面對組布局和成員身份變化所面臨的障礙。為了獲得群體圖像的魯棒表示,我們設計了一種域轉移圖神經網絡(DoT-GNN)方法。優點包括三個方面:1)風格轉移。由於缺少訓練樣本,我們將標記的ReID數據集轉移到G-ReID數據集樣式,並將轉移的樣本提供給深度學習模型。利用深度學習模型的優勢,我們實現了可區分的個體特徵模型。2)圖生成。我們將組視為圖,其中每個節點表示單個特徵,每個邊沿表示幾個個體之間的關係。我們提出了一種圖生成策略來創建足夠的圖形樣本。3)圖神經網絡。利用生成的圖樣本,我們訓練GNN,以獲取對大型圖變化具有魯棒性的圖特徵。DoT-GNN成功的關鍵在於轉移的圖形解決了外觀變化的挑戰,而GNN中的圖表示克服了布局和成員資格變化的挑戰。大量的實驗結果證明了我們方法的有效性,分別在Road Group數據集上的1.8%的CMC-1和DukeMCMT數據集上的6.0%的CMC-1上優於最先進的方法。
網址:
https://dl.acm.org/citation.cfm?id=3351027
6.VideoRelation Detection with Spatio-Temporal Graph
作者:Xufeng Qian,Yueting Zhuang,Yimeng Li ,Shaoning Xiao,Shiliang Pu,Jun Xiao。
摘要:我們從視覺內容中看到的不僅是對象的集合,還包括它們之間的相互作用。用三元組表示的視覺關係可以傳達大量信息,以供視覺理解。與靜態圖像不同,由於附加的時間通道,視頻中的動態關係通常在空間和時間維度上都相關,這使得視頻中的關係檢測變得更加複雜和具有挑戰性。在本文中,我們將視頻抽象為完全連接的時空圖。我們使用圖卷積網絡使用新穎的VidVRD模型在這些3D圖中傳遞消息並進行推理。我們的模型可以利用時空上下文提示來更好地預測對象及其動態關係。此外,提出了一種使用暹羅網絡的在線關聯方法來進行精確的關係實例關聯。通過將我們的模型(VRD-GCN)與所提出的關聯方法相結合,我們的視頻關係檢測框架在最新基準測試中獲得了最佳性能。我們在基準ImageNet-VidVRD數據集上驗證了我們的方法。實驗結果表明,我們的框架在很大程度上領先於最新技術,一系列的消去研究證明了我們方法的有效性。
網址:
https://dl.acm.org/citation.cfm?doid=3343031.3351058
7. Hierarchical Graph Semantic Pooling Network for Multi-modal Community Question Answer Matching
作者:Jun Hu,Shengsheng Qian, Quan Fang,Changsheng Xu。
摘要:如今,社區問答(CQA)系統吸引了數百萬用戶分享其寶貴的知識。為特定問題匹配相關答案是CQA系統的核心功能。以前的基於交互的匹配方法在CQA系統中顯示出令人鼓舞的性能。但是,它們通常受到兩個限制:(1)他們通常將內容建模為單詞序列,而忽略了非連續短語,長途單詞依賴性和視覺信息所提供的語義。(2)單詞級交互作用集中在位置上相似單詞的分布上,而與問題和答案之間的語義級交互作用無關。為了解決這些限制,我們提出了一種多層圖語義池化網絡(HGSPN),以在用於多模態CQA匹配的統一框架中對層次結構語義級別的交互進行建模。我們將將文本內容轉換為圖形,而不是將文本內容轉換為單詞序列,從而可以對非連續短語和長距離單詞相關性進行建模,以更好地獲取語義的組成。此外,視覺內容也被建模到圖中來提供補充的語義。提出了一種設計良好的堆疊圖池網絡,以基於這些圖捕獲問答之間的分層語義級別的交互。設計了一種新穎的卷積匹配網絡,通過集成分層語義級別的交互功能來推斷匹配分數。在兩個真實數據集上的實驗結果表明,我們的模型優於最新的CQA匹配模型。
網址:
https://dl.acm.org/citation.cfm?doid=3343031.3350966