7篇必讀ACM MM 2019論文:圖神經網絡+多媒體

2020-12-04 騰訊網

新智元報導

編輯:張佳、大明、鵬飛

【新智元導讀】多媒體國際頂級會議 ACM Multimedia 2019已於2019年10月21日至25日在法國尼斯舉行。圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。來新智元 AI 朋友圈和AI大咖們一起討論吧。

多媒體國際頂級會議 ACM Multimedia 2019已於2019年10月21日至25日在法國尼斯舉行。圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。

1. MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video

作者:Yinwei Wei,Xiang Wang,Liqiang Nie,Xiangnan He,Richang Hong,Tat-Seng Chua。

摘要:個性化推薦在許多在線內容共享平臺中起著核心作用。為了提供優質的微視頻推薦服務,重要的是考慮用戶與項目(即短視頻)之間的交互以及來自各種模態(例如視覺,聽覺和文本)的項目內容。現有的多媒體推薦作品在很大程度上利用多模態內容來豐富項目表示,而為利用用戶和項目之間的信息交換來增強用戶表示並進一步捕獲用戶對不同模式的細粒度偏好所做的工作卻較少。在本文中,我們建議利用用戶-項目交互來指導每種模式中的表示學習,並進一步個性化微視頻推薦。我們基於圖神經網絡的消息傳遞思想設計了一個多模態圖卷積網絡(MMGCN)框架,該框架可以生成用戶和微視頻的特定模態表示,以更好地捕獲用戶的偏好。具體來說,我們在每個模態中構造一個user-item二部圖,並用其鄰居的拓撲結構和特徵豐富每個節點的表示。通過在三個公開可用的數據集Tiktok,Kwai和MovieLens上進行的大量實驗,我們證明了我們提出的模型能夠明顯優於目前最新的多模態推薦方法。

網址:

https://dl.acm.org/citation.cfm?id=3351034

2. Routing Micro-videos via A Temporal Graph-guided Recommendation System

作者:Yongqi Li,Meng Liu,Jianhua Yin,Chaoran Cui,Xin-Shun Xu,Liqiang Nie。

摘要:在過去的幾年中,短視頻已成為社交媒體時代的主流趨勢。同時,隨著短視頻數量的增加,用戶經常被他們不感興趣的視頻所淹沒。儘管現有的針對各種社區的推薦系統已經取得了成功,但由於短視頻平臺中的用戶具有其獨特的特徵:多樣化的動態興趣,多層次的興趣以及負樣本,因此它們無法應用於短視頻的一種好的方式。為了解決這些問題,我們提出了一個時間圖指導的推薦系統。特別是,我們首先設計了一個新穎的基於圖的順序網絡,以同時對用戶的動態興趣和多樣化興趣進行建模。同樣,可以從用戶的真實負樣本中捕獲不感興趣的信息。除此之外,我們通過用戶矩陣將用戶的多層次興趣引入推薦模型,該矩陣能夠學習用戶興趣的增強表示。最後,系統可以通過考慮上述特徵做出準確的推薦。在兩個公共數據集上的實驗結果證明了我們提出的模型的有效性。

網址:

https://dl.acm.org/citation.cfm?id=3350950

3. MvsGCN: A Novel Graph Convolutional Network for Multi-video Summarization

作者:Jiaxin Wu,Sheng-hua Zhong,Yan Liu。

摘要:試圖為視頻集合生成單個摘要的多視頻摘要,是處理不斷增長的視頻數據的重要任務。在本文中,我們第一個提出用於多視頻摘要的圖卷積網絡。這個新穎的網絡衡量了每個視頻在其自己的視頻以及整個視頻集中的重要性和相關性。提出了一種重要的節點採樣方法,以強調有效的特徵,這些特徵更有可能被選擇作為最終的視頻摘要。為了解決視頻摘要任務中固有的類不平衡問題,提出了兩種策略集成到網絡中。針對多樣性的損失正則化用於鼓勵生成多樣化的摘要。通過大量的實驗,與傳統的和最新的圖模型以及最新的視頻摘要方法進行了比較,我們提出的模型可有效地生成具有良好多樣性的多個視頻的代表性摘要。它還在兩個標準視頻摘要數據集上達到了最先進的性能。

網址:

https://dl.acm.org/citation.cfm?doid=3343031.3350938

4. Deep Adversarial Graph Attention Convolution Network for Text-Based Person Search

作者:Jiawei Liu,Zheng-Jun Zha,Richang Hong,Meng Wang,Yongdong Zhang。

摘要:新出現的基於文本的行人搜索任務旨在通過對自然語言的查詢以及對行人的詳細描述來檢索目標行人。與基於圖像/視頻的人搜索(即人重新識別)相比,它實際上更適用,而不需要對行人進行圖像/視頻查詢。在這項工作中,我們提出了一種新穎的深度對抗圖注意力卷積網絡(A-GANet),用於基於文本的行人搜索。A-GANet利用文本和視覺場景圖,包括對象屬性和關係,從文本查詢和行人畫廊圖像到學習信息豐富的文本和視覺表示。它以對抗性學習的方式學習有效的文本-視覺聯合潛在特徵空間,彌合模態差距並促進行人匹配。具體來說,A-GANet由圖像圖注意力網絡,文本圖注意力網絡和對抗學習模塊組成。圖像和文本圖形注意網絡設計了一個新的圖注意卷積層,可以在學習文本和視覺特徵時有效利用圖形結構,從而實現精確而有區別的表示。開發了具有特徵轉換器和模態鑑別器的對抗學習模塊,以學習用於跨模態匹配的聯合文本-視覺特徵空間。在兩個具有挑戰性的基準(即CUHK-PEDES和Flickr30k數據集)上的大量實驗結果證明了該方法的有效性。

網址:

https://dl.acm.org/citation.cfm?id=3350991

5. DoT-GNN: Domain-Transferred Graph Neural Network for Group Re-identification

作者:Ziling Huang,Zheng Wang,Wei Hu,Chia-Wen Lin,Shin』ichi Satoh。

摘要:大多數行人再識別(ReID)方法的重點是從收集的個人圖像資料庫中檢索感興趣的人。除了單獨的ReID任務外,在不同的攝像機視圖中匹配一組人在監視應用程式中也起著重要作用。這種組重新標識(G-ReID)任務非常具有挑戰性,因為我們不僅要面對個人外觀變化所面臨的障礙,而且還要面對組布局和成員身份變化所面臨的障礙。為了獲得群體圖像的魯棒表示,我們設計了一種域轉移圖神經網絡(DoT-GNN)方法。優點包括三個方面:1)風格轉移。由於缺少訓練樣本,我們將標記的ReID數據集轉移到G-ReID數據集樣式,並將轉移的樣本提供給深度學習模型。利用深度學習模型的優勢,我們實現了可區分的個體特徵模型。2)圖生成。我們將組視為圖,其中每個節點表示單個特徵,每個邊沿表示幾個個體之間的關係。我們提出了一種圖生成策略來創建足夠的圖形樣本。3)圖神經網絡。利用生成的圖樣本,我們訓練GNN,以獲取對大型圖變化具有魯棒性的圖特徵。DoT-GNN成功的關鍵在於轉移的圖形解決了外觀變化的挑戰,而GNN中的圖表示克服了布局和成員資格變化的挑戰。大量的實驗結果證明了我們方法的有效性,分別在Road Group數據集上的1.8%的CMC-1和DukeMCMT數據集上的6.0%的CMC-1上優於最先進的方法。

網址:

https://dl.acm.org/citation.cfm?id=3351027

6.VideoRelation Detection with Spatio-Temporal Graph

作者:Xufeng Qian,Yueting Zhuang,Yimeng Li ,Shaoning Xiao,Shiliang Pu,Jun Xiao。

摘要:我們從視覺內容中看到的不僅是對象的集合,還包括它們之間的相互作用。用三元組表示的視覺關係可以傳達大量信息,以供視覺理解。與靜態圖像不同,由於附加的時間通道,視頻中的動態關係通常在空間和時間維度上都相關,這使得視頻中的關係檢測變得更加複雜和具有挑戰性。在本文中,我們將視頻抽象為完全連接的時空圖。我們使用圖卷積網絡使用新穎的VidVRD模型在這些3D圖中傳遞消息並進行推理。我們的模型可以利用時空上下文提示來更好地預測對象及其動態關係。此外,提出了一種使用暹羅網絡的在線關聯方法來進行精確的關係實例關聯。通過將我們的模型(VRD-GCN)與所提出的關聯方法相結合,我們的視頻關係檢測框架在最新基準測試中獲得了最佳性能。我們在基準ImageNet-VidVRD數據集上驗證了我們的方法。實驗結果表明,我們的框架在很大程度上領先於最新技術,一系列的消去研究證明了我們方法的有效性。

網址:

https://dl.acm.org/citation.cfm?doid=3343031.3351058

7. Hierarchical Graph Semantic Pooling Network for Multi-modal Community Question Answer Matching

作者:Jun Hu,Shengsheng Qian, Quan Fang,Changsheng Xu。

摘要:如今,社區問答(CQA)系統吸引了數百萬用戶分享其寶貴的知識。為特定問題匹配相關答案是CQA系統的核心功能。以前的基於交互的匹配方法在CQA系統中顯示出令人鼓舞的性能。但是,它們通常受到兩個限制:(1)他們通常將內容建模為單詞序列,而忽略了非連續短語,長途單詞依賴性和視覺信息所提供的語義。(2)單詞級交互作用集中在位置上相似單詞的分布上,而與問題和答案之間的語義級交互作用無關。為了解決這些限制,我們提出了一種多層圖語義池化網絡(HGSPN),以在用於多模態CQA匹配的統一框架中對層次結構語義級別的交互進行建模。我們將將文本內容轉換為圖形,而不是將文本內容轉換為單詞序列,從而可以對非連續短語和長距離單詞相關性進行建模,以更好地獲取語義的組成。此外,視覺內容也被建模到圖中來提供補充的語義。提出了一種設計良好的堆疊圖池網絡,以基於這些圖捕獲問答之間的分層語義級別的交互。設計了一種新穎的卷積匹配網絡,通過集成分層語義級別的交互功能來推斷匹配分數。在兩個真實數據集上的實驗結果表明,我們的模型優於最新的CQA匹配模型。

網址:

https://dl.acm.org/citation.cfm?doid=3343031.3350966

相關焦點

  • ACM MM 2020大獎項出爐!南開獲最佳論文獎,西安交大獲最佳學生論文獎
    第28屆ACM國際多媒體會議(ACM MM)最佳論文獎、最佳學生論文獎、最佳demo獎、 最佳開源軟體獎在內的所有多媒體領域大獎都已出爐。其中最佳論文的一作是來自南開大學Hongru Liang,最佳學生論文的一作是來自西安交大的Wenbo Zheng。
  • 網絡表示學習領域(NRL/NE)必讀論文匯總
    (NRL: network representation learning)和網絡嵌入研究領域(NE: network embedding)必讀論文清單。這份清單共包含 5 篇綜述論文和 64 篇會議期刊論文。同時兩位研究者在 GitHub 上發布了 NE / NERL 的開源工具包 OpenNE。該庫提供了標準的 NE / NRL(網絡表示學習)培訓和測試框架,目前在 OpenNE 中實現的模型包括 DeepWalk,LINE,node2vec,GraRep,TADW 和 GCN。
  • 國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文出爐
    國內學者佔據四成今年的 CIKM 收到 1676 篇提交論文(其中包括 1031 篇長論文和 471 篇短論文),經過同行評審,共有 202 篇長論文、107 篇短論文和 37 篇應用研究論文被接收。總接受率約為 21%。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    NeurIPS 2020 | 圖機器學習NeurIPS'20: 80多篇與圖相關的論文整理與小結 (更新中)圖神經網絡說難不難,說容易不容易。如果你還沒有入門,不用著急,站在他人的肩膀上,你會看的輕鬆一點,歡迎參考從下面的學習路線1 Tutorial教程合集(入門必讀)為什麼要進行圖嵌入表示?
  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    機器之心原創作者:立早編輯:H4O本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢。神經網絡壓縮方向是目前深度學習研究的一個熱門的方向,其主要的研究方向是壓縮,蒸餾,網絡架構搜索,量化等。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。
  • ACMMM前瞻:華人在多媒體方向越來越重要
    雷鋒網將赴前線帶來一手報導,並對論文及大會概況進行梳理。本次舉辦地點為著名的Computer History Musume,相應,大會也打出了「Let's Make History」的口號。讓我們先看一組數據:據 ACM MM2017 組委會介紹,今年會議共收到 684 篇論文,收錄189篇論文,錄取率27.63%,另有64篇論文進入Workshop環節進行展示。
  • 17篇論文,詳解圖的機器學習趨勢 | NeurIPS 2019
    在NeurIPS 2019上,僅主會場就有 100多個與圖相關的論文;另外,至少有三個workshop的主題與圖有關:我們希望在接下來的這篇文章裡,能夠儘可能完整地討論基於圖的機器學習的研究趨勢,當然顯然不會包括所有。
  • 斯坦福ICLR2019圖網絡最新論文:圖神經網絡的表徵能力有多強?
    Networks,GNN)的研究熱情日益高漲,圖網絡已經成為2019年各大深度學習頂會的研究熱點。本文介紹ICLR2019的一篇論文,提出基於WL圖同構測試的理論框架,為眾多的GNN框架給出了精彩的理論分析,並提出了一個簡單但是強大的圖網絡框架 GIN(Graph Isomorphism Networks),並驗證了GIN在圖分類任務上的卓越性能。
  • AI專家們推薦的13篇「必讀」論文
    我們在一月份的時候就和Jeff談過,當時他不能只選一篇論文作為必讀,所以我們讓他選了兩篇。下面列出這兩篇論文。Learning to Reinforcement Learn(2016)--Jane X Wang et al.本文解讀了兩個關鍵的討論點,即稀疏訓練數據的局限性,以及循環網絡是否能在完全監督的情況下支持元學習。
  • 2019 ACM博士論文獎公布,MIT學霸吳佳俊獲榮譽提名
    2019 ACM 最佳博士論文獎這篇論文的主要貢獻是設置了測試布爾函數單調性的複雜度,並在解決 UGC(Unique Games Conjecture)方面取得了重大進展。UGC 是近似算法和複雜性理論中的最核心問題之一。
  • ACM MM最佳論文全文:通過多對抗訓練,從圖像生成詩歌
    我們請500名人類受試者來進行了圖靈測試,其中30名評估者是詩歌方面的專業人士,測試結果證明了我們方法的有效性。1 引言近來,同時涉及視覺和語言的研究引起了廣泛關注,關於圖像描述(像圖像標題技術和圖像生成短文)的研究數量呈現出爆發式的增長。[1, 4, 16, 27]。圖像描述的研究旨在根據圖像生成使用人類語言描述事實的語句。
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • ICCV 2019 論文解讀:用圖神經網絡改善視頻的多標籤分類
    :雷鋒網)AI科技評論投稿,未經允許禁止轉載。作者 | 王磊本文介紹了汽車之家團隊在ICCV 2019一篇關於視頻理解論文相關的工作。針對視頻多標籤分類的問題,論文提出了將視頻多標籤之間相關性特徵加入到網絡之中,結果證明該方法可以顯著的提高視頻多標籤分類效果。
  • ACM MM 2020|Rokid人機互動系統論文入選Oral Paper
    近日,Rokid 視覺算法團隊提出的基於 Rokid Glass 的新型人機互動系統論文 ARSketch 入選了 ACM Multimedia 2020(以下簡稱為 ACM MM),並被選作口頭報告(Oral Presentation),此類論文僅佔總投稿數的 8.9%。
  • 7位圖靈獎得主當選,新晉多位華人,2020 ACM Fellow公布
    他的主要研究領域為新型內存與存取器系統、機器學習與神經形態計算以及移動計算系統,曾出版一部書籍並發表 350 多篇文章,還擁有 93 項美國專利。此外,陳怡然教授曾在學術會議中獲得 6 個最佳論文獎和 12 個最佳論文提名獎。
  • 首屆AAAI/ACM SIGAI博士論文獎公布,姚班學霸吳佳俊獲獎
    今年7月,一年一度的 ACM 博士論文獎發布,畢業於特拉維夫大學的 Dor Minzer 獲得該獎項。吳佳俊和瑞士洛桑聯邦理工學院(EPFL)博士 Jakub Tarnawski 獲得榮譽提名獎。
  • AI專家們推薦的「必讀」論文
    我們之前寫了一篇文章,向大家推薦了一些AI必讀論文,引起很好的反響。現在,我們推出了第二篇文章。這次推薦的論文依然是分量十足、誠意滿滿,各位推薦者都認為自己推薦的論文是AI人員必讀的經典之作,不知各位讀者怎麼看。現在,我們來看看這次入選的是哪些論文吧!不過在這之前,我還是向您推薦我們之前的那一篇文章,那篇文章也絕對值得一讀。
  • CVPR 2019 神經網絡架構搜索進展綜述
    如果你只想看大體的總結,下表包含了這些工作的論文和代碼地址(前提是它開源)、它們使用的搜索算法、領域和需要的資源。如果這裡沒有涉及您的文章,可能是我的疏忽導致它被忽略了——請您及時指正。CVPR 2019的所有論文都可以在這裡找到。宏觀總結
  • 7 Papers|谷歌等用神經網絡給照片打光,沈向洋等神經語言處理綜述
    摘要:這篇論文將基於網絡的約束滿足方法進行擴展,使其包含連續變量,從而為處理時間約束提供了框架。此外,這篇論文還研究了路徑相容算法在預處理時間問題上的適用性,展示了其終止,限制了其複雜度。示例 1.1 可表示為有向約束圖。交集和組合運算。距離圖。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。