2018年4月17日,據人工智慧領域頂級國際會議The 27th International Joint Conference on Artificial Intelligence(IJCAI 2018)通知,北京大學計算機科學技術研究所彭宇新課題組的6篇論文被IJCAI 2018錄用為口頭報告論文(共投稿7篇),彭宇新教授是這6篇論文的通訊作者。其中兩篇論文的第一作者為大四本科生張晨睿(已保研),兩篇論文的第一作者為二年級碩士生綦金瑋。這6篇論文的研究內容涉及跨媒體分析與檢索、視頻內容分析、圖像細粒度分類等方向。
The 27th International Joint Conference on Artificial Intelligence (IJCAI) 將於2018年7月13日至19日在瑞典斯德哥爾摩舉行。IJCAI是人工智慧領域的頂級國際會議,也是CCF A類會議,從1969年至2015年每兩年舉辦一次,從2016年起每年舉辦一次。ECAI是歐洲人工智慧領域最重要的國際會議,從1974 年每兩年舉辦一次。IJCAI-ECAI 2018將由IJCAI、EurAI和SAIS聯合舉辦。IJCAI 2018共有3470篇論文提交,錄用率為20.5%。
這6篇論文的主要研究內容如下:
(1) Better and Faster: Knowledge Transfer from Multiple Self-supervised Learning Tasks via Graph Distillation for Video Classification
作者:張晨睿,彭宇新
視頻表徵學習在視頻分類中發揮著重要作用。近年來興起的自監督學習方法可以利用視頻內部豐富的上下文信息作為監督信號,通過設計輔助任務的方式實現無監督視頻表徵學習。然而,現有的自監督學習方法僅考慮了單一的輔助任務,忽略了不同任務之間的互補性;同時,視頻分類模型的參數眾多,高昂的計算和存儲開銷限制了這些方法在實際中的應用。針對上述問題,本文提出了一種圖蒸餾學習框架,旨在利用多種自監督任務之間的互補性和信息冗餘性,以更少的模型參數學習更魯棒的視頻表徵。具體地,在分類器級別和內部特徵級別對多種自監督學習模型的知識進行提取。文章在分類器級別,將知識蒸餾看作是一個多分布聯合匹配問題,利用Earth Mover距離作為蒸餾圖的邊信息流,動態地學習類別間不同表徵的互補性;在內部表徵級別,利用緊湊雙線性池化構建蒸餾圖結點,進而通過最大平均差異度量實現內部特徵模式的動態遷移。實驗結果證明了本文方法的有效性。
(2) Visual Data Synthesis via GAN for Zero-Shot Video Classification
作者:張晨睿,彭宇新
現有零樣本學習方法採用特徵嵌入的方式實現對語義信息的利用,從而建立從源域到目標域的語義關聯。然而,這種方法忽略了數據分布中隱含的判別力信息,而且存在信息退化的問題,因此難以在複雜的視頻零樣本分類中取得好的效果。針對上述問題,本文提出了一種基於視頻特徵生成的零樣本分類方法,利用對抗學習建立視頻特徵和語義信息之間的聯合分布,藉助生成的視頻特徵訓練分類器以實現從零樣本分類到有監督分類的轉化。具體地,本文提出了一種對抗式雙向合成的方法,在利用語義信息合成視頻特徵的同時,建立從視頻特徵到語義信息的推斷,保證了所合成視頻特徵的判別力和魯棒性。同時,為了應對視頻特徵和語義信息之間的「異構鴻溝」問題,本文提出了一種基於互信息的視覺-語義關聯約束,從統計依賴的角度實現語義關聯知識的遷移。實驗結果證明了本文方法的有效性。
(3) Cross-modal Bidirectional Translation via Reinforcement Learning
作者:綦金瑋,彭宇新
本文將機器翻譯的思想應用到跨媒體檢索中,將圖像和文本看作兩種不同的語言,提出了跨模態雙向翻譯方法,同時結合強化學習來提升翻譯效果。首先,設計了跨模態翻譯機制,並構建基於循環神經網絡的序列模型挖掘圖像和文本的細粒度上下文信息,同時在圖像和文本各自的特徵空間之間實現相互翻譯,不僅能夠充分利用不同模態內部特有的信息,而且通過雙向翻譯的過程有效地促進跨模態關聯學習。然後,本文提出了跨模態強化學習策略,並設計了兩種獎勵信號包括模態間關聯學習誤差和模態內重建誤差,通過兩者之間的相互促進能夠進一步提高跨模態關聯學習的效果。本文方法的有效性在三個廣泛使用的跨模態數據集上得到了驗證,包括Wikipedia數據集、Pascal Sentence數據集和XMediaNet數據集。
(4) Cross-media Multi-level Alignment with Relation Attention Network
作者:綦金瑋,彭宇新,袁玉鑫
現有跨媒體檢索方法僅僅考慮了圖像和文本的全局或是內部不同實體之間的對應關係,而忽略了不同媒體數據內部實體關係之間的對應。針對上述問題,本文提出了跨媒體關係注意力網絡,實現了不同媒體數據之間的多級對齊。首先,本文提出了視覺-語言關係注意力模型,分別提取圖像內部表示實體的局部區域及其之間的關係,並從文本中挖掘出描述實體關係的關鍵詞,能夠為跨媒體關聯學習提供充足且具有互補性的信息。然後,本文提出了跨媒體多級對齊策略,分別建模圖像和文本之間的全局、實體以及實體關係三個級別的對應關係,同時通過三者的融合能夠有效地促進跨媒體關聯學習,進而提高跨媒體檢索的準確率。本文方法的有效性在兩個廣泛使用的跨媒體數據集上得到了驗證,包括Flickr-30K數據集和MS-COCO數據集。
(5) Dual Adversarial Networks for Zero-shot Cross-media Retrieval
作者:遲敬澤,彭宇新
現有的跨媒體檢索方法訓練集和測試集類別通常是完全相同的,導致不能有效地支持新類別數據的檢索。而在實際應用中,面對數量巨大且不斷增長的類別,跨媒體數據的採集和標註都是極為費時費力的。因此,如何提高對於新類別檢索的擴展能力,是跨媒體檢索走向實際應用的一大挑戰。針對零樣本跨媒體檢索問題,本文提出了跨媒體對偶對抗學習方法,利用類別語義特徵構建跨媒體統一表徵,提高對新類別跨媒體數據的檢索效果。首先,本文提出了對偶生成對抗網絡結構,跨媒體數據原始特徵與統一表徵通過生成對抗網絡進行互相轉換,兩種轉換構成對偶關係並互相促進,進一步挖掘跨媒體數據的潛在結構信息,同時加強跨媒體數據空間和語義空間的關聯。然後,本文提出針對零樣本跨媒體檢索的對抗訓練方法,使統一表徵充分建模媒體間的關聯關係,同時加強對新類別檢索的擴展能力。實驗結果證明了本文方法的有效性。
(6) StackDRL: Stacked Deep Reinforcement Learning for Fine-grained Visual Categorization
作者:何相騰,彭宇新,趙俊傑
細粒度圖像類別具有類間差異小、類內差異大的特點,其分類問題是計算機視覺領域的一個極具挑戰的任務。本文提出了堆疊式深度強化學習方法以解決細粒度視覺分類中的「which」和「how many」問題,能夠有效地定位具有辨識力的細微差異,提高細粒度分類準確率。首先,本文提出了兩階段學習方法,序列式地定位物體及其關鍵區域,並自動選擇關鍵區域的數目,避免了現有方法依賴先驗知識和實驗驗證所造成的易用性和可擴展性上的局限性。其次,本文提出語義獎懲函數,使得模型能夠定位更具辨識力和代表性的區域。進一步,本文通過強化學習方法以及注意力獎懲模型,實現了無監督條件下的關鍵區域定位,提高了圖像細粒度的分類效果。
編輯:白楊