騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域

2020-12-27 泡泡網

騰訊優圖11篇論文入選，涵蓋動作識別、人群密度估計、人臉安全等領域

2020年12月11日 22:04作者：網絡編輯：王動

近日，國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交，其中有效審稿的數量為7911篇，最終錄取數量為1692篇，錄取率為21.4%。

AAAI(Association for the Advance of Artificial Intelligence), 即美國人工智慧協會，是人工智慧領域的主要學術組織之一，其主辦的年會也是人工智慧領域的國際頂級會議。在中國計算機學會的國際學術會議排名以及清華大學新發布的計算機科學推薦學術會議和期刊列表中，AAAI 均被列為人工智慧領域的 A 類頂級會議。

本次AAAI 騰訊優圖實驗室共入選了11篇論文，涉及動作識別、人群密度估計、人臉安全等領域，展現了騰訊在計算機視覺領域的技術實力。

以下為部分騰訊優圖入選AAAI 2021的論文：

學習用於動作識別的全面運動特徵表達

Learning Comprehensive Motion Representation for Action Recognition

運動特徵在動作識別中起到非常重要的作用。基於2D CNN的方法雖然高效，但是由於對每一幀都採用相同的二維卷積核，會產生大量的冗餘和重複特徵。近期有一些工作通過建立幀間的聯繫獲取運動信息，但是依然存在感受野有限的問題。此外，特徵的增強依舊只在通道或者空間維度單獨進行。為了解決這些問題，騰訊優圖首先提出了一個通道特徵增強模塊（CME）自適應地增強與運動相關的通道。增強係數通過分析整段視頻的信息獲得。根據相鄰特徵圖之間的點對點相似性，騰訊優圖進一步提出了一種空間運動增強（SME）模塊，以指導模型集中於包含運動關鍵目標的區域，其背後的直覺是背景區域的變化通常比視頻的運動區域慢。通過將CME和SME集成到現成的2D網絡中，騰訊優圖最終獲得了用於動作識別的全面運動特徵學習方法。騰訊優圖的方法在三個公共數據集上取得了有競爭力的表現：Something-Something V1＆V2和Kinetics-400。特別是在時序推理數據集Something-Something V1和V2上，當使用16幀作為輸入時，騰訊優圖的方法比之前最好的方法高2.3％和1.9％。

選擇還是融合？基於自適應尺度選擇的人群密度估計

To Choose or to Fuse? Scale Selection for Crowd Counting

本文提出了一種高效地充分利用網絡內部多尺度特徵表示的方法，能夠有效解決人群密度估計中的大範圍尺度變化問題。具體地，考慮到每層特徵都有各自最擅長預測的人群尺度範圍，本文提出了一種圖像塊級別的特徵層選擇策略來實現儘可能小的計數誤差。顯然，在沒有人群尺度標註信息的情況下，任何人工指定人群尺度與特徵層對應關係的方法都是次優的並會帶來額外誤差。相反地，本文提出的尺度自適應選擇網絡SASNet可以自動地學習這種對應關係，並通過軟選擇的方式來緩解離散的特徵層與連續的人群尺度變化之間的矛盾。由於SASNet為同一圖像塊內相似尺度的人群選擇同一特徵層，直接使用傳統的像素級損失函數會忽略圖像塊內部不同樣本間各異的學習難度。因此，本文還提出了一種金字塔區域感知損失（PRA Loss），從圖像塊級別開始以一種自上而下的方式迭代地選擇最困難的樣本來優化。鑑於PRA Loss能夠根據上層父圖像塊是過預測還是欠預測來選擇困難樣本，因此還能夠緩解業界普遍面臨的訓練目標最小化和計數誤差最小化之間不一致的問題。騰訊優圖的方法在多達四個公開數據集上取得了優異的性能。

解耦場景和運動的無監督視頻表徵學習

Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

相比於圖像表徵學習, 視頻表徵學習中的一個重要因素是物體運動信息(Object Motion)。然而騰訊優圖發現, 在當前主流的視頻數據集中, 一些動作類別會和發生的場景強相關, 導致模型往往只關注了場景信息。比如, 模型可能僅僅因為發生的場景是足球場, 就將拉拉隊員在足球場上跳舞的視頻判斷成了踢足球。這違背了視頻表徵學習最初的目的, 即學習物體運動信息, 並且不容忽視的是, 不同的數據集可能會帶來不同的場景偏見(Scene Bias)。為了解決這個問題, 騰訊優圖提出了用兩個簡單的操作來解耦合場景和運動(Decoupling the Scene and the Motion, DSM), 以此來到達讓模型更加關注運動信息的目的。具體來說, 騰訊優圖為每段視頻都會構造一個正樣本和一個負樣本, 相比於原始視頻, 正樣本的運動信息沒有發生變化, 但場景被破壞掉了, 而負樣本的運動信息發生了改變, 但場景信息基本被保留了下來。構造正負樣本的操作分別叫做Spatial Local Disturbance和Temporal Local Disturbance。騰訊優圖的優化目標是在隱空間在拉近正樣本和原始視頻的同時, 推遠負樣本。用這種方式, 場景帶來的負面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優圖在兩個任務上, 用不同的網絡結構、不同的預訓練數據集進行了實驗驗證, 發現騰訊優圖方法在動作識別任務上, 在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。

面向真實圖像超解析度的頻率一致性自適應方法Frequency Consistent Adaptation for Real World Super Resolution

最近的基於深度學習的超解析度（SR）方法在具有已知降質的圖像上取得了卓越的性能。但是，這些方法在現實世界中總是會失敗，因為理想退化（例如，雙三次降採樣）之後的低解析度（LR）圖像會偏離真實源域。在頻率密度上可以清楚地觀察到LR圖像和真實世界圖像之間的域間隙，這啟發騰訊優圖顯式地縮小由於不正確的降質而導致的間隙。從這個角度出發，騰訊優圖設計了一種新穎的頻率一致性自適應方法（FCA），能夠確保將現有SR方法應用於真實場景時保持頻域一致性。騰訊優圖從無監督的圖像中估計退化內核，並生成相應的LR圖像。為了給核估計提供有用的梯度信息，騰訊優圖提出了通過區分不同尺度圖像的頻率密度的頻率密度比較器（FDC）。基於域一致的LR-HR對，騰訊優圖訓練了易於實現的卷積神經網絡（CNN）SR模型。大量實驗表明，所提出的FCA在真實環境下提高了SR模型的性能，以高保真度和合理的感知度獲得了最先進的結果，從而為實際SR應用提供了一種新穎有效的框架。

混合域活體檢測中的通用表徵學習

Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing

基於域泛化的活體檢測技術對未知場景有更好的泛化性，受到了工業界和學術界的廣泛關注。已有的域泛化方法需要域標籤的支持，然而在實際場景中，所收集到的往往是域信息不可知的混合數據。在這種場景下，大多數已有的方法是不可用的。而且域劃分的方式可以有多種，因此單一固定的劃分方法可能只是次優解。

為解決實際混合數據問題，騰訊優圖提出了一種基於迭代式無監督子域劃分的元學習方法。該方法無需域標籤，通過高鑑別性的域特徵實現子域劃分，並通過元學習的方式進行模型的優化。具體來說，騰訊優圖基於實例正則化定義了域信息表示，並設計了域表示學習模塊（DRLM）來提取高鑑別性的域特徵用以精準的域聚類。

此外，為了緩解離群點對聚類的阻礙，騰訊優圖採用最大均值差異（MMD）來校正樣本特徵分布與先驗分布的差異，以增強聚類的可靠性。實驗結果表明騰訊優圖的方法（D2AM）優於傳統的域泛化方法，包括使用域標籤的方法，為實際場景下活體技術的應用提供了有效框架。

基於局部關聯學習的人臉偽造檢測

Local Relation Learning for Face Forgery Detection

隨著人臉編輯技術的快速發展，人臉內容取證引起了廣泛的關注。大多數現有方法往往利用二值類別標籤或偽造區域等監督信息來解決人臉偽造檢測任務。然而，由於沒有考慮到局部區域間的關聯，這些全局監督信息不足以學習到泛化性強的特徵，往往容易過擬合。

為了解決這個問題，騰訊優圖提出了一種通過局部關聯學習來進行人臉偽造檢測的新方法。具體而言，騰訊優圖提出了一個多尺度局部相似性模塊（MPSM），該模塊通過衡量局部區域特徵間的相似性來構造一種泛化性強、魯棒性高的相似模式。

此外，騰訊優圖還提出了一個RGB-頻域注意力模塊（RFAM）來融合RGB圖像和頻域信息，從而得到更全面的局部特徵表示，進一步提高了相似模式的可靠性。大量的實驗表明騰訊優圖所提出的方法在多個數據集上優於現有的方法，同時詳細的可視化也充分證明了騰訊優圖方法的魯棒性和可解釋性。

基於可泛化樣本選擇的行人重識別方法

One for More: Selecting Generalizable Samples for Generalizable ReID Model

現有行人重新識別（ReID）模型的訓練目標是在當前批次樣本上模型的損失減少，而與其他批次樣本的性能無關。它將不可避免地導致模型過擬合到某些樣本（例如，不平衡類中的頭部數據，簡單樣本或噪聲樣本）。目前有基於採樣的方法通過設計特定準則來選擇特定樣本來解決該問題，這些方法對某些類型的數據（例如難樣本，尾部數據）施加了更多的關注，這不適用於真實的ReID數據分布。因此，本文將所選樣本的泛化能力作為損失函數，並學習一個採樣器來自動選擇可泛化樣本，而不是簡單地推測哪些樣本更有意義。更重要的是，騰訊優圖提出的基於可泛化能力的採樣器可以無縫集成到ReID訓練框架中，該框架能夠以端到端的方式同時訓練ReID模型和採樣器。實驗結果表明，該方法可以有效地改善ReID模型的訓練，提高ReID模型的性能。

Learning a Few-shot Embedding Model by Contrastive Learning

基於對比學習的小樣本植入模型

小樣本學習是根據少量的先驗信息去對於目標目標類別進行分類。這些信息一般沉澱在一個深度模型中，用來對支持集和問詢集進行匹配。本文的目標是利用對比學習的方法學習一個小樣本植入模型，具體貢獻如下：

（1）騰訊優圖深入研究噪聲對比估計方法，並利用它來訓練小樣本植入模型。

（2）騰訊優圖提出一個名為infoPatch的植入模型方法，智能挖掘局部的聯繫，保證穩步提升小樣本分類的能力。

（3）騰訊優圖在文章中展示了infoPatch的有效性。

（4）騰訊優圖的模型的指標在三個常用數據集miniImageNet，tieredImageNet和ewshot-CIFAR100上都達到了頂尖水準。

基於Transformer結構層內-層間聯合全局表示的圖像描述

Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network

本論文由騰訊優圖實驗室與廈門大學合作完成。

基於Transformer的結構近來在圖像描述任務中取得了巨大的成功，這些模型的範式都是將目標regions編碼成隱含特徵實現描述的解碼。然而，騰訊優圖發現這些隱含特徵僅僅涵蓋了region級別的局部特徵，忽略了考慮整張圖片的全局特徵的建模，使得模型難以進一步拓展在圖像描述中的複雜多模態推理能力。因此，這篇文章騰訊優圖提出了一個新的模型GET，同時提取更為綜合的全局信息並將全局信息作為自適應引導信號生成更為高質量的圖像描述。具體而言，在該模型中，騰訊優圖首先設計了一個全局加強的編碼器和全局自適應的解碼器，其中前者利用Transformer層級結構特點，提取層內-層間聯合全局特徵，後者則利用全局自適應控制器，控制全局特徵融入解碼器來指導圖像描述的生成。本文在MS COCO數據集上的實驗證明了騰訊優圖相對於當前最先進模型的優勢。

基於雙層級特徵協同Transformer的圖像描述生成

Dual-level Collaborative Transformer for Image Captioning

本論文由騰訊優圖實驗室與廈門大學合作完成。

由目標檢測網絡提取的區域特徵在圖像描述生成的發展中起著重要的作用。然而，這種特徵中缺乏上下文信息和細粒度細節，而這正是網格特徵的優點。本文提出了一種新的雙層級特徵協同Transformer，以實現兩者的優勢互補。具體地說，在DLCT中，騰訊優圖首先使用DWSA來挖掘它們的內在特性，並在其中引入綜合關係注意力機制來嵌入幾何信息。此外，騰訊優圖還提出了LCCA模塊，目的是解決這兩個特徵直接融合所產生的語義噪聲問題，通過構造幾何對齊圖來精確對齊和增強區域和網格特徵。為了驗證騰訊優圖的模型，騰訊優圖在基準數據集MS-COCO上進行了大量的實驗，並在本地和在線測試集上實現了SOTA性能，

在Karpathy 測試集上達到133.8%的CIDEr得分，在官方測試集上達到135.4%的CIDEr得分。

圖博弈嵌入

Graph Game Embedding

本論文由騰訊優圖實驗室與南京理工大學合作完成。

圖嵌入旨在將節點/邊編碼為低維連續特徵，已成為圖分析的重要工具並被應用於圖/節點分類，連結預測等任務。在本文中，騰訊優圖提出了一種新穎的名為圖博弈嵌入的圖學習框架，以學習具有判別性的節點表示並對圖結構進行編碼。受博弈學習理論的啟發，節點嵌入被轉換為博弈過程中玩家策略的選擇/搜索過程，其中每個節點對應一個玩家，而每條邊對應於兩個玩家之間的交互。然後，定義了一個在理論上滿足納什均衡的收益函數以衡量圖演化過程中參與玩家（節點）的收益/損失。更進一步地，引入了一種合作與競爭機制以提高該框架的判別學習能力。在上述圖博弈嵌入框架下，考慮節點的不同交互方式，騰訊優圖提出了兩種具體模型，即對交互圖博弈嵌入模型和群組圖博弈嵌入模型。與現有的圖嵌入方法相比，本文所提出的框架具有兩個優點：（1）所設計的收益函數保證了圖網絡的穩定演化，滿足納什均衡且具有收斂性的理論保證；（2）所引入的協作和競爭機制可指導每個節點學習到區別於其他節點的優化策略，從而賦予圖博弈嵌入框架以學習具有判別性特徵的能力。騰訊優圖在三個關於引文網絡的公共數據集上對所提出的方法進行了評測，實驗結果驗證了其有效性。

騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域