騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域

2020-12-11 極客公園

近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。

AAAI(Association for the Advance of Artificial Intelligence), 即美國人工智慧協會,是人工智慧領域的主要學術組織之一,其主辦的年會也是人工智慧領域的國際頂級會議。在中國計算機學會的國際學術會議排名以及清華大學新發布的計算機科學推薦學術會議和期刊列表中,AAAI 均被列為人工智慧領域的 A 類頂級會議。

本次AAAI 騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。

以下為部分騰訊優圖入選AAAI 2021的論文:

01

學習用於動作識別的全面運動特徵表達

Learning Comprehensive Motion Representation for Action Recognition

運動特徵在動作識別中起到非常重要的作用。基於2D CNN的方法雖然高效,但是由於對每一幀都採用相同的二維卷積核,會產生大量的冗餘和重複特徵。近期有一些工作通過建立幀間的聯繫獲取運動信息,但是依然存在感受野有限的問題。此外,特徵的增強依舊只在通道或者空間維度單獨進行。為了解決這些問題,騰訊優圖首先提出了一個通道特徵增強模塊(CME)自適應地增強與運動相關的通道。增強係數通過分析整段視頻的信息獲得。根據相鄰特徵圖之間的點對點相似性,騰訊優圖進一步提出了一種空間運動增強(SME)模塊,以指導模型集中於包含運動關鍵目標的區域,其背後的直覺是背景區域的變化通常比視頻的運動區域慢。 通過將CME和SME集成到現成的2D網絡中,騰訊優圖最終獲得了用於動作識別的全面運動特徵學習方法。 騰訊優圖的方法在三個公共數據集上取得了有競爭力的表現:Something-Something V1&V2和Kinetics-400。 特別是在時序推理數據集Something-Something V1和V2上,當使用16幀作為輸入時,騰訊優圖的方法比之前最好的方法高2.3%和1.9%。

02

選擇還是融合?基於自適應尺度選擇的人群密度估計

To Choose or to Fuse? Scale Selection for Crowd Counting

本文提出了一種高效地充分利用網絡內部多尺度特徵表示的方法,能夠有效解決人群密度估計中的大範圍尺度變化問題。具體地,考慮到每層特徵都有各自最擅長預測的人群尺度範圍,本文提出了一種圖像塊級別的特徵層選擇策略來實現儘可能小的計數誤差。顯然,在沒有人群尺度標註信息的情況下,任何人工指定人群尺度與特徵層對應關係的方法都是次優的並會帶來額外誤差。相反地,本文提出的尺度自適應選擇網絡SASNet可以自動地學習這種對應關係,並通過軟選擇的方式來緩解離散的特徵層與連續的人群尺度變化之間的矛盾。由於SASNet為同一圖像塊內相似尺度的人群選擇同一特徵層,直接使用傳統的像素級損失函數會忽略圖像塊內部不同樣本間各異的學習難度。因此,本文還提出了一種金字塔區域感知損失(PRA Loss),從圖像塊級別開始以一種自上而下的方式迭代地選擇最困難的樣本來優化。鑑於PRA Loss能夠根據上層父圖像塊是過預測還是欠預測來選擇困難樣本,因此還能夠緩解業界普遍面臨的訓練目標最小化和計數誤差最小化之間不一致的問題。騰訊優圖的方法在多達四個公開數據集上取得了優異的性能。

03

解耦場景和運動的無監督視頻表徵學習

Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

相比於圖像表徵學習, 視頻表徵學習中的一個重要因素是物體運動信息(Object Motion)。然而騰訊優圖發現, 在當前主流的視頻數據集中, 一些動作類別會和發生的場景強相關, 導致模型往往只關注了場景信息。比如, 模型可能僅僅因為發生的場景是足球場, 就將拉拉隊員在足球場上跳舞的視頻判斷成了踢足球。這違背了視頻表徵學習最初的目的, 即學習物體運動信息, 並且不容忽視的是, 不同的數據集可能會帶來不同的場景偏見(Scene Bias)。為了解決這個問題, 騰訊優圖提出了用兩個簡單的操作來解耦合場景運動(Decoupling the Scene and the Motion, DSM), 以此來到達讓模型更加關注運動信息的目的。具體來說, 騰訊優圖為每段視頻都會構造一個正樣本和一個負樣本, 相比於原始視頻, 正樣本的運動信息沒有發生變化, 但場景被破壞掉了, 而負樣本的運動信息發生了改變, 但場景信息基本被保留了下來。構造正負樣本的操作分別叫做Spatial Local DisturbanceTemporal Local Disturbance。騰訊優圖的優化目標是在隱空間在拉近正樣本和原始視頻的同時, 推遠負樣本。用這種方式, 場景帶來的負面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優圖在兩個任務上, 用不同的網絡結構、不同的預訓練數據集進行了實驗驗證, 發現騰訊優圖方法在動作識別任務上, 在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。

04

面向真實圖像超解析度的頻率一致性自適應方法Frequency Consistent Adaptation for Real World Super Resolution

最近的基於深度學習的超解析度(SR)方法在具有已知降質的圖像上取得了卓越的性能。但是,這些方法在現實世界中總是會失敗,因為理想退化(例如,雙三次降採樣)之後的低解析度(LR)圖像會偏離真實源域。在頻率密度上可以清楚地觀察到LR圖像和真實世界圖像之間的域間隙,這啟發騰訊優圖顯式地縮小由於不正確的降質而導致的間隙。從這個角度出發,騰訊優圖設計了一種新穎的頻率一致性自適應方法(FCA),能夠確保將現有SR方法應用於真實場景時保持頻域一致性。騰訊優圖從無監督的圖像中估計退化內核,並生成相應的LR圖像。為了給核估計提供有用的梯度信息,騰訊優圖提出了通過區分不同尺度圖像的頻率密度的頻率密度比較器(FDC)。基於域一致的LR-HR對,騰訊優圖訓練了易於實現的卷積神經網絡(CNN)SR模型。大量實驗表明,所提出的FCA在真實環境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進的結果,從而為實際SR應用提供了一種新穎有效的框架。

05

混合域活體檢測中的通用表徵學習

Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing

基於域泛化的活體檢測技術對未知場景有更好的泛化性,受到了工業界和學術界的廣泛關注。已有的域泛化方法需要域標籤的支持,然而在實際場景中,所收集到的往往是域信息不可知的混合數據。在這種場景下,大多數已有的方法是不可用的。而且域劃分的方式可以有多種,因此單一固定的劃分方法可能只是次優解。

為解決實際混合數據問題,騰訊優圖提出了一種基於迭代式無監督子域劃分的元學習方法。該方法無需域標籤,通過高鑑別性的域特徵實現子域劃分,並通過元學習的方式進行模型的優化。具體來說,騰訊優圖基於實例正則化定義了域信息表示,並設計了域表示學習模塊(DRLM)來提取高鑑別性的域特徵用以精準的域聚類。

此外,為了緩解離群點對聚類的阻礙,騰訊優圖採用最大均值差異(MMD)來校正樣本特徵分布與先驗分布的差異,以增強聚類的可靠性。實驗結果表明騰訊優圖的方法(D2AM)優於傳統的域泛化方法,包括使用域標籤的方法,為實際場景下活體技術的應用提供了有效框架。

06

基於局部關聯學習的人臉偽造檢測

Local Relation Learning for Face Forgery Detection

隨著人臉編輯技術的快速發展,人臉內容取證引起了廣泛的關注。大多數現有方法往往利用二值類別標籤或偽造區域等監督信息來解決人臉偽造檢測任務。然而,由於沒有考慮到局部區域間的關聯,這些全局監督信息不足以學習到泛化性強的特徵,往往容易過擬合。

為了解決這個問題,騰訊優圖提出了一種通過局部關聯學習來進行人臉偽造檢測的新方法。具體而言,騰訊優圖提出了一個多尺度局部相似性模塊(MPSM),該模塊通過衡量局部區域特徵間的相似性來構造一種泛化性強、魯棒性高的相似模式。

此外,騰訊優圖還提出了一個RGB-頻域注意力模塊(RFAM)來融合RGB圖像和頻域信息,從而得到更全面的局部特徵表示,進一步提高了相似模式的可靠性。大量的實驗表明騰訊優圖所提出的方法在多個數據集上優於現有的方法,同時詳細的可視化也充分證明了騰訊優圖方法的魯棒性和可解釋性。

07

基於可泛化樣本選擇的行人重識別方法

One for More: Selecting Generalizable Samples for Generalizable ReID Model

現有行人重新識別(ReID)模型的訓練目標是在當前批次樣本上模型的損失減少,而與其他批次樣本的性能無關。它將不可避免地導致模型過擬合到某些樣本(例如,不平衡類中的頭部數據,簡單樣本或噪聲樣本)。目前有基於採樣的方法通過設計特定準則來選擇特定樣本來解決該問題,這些方法對某些類型的數據(例如難樣本,尾部數據)施加了更多的關注,這不適用於真實的ReID數據分布。因此,本文將所選樣本的泛化能力作為損失函數,並學習一個採樣器來自動選擇可泛化樣本,而不是簡單地推測哪些樣本更有意義。更重要的是,騰訊優圖提出的基於可泛化能力的採樣器可以無縫集成到ReID訓練框架中,該框架能夠以端到端的方式同時訓練ReID模型和採樣器。實驗結果表明,該方法可以有效地改善ReID模型的訓練,提高ReID模型的性能。

08

Learning a Few-shot Embedding Model by Contrastive Learning

基於對比學習的小樣本植入模型

小樣本學習是根據少量的先驗信息去對於目標目標類別進行分類。這些信息一般沉澱在一個深度模型中,用來對支持集和問詢集進行匹配。本文的目標是利用對比學習的方法學習一個小樣本植入模型,具體貢獻如下:

(1)騰訊優圖深入研究噪聲對比估計方法,並利用它來訓練小樣本植入模型。

(2)騰訊優圖提出一個名為infoPatch的植入模型方法,智能挖掘局部的聯繫,保證穩步提升小樣本分類的能力。

(3)騰訊優圖在文章中展示了infoPatch的有效性。

(4)騰訊優圖的模型的指標在三個常用數據集miniImageNet,tieredImageNet和ewshot-CIFAR100上都達到了頂尖水準。

09

基於Transformer結構層內-層間聯合全局表示的圖像描述

Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network

本論文由騰訊優圖實驗室與廈門大學合作完成。

基於Transformer的結構近來在圖像描述任務中取得了巨大的成功, 這些模型的範式都是將目標regions編碼成隱含特徵實現描述的解碼。 然而,騰訊優圖發現這些隱含特徵僅僅涵蓋了region級別的局部特徵,忽略了考慮整張圖片的全局特徵的建模,使得模型難以進一步拓展在圖像描述中的複雜多模態推理能力。 因此,這篇文章騰訊優圖提出了一個新的模型GET,同時提取更為綜合的全局信息並將全局信息作為自適應引導信號生成更為高質量的圖像描述。具體而言,在該模型中,騰訊優圖首先設計了一個全局加強的編碼器和全局自適應的解碼器,其中前者利用Transformer層級結構特點,提取層內-層間聯合全局特徵,後者則利用全局自適應控制器,控制全局特徵融入解碼器來指導圖像描述的生成。本文在MS COCO數據集上的實驗證明了騰訊優圖相對於當前最先進模型的優勢。

10

基於雙層級特徵協同Transformer的圖像描述生成

Dual-level Collaborative Transformer for Image Captioning

本論文由騰訊優圖實驗室與廈門大學合作完成。

由目標檢測網絡提取的區域特徵在圖像描述生成的發展中起著重要的作用。然而,這種特徵中缺乏上下文信息和細粒度細節,而這正是網格特徵的優點。本文提出了一種新的雙層級特徵協同Transformer,以實現兩者的優勢互補。具體地說,在DLCT中,騰訊優圖首先使用DWSA來挖掘它們的內在特性,並在其中引入綜合關係注意力機制來嵌入幾何信息。此外,騰訊優圖還提出了LCCA模塊,目的是解決這兩個特徵直接融合所產生的語義噪聲問題,通過構造幾何對齊圖來精確對齊和增強區域和網格特徵。為了驗證騰訊優圖的模型,騰訊優圖在基準數據集MS-COCO上進行了大量的實驗,並在本地和在線測試集上實現了SOTA性能,

在Karpathy 測試集上達到133.8%的CIDEr得分,在官方測試集上達到135.4%的CIDEr得分。

11

圖博弈嵌入

Graph Game Embedding

本論文由騰訊優圖實驗室與南京理工大學合作完成。

圖嵌入旨在將節點/邊編碼為低維連續特徵,已成為圖分析的重要工具並被應用於圖/節點分類,連結預測等任務。在本文中,騰訊優圖提出了一種新穎的名為圖博弈嵌入的圖學習框架,以學習具有判別性的節點表示並對圖結構進行編碼。受博弈學習理論的啟發,節點嵌入被轉換為博弈過程中玩家策略的選擇/搜索過程,其中每個節點對應一個玩家,而每條邊對應於兩個玩家之間的交互。然後,定義了一個在理論上滿足納什均衡的收益函數以衡量圖演化過程中參與玩家(節點)的收益/損失。更進一步地,引入了一種合作與競爭機制以提高該框架的判別學習能力。在上述圖博弈嵌入框架下,考慮節點的不同交互方式,騰訊優圖提出了兩種具體模型,即對交互圖博弈嵌入模型和群組圖博弈嵌入模型。與現有的圖嵌入方法相比,本文所提出的框架具有兩個優點:(1)所設計的收益函數保證了圖網絡的穩定演化,滿足納什均衡且具有收斂性的理論保證;(2)所引入的協作和競爭機制可指導每個節點學習到區別於其他節點的優化策略,從而賦予圖博弈嵌入框架以學習具有判別性特徵的能力。騰訊優圖在三個關於引文網絡的公共數據集上對所提出的方法進行了評測,實驗結果驗證了其有效性。

相關焦點

  • 騰訊優圖 11 篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、人臉識別等領域
    近日,計算機視覺方向的三大國際頂級會議之一的ECCV 2020公布論文獲獎結果。本次ECCV 2020有效投稿5025篇,最終被接受發表論文1361篇,錄取率為27%,較上屆有所下降。其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    近日,計算機視覺方向的三大國際頂級會議之一的ECCV 2020公布論文獲獎結果。本次ECCV 2020有效投稿5025篇,最終被接受發表論文1361篇,錄取率為27%,較上屆有所下降。其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。本屆大會總共錄取來自全球論文1470篇,騰訊優圖實驗室入選17篇。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • CVPR 2019 | 騰訊AI Lab解讀六大前沿方向及33篇入選論文
    計算機視覺頂級會議 CVPR 2019 將於 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    據外媒報導,即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。騰訊優圖論文再次入庫頂級學術會議作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。這也是騰訊優圖繼2017年在另一計算機視覺頂級會議ICCV會議中獲得12篇論文被收錄,包含3篇口頭報告(該類論文僅佔總投稿數2.1%)的成績後,2018年,科研成果再次豐收,論文被CVPR2018收錄。
  • 騰訊優圖10篇論文入選人工智慧頂級會議AAAI
    人工智慧領域的國際頂級會議AAAI 2020將於2月7日-2月12日在美國紐約舉辦。近年來隨著人工智慧的興起,AAAI每年舉辦的學術會議也變得越來越火熱,每年都吸引了大量來自學術界、產業界的研究員、開發者投稿、參會。以AAAI2019為例,論文提交數量高達7745篇,創下當年AAAI歷史新高。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。1.
  • ECCV2020論文收錄揭曉,百度AI入選10篇論文,涵蓋眾多研究領域
    近日,國際三大計算機視覺頂尖會議之一的ECCV (歐洲計算機視覺國際會議)官方公布了2020年論文收錄結果。結果顯示,ECCV 2020投稿量再創新高,共5025篇有效投稿,相較上屆翻了一倍多。投稿激增的同時,接收率卻大幅下降,今年ECCV共接收發表文章1361篇,接收率為27%,相比上屆降低近5%,其中Oral論文接收率僅為2%,堪稱史上最難ECCV。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    騰訊優圖實驗室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報告)後,在今年的 CVPR 2018 上有多篇論文被錄用,也憑藉這一點在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應展示。騰訊優圖團隊將對其中兩篇論文做詳細介紹,並簡要介紹其它論文。
  • 今日Paper | MaskGAN;深度人臉識別;人體姿態估計;妝容遷移等
    深度人臉識別的適應性課程學習損失MaskGAN:多樣和交互的面部圖像操作結合檢測和跟蹤的視頻人體姿態估計通過解糾纏表示的局部面部妝容遷移基於自動生成的訓練數據進行大規模事件抽取學習  CurricularFace: 深度人臉識別的適應性課程學習損失
  • 騰訊優圖實驗室高級研究員棟豪:時序動作分析技術的研究與應用 |...
    「騰訊優圖專場」,是智東西公開課邀請騰訊優圖實驗室面向開發者和科研人員,專注講解騰訊優圖實驗室前沿研究成果的系列線上公開課,第一階段共計三講。第一講由優圖實驗室資深高級研究員瑋劍主講,主題為《3D人臉重建技術的研究與應用實例》。第二講由優圖實驗室研究員太平主講,主題為《人臉安全技術的研究與應用》。
  • 騰訊英語君AI口語測評能力取得科研成果,5篇論文入選INTERSPEECH...
    近日,被譽為全球最具影響力的語音行業會議的INTERSPEECH揭曉收錄論文名單,騰訊英語君共有5篇口語測評論文入選,涵蓋準確度模型、韻律聲學探測、ASR文本後處理、共振峰預測等技術優化,名列國內企業前茅。
  • 騰訊AI Lab入選20篇論文,含2篇Spotlight
    騰訊AI Lab第三次參加NIPS,共有20篇論文入選,其中2篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,去年我們入選論文8篇,含1篇口頭報告(Oral)。
  • AI 大牛賈佳亞告別騰訊優圖,創立「思謀科技」,已獲融資
    賈佳亞離職風波2019 年 11 月 18 日,InfoQ 得到消息稱:騰訊優圖實驗室(X Lab)負責人、騰訊傑出科學家賈佳亞已於本月 15 日從騰訊離職,接下來,他將重回香港中文大學任教。晚些時候,該消息得到了賈佳亞本人和騰訊方面的否定,稱:賈佳亞尚未離職。
  • 22篇入選CVPR 2020,百度 15 篇精選論文詳解
    今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。本屆大會中,百度共有22篇論文入選,涉及主題涵蓋人臉檢測&識別、視頻理解&分析、圖像超分辨、及自動駕駛中的車輛檢測、場景實例級分割等領域。以下為其中 15 篇入選論文介紹。
  • 騰訊優圖實驗室黃飛躍:科技向善 讓AI守護青少年網絡淨土
    9月11日,2020騰訊全球數字生態大會AI專場正式在雲端線上舉行。騰訊優圖實驗室副總經理黃飛躍發表了以《技術爆炸時代裡的優圖:從跋山涉水,到越過山丘》為主題的演講。他演講中表示,人類已經進入技術爆炸時代,人工智慧正成為未來經濟的主要增長點之一;驅動科技向善,AI應該更好的為社會服務。