騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域

2020-12-27 泡泡網

騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域

2020年12月11日 22:04作者:網絡編輯:王動

近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。

AAAI(Association for the Advance of Artificial Intelligence), 即美國人工智慧協會,是人工智慧領域的主要學術組織之一,其主辦的年會也是人工智慧領域的國際頂級會議。在中國計算機學會的國際學術會議排名以及清華大學新發布的計算機科學推薦學術會議和期刊列表中,AAAI 均被列為人工智慧領域的 A 類頂級會議。

本次AAAI 騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。

以下為部分騰訊優圖入選AAAI 2021的論文:

01

學習用於動作識別的全面運動特徵表達

Learning Comprehensive Motion Representation for Action Recognition

運動特徵在動作識別中起到非常重要的作用。基於2D CNN的方法雖然高效,但是由於對每一幀都採用相同的二維卷積核,會產生大量的冗餘和重複特徵。近期有一些工作通過建立幀間的聯繫獲取運動信息,但是依然存在感受野有限的問題。此外,特徵的增強依舊只在通道或者空間維度單獨進行。為了解決這些問題,騰訊優圖首先提出了一個通道特徵增強模塊(CME)自適應地增強與運動相關的通道。增強係數通過分析整段視頻的信息獲得。根據相鄰特徵圖之間的點對點相似性,騰訊優圖進一步提出了一種空間運動增強(SME)模塊,以指導模型集中於包含運動關鍵目標的區域,其背後的直覺是背景區域的變化通常比視頻的運動區域慢。 通過將CME和SME集成到現成的2D網絡中,騰訊優圖最終獲得了用於動作識別的全面運動特徵學習方法。 騰訊優圖的方法在三個公共數據集上取得了有競爭力的表現:Something-Something V1&V2和Kinetics-400。 特別是在時序推理數據集Something-Something V1和V2上,當使用16幀作為輸入時,騰訊優圖的方法比之前最好的方法高2.3%和1.9%。

02

選擇還是融合?基於自適應尺度選擇的人群密度估計

To Choose or to Fuse? Scale Selection for Crowd Counting

本文提出了一種高效地充分利用網絡內部多尺度特徵表示的方法,能夠有效解決人群密度估計中的大範圍尺度變化問題。具體地,考慮到每層特徵都有各自最擅長預測的人群尺度範圍,本文提出了一種圖像塊級別的特徵層選擇策略來實現儘可能小的計數誤差。顯然,在沒有人群尺度標註信息的情況下,任何人工指定人群尺度與特徵層對應關係的方法都是次優的並會帶來額外誤差。相反地,本文提出的尺度自適應選擇網絡SASNet可以自動地學習這種對應關係,並通過軟選擇的方式來緩解離散的特徵層與連續的人群尺度變化之間的矛盾。由於SASNet為同一圖像塊內相似尺度的人群選擇同一特徵層,直接使用傳統的像素級損失函數會忽略圖像塊內部不同樣本間各異的學習難度。因此,本文還提出了一種金字塔區域感知損失(PRA Loss),從圖像塊級別開始以一種自上而下的方式迭代地選擇最困難的樣本來優化。鑑於PRA Loss能夠根據上層父圖像塊是過預測還是欠預測來選擇困難樣本,因此還能夠緩解業界普遍面臨的訓練目標最小化和計數誤差最小化之間不一致的問題。騰訊優圖的方法在多達四個公開數據集上取得了優異的性能。

03

解耦場景和運動的無監督視頻表徵學習

Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

相比於圖像表徵學習, 視頻表徵學習中的一個重要因素是物體運動信息(Object Motion)。然而騰訊優圖發現, 在當前主流的視頻數據集中, 一些動作類別會和發生的場景強相關, 導致模型往往只關注了場景信息。比如, 模型可能僅僅因為發生的場景是足球場, 就將拉拉隊員在足球場上跳舞的視頻判斷成了踢足球。這違背了視頻表徵學習最初的目的, 即學習物體運動信息, 並且不容忽視的是, 不同的數據集可能會帶來不同的場景偏見(Scene Bias)。為了解決這個問題, 騰訊優圖提出了用兩個簡單的操作來解耦合場景和運動(Decoupling the Scene and the Motion, DSM), 以此來到達讓模型更加關注運動信息的目的。具體來說, 騰訊優圖為每段視頻都會構造一個正樣本和一個負樣本, 相比於原始視頻, 正樣本的運動信息沒有發生變化, 但場景被破壞掉了, 而負樣本的運動信息發生了改變, 但場景信息基本被保留了下來。構造正負樣本的操作分別叫做Spatial Local Disturbance和Temporal Local Disturbance。騰訊優圖的優化目標是在隱空間在拉近正樣本和原始視頻的同時, 推遠負樣本。用這種方式, 場景帶來的負面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優圖在兩個任務上, 用不同的網絡結構、不同的預訓練數據集進行了實驗驗證, 發現騰訊優圖方法在動作識別任務上, 在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。

04

面向真實圖像超解析度的頻率一致性自適應方法Frequency Consistent Adaptation for Real World Super Resolution

最近的基於深度學習的超解析度(SR)方法在具有已知降質的圖像上取得了卓越的性能。但是,這些方法在現實世界中總是會失敗,因為理想退化(例如,雙三次降採樣)之後的低解析度(LR)圖像會偏離真實源域。在頻率密度上可以清楚地觀察到LR圖像和真實世界圖像之間的域間隙,這啟發騰訊優圖顯式地縮小由於不正確的降質而導致的間隙。從這個角度出發,騰訊優圖設計了一種新穎的頻率一致性自適應方法(FCA),能夠確保將現有SR方法應用於真實場景時保持頻域一致性。騰訊優圖從無監督的圖像中估計退化內核,並生成相應的LR圖像。為了給核估計提供有用的梯度信息,騰訊優圖提出了通過區分不同尺度圖像的頻率密度的頻率密度比較器(FDC)。基於域一致的LR-HR對,騰訊優圖訓練了易於實現的卷積神經網絡(CNN)SR模型。大量實驗表明,所提出的FCA在真實環境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進的結果,從而為實際SR應用提供了一種新穎有效的框架。

05

混合域活體檢測中的通用表徵學習

Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing

基於域泛化的活體檢測技術對未知場景有更好的泛化性,受到了工業界和學術界的廣泛關注。已有的域泛化方法需要域標籤的支持,然而在實際場景中,所收集到的往往是域信息不可知的混合數據。在這種場景下,大多數已有的方法是不可用的。而且域劃分的方式可以有多種,因此單一固定的劃分方法可能只是次優解。

為解決實際混合數據問題,騰訊優圖提出了一種基於迭代式無監督子域劃分的元學習方法。該方法無需域標籤,通過高鑑別性的域特徵實現子域劃分,並通過元學習的方式進行模型的優化。具體來說,騰訊優圖基於實例正則化定義了域信息表示,並設計了域表示學習模塊(DRLM)來提取高鑑別性的域特徵用以精準的域聚類。

此外,為了緩解離群點對聚類的阻礙,騰訊優圖採用最大均值差異(MMD)來校正樣本特徵分布與先驗分布的差異,以增強聚類的可靠性。實驗結果表明騰訊優圖的方法(D2AM)優於傳統的域泛化方法,包括使用域標籤的方法,為實際場景下活體技術的應用提供了有效框架。

06

基於局部關聯學習的人臉偽造檢測

Local Relation Learning for Face Forgery Detection

隨著人臉編輯技術的快速發展,人臉內容取證引起了廣泛的關注。大多數現有方法往往利用二值類別標籤或偽造區域等監督信息來解決人臉偽造檢測任務。然而,由於沒有考慮到局部區域間的關聯,這些全局監督信息不足以學習到泛化性強的特徵,往往容易過擬合。

為了解決這個問題,騰訊優圖提出了一種通過局部關聯學習來進行人臉偽造檢測的新方法。具體而言,騰訊優圖提出了一個多尺度局部相似性模塊(MPSM),該模塊通過衡量局部區域特徵間的相似性來構造一種泛化性強、魯棒性高的相似模式。

此外,騰訊優圖還提出了一個RGB-頻域注意力模塊(RFAM)來融合RGB圖像和頻域信息,從而得到更全面的局部特徵表示,進一步提高了相似模式的可靠性。大量的實驗表明騰訊優圖所提出的方法在多個數據集上優於現有的方法,同時詳細的可視化也充分證明了騰訊優圖方法的魯棒性和可解釋性。

07

基於可泛化樣本選擇的行人重識別方法

One for More: Selecting Generalizable Samples for Generalizable ReID Model

現有行人重新識別(ReID)模型的訓練目標是在當前批次樣本上模型的損失減少,而與其他批次樣本的性能無關。它將不可避免地導致模型過擬合到某些樣本(例如,不平衡類中的頭部數據,簡單樣本或噪聲樣本)。目前有基於採樣的方法通過設計特定準則來選擇特定樣本來解決該問題,這些方法對某些類型的數據(例如難樣本,尾部數據)施加了更多的關注,這不適用於真實的ReID數據分布。因此,本文將所選樣本的泛化能力作為損失函數,並學習一個採樣器來自動選擇可泛化樣本,而不是簡單地推測哪些樣本更有意義。更重要的是,騰訊優圖提出的基於可泛化能力的採樣器可以無縫集成到ReID訓練框架中,該框架能夠以端到端的方式同時訓練ReID模型和採樣器。實驗結果表明,該方法可以有效地改善ReID模型的訓練,提高ReID模型的性能。

08

Learning a Few-shot Embedding Model by Contrastive Learning

基於對比學習的小樣本植入模型

小樣本學習是根據少量的先驗信息去對於目標目標類別進行分類。這些信息一般沉澱在一個深度模型中,用來對支持集和問詢集進行匹配。本文的目標是利用對比學習的方法學習一個小樣本植入模型,具體貢獻如下:

(1)騰訊優圖深入研究噪聲對比估計方法,並利用它來訓練小樣本植入模型。

(2)騰訊優圖提出一個名為infoPatch的植入模型方法,智能挖掘局部的聯繫,保證穩步提升小樣本分類的能力。

(3)騰訊優圖在文章中展示了infoPatch的有效性。

(4)騰訊優圖的模型的指標在三個常用數據集miniImageNet,tieredImageNet和ewshot-CIFAR100上都達到了頂尖水準。

09

基於Transformer結構層內-層間聯合全局表示的圖像描述

Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network

本論文由騰訊優圖實驗室與廈門大學合作完成。

基於Transformer的結構近來在圖像描述任務中取得了巨大的成功, 這些模型的範式都是將目標regions編碼成隱含特徵實現描述的解碼。 然而,騰訊優圖發現這些隱含特徵僅僅涵蓋了region級別的局部特徵,忽略了考慮整張圖片的全局特徵的建模,使得模型難以進一步拓展在圖像描述中的複雜多模態推理能力。 因此,這篇文章騰訊優圖提出了一個新的模型GET,同時提取更為綜合的全局信息並將全局信息作為自適應引導信號生成更為高質量的圖像描述。具體而言,在該模型中,騰訊優圖首先設計了一個全局加強的編碼器和全局自適應的解碼器,其中前者利用Transformer層級結構特點,提取層內-層間聯合全局特徵,後者則利用全局自適應控制器,控制全局特徵融入解碼器來指導圖像描述的生成。本文在MS COCO數據集上的實驗證明了騰訊優圖相對於當前最先進模型的優勢。

10

基於雙層級特徵協同Transformer的圖像描述生成

Dual-level Collaborative Transformer for Image Captioning

本論文由騰訊優圖實驗室與廈門大學合作完成。

由目標檢測網絡提取的區域特徵在圖像描述生成的發展中起著重要的作用。然而,這種特徵中缺乏上下文信息和細粒度細節,而這正是網格特徵的優點。本文提出了一種新的雙層級特徵協同Transformer,以實現兩者的優勢互補。具體地說,在DLCT中,騰訊優圖首先使用DWSA來挖掘它們的內在特性,並在其中引入綜合關係注意力機制來嵌入幾何信息。此外,騰訊優圖還提出了LCCA模塊,目的是解決這兩個特徵直接融合所產生的語義噪聲問題,通過構造幾何對齊圖來精確對齊和增強區域和網格特徵。為了驗證騰訊優圖的模型,騰訊優圖在基準數據集MS-COCO上進行了大量的實驗,並在本地和在線測試集上實現了SOTA性能,

在Karpathy 測試集上達到133.8%的CIDEr得分,在官方測試集上達到135.4%的CIDEr得分。

11

圖博弈嵌入

Graph Game Embedding

本論文由騰訊優圖實驗室與南京理工大學合作完成。

圖嵌入旨在將節點/邊編碼為低維連續特徵,已成為圖分析的重要工具並被應用於圖/節點分類,連結預測等任務。在本文中,騰訊優圖提出了一種新穎的名為圖博弈嵌入的圖學習框架,以學習具有判別性的節點表示並對圖結構進行編碼。受博弈學習理論的啟發,節點嵌入被轉換為博弈過程中玩家策略的選擇/搜索過程,其中每個節點對應一個玩家,而每條邊對應於兩個玩家之間的交互。然後,定義了一個在理論上滿足納什均衡的收益函數以衡量圖演化過程中參與玩家(節點)的收益/損失。更進一步地,引入了一種合作與競爭機制以提高該框架的判別學習能力。在上述圖博弈嵌入框架下,考慮節點的不同交互方式,騰訊優圖提出了兩種具體模型,即對交互圖博弈嵌入模型和群組圖博弈嵌入模型。與現有的圖嵌入方法相比,本文所提出的框架具有兩個優點:(1)所設計的收益函數保證了圖網絡的穩定演化,滿足納什均衡且具有收斂性的理論保證;(2)所引入的協作和競爭機制可指導每個節點學習到區別於其他節點的優化策略,從而賦予圖博弈嵌入框架以學習具有判別性特徵的能力。騰訊優圖在三個關於引文網絡的公共數據集上對所提出的方法進行了評測,實驗結果驗證了其有效性。

相關焦點

  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    近日,計算機視覺方向的三大國際頂級會議之一的ECCV 2020公布論文獲獎結果。本次ECCV 2020有效投稿5025篇,最終被接受發表論文1361篇,錄取率為27%,較上屆有所下降。其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。本屆大會總共錄取來自全球論文1470篇,騰訊優圖實驗室入選17篇。
  • 騰訊優圖亮相PRCV2020,展示人臉分析最新研究與落地成果
    作為PRCV 2020特邀企業之一,騰訊優圖實驗室高級研究員在大會特邀企業論壇上發表了以《騰訊優圖實驗室近期人臉分析領域的研究與應用》主題的演講,與參會專家、學者和業界代表就優圖在人臉分析方向的研究與落地成果進行了交流、分享。
  • 騰訊優圖刷新人體姿態估計國際權威榜單
    近日,騰訊優圖實驗室在人體2D姿態估計任務中獲得創新性技術突破,其提出的基於語義對抗的數據增強算法Adversarial Semantic Data Augmentation (ASDA),刷新了人體姿態估計國際權威榜單。
  • 百度Apollo全新車輛識別方法等多篇論文收錄CVPR
    素有計算機視覺領域「奧斯卡」之稱的CVPR有著相當嚴苛的錄用標準。據統計,會議往年的平均錄取率不超過30%,而根據CVPR2020官方公布論文收錄結果,本屆CPVR共接收6656篇論文,中選1470篇,「中標率」只有22%,堪稱十年來最難入選的一屆。
  • 中國AI「再戰」視覺頂會CVPR:百度全方位參與 入選論文達22篇
    (原標題:中國AI「再戰」視覺頂會CVPR:百度全方位參與 入選論文達22篇)
  • 網易伏羲9篇論文入選AI頂會AAAI,科研實力再獲國際認可
    近日,國際人工智慧頂級會議AAAI 2021公布論文錄取結果。網易伏羲實驗室再創佳績,共有9篇論文入選,研究方向涉及強化學習、虛擬人、自然語言處理(NLP)、圖像動畫、用戶畫像等領域。科研成果的集中爆發,充分顯示網易伏羲在人工智慧的多個領域已經具備國際頂尖的技術創新能力。
  • 對抗人臉識別的一個新方法:隱藏身份、隨機換臉
    這其中,有篡改輸入人臉識別系統的圖像,讓它無法識別圖中存在人臉的,比如多倫多大學的《Adversarial Attacks on Face Detectors using Neural Net based Constrained Optimization》。
  • UCloud優刻得推出人臉識別測溫平板和智能防疫一體機
    為此,UCloud優刻得結合自身在AIoT領域的技術優勢,與中車集團中城捷運合作推出了兩款疫情防控產品:人臉識別測溫平板和智能防疫一體機,可分別應用於不同場景。人臉識別測溫平板通過AI算法進行人臉識別和無接觸測溫;一體機在平板功能的基礎上,更增加了360度消毒功能。
  • 輕鬆化身「和平精英」,與火箭少女101一起解鎖騰訊優圖人臉融合新...
    近日,火箭少女101主題活動已登陸手遊「和平精英」,通過騰訊優圖實驗室最新的人臉融合技術,即可解鎖變臉新玩法,化身遊戲中的「和平精英」與火箭少女101同框合影。在本次活動中,玩家可以通過拍攝或直接上傳自己的照片,只需幾秒時間,就可以自然融入遊戲場景之中,輕鬆實現跨次元的人像轉換,在這個「合照神器」的背後,依託的是騰訊優圖最新推出的人像轉換技術——DittoGAN。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    CVPR作為計算機視覺領域級別最高的研究會議,其錄取論文代表了計算機視覺領域在2018年最新和最高的科技水平以及未來發展潮流。CVPR官網顯示,今年有超過3300篇的大會論文投稿,錄取的979篇論文,比去年增長了25%(2016年論文錄取783篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。
  • 曠視、商湯、雲從、依圖,人臉識別四大獨角獸的「落地大戰」
    11月2日,連鎖便利店「好鄰居」宣布完成新一輪數千萬美元融資,人臉識別獨角獸曠視科技出現在此輪投資方名單之中,成為好鄰居的重要戰略股東之一。據官方數據,好鄰居在數位化改造後,降本增效顯著。據好鄰居股東、鮮生活創始人肖欣對外表示,好鄰居此次融資將會繼續用於門店AI設備的持續投入和數位化改造等方面。
  • Techo開發者大會,騰訊優圖分享最新研究成果和產業實踐
    據梁晨介紹,騰訊優圖推出了一款自研的AI視覺傳感器——VisionSeed,內置優圖領先的視覺AI算法,還提供專業的配套工具和全平臺的SDK作為支撐,讓開發者可以方便的進行二次開發。演講中,騰訊優圖高級研究員王亞彪重點介紹了視頻換臉、面部屬性編輯、視線編輯、畫質編輯這四項技術,他表示這些技術都會用到GAN生成對抗網絡和Encoder-Decoder框架。視頻換臉領域早期有一個Deepfake算法,該算法只能對訓練過的兩個特定ID換臉,無法使用各種各樣的人臉去做替換。
  • 「人臉表情識別」如何做好表情識別任務的圖片預處理工作
    上一篇專欄文章中,我們介紹了人臉表情識別的相關概念以及研究現狀並了解了目前基於圖片的人臉表情識別領域最常用的幾個數據集。本文將介紹基於圖片的人臉表情識別中最常用的預處理方式和對應的方法。
  • 優Tech分享|優圖3D人臉重建技術的研究與應用
    10月19日,騰訊優圖實驗室高級研究員瑋劍在優tech線上沙龍,圍繞《3D人臉重建技術的研究與應用實例》這一主題進行了直播分享,講述了優圖自建3D人臉基底及3D人臉技術應用實例。
  • 一張貼紙破解頂級FaceID,華為新研究讓人臉識別不再安全
    使用對抗樣本攻擊圖像識別系統,在人工智慧領域裡已經不算什麼新鮮事了,但是想要在現實世界裡做到無差別攻擊,還是人臉識別這種數千萬人都在使用的應用技術,這就顯得有些可怕了。使用這種新方法,人們可以輕鬆地列印一個破解紙條貼在腦門上,隨後讓 AI 識別的準確率顯著下降。從上面的動圖可以看出,研究者實現的是非定向的攻擊,且對抗信息都集成在貼紙上。
  • 「靠臉吃飯」的騰訊IT男
    一次,優圖與QQ空間合作中發現新的產品方向——當用戶在QQ空間中上傳圖片,系統自動找到照片中的人臉,並且提醒用戶標註。這就是騰訊優圖「人臉識別」技術最初的應用。儘管人臉識別技術從20世紀80年代就出現了,但直到2013年,全球的技術仍停留在學術研究的階段,並沒有殺手級的工業界應用。當時,優圖團隊正在研發人臉五官定位技術,需要大量標註了五官定位信息的人臉圖片。打開圖片,標註五官,打開圖片,標註五官.這樣的動作,團隊累計做了幾萬張次。
  • 騰訊優圖宣布推出系列全新生物識別技術,幫助人類進入真正「懶」時代
    以來的 經過數月以來的刻苦攻堅和版本迭代,在今天這個特殊的日子,騰訊優圖實驗室宣布正式推出系列全新生物識別技術,包括眼神識別、手相識別、唇紋識別和腦電波識別等多種功能,幫助人類進入真正的「懶」時代。
  • 人臉識別技術解析
    通過人臉搜索技術,可以在照片庫中輕鬆建立人臉索引。此外,人臉搜索技術還被廣泛運用於安防監控場景中。通過在身份照片庫中進行人臉搜索,使用者就可以確定人群中每個人的身份,可以提示用戶可疑人物的存在。人臉識別可用於人臉屬性:獲取多種人臉屬性,包括年齡、性別、微笑程度、頭部姿態、眼睛狀態、人種、人臉圖片質量與模糊程度。二、人臉識別安全不?
  • 百篇最值得一讀的「認知圖譜」經典論文
    當你站在人臉識別門禁閘口,掃臉,綠燈亮通過,就可以任意進出宿舍樓、圖書館、教學區等各種校內場所,你也許會想:機器認識我嗎? 實際並非如此。當前的 AI 識別能做的只是比對,它缺少信息進入大腦之後的加工、理解、思考步驟,因此僅僅停留在感知階段,而並非「認知」。