全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA

2020-12-27 澎湃新聞

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文包括格靈深瞳等機構開源的全球最大人臉數據集,以及類 Transformer 模型跨界在視覺任務上取得了新 SOTA。

目錄:

LambdaNetworks: Modeling long-range Interactions without Attention

Fourier Neural Operator for Parametric Partial Differential Equations

Beyond English-Centric Multilingual Machine Translation

A Cross-Domain Recommendation Model Based on Dual Attention Mechanism and Transfer Learning

RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

Machine Learning Parallelism Could Be Adaptive, Composable and Automated

Partial FC: Training 10 Million Identities on a Single Machine

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:LambdaNetworks: Modeling long-range Interactions without Attention

作者:未公開

論文連結:https://openreview.net/pdf?id=xTJEN-ggl1b

摘要:對長程交互進行建模在機器學習中至關重要。注意力已成為捕獲長程交互的一種常用範式。但是,自注意力二次方式的內存佔用已經阻礙了其對長序列或多維輸入(例如包含數萬個像素的圖像)的適用性。例如,將單個多頭注意力層應用於一批 256 個 64x64 (8 頭)輸入圖像需要 32GB 的內存,這在實踐中是不允許的。

該研究提出了一種名為「lambda」的層,這些層提供了一種捕獲輸入和一組結構化上下文元素之間長程交互的通用框架。

lambda 層將可用上下文轉換為單個線性函數(lambdas)。這些函數直接單獨應用於每個輸入。研究者認為,lambda 層可以作為注意力機制的自然替代。注意力定義了輸入元素和上下文元素之間的相似性核,而 lambda 層將上下文信息匯總為固定大小的線性函數,從而避免了對內存消耗大的注意力圖的需求。

lambda 層的超參數、參數等量化數值。

比較了多查詢 lambda 層和多頭注意力操作的時間和空間複雜度。

比較 LambdaNetworks 與 a)基線 ResNet50、b)通道注意力和 c)以往使用自注意力來補充或替換 ResNet50 中的 3x3 卷積的研究方法。

推薦:Transformer 用在圖像識別上會存在計算效率過低的挑戰,這篇向 ICLR 2021 大會提交的論文似乎很好地解決了這一問題,其研究的 PyTorch 代碼也已在 GitHub 上開源。

論文 2:Fourier Neural Operator for Parametric Partial Differential Equations

作者:Zongyi Li、Nikola Kovachki、Kamyar Azizzadenesheli 等

論文連結:https://arxiv.org/abs/2010.08895v1

摘要:傳統意義上,神經網絡主要學習有限維歐式空間之間的映射。近期,這一做法被推廣到神經算子,它主要學習函數空間之間的映射。對於偏微分方程(PDE)而言,神經算子直接學習任意函數參數依賴到解的映射。因而,與解決一個方程實例的經典方法不同,神經算子學習整個 PDE 家族。

近日,來自加州理工學院和普渡大學的研究者通過直接在傅立葉空間中對積分核進行參數化,構造了新的神經算子——傅立葉神經算子(FNO),幫助實現表達力強且高效的架構。

研究人員在伯格斯方程(Burgers』 equatio)、達西流動(Darcy flow)和納維 - 斯託克斯方程(Navier-Stokes equation)上進行實驗,FNO 超越現有的神經網絡方法取得了 SOTA 性能,且與傳統的 PDE 求解器相比,其速度快了三個數量級。

上:傅立葉層架構;下:納維 - 斯託克斯方程示例流。

在一維伯格斯方程、二維達西流動問題和二維納維 - 斯託克斯方程上對比了 FNO 和多個有限維架構和基於算子的逼近方法。

推薦:該論文目前正在接受 ICLR 2021 大會的審閱。

論文 3:Beyond English-Centric Multilingual Machine Translation

作者:Angela Fan、Shruti Bhosale、Holger Schwenk 等

論文連結:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

摘要:近日,Facebook 根據多年對 MT 的研究宣布實現了一個重要的裡程碑:首個單一的大規模 MMT 模型,該模型可以實現 100x100 個語言對的直接翻譯,而不依賴以英語為中心的數據。這個單一的多語言模型表現得和傳統雙語模型一樣好,並且比以英語為中心的多語言模型提高了 10 個 BLEU 點。

具體而言,通過使用新的挖掘策略來創建翻譯數據,該研究構建了首個真正的多對多數據集。該數據集擁有 100 種語言的 75 億個句子。研究者使用可擴展技術來建立具有 150 億個參數的通用模型,它從相關語言中捕獲信息,並反映出更加多樣化的語言文字和詞法。目前,這項研究已經開源。

多對多數據集和多語言模型示意圖。

訓練語料庫中橋梁語言的數據量。

多對多和以英語為中心語言模型的比較。在包含英語的評估方向上,多對多模型與以英語為中心模型的性能相當,但在非英語方向上的性能要好得多。

推薦:多語言機器翻譯模型 M2M-100 不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。

論文 4:A Cross-Domain Recommendation Model Based on Dual Attention Mechanism and Transfer Learning

作者:CHAI Yu-Mei、YUN Wu-Lian、WANG Li-Ming、LIU Zhen

論文連結:http://cjc.ict.ac.cn/online/bfpub/cym-2020324142846.pdf

摘要:本文在 Amazon 數據集上進行了實驗 比較與分析,首先對本文模型的推薦性能進行評估,與現有的跨領域推薦模型相比,在兩種不同的跨領域數據集上平均絕 對誤差分別提升 6.1% 和 9.15%,均方根誤差分別提升 3.66% 和 7.01%;然後對本文模型的知識遷移性能進行評估,與現有 的單領域推薦模型相比,在不同數據集下均方誤差分別提升 5.47% 和 10.35%;最後通過實驗驗證了本文提出的注意力機制 的有效性,及在緩解數據稀疏問題問題和用戶冷啟動問題方面的優勢,也驗證了模型的普適性。

特徵提取網絡。

跨領域推薦模型 AMTR 架構圖。

推薦:本文在《計算機學報》上發表。

論文 5:RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

作者:Yingqi Qu、Yuchen Ding、Jing Liu 等

論文連結:https://arxiv.org/abs/2010.08191

摘要:近日,百度提出了面向端到端問答的檢索模型訓練方法 RocketQA,該方法針對模型訓練中存在的問題,通過跨批次負採樣(cross-batch negatives)、去噪的強負例採樣(denoised hard negative sampling)與數據增強(data augmentation)等技術,大幅提升了對偶式檢索模型的效果。RocketQA 不僅在多個問答相關數據集中取得了 SOTA,同時也刷新了微軟 MSMARCO 數據集段落排序任務的榜單,超越谷歌、微軟、Facebook、阿里、美團、卡內基梅隆大學、清華大學、滑鐵盧大學等企業和高校位居第一,為實現「端到端問答」邁出了重要的一步。

基於稠密向量表示的對偶模型。

RocketQA 訓練流程。

微軟 MSMARCO Passage Ranking 數據集 leaderboard。

推薦:RocketQA 已逐步應用在百度搜索、廣告等核心業務中,並將在更多場景中發揮作用。

論文 6:Machine Learning Parallelism Could Be Adaptive, Composable and Automated

作者:Hao Zhang

論文連結:https://www.cs.cmu.edu/~hzhang2/files/hao_zhang_doctoral_dissertation.pdf

摘要:隨著近年來,機器學習領域的創新不斷加速,SysML 的研究者已經創建了在多個設備或計算節點上並行機器學習訓練的算法和系統。機器學習模型在結構上變得越來越複雜,許多系統都試圖提供全面的性能。尤其是,機器學習擴展通常會低估從一個適當的分布策略映射到模型所需要的知識與時間。此外,將並行訓練系統應用於複雜模型更是增加了非常規的開發成本,且性能通常低於預期。

近日,CMU 機器人研究所博士張浩公布了自己的博士學位論文《機器學習並行化的自適應、可組合與自動化》,旨在找出並解決並行 ML 技術和系統實現在可用性和性能方面的研究挑戰。

論文結構概覽。

Facebook AI 提出的 DETR 的架構圖。

AutoSync 策略的自動優化流程算法。

推薦:張浩博士的 PhD 導師為 CMU 教授、Petuum 創始人邢波(Eric Xing)。

論文 7:Partial FC: Training 10 Million Identities on a Single Machine

作者:Xiang An,1 Xuhan Zhu, 2 Yang Xiao

論文連結:https://arxiv.org/pdf/2010.05222.pdf

摘要:人臉識別是計算機視覺社區長期以來的活躍課題。之前的研究者主要關注人臉特徵提取網絡所用的損失函數,尤其是基於 softmax 的損失函數大幅提升了人臉識別的性能。然而,飛速增加的人臉圖像數量和 GPU 內存不足之間的矛盾逐漸變得不可調和。

最近,格靈深瞳、北京郵電大學、湘潭大學和北京理工大學的研究者深入分析了基於 softmax 的損失函數的優化目標,以及訓練大規模人臉數據的困難。研究發現,softmax 函數的負類在人臉表示學習中的重要性並不像我們之前認為的那樣高。實驗表明,在主流基準上,與使用全部類別訓練的 SOTA 模型相比,使用 10% 隨機採樣類別訓練 softmax 函數後模型準確率未出現損失。

Glint360K 數據集的類別數和圖像數比主流訓練集加起來還要多。

相比目前最好的訓練集 MS1M-V3,Glint360K 有十個點的提升。

在學術界的測試集 IJB-C 和 Megaface 上,使用 Glint360K 的 Full softmax 和 10% 採樣都有著相當不錯的結果。

推薦:這是目前最大的公共人臉識別訓練數據集,已開源。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. Topic-Aware Abstractive Text Summarization. (from Harry Jiannan Wang)

2. Multi-task Learning of Negation and Speculation for Targeted Sentiment Classification. (from Andrew Moore)

3. Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation. (from Dan Jurafsky)

4. UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus. (from George Michalopoulos)

5. Open Question Answering over Tables and Text. (from William W. Cohen)

6. Word Shape Matters: Robust Machine Translation with Visual Embedding. (from Eric P. Xing)

7. Neural Language Modeling for Contextualized Temporal Graph Generation. (from Yiming Yang)

8. Bridging the Gap between Conversational Reasoning and Interactive Recommendation. (from Minlie Huang)

9. DiDi's Machine Translation System for WMT2020. (from Jieping Ye, Kevin Knight)

10. SmartTriage: A system for personalized patient data capture, documentation generation, and decision support. (from Yang Wang)

本周 10 篇 CV 精選論文是:

1. A Short Note on the Kinetics-700-2020 Human Action Dataset. (from Andrew Zisserman)

2. Volumetric Calculation of Quantization Error in 3-D Vision Systems. (from Andrew J. Coates)

3. Pose And Joint-Aware Action Recognition. (from Rama Chellappa)

4. Towards Accurate Human Pose Estimation in Videos of Crowded Scenes. (from Shuicheng Yan)

5. A Simple Baseline for Pose Tracking in Videos of Crowded Scenes. (from Shuicheng Yan)

6. Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes. (from Shuicheng Yan)

7. LCD -- Line Clustering and Description for Place Recognition. (from Roland Siegwart)

8. On the Exploration of Incremental Learning for Fine-grained Image Retrieval. (from Tinne Tuytelaars)

9. SCOP: Scientific Control for Reliable Neural Network Pruning. (from Dacheng Tao)

10. Deep learning based registration using spatial gradients and noisy segmentation labels. (from Nikos Paragios)

本周 10 篇 ML 精選論文是:

1. Auxiliary Task Reweighting for Minimum-data Learning. (from Kate Saenko, Trevor Darrell)

2. Boosting Gradient for White-Box Adversarial Attacks. (from Licheng Jiao)

3. A Generalizable and Accessible Approach to Machine Learning with Global Satellite Imagery. (from Ian Bolliger)

4. On Differentially Private Stochastic Convex Optimization with Heavy-tailed Data. (from Srini Devadas)

5. Model selection in reconciling hierarchical time series. (from Rob Hyndman)

6. Maximum-Entropy Adversarial Data Augmentation for Improved Generalization and Robustness. (from Dimitris Metaxas)

7. Regret-optimal control in dynamic environments. (from Babak Hassibi)

8. Probabilistic Numeric Convolutional Neural Networks. (from Max Welling)

9. Orbital MCMC. (from Max Welling)

10. Reinforcement Learning for Optimization of COVID-19 Mitigation policies. (from Peter Stone)

喜歡此內容的人還喜歡

原標題:《7 Papers & Radios | 全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA》

閱讀原文

相關焦點

  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    其實不然,現階段已出現好多研究,它們通過算法的改進,將在 NLP 領域表現良好的模型,如 Transformer、GPT 等進行改進並應用於視覺任務,不僅實現了模型跨界,而且取得了不錯的性能。模型跨界效果如何呢?人工智慧的快速發展已經淋漓盡致地體現在我們的日常生活中,從人臉識別、語音識別到機器翻譯等等,無不展示著 AI 帶來的便利。
  • NLP/CV模型跨界,視覺Transformer趕超CNN?
    前有 Facebook將 Transformer 應用於目標檢測任務、OpenAI 用 GPT-2 做圖像分類的嘗試,這篇「跨界」論文又有哪些新嘗試呢?Transformer 架構早已在自然語言處理任務中得到廣泛應用,但在計算機視覺領域中仍然受到限制。在計算機視覺領域,注意力要麼與卷積網絡結合使用,要麼用來代替卷積網絡的某些組件,同時保持其整體架構不變。該研究表明,對 CNN 的依賴不是必需的,當直接應用於圖像塊序列時,transformer 也能很好地執行圖像分類任務。
  • NLP/CV模型跨界進行到底,視覺Transformer要趕超CNN
    特斯拉 AI 負責人 Andrej Karpathy 轉發了該論文,並表示「樂見計算機視覺和 NLP 領域日益融合」。前有 Facebook 、的嘗試,這篇「跨界」論文又有哪些新嘗試呢?Transformer 架構早已在自然語言處理任務中得到廣泛應用,但在計算機視覺領域中仍然受到限制。
  • NLP/CV模型跨界進行到底,視覺Transformer要趕超CNN?
    前有 Facebook將 Transformer 應用於目標檢測任務、OpenAI 用 GPT-2 做圖像分類的嘗試,這篇「跨界」論文又有哪些新嘗試呢? NLP 領域中的 Transformer VS 計算機視覺領域中的 CNN 基於自注意力的架構,尤其 Transformer,已經成為 NLP 領域的首選模型。該主流方法基於大型文本語料庫進行預訓練,然後針對較小的任務特定數據集進行微調。
  • NLP攜手Transformer跨界計算機視覺,DETR:目標檢測新範式
    但令人意外的是,Transformer 在 CV 界卻反響平平,一度認為不適合 CV 領域,直到最近計算機視覺領域出來幾篇 Transformer 文章,性能直逼 CNN 的 SOTA,給予了計算機視覺領域新的想像空間,Transformer 在計算機視覺領域的範式已經初具雛形。
  • 拋棄注意力,類Transformer新模型跨界視覺任務實現新SOTA
    研究者在計算機視覺任務上評估了 LambdaNetwork,在這些任務上,自注意力顯示出了希望,但遇到了內存成本高昂和無法實際實現的問題。在 ImageNet 分類、COCO 目標檢測和實例分割三方面的對照實驗表明,LambdaNetwork 顯著優於基於卷積和注意力的同類方法,並且計算效率更高、運行速度更快。
  • 36萬類別、1800萬圖像,國內機構創建全球最大人臉數據集
    機器之心報導機器之心編輯部這項研究基於現有公開人臉數據集創建了目前全球最大的人臉數據集,並實現了一個高效的分布式採樣算法,兼顧模型準確率和訓練效率人臉識別是計算機視覺社區長期以來的活躍課題。之前的研究者主要關注人臉特徵提取網絡所用的損失函數,尤其是基於softmax的損失函數大幅提升了人臉識別的性能。然而,飛速增加的人臉圖像數量和GPU內存不足之間的矛盾逐漸變得不可調和。
  • 贈書| 新手指南——如何通過HuggingFace Transformer整合表格數據
    Etc.不過,這種方法有一個缺點,那就是它受到transformer所能處理的最大令牌長度的限制。 這兩個模型都在Conceptual Captions數據集上進行了預訓練,該數據集中包含大約330萬幅圖像-標題對(帶有alt文本標題的網絡圖像)。以上兩個模型,對於給定的圖像,預訓練對象檢測模型(如Faster R-CNN)會獲取圖像區域的向量表示,並將其視為輸入令牌嵌入到transformer模型中。
  • 模型跨界成潮流?OpenAI用GPT-2做圖像分類,實現SOTA性能
    圖像領域的 GPT 模型終於來了!OpenAI 推出了用於圖像分類的模型 iGPT,該模型生成的特徵在多個分類數據集上實現了當前 SOTA 性能,並且實現了良好的圖像補全效果。無監督和自監督學習,或者無人工標註數據的學習,這些都是機器學習領域長期存在的挑戰。
  • 超越SOTA Transformer模型,哈佛、FAIR提出基於殘差能量模型的文本...
    機器之心報導機器之心編輯部在本文中,來自哈佛大學、Facebook AI 研究院的研究者提出了一種基於殘差能量模型的文本生成方法,效果超過 state-of-the-art 的 transformer 語言模型。
  • 速度、準確率與泛化性能媲美SOTA CNN,Facebook開源高效圖像...
    最近,Facebook 研究人員提出一項新技術——數據高效圖像 Transformer (DeiT),該方法所需的數據量和計算資源更少,且能產生高性能的圖像分類模型。Transformer 是自然語言處理領域的主流方法,在多項任務中實現了 SOTA 結果。
  • 視覺+Transformer最新論文出爐,華為聯合北大、雪梨大學發表
    已有研究表明,Transformer 在計算機視覺領域不僅適用於高級任務如圖像分類、目標檢測、車道線檢測等,在低級任務如圖像增強中也取得了突破性進展,毫無疑問,Transformer 是目前計算機視覺領域最值得關注的方向之一。一時間,在各種視覺任務 + Transformer 的論文正如雨後春筍般湧出。
  • 博觀智能刷新規模最大的人臉檢測數據集WIDER FACE紀錄
    功夫紮實並且弟子眾多而在人臉檢測領域眾多數據集測試中WIDER FACE數據集測試是公開的規模最大、檢測難度最高的WIDER FACE是目前業界公開的規模最大、檢測難度最高的人臉檢測數據集,由香港中文大學於2016年建立,按61個事件分類,涵蓋約40萬張人臉標註。
  • 史上最大AI模型GPT-3上線;Transformer跨界做目標檢測
    本研究中鏈路預測模型的分類。 本研究對比分析中模型的損失函數、約束和空間複雜度。 本研究對比分析中採用的 5 個鏈路預測數據集以及它們的常規屬性。 每個鏈路預測模型在 5 個數據集上的訓練時長。
  • 計算機視覺項目:10個高質量開源數據集發布!
    計算機視覺正在加速行業中幾乎每個領域的發展。 在計算機視覺技術的幫助下,組織正在徹底改變機器以前的工作方式。 現在,全球各地的大型技術都在利用計算機視覺技術領域,例如醫療保健和自動駕駛等。 為了建立強大的計算機視覺深度學習模型,必須在訓練階段應用高質量的數據集。在本文中,我們將列出10個可用於Computer Vision項目的高質量數據集。
  • Facebook開源高效圖像Transformer,速度、準確率與泛化性能媲美...
    最近,Facebook 研究人員提出一項新技術——數據高效圖像 Transformer (DeiT),該方法所需的數據量和計算資源更少,且能產生高性能的圖像分類模型。 Transformer 是自然語言處理領域的主流方法,在多項任務中實現了 SOTA 結果。
  • 模型壓縮95%,MIT韓松等人提出新型Lite Transformer
    這樣的專門化配置使得模型在三個語言任務上都比原版 transformer 有所提升,這三個任務分別是機器翻譯、文本摘要和語言建模。在資源有限的情況下(500M/100M MACs),Lite Transformer 在 WMT』14 英法數據集上的 BLEU 值比分別比 transformer 高 1.2/1.7。
  • 機器學習和計算機視覺的前20個圖像數據集
    計算機視覺的目標是使人類視覺系統可以實現任務自動化。計算機視覺任務包括圖像採集、圖像處理和圖像分析。圖像數據可以採用不同的形式,例如視頻序列,從多個角度的不同的攝像機查看圖像或來自醫療掃描儀的多維數據。
  • 超越SOTA Transformer,哈佛,FAIR提出基於殘差能量模型的文本生成
    機器之心報導機器之心編輯部在本文中,來自哈佛大學、Facebook AI 研究院的研究者提出了一種基於殘差能量模型的文本生成方法,效果超過 state-of-the-art 的 transformer 語言模型。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    機器之心 SOTA 項目以前我們找 SOTA 模型,基本上只能靠背景知識與各種 Benchmark,頂多也是 Follow 一些收集頂尖模型的 GitHub 項目。但隨著任務細分與新數據集的不斷公布,這些只關注主流數據集的 Benchmark 就有些不太夠用了。