機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括格靈深瞳等機構開源的全球最大人臉數據集,以及類 Transformer 模型跨界在視覺任務上取得了新 SOTA。
目錄:
LambdaNetworks: Modeling long-range Interactions without Attention
Fourier Neural Operator for Parametric Partial Differential Equations
Beyond English-Centric Multilingual Machine Translation
A Cross-Domain Recommendation Model Based on Dual Attention Mechanism and Transfer Learning
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
Machine Learning Parallelism Could Be Adaptive, Composable and Automated
Partial FC: Training 10 Million Identities on a Single Machine
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:LambdaNetworks: Modeling long-range Interactions without Attention
作者:未公開
論文連結:https://openreview.net/pdf?id=xTJEN-ggl1b
摘要:對長程交互進行建模在機器學習中至關重要。注意力已成為捕獲長程交互的一種常用範式。但是,自注意力二次方式的內存佔用已經阻礙了其對長序列或多維輸入(例如包含數萬個像素的圖像)的適用性。例如,將單個多頭注意力層應用於一批 256 個 64x64 (8 頭)輸入圖像需要 32GB 的內存,這在實踐中是不允許的。
該研究提出了一種名為「lambda」的層,這些層提供了一種捕獲輸入和一組結構化上下文元素之間長程交互的通用框架。
lambda 層將可用上下文轉換為單個線性函數(lambdas)。這些函數直接單獨應用於每個輸入。研究者認為,lambda 層可以作為注意力機制的自然替代。注意力定義了輸入元素和上下文元素之間的相似性核,而 lambda 層將上下文信息匯總為固定大小的線性函數,從而避免了對內存消耗大的注意力圖的需求。
lambda 層的超參數、參數等量化數值。
比較了多查詢 lambda 層和多頭注意力操作的時間和空間複雜度。
比較 LambdaNetworks 與 a)基線 ResNet50、b)通道注意力和 c)以往使用自注意力來補充或替換 ResNet50 中的 3x3 卷積的研究方法。
推薦:Transformer 用在圖像識別上會存在計算效率過低的挑戰,這篇向 ICLR 2021 大會提交的論文似乎很好地解決了這一問題,其研究的 PyTorch 代碼也已在 GitHub 上開源。
論文 2:Fourier Neural Operator for Parametric Partial Differential Equations
作者:Zongyi Li、Nikola Kovachki、Kamyar Azizzadenesheli 等
論文連結:https://arxiv.org/abs/2010.08895v1
摘要:傳統意義上,神經網絡主要學習有限維歐式空間之間的映射。近期,這一做法被推廣到神經算子,它主要學習函數空間之間的映射。對於偏微分方程(PDE)而言,神經算子直接學習任意函數參數依賴到解的映射。因而,與解決一個方程實例的經典方法不同,神經算子學習整個 PDE 家族。
近日,來自加州理工學院和普渡大學的研究者通過直接在傅立葉空間中對積分核進行參數化,構造了新的神經算子——傅立葉神經算子(FNO),幫助實現表達力強且高效的架構。
研究人員在伯格斯方程(Burgers』 equatio)、達西流動(Darcy flow)和納維 - 斯託克斯方程(Navier-Stokes equation)上進行實驗,FNO 超越現有的神經網絡方法取得了 SOTA 性能,且與傳統的 PDE 求解器相比,其速度快了三個數量級。
上:傅立葉層架構;下:納維 - 斯託克斯方程示例流。
在一維伯格斯方程、二維達西流動問題和二維納維 - 斯託克斯方程上對比了 FNO 和多個有限維架構和基於算子的逼近方法。
推薦:該論文目前正在接受 ICLR 2021 大會的審閱。
論文 3:Beyond English-Centric Multilingual Machine Translation
作者:Angela Fan、Shruti Bhosale、Holger Schwenk 等
論文連結:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation
摘要:近日,Facebook 根據多年對 MT 的研究宣布實現了一個重要的裡程碑:首個單一的大規模 MMT 模型,該模型可以實現 100x100 個語言對的直接翻譯,而不依賴以英語為中心的數據。這個單一的多語言模型表現得和傳統雙語模型一樣好,並且比以英語為中心的多語言模型提高了 10 個 BLEU 點。
具體而言,通過使用新的挖掘策略來創建翻譯數據,該研究構建了首個真正的多對多數據集。該數據集擁有 100 種語言的 75 億個句子。研究者使用可擴展技術來建立具有 150 億個參數的通用模型,它從相關語言中捕獲信息,並反映出更加多樣化的語言文字和詞法。目前,這項研究已經開源。
多對多數據集和多語言模型示意圖。
訓練語料庫中橋梁語言的數據量。
多對多和以英語為中心語言模型的比較。在包含英語的評估方向上,多對多模型與以英語為中心模型的性能相當,但在非英語方向上的性能要好得多。
推薦:多語言機器翻譯模型 M2M-100 不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。
論文 4:A Cross-Domain Recommendation Model Based on Dual Attention Mechanism and Transfer Learning
作者:CHAI Yu-Mei、YUN Wu-Lian、WANG Li-Ming、LIU Zhen
論文連結:http://cjc.ict.ac.cn/online/bfpub/cym-2020324142846.pdf
摘要:本文在 Amazon 數據集上進行了實驗 比較與分析,首先對本文模型的推薦性能進行評估,與現有的跨領域推薦模型相比,在兩種不同的跨領域數據集上平均絕 對誤差分別提升 6.1% 和 9.15%,均方根誤差分別提升 3.66% 和 7.01%;然後對本文模型的知識遷移性能進行評估,與現有 的單領域推薦模型相比,在不同數據集下均方誤差分別提升 5.47% 和 10.35%;最後通過實驗驗證了本文提出的注意力機制 的有效性,及在緩解數據稀疏問題問題和用戶冷啟動問題方面的優勢,也驗證了模型的普適性。
特徵提取網絡。
跨領域推薦模型 AMTR 架構圖。
推薦:本文在《計算機學報》上發表。
論文 5:RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
作者:Yingqi Qu、Yuchen Ding、Jing Liu 等
論文連結:https://arxiv.org/abs/2010.08191
摘要:近日,百度提出了面向端到端問答的檢索模型訓練方法 RocketQA,該方法針對模型訓練中存在的問題,通過跨批次負採樣(cross-batch negatives)、去噪的強負例採樣(denoised hard negative sampling)與數據增強(data augmentation)等技術,大幅提升了對偶式檢索模型的效果。RocketQA 不僅在多個問答相關數據集中取得了 SOTA,同時也刷新了微軟 MSMARCO 數據集段落排序任務的榜單,超越谷歌、微軟、Facebook、阿里、美團、卡內基梅隆大學、清華大學、滑鐵盧大學等企業和高校位居第一,為實現「端到端問答」邁出了重要的一步。
基於稠密向量表示的對偶模型。
RocketQA 訓練流程。
微軟 MSMARCO Passage Ranking 數據集 leaderboard。
推薦:RocketQA 已逐步應用在百度搜索、廣告等核心業務中,並將在更多場景中發揮作用。
論文 6:Machine Learning Parallelism Could Be Adaptive, Composable and Automated
作者:Hao Zhang
論文連結:https://www.cs.cmu.edu/~hzhang2/files/hao_zhang_doctoral_dissertation.pdf
摘要:隨著近年來,機器學習領域的創新不斷加速,SysML 的研究者已經創建了在多個設備或計算節點上並行機器學習訓練的算法和系統。機器學習模型在結構上變得越來越複雜,許多系統都試圖提供全面的性能。尤其是,機器學習擴展通常會低估從一個適當的分布策略映射到模型所需要的知識與時間。此外,將並行訓練系統應用於複雜模型更是增加了非常規的開發成本,且性能通常低於預期。
近日,CMU 機器人研究所博士張浩公布了自己的博士學位論文《機器學習並行化的自適應、可組合與自動化》,旨在找出並解決並行 ML 技術和系統實現在可用性和性能方面的研究挑戰。
論文結構概覽。
Facebook AI 提出的 DETR 的架構圖。
AutoSync 策略的自動優化流程算法。
推薦:張浩博士的 PhD 導師為 CMU 教授、Petuum 創始人邢波(Eric Xing)。
論文 7:Partial FC: Training 10 Million Identities on a Single Machine
作者:Xiang An,1 Xuhan Zhu, 2 Yang Xiao
論文連結:https://arxiv.org/pdf/2010.05222.pdf
摘要:人臉識別是計算機視覺社區長期以來的活躍課題。之前的研究者主要關注人臉特徵提取網絡所用的損失函數,尤其是基於 softmax 的損失函數大幅提升了人臉識別的性能。然而,飛速增加的人臉圖像數量和 GPU 內存不足之間的矛盾逐漸變得不可調和。
最近,格靈深瞳、北京郵電大學、湘潭大學和北京理工大學的研究者深入分析了基於 softmax 的損失函數的優化目標,以及訓練大規模人臉數據的困難。研究發現,softmax 函數的負類在人臉表示學習中的重要性並不像我們之前認為的那樣高。實驗表明,在主流基準上,與使用全部類別訓練的 SOTA 模型相比,使用 10% 隨機採樣類別訓練 softmax 函數後模型準確率未出現損失。
Glint360K 數據集的類別數和圖像數比主流訓練集加起來還要多。
相比目前最好的訓練集 MS1M-V3,Glint360K 有十個點的提升。
在學術界的測試集 IJB-C 和 Megaface 上,使用 Glint360K 的 Full softmax 和 10% 採樣都有著相當不錯的結果。
推薦:這是目前最大的公共人臉識別訓練數據集,已開源。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. Topic-Aware Abstractive Text Summarization. (from Harry Jiannan Wang)
2. Multi-task Learning of Negation and Speculation for Targeted Sentiment Classification. (from Andrew Moore)
3. Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation. (from Dan Jurafsky)
4. UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unified Medical Language System Metathesaurus. (from George Michalopoulos)
5. Open Question Answering over Tables and Text. (from William W. Cohen)
6. Word Shape Matters: Robust Machine Translation with Visual Embedding. (from Eric P. Xing)
7. Neural Language Modeling for Contextualized Temporal Graph Generation. (from Yiming Yang)
8. Bridging the Gap between Conversational Reasoning and Interactive Recommendation. (from Minlie Huang)
9. DiDi's Machine Translation System for WMT2020. (from Jieping Ye, Kevin Knight)
10. SmartTriage: A system for personalized patient data capture, documentation generation, and decision support. (from Yang Wang)
本周 10 篇 CV 精選論文是:
1. A Short Note on the Kinetics-700-2020 Human Action Dataset. (from Andrew Zisserman)
2. Volumetric Calculation of Quantization Error in 3-D Vision Systems. (from Andrew J. Coates)
3. Pose And Joint-Aware Action Recognition. (from Rama Chellappa)
4. Towards Accurate Human Pose Estimation in Videos of Crowded Scenes. (from Shuicheng Yan)
5. A Simple Baseline for Pose Tracking in Videos of Crowded Scenes. (from Shuicheng Yan)
6. Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes. (from Shuicheng Yan)
7. LCD -- Line Clustering and Description for Place Recognition. (from Roland Siegwart)
8. On the Exploration of Incremental Learning for Fine-grained Image Retrieval. (from Tinne Tuytelaars)
9. SCOP: Scientific Control for Reliable Neural Network Pruning. (from Dacheng Tao)
10. Deep learning based registration using spatial gradients and noisy segmentation labels. (from Nikos Paragios)
本周 10 篇 ML 精選論文是:
1. Auxiliary Task Reweighting for Minimum-data Learning. (from Kate Saenko, Trevor Darrell)
2. Boosting Gradient for White-Box Adversarial Attacks. (from Licheng Jiao)
3. A Generalizable and Accessible Approach to Machine Learning with Global Satellite Imagery. (from Ian Bolliger)
4. On Differentially Private Stochastic Convex Optimization with Heavy-tailed Data. (from Srini Devadas)
5. Model selection in reconciling hierarchical time series. (from Rob Hyndman)
6. Maximum-Entropy Adversarial Data Augmentation for Improved Generalization and Robustness. (from Dimitris Metaxas)
7. Regret-optimal control in dynamic environments. (from Babak Hassibi)
8. Probabilistic Numeric Convolutional Neural Networks. (from Max Welling)
9. Orbital MCMC. (from Max Welling)
10. Reinforcement Learning for Optimization of COVID-19 Mitigation policies. (from Peter Stone)
喜歡此內容的人還喜歡
原標題:《7 Papers & Radios | 全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA》
閱讀原文