機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括牛津大學等機構的學者利用機器學習算法實現 10 萬高壓非晶矽原子的模擬,以及香港大學和字節跳動 AI 實驗室研究者提出的端到端單階段目標檢測器 OneNet。
目錄:
Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis
OneNet: Towards End-to-End One-Stage Object Detection
Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search
Origins of Structural and Electronic Transitions in Disordered Silicon
DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
AutoDropout: Learning Dropout Patterns to Regularize Deep Networks
ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis
作者:Wen Liu、Zhixin Piao、Zhi Tu 等
論文連結:https://arxiv.org/pdf/2011.09055.pdf
摘要:去年,來自上海科技大學和騰訊 AI Lab 的研究者的研究論文《Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis》入選計算機視覺頂會 ICCV 2019。經過一年的努力,該論文所提方法的改進版誕生了。
改進版的優勢在於源圖像的數量從一張變為一組。以動作合成為例,源圖像是一組不同視角的圖像,因此合成結果從多個角度看起來效果更好。具體而言,為了較好地表徵源圖像的識別性信息,該研究採用去噪卷積自動編碼器提取源特徵。此外,該方法還可以支持來自多源的更靈活的 warping。為了進一步提高未知源圖像的泛化能力,該研究採用了 one/few-shot 對抗學習。
訓練 pipeline
LWB 和 AttLWB 的結構
川普版「雞你太美」
推薦:舞蹈的轉身和面向背後的動作合成效果都有所提升。
論文 2:OneNet: Towards End-to-End One-Stage Object Detection
作者:Peize Sun 等
論文連結:https://arxiv.org/abs/2012.05780
摘要:在本文中,來自香港大學和字節跳動 AI 實驗室的研究者發現:標籤分配中樣本與真值之間缺乏分類代價是 one-stage 檢測器移除非最大抑制(NMS)並實現端到端的主要障礙。現有的 one-stage 目標檢測僅通過位置代價來分配標籤,例如框 IoU、點距離。在缺少分類代價的情況,單獨的位置代價將將導致高置信度得分在推理中產生冗餘框,從而使 NMS 成為必要的後處理。
為了設計一種端到端 one-stage 目標檢測器,研究者提出了最小代價分配(Minimum Cost Assignment)。代價是樣本與真值之間的分類代價和位置代價的總和。對於每個目標真值,僅將一個最小代價樣本分配為正樣本,其他都是負樣本。為了評估該方法的有效性,研究者設計了一個非常簡單的 one-stage 檢測器 OneNet。實驗結果表明,在經過「最小代價分配」訓練後,OneNet 避免了產生重複框,並實現了端到端目標檢測。在 COCO 數據集上,OneNet 實現了 35.0 AP/80 FPS 和 37.7 AP/50 FPS,圖像大小為 512 像素。
算法 1 給出了最小代價分配的說明性示例。
OneNet 的流程。
多頭訓練策略。
推薦:首次實現了在 dense detector 中無需 NMS 後處理。
論文 3:Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search
作者:Linnan Wang、Rodrigo Fonseca、Yuandong Tian
論文連結:https://arxiv.org/pdf/2007.00708.pdf
摘要:現實世界的大多數系統是沒有辦法給出一個確切的函數定義,比如機器學習模型中的調參,大規模數據中心的冷藏策略等問題。這類問題統統被定義為黑盒優化。黑盒優化是在沒辦法求解梯度的情況下,通過觀察輸入和輸出,去猜測優化變量的最優解。在過去的幾十年發展中,遺傳算法和貝葉斯優化一直是黑盒優化最熱門的方法。
不同於主流算法,布朗大學的研究者和 Facebook 田淵棟團隊在本文中聯合介紹一個基於蒙特卡洛樹搜索(MCTS)的全新黑盒優化算法,隱動作集蒙特卡洛樹搜索 (LA-MCTS)。LA-MCTS 發表在 2020 年的 NeurIPS,僅僅在文章公開幾個月後,就被來自俄羅斯 JetBrains 和韓國的 KAIST 的隊伍獨立復現,並用來參加 2020 年 NeurIPS 的黑盒優化挑戰,分別取得了第三名和第八名的好成績 。
Evolution 算法的優化過程。
算法的大體框架。
NeurIPS 2020 黑盒優化挑戰賽 leaderboard。
推薦:論文一作王林楠是布朗大學第四年博士生,他的研究方向為人工智慧和超級計算。
論文 4:Origins of Structural and Electronic Transitions in Disordered Silicon
作者:Volker L. Deringer、Noam Bernstein、Gábor Csányi 等
論文連結:https://www.nature.com/articles/s41586-020-03072-z
摘要:依靠算法推斷能力和強大的算力,很多人都認為 AI 在材料設計、材料篩選和材料性能預測等領域擁有很大潛力。為了對一般無序結構材料有更深的理解,人們廣泛研究了非晶矽在高壓條件下的富相行為。然而在和原子打交道的層面上,人們一直需要藉助量子力學來理解材料的結構和鍵合,這僅限於尺度很小的模型系統,如果用機器學習算法從量子力學數據中「學習」會是怎麼樣?
在 2021 年的第一期《自然》雜誌封面研究中,來自牛津大學的 Volker Deringer 等人展示了模擬加壓非晶矽的原子機器學習模型,成功解決了這一挑戰,並捕獲了實驗中遇到的所有結構變化。這種計算方法可以為實驗條件極富挑戰性的材料預測建模開啟全新的方式。這是 2020 年 12 月 DeepMind 人工智慧解決生物學 50 年來重大挑戰之後,人工智慧在又一個新的領域展現強大能力。現在,人類已經能夠實現 10 納米尺度,十萬個矽原子系統的模擬——使用常規方法的話,即使是超級計算機也需要耗費大量時間。
研究者通過機器學習,對包含 10 萬個矽原子的系統從冷卻的液態到 20 萬大氣壓(20GPa)壓縮過程提供了前所未有的結構和鍵能信息。
液態矽的壓縮過程。
過冷液態矽的玻璃化。
推薦:自生物領域之後,材料領域也被人工智慧攻陷了。
論文 5:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
作者:Pengcheng He、Xiaodong Liu、Jianfeng Gao、Weizhu Chen
論文連結:https://arxiv.org/pdf/2006.03654v2.pdf
摘要:去年 6 月,來自微軟的研究者提出一種新型預訓練語言模型 DeBERTa,該模型使用兩種新技術改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,並提供預訓練模型下載。最近這項研究又取得了新的進展。
微軟最近通過訓練更大的版本來更新 DeBERTa 模型,該版本由 48 個 Transformer 層組成,帶有 15 億個參數。本次擴大規模帶來了極大的性能提升,使得單個 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超過人類(89.9 vs 89.8),整體 DeBERTa 模型在 SuperGLUE 基準排名中居於首位,以 90.3 的得分顯著高出人類基線(89.8)。最近該研究在 arXiv 上提交了 DeBERTa 的最新論文,文中詳細介紹了 DeBERTa 模型的方法及最新的實驗結果。
DeBERTa 架構。
在 GLUE 開發集上的結果對比。
SuperGLUE 排行榜,2021 年 1 月 6 日。
推薦:目前該模型以 90.8 的宏平均(macro-average)得分高居 GLUE 基準排名的首位。
論文 6:AutoDropout: Learning Dropout Patterns to Regularize Deep Networks
作者:Hieu Pham、Quoc V. Le
論文連結:https://arxiv.org/pdf/2101.01761.pdf
摘要:最近,來自谷歌大腦的兩位研究者通過研究以往工作中的 dropout 模式,發現這些模式不僅難以設計,而且還需要針對每個模型架構、任務和域進行專門調整。
為了解決這些難題,研究者提出了 AutoDropout,它可以實現專用 dropout 模式設計過程的自動化。AutoDropout 的主要貢獻是一個新穎的結構化 dropout 模式搜索空間。在這個搜索空間中,人們可以為每個模型架構和任務找到適合的 dropout 模式。此外,該搜索空間還泛化了很多現有的 dropout 模式。
實驗結果表明,AutoDropout 找到的 dropout 模式能夠顯著提升常見 ConvNet 和 Transformer 架構的性能。在 ImageNet 數據集上,AutoDropout 將 ResNet-50 的 top-1 準確率從 76.5% 提升至 78.7%,EfficientNet-B7 的性能則從 84.1% 提升至 84.7%。在 CIFAR-10-4000 的半監督設置下,AutoDropout 也將 Wide-ResNet-28-2 的準確率從 94.9% 提升至 95.8%。對於語言建模任務而言,AutoDropout 將 Transformer-XL 在 Penn Treebank 數據集上的困惑度從 56.0 降至 54.9。
AutoDropout 搜索空間中的一種 dropout 模式。
搜索空間中的基本模式是連續矩形。
研究者使用 Transformer 網絡對控制器進行參數化。
推薦:Dropout 也能自動化了,谷歌 Quoc Le 等人利用強化學習自動找尋模型專用 Dropout。
論文 7:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
作者:Xuan Ouyang、Shuohuan Wang、Chao Pang 等
論文連結:https://arxiv.org/pdf/2012.15674.pdf
摘要:2021 年伊始,百度在自然語言處理領域取得最新突破,發布多語言預訓練模型 ERNIE-M。ERNIE-M 通過對 96 門語言的學習,使得一個模型能同時理解 96 種語言,該項技術在 5 類典型跨語言理解任務上刷新世界最好效果。在權威跨語言理解榜單 XTREME 上,ERNIE-M 也登頂榜首,超越微軟、谷歌、Facebook 等機構提出的模型。據了解,基於飛槳實現的 ERNIE-M 模型也會於近期開源。
leaderboard。
ERNIE-M 的兩階段預訓練算法。
ERNIE-M 在 Cross-lingual Transfer 和 Multi-language Fine-tuning 兩種模式下驗證了效果,研究者用英語對 ERNIE-M 進行微調訓練,在漢語、德語、烏爾都語等語言上測試,能達到平均準確率 82.0% 的效果。
推薦:同時掌握 96 門語言,取得多項世界突破,百度發布預訓練模型 ERNIE-M。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 9 篇 NLP 精選論文是:
1. Can RNNs learn Recursive Nested Subject-Verb Agreements?. (from Stanislas Dehaene)
2. Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing. (from Jian Sun)
3. Personalized Food Recommendation as Constrained Question Answering over a Large-scale Food Knowledge Graph. (from Mohammed J. Zaki)
4. Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies. (from Dan Roth)
5. I-BERT: Integer-only BERT Quantization. (from Michael W. Mahoney, Kurt Keutzer)
6. Reinforcement Learning based Collective Entity Alignment with Adaptive Features. (from Xuemin Lin)
7. Multitask Learning for Emotion and Personality Detection. (from Erik Cambria)
8. Curriculum-Meta Learning for Order-Robust Continual Relation Extraction. (from Guilin Qi)
9. Taxonomy Completion via Triplet Matching Network. (from Lei Li)
本周 10 篇 CV 精選論文是:
1. LAEO-Net++: revisiting people Looking At Each Other in videos. (from Andrew Zisserman)
2. Learning Temporal Dynamics from Cycles in Narrated Video. (from Cordelia Schmid)
3. Where2Act: From Pixels to Actions for Articulated 3D Objects. (from Leonidas Guibas, Abhinav Gupta)
4. GAN-Control: Explicitly Controllable GANs. (from Gerard Medioni)
5. Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting. (from Raquel Urtasun)
6. Efficient 3D Point Cloud Feature Learning for Large-Scale Place Recognition. (from Jian Yang)
7. Partial Domain Adaptation Using Selective Representation Learning For Class-Weight Computation. (from Baoxin Li)
8. MSED: a multi-modal sleep event detection model for clinical sleep analysis. (from Poul Jennum)
9. Progressive Self-Guided Loss for Salient Object Detection. (from Weisi Lin)
10. PVA: Pixel-aligned Volumetric Avatars. (from James Hays)
本周 10 篇 ML 精選論文是:
1. Distribution-Free, Risk-Controlling Prediction Sets. (from Jitendra Malik, Michael I. Jordan)
2. AutoDropout: Learning Dropout Patterns to Regularize Deep Networks. (from Quoc V. Le)
3. GraphHop: An Enhanced Label Propagation Method for Node Classification. (from C.-C. Jay Kuo)
4. Reinforcement Learning with Latent Flow. (from Yang Gao, Pieter Abbeel)
5. Cauchy-Schwarz Regularized Autoencoder. (from Maja Pantic)
6. GeCo: Quality Counterfactual Explanations in Real Time. (from Dan Suciu)
7. Few-Shot Learning with Class Imbalance. (from Amos Storkey)
8. Robust Text CAPTCHAs Using Adversarial Examples. (from Cho-Jui Hsieh)
9. Geometric Entropic Exploration. (from Rémi Munos)
10. Do We Really Need Deep Learning Models for Time Series Forecasting?. (from Lars Schmidt-Thieme)
原標題:《7 Papers & Radios | ML算法實現10萬高壓非晶矽原子模擬;E2E單階段目標檢測》
閱讀原文