機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括EMNLP 2020 和CoRL 2020 學術會議的各獎項論文。
目錄:
Learning Latent Representations to Influence Multi-Agent Interaction
SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving
Accelerating Reinforcement Learning with Learned Skill Priors
Digital Voicing of Silent Speech
Transformers: State-of-the-Art Natural Language Processing、
AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients
Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Learning Latent Representations to Influence Multi-Agent Interaction
作者:Annie Xie、Dylan P. Losey、Ryan Tolsma、Chelsea Finn、Dorsa Sadigh
論文連結:https://arxiv.org/pdf/2011.06619.pdf
摘要:與機器人進行無縫交互非常困難,因為智能體是不穩定的。它們會根據 ego 智能體的行為更新策略,ego 智能體必須預見到可能的變化才能做到共同適應(co-adapt)。受人類行為的啟發,研究者認識到機器人不需要明確地建模其他智能體將執行的每一個低級操作。相反,它可以通過高級表示來捕獲其他智能體的潛在策略。
該研究提出一個基於強化學習的框架,用來學習智能體策略的潛在表示,其中 ego 智能體確定其行為與另一智能體未來策略之間的關係。然後 ego 智能體利用這些潛在動態來影響其他智能體,有目的地指導制定適合共同適應的策略。在多個模擬域和現實世界曲棍球遊戲中,該方法優於其他方法,並學會影響其他智能體。
本研究中學習和利用潛在意圖的方法流程圖。
學習和影響潛在意圖(LILI)算法。
air hockey 實驗的學習結果。
推薦:CoRL 2020 最佳論文。
論文 2:SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving
作者:Ming Zhou、Jun Luo、Julian Villella、Yaodong Yang 等
論文連結:https://arxiv.org/pdf/2010.09776.pdf
摘要:多智能體交互是現實世界自動駕駛領域的基礎組成部分。經歷十幾年的研究和發展,如何與多樣化場景中各類道路使用者進行高效交互的問題依然未能很好地解決。學習方法可以為解決該問題提供很大幫助,但這些方法需要能夠產生多樣化和高效駕駛交互的真實多智能體模擬器。
所以,為了滿足這種需求,來自華為諾亞方舟實驗室、上海交大和倫敦大學學院的研究者開發了一個名為 SMARTS(Scalable Multi-Agent RL Training School)的專用模擬平臺,該平臺支持多樣化道路使用者行為模型的訓練、積累和使用。這些反過來又可以用於創建日益真實和多樣化的交互,從而能夠對多智能體交互進行更深更廣泛的研究。
此外,研究者描述了 SMARTS 的設計目標,解釋了它的基本架構以及關鍵特徵,並通過交互場景中具體的多智能體實驗闡釋了其使用流程。研究者還開源了 SMARTS 平臺以及相關的基準任務和評估指標,以鼓勵和推進自動駕駛領域多智能體學習的更多研究。
SMARTS 架構示意圖。
SMARTS 平臺上的駕駛交互場景示例。
行為度量的結果。
推薦:CoRL 2020 最佳系統論文。
論文 3:Accelerating Reinforcement Learning with Learned Skill Priors
作者:Karl Pertsch、Youngwoon Lee、Joseph J. Lim
論文連結:https://arxiv.org/pdf/2010.11944.pdf
摘要:智能體在學習新任務時嚴重依賴之前的經驗,大部分現代強化學習方法從頭開始學習每項任務。利用先驗知識的一種方法是將在之前任務中學到的技能遷移到新任務中。但是,隨著之前經驗的增加,需要遷移的技能也有所增多,這就對在下遊學習任務中探索全部可用技能增加了挑戰性。還好,直觀來看,並非所有技能都需要用相等的概率進行探索,例如當前狀態可以提示需要探索的技能。
南加州大學的這項研究提出了一個深度潛變量模型,可以聯合學習技能的嵌入空間和來自離線智能體經驗的技能先驗。研究者將常見的最大熵強化學習方法進行擴展,以使用技能先驗引導下遊學習。該研究在複雜的導航和機器人操作任務中對提出的方法 SPiRL (Skill-Prior RL) 進行驗證,結果表明學得的技能先驗對於從豐富數據集上進行高效技能遷移是必要的。
聯合學習技能嵌入和技能先驗的深度潛變量模型。
算法 1。
本研究方法與其他方法的下遊任務學習曲線。
推薦:CoRL 2020 最佳 Presentation 論文。
論文 4:Digital Voicing of Silent Speech
作者:David Gaddy、Dan Klein
論文連結:https://www.aclweb.org/anthology/2020.emnlp-main.445.pdf
摘要:在這篇論文中,來自加州大學伯克利分校的研究者們探究了無聲語音的數位化發聲任務,其中基於捕獲肌肉衝動的肌電圖(EMG)傳感器度量,將無聲口語單詞轉換為可聽語音。儘管此前已經有利用有聲語音期間收集的 EMG 訓練語音合成模型的研究,但該研究首次利用了在無聲發音期間收集的 EMG 進行訓練。
具體而言,研究者提出了一種通過將音頻目標從有聲信號轉換為無聲信號來對無聲 EMG 進行訓練的方法。與僅使用有聲數據進行訓練的基線方法相比,該方法顯著提升了從無聲 EMG 中生成音頻的清晰度。在某種數據條件下,該方法將轉錄詞誤差率從 64% 降至 4%;另一種數據條件下,轉錄詞誤差率從 88% 降至 68%。為了促進這一研究任務的進一步發展,該研究已經共享了無聲和有聲面部 EMG 度量的新數據集。
模型所使用數據的三個組成部分。
在 silent EMG ES 上用於訓練的音頻目標遷移方法。
closed 詞彙數據上人類可理解評估結果。
推薦:EMNLP 2020 最佳論文。
論文 5:Transformers: State-of-the-Art Natural Language Processing
作者:Thomas Wolf、Lysandre Debut、Victor Sanh 等
論文連結:https://arxiv.org/pdf/1910.03771.pdf
摘要:模型架構和預訓練的發展促進了自然語言處理領域近期的進展:Transformer 架構推動了更高容量模型的構建,預訓練使得在大量任務中高效利用模型容量成為可能。Hugging Face 團隊創建了 transformers 開源庫,旨在將這些 NLP 進展開放給更廣泛的機器學習社區。該庫包含多個精心設計的 SOTA Transformer 架構,並使用統一的 API。transformers 庫匯集了社區構建的多個預訓練模型,並向社區開放。目前,該庫的 star 量高達 36.9K,包含數千個預訓練模型。
Transformers 庫。
Transformers 模型中心。
Transformers 推理實驗。
推薦:EMNLP 2020 最佳 demo 論文。
論文 6:AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients
作者:Juntang Zhuang、Tommy Tang、Yifan Ding 等
論文連結:https://arxiv.org/abs/2010.07468
摘要:最常用的深度學習優化器大致可分為自適應方法(如 Adam)和加速方案(如帶有動量的隨機梯度下降(SGD))。與 SGD 相比,許多模型(如卷積神經網絡)採用自適應方法通常收斂速度更快,但泛化效果卻較差。對於生成對抗網絡(GAN)這類的複雜情況,通常默認使用自適應方法,因為其具有穩定性。
本文提出新的優化器 AdaBelief,根據當前梯度方向上的「belief」來調整步長,將嘈雜梯度的指數移動平均(EMA)當作下一步的梯度預測。如果觀察到的梯度大大偏離了預測,那麼就不信任當前的觀察,採取一個較小的步長;如果觀察到的梯度接近預測值,那麼就相信當前的觀察,並採取一個較大的步長。本文通過實驗驗證了 AdaBelief 同時滿足 3 個優點:自適應方法的快速收斂、良好泛化性、訓練穩定性。
Adam 和 AdaBelief 優化器的比較。
SGD、Adam 和 AdaBelief 的軌跡圖。
AdaBelief 和 Padam 的比較。
推薦:本文一作莊鈞堂為耶魯大學生物醫學工程系博士生。
論文 7:Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding
作者:Yongqi Zhang、Quanming Yao、Lei Chen
論文連結:https://arxiv.org/pdf/1911.07132.pdf
摘要:知識圖譜(KG)是一種重要的數據結構,它把現實世界那些可以被計算機記錄且可以為人類所理解的事實組織起來。然而,如何學習並從知識圖譜等這類組合式和離散型數據中進行推理是一項困難的任務。研究者將首先解釋 KG 中的重要特性並介紹自動化機器學習(AutoML)的定義。接著,研究者將詳細解讀其最近使用 AutoML 技術探索 KG 重要特性的工作。最後展示進一步的研究工作。
現有 KG 嵌入方法的循環函數。
Interstella 算法。
Countries 數據集上的性能比較。
推薦:知識圖譜嵌入的自動化。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 9 篇 NLP 精選論文是:
1. Exploring Neural Entity Representations for Semantic Information. (from Eduard Hovy)
2. A Sequence-to-Sequence Approach to Dialogue State Tracking. (from Yang Wang, Hang Li)
3. EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform for NLP Applications. (from Deng Cai)
4. Sequence-Level Mixed Sample Data Augmentation. (from Alexander M. Rush)
5. Persuasive Dialogue Understanding: the Baselines and Negative Results. (from Soujanya Poria)
6. An Integrated Approach for Improving Brand Consistency of Web Content: Modeling, Analysis and Recommendation. (from Niloy Ganguly)
7. Topology of Word Embeddings: Singularities Reflect Polysemy. (from Milica Gašić)
8. Out-of-Task Training for Dialog State Tracking Models. (from Milica Gašić)
9. LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue Policy Optimization. (from Milica Gašić)
本周 10 篇 CV 精選論文是:
1. Deep Positional and Relational Feature Learning for Rotation-Invariant Point Cloud Analysis. (from Jian Sun)
2. Analyzing and Mitigating Compression Defects in Deep Learning. (from Larry Davis)
3. Shaping Deep Feature Space towards Gaussian Mixture for Visual Classification. (from Ming-Hsuan Yang)
4. End-to-End Object Detection with Adaptive Clustering Transformer. (from Xiaogang Wang)
5. Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators?. (from Qi Li, Tieniu Tan)
6. Fast Motion Understanding with Spatiotemporal Neural Networks and Dynamic Vision Sensors. (from Daniel D. Lee)
7. Layer-Wise Data-Free CNN Compression. (from Ali Farhadi)
8. Positive-Congruent Training: Towards Regression-Free Model Updates. (from Meng Wang, Stefano Soatto)
9. Modeling Fashion Influence from Photos. (from Kristen Grauman)
10. DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation. (from Xiansheng Hua)
本周 10 篇 ML 精選論文是:
1. C-Learning: Learning to Achieve Goals via Recursive Classification. (from Ruslan Salakhutdinov, Sergey Levine)
2. Using Text to Teach Image Retrieval. (from Guillermo Sapiro)
3. A User's Guide to Calibrating Robotics Simulators. (from Dieter Fox)
4. Low-latency Federated Learning and Blockchain for Edge Association in Digital Twin empowered 6G Networks. (from Yan Zhang)
5. FedEval: A Benchmark System with a Comprehensive Evaluation Model for Federated Learning. (from Kai Chen)
6. Statistical model-based evaluation of neural networks. (from Yonina C. Eldar)
7. Generalized Inverse Planning: Learning Lifted non-Markovian Utility for Generalizable Task Representation. (from Song-Chun Zhu)
8. Weighted Entropy Modification for Soft Actor-Critic. (from Song-Chun Zhu)
9. Parrot: Data-Driven Behavioral Priors for Reinforcement Learning. (from Sergey Levine)
10. A Knowledge Distillation Ensemble Framework for Predicting Short and Long-term Hospitalisation Outcomes from Electronic Health Records Data. (from Richard JB Dobson)
喜歡此內容的人還喜歡
原標題:《7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief》
閱讀原文