機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括谷歌大腦提出的擁有 1.6 萬億參數的語言模型 Switch Transformer,以及 IJCAI 2020 各獎項論文。
目錄:
Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking
Online 3D Bin Packing with Constrained Deep Reinforcement Learning
Synthesizing Aspect-Driven Recommendation Explanations from Reviews
A Multi-Objective Approach to Mitigate Negative Side Effects
SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY
Deep learning-enabled medical computer vision
11 TOPS photonic convolutional accelerator for optical neural networks
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking
作者:Yingjie Gu、Xiaoye Qu、Zhefeng Wang 等
論文連結:https://arxiv.org/abs/2101.02394
摘要:實體連結技術的發展可以促進信息抽取、文檔分析、智能問答、知識庫擴充等不同的任務,但是由於名稱的變化和實體的模糊性,實體連結任務十分具有挑戰性,尤其是短文本的實體連結,句子長度短,在連結過程中,每個待消歧的實體能利用的上下文信息非常有限。
針對這個任務,華為雲的研究人員提出了一個多項選擇閱讀理解的框架,為句子中每個待消歧的實體分別生成一個問題,並將知識庫中的候選實體轉換成候選答案集,通過這樣一個設計,實體連結轉換為了一個閱讀理解的問題。為了進一步捕捉句子內待消歧實體間的主題一致性來提高連結的準確率,該工作採用了多輪閱讀理解的方式以序列去處理多個待消歧的實體,為句子內多個實體的消歧提供了更豐富的信息。另外,為了解決短文本中常見的不可連結問題(即知識庫中沒有對應的實體),該工作額外設計了一個兩階段的驗證機制來判斷實體是否可被連結。大量的實驗顯示,提出的框架在多個中英文數據集上均取得了目前最優的實體連結效果。
短文本實體連結 M3 框架示意圖。
算法 1。
中文和英文數據集上的評估結果對比。
推薦:本文被 AAAI 2021 會議接收。
論文 2:Online 3D Bin Packing with Constrained Deep Reinforcement Learning
作者:Hang Zhao、Qijin She、Chenyang Zhu 等
論文連結:https://arxiv.org/abs/2006.14978
摘要:國防科技大學、克萊姆森大學和視比特機器人的研究人員合作使用深度強化學習求解在線裝箱問題,該方法的性能表現優於現有的啟發式算法。用戶研究顯示,該算法達到甚至超越了人類的在線碼垛水平。作者團隊還將訓練模型部署到了工業機器人上,實現了業界首個高效能(連續碼放 50 個以上隨機尺寸箱子,空間利用率大於 70%)無序混合碼垛機器人。
基於「預測 - 投影」的動作監督機制實現帶約束的深度強化學習。
箱子的真實順序(左上)和虛擬重排順序(左下,實際順序靠前的箱子不能放在實際順序靠後箱子的上面),右邊展示了不同序列的排序樹。
基於深度強化學習的高效能無序混合碼垛機器人。
推薦:論文已被 AAAI 2021 會議接收。
論文 3:Synthesizing Aspect-Driven Recommendation Explanations from Reviews
作者:Trung-Hoang Le 和 Hady W. Lauw
論文連結:https://www.ijcai.org/Proceedings/2020/0336.pdf
摘要:解釋有助於理解建議並增加採納的可能性,然而有些解釋性建議方法依賴於嚴格、標準化的模板。為了獲取更加靈活、通俗、多樣化的解釋,覆蓋 interest 各個方面,來自新加坡管理大學的研究者從評論中選擇片段來進行綜合解釋,同時優化了其代表性和連貫性 。為了適應目標用戶的偏好,研究者基於一個兼容的可解釋推薦模型,將觀點與上下文相銜接。幾個產品類別數據集上的實驗表明,在模板、評論摘要、選擇和文本生成這些方面,本文方法具備更高的效率。
本文提出框架 SEER 的架構。
算法 1:SEER-Greedy
算法 2:Opinion Substitution
推薦:本文獲得了 IJCAI 2020 傑出論文獎。
論文 4:A Multi-Objective Approach to Mitigate Negative Side Effects
作者:Sandhya Saisubramanian、Ece Kamar、Shlomo Zilberstein
論文連結:https://www.ijcai.org/Proceedings/2020/0050.pdf
摘要:非結構化環境內運行的智能體通常會產生設計時不容易識別的負面作用 (NSE) 。來自 UMass Amherst 和微軟研究院的研究者分析了在系統部署過程中,如何利用各種形式的人類反饋或自主探索,來學習與 NSE 相關的懲罰函數。他們將降低 NSE 影響的問題描述為一個具備字典式獎勵偏好與鬆弛多目標馬爾科夫決策過程。鬆弛指的是相對於智能體的主要目標允許的最優策略的最大偏差,以減少次要目標 NSE。
多項實驗評估表明,本文所提出的框架能夠成功減少 NSE 的影響,不同的反饋機制會帶來不同的偏差,從而影響 NSE 的識別。
論文提出的消除 NSE 的框架。
算法 1:Slack Estimation
反饋技術中的 Bias
推薦:本文獲得了 IJCAI 2020 傑出論文獎。
論文 5:SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY
作者:William Fedus、Barret Zoph、Noam Shazeer
論文連結:https://arxiv.org/pdf/2101.03961.pdf
摘要:在深度學習領域,模型通常會對所有輸入重用相同的參數。但 Mixture of Experts (MoE,混合專家) 模型是個例外,它們會 為每個輸入的例子選擇不同的參數,結果得到一個稀疏激活模型——雖然參數量驚人,但計算成本恆定。目前,MoE 模型已在機器翻譯領域取得了令人矚目的成就,但由於模型複雜度高、通信成本高、訓練不夠穩定,其廣泛應用受到了一定的阻礙。
為了解決這些問題,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的設計中,它們簡化了 MoE 的路由算法(routing algorithm),設計了直觀的改進模型,新模型的通信成本和計算成本都大大降低。此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。研究者還將新模型與 T5-Base 和 T5-Large 進行了對比,結果表明,在相同的計算資源下,新模型實現了最高 7 倍的預訓練速度提升。
Switch Transformer 的編碼器塊。
具有不同專家容量因子(expert capacity factor)的路由示例。
Switch Transformer 與 MoE Transformer 的對比結果。
推薦:1.6 萬億參數的語言模型。
論文 6:Deep learning-enabled medical computer vision
作者:Andre Esteva、Katherine Chou、Serena Yeung 等
論文連結:https://www.nature.com/articles/s41746-020-00376-2#Sec6
摘要:十年來,人工智慧取得了前所未有的進展,包括醫學在內的許多領域都有望從中受益。在該論文中,研究者調查了以深度學習為支撐的現代計算機視覺技術在醫學領域的最新進展,重點包括醫學成像、醫療視頻和臨床部署。該論文首先簡要概述了卷積神經網絡的十年進展,包括它們在醫療領域中實現的視覺任務。接下來,論文討論了一些有益的醫學成像應用示例,涉及心臟病學、病理學、皮膚病學、眼科醫學,並為後續研究工作提出了新的方向。此外,研究者還介紹了醫療視頻,重點介紹了如何將臨床工作流程與計算機視覺結合來改善醫療效果。最後,論文討論了在現實世界中部署這些技術面臨的挑戰和障礙。
醫療領域中的計算機視覺任務示例。
醫師級別的診斷性能。
環境智能。
推薦:該論文發表在 Nature 旗下期刊 npj Digital Medicine 上
論文 7:11 TOPS photonic convolutional accelerator for optical neural networks
作者:Xingyuan Xu、Mengxi Tan、Bill Corcoran 等
論文連結:https://www.nature.com/articles/s41586-020-03063-0
摘要:近日,由徐興元博士 (莫納什大學)、David Moss 教授(斯威本大學)和 Arnan Mitchell 教授(RMIT 大學)的帶領的國際研究團隊展示了目前世界上最快的人工智慧光學神經形態處理器,其運行速度超過每秒 11 萬億次運算(TeraOPs/s),能夠處理超大規模數據。
這一突破以「11 TOPS photonic convolutional accelerator for optical neural networks」為題發表在著名的《自然》雜誌上,代表著神經網絡和整個神經形態處理的巨大飛躍。該團隊展示的是一種 "光學神經形態處理器",其運行速度是以往任何處理器的 1000 多倍,該系統還能處理創紀錄大小的超大規模圖像——足以實現完整的面部圖像識別,這是其他光學處理器一直無法完成的。
TOPS photonic CA 的運行原理。
光學 CNN 的實驗示意圖。
卷積層。
推薦:目前世界上最快的人工智慧光學神經形態處理器。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. "Let's Eat Grandma": When Punctuation Matters in Sentence Representation for Sentiment Analysis. (from Huan Liu)
2. Of Non-Linearity and Commutativity in BERT. (from Roger Wattenhofer)
3. BERT-GT: Cross-sentence n-ary relation extraction with BERT and Graph Transformer. (from Zhiyong Lu)
4. Robustness Gym: Unifying the NLP Evaluation Landscape. (from Christopher Ré)
5. Machine-Assisted Script Curation. (from Ralph Weischedel)
6. Persistent Anti-Muslim Bias in Large Language Models. (from James Zou)
7. Neural Contract Element Extraction Revisited. (from Ion Androutsopoulos)
8. MeisterMorxrc at SemEval-2020 Task 9: Fine-Tune Bert and Multitask Learning for Sentiment Analysis of Code-Mixed Tweets. (from Peng Wang)
9. SICKNL: A Dataset for Dutch Natural Language Inference. (from Michael Moortgat)
10. Self-Training Pre-Trained Language Models for Zero- and Few-Shot Multi-Dialectal Arabic Sequence Labeling. (from Muhammad Abdul-Mageed)
本周 10 篇 CV 精選論文是:
1. GAN Inversion: A Survey. (from Ming-Hsuan Yang)
2. SEED: Self-supervised Distillation For Visual Representation. (from Lei Zhang, Zicheng Liu)
3. Probabilistic Graph Attention Network with Conditional Kernels for Pixel-Wise Prediction. (from Xiaogang Wang, Nicu Sebe)
4. DuctTake: Spatiotemporal Video Compositing. (from Markus Gross)
5. Understanding Action Sequences based on Video Captioning for Learning-from-Observation. (from Katsushi Ikeuchi, Masayuki Inaba)
6. TrackMPNN: A Message Passing Graph Neural Architecture for Multi-Object Tracking. (from Mohan M. Trivedi)
7. Explainability of vision-based autonomous driving systems: Review and challenges. (from Patrick Pérez)
8. Multimodal Engagement Analysis from Facial Videos in the Classroom. (from Ulrich Trautwein)
9. Cross-Modal Contrastive Learning for Text-to-Image Generation. (from Honglak Lee)
10. DAIL: Dataset-Aware and Invariant Learning for Face Recognition. (from Jiebo Luo)
本周 10 篇 ML 精選論文是:
1. Fast convolutional neural networks on FPGAs with hls4ml. (from Maurizio Pierini, Zhenbin Wu)
2. Average-Reward Off-Policy Policy Evaluation with Function Approximation. (from Richard S. Sutton)
3. A SOM-based Gradient-Free Deep Learning Method with Convergence Analysis. (from Jinde Cao)
4. Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices. (from Luca Benini)
5. Unsupervised Domain Adaptation of Black-Box Source Models. (from Lei Zhang)
6. Neural networks behave as hash encoders: An empirical study. (from Dacheng Tao)
7. MC-LSTM: Mass-Conserving LSTM. (from Sepp Hochreiter)
8. BiGCN: A Bi-directional Low-Pass Filtering Graph Neural Network. (from Yang Wang)
9. Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration. (from Wei Liu)
10. BN-invariant sharpness regularizes the training model to better generalization. (from Tie-Yan Liu)
原標題:《7 Papers & Radios |1.6萬億參數語言模型;IJCAI 2020獎項公布》
閱讀原文