機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周的重要論文包括字節跳動發布的全球最大鋼琴 MIDI 數據集,以及谷歌新型 Performer 架構。
目錄:
GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music
A survey of embedding models of entities and relationships for knowledge graph completion
Optimal Subarchitecture Extraction For BERT
A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios
Rethinking Attention with Performers
Learning Invariances in Neural Networks
Overview of Graph Based Anomaly Detection
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music
作者:Qiuqiang Kong、Bochen Li、Jitong Chen、Yuxuan Wang
連結:https://arxiv.org/abs/2010.07061
摘要:鋼琴轉譜是一項將鋼琴錄音轉為音樂符號(如 MIDI 格式)的任務。在人工智慧領域,鋼琴轉譜被類比於音樂領域的語音識別任務。然而長期以來,在計算機音樂領域一直缺少一個大規模的鋼琴 MIDI 數據集。
近期,字節跳動發布了全球最大的古典鋼琴數據集 GiantMIDI-Piano 。在數據規模上,數據集不同曲目的總時長是谷歌 MAESTRO 數據集的 14 倍。GiantMIDI-Piano 的用途包括但不限於:音樂信息檢索、自動作曲、智能音樂創作、計算音樂學等。
各種鋼琴 MIDI 數據集。
GiantMIDI-Piano 中前 100 位不同作曲家的曲目數量分布。
不同國家作曲家的數量。
推薦:字節跳動研究科學家表示:「GiantMIDI-Piano 將所有古典鋼琴作品轉錄成 MIDI 格式,並向全世界開放,此舉旨在推動音樂科技和計算機音樂學的發展」。
論文 2:A survey of embedding models of entities and relationships for knowledge graph completion
作者:Dat Quoc Nguyen
連結:https://arxiv.org/pdf/1703.08098.pdf
摘要:對於多樣化語言處理任務而言,有關實體及其關係事實的知識圖譜(KG)是非常有用的資源。但是,由於知識圖譜通常不完備,所以執行知識圖譜補全(knowledge graph completion)或鏈路預測(即預測不在知識圖譜中的關係是否有可能是真的)有助於彌補知識圖譜的不足。
在本文中,來自 VinAI 人工智慧研究所的學者 Dat Quoc Nguyen 對用於知識圖譜補全的實體和關係嵌入模型展開了全面綜述,總結了標準基準數據集上最新的實驗結果,並指出了未來潛在的研究發展方向。
知識圖譜補全嵌入模型的評分函數 f(h, r, t)。
基準實驗數據集。
WN18 和 FB15k 基準上實體預測結果比較。
推薦:本文作者 Dat Quoc Nguyen 為 VinAI 人工智慧研究所的高級研究科學家。
論文 3:Optimal Subarchitecture Extraction For BERT
作者:Adrian de Wynter、Daniel J. Perry
連結:https://arxiv.org/pdf/2010.10499.pdf
摘要:在本文中,來自 Amazon Alexa 團隊的研究者將提取 BERT 最優子架構參數集這一問題細化為三個指標:推斷延遲、參數大小和誤差率。該研究證明:BERT 具備 strong AB^nC 屬性,可滿足這些條件組合,使上述算法表現得像 FPTAS。然後,研究者從一個高性能的 BERT 變體中提取了一個最優的子架構,稱為 Bort,其大小是 BERT-large 的 16%,在 CPU 上的推理速度提升到原來的 8 倍。
研究者還在 GLUE、SuperGLUE 以及 RACE 公共 NLU 基準上對 Bort 進行了評估。結果表明,與 BERT-large 相比,Bort 在所有這些基準上都獲得了顯著提高,提升幅度從 0.3% 到 31% 不等。
GLUE 基準上的性能對比。
SuperGLUE 基準上的性能對比。
RACE 數據集上的性能對比。
推薦:研究者已經在 GitHub 上開源了訓練模型以及代碼。
論文 4:A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios
作者:Michael A. Hedderich、Lukas Lange、Heike Adel 等
連結:https://arxiv.org/pdf/2010.12309.pdf
摘要:在本文中,基於神經模型的基礎變化以及當前流行的預訓練和微調範式,來自德國薩爾蘭大學和博世人工智慧中心的研究者概述了低資源自然語言處理的有前途方法。他們首先討論了低資源場景的定義和數據可用性的不同維度,然後研究了訓練數據稀疏時賦能學習的方法。這包括創建數據增強和遠程監督等附加標籤數據的機制以及減少目標監督需求的可遷移學習設置。
論文中涉及的低資源方法匯總。
多語言 transformer 模型涵蓋的 100 萬 speaker 以上的語系。
6 種不同語言涵蓋的任務匯總。
推薦:定義「低資源」。
論文 5:Rethinking Attention with Performers
作者:Krzyszt 等 of Choromanski
連結:https://arxiv.org/pdf/2009.14794.pdf
摘要:來自谷歌、劍橋大學、DeepMind、阿蘭 · 圖靈研究所的研究者提出了一種新的 Transformer 架構——Performer。它的注意力機制能夠線性擴展,因此能夠在處理長序列的同時縮短訓練時間。這點在 ImageNet64 等圖像數據集和 PG-19 文本數據集等序列的處理過程中都非常有用。
Performer 使用一個高效的(線性)廣義注意力框架(generalized attention framework),允許基於不同相似性度量(核)的一類廣泛的注意力機制。該框架通過谷歌的新算法 FAVOR+( Fast Attention Via Positive Orthogonal Random Features)來實現,後者能夠提供注意力機制的可擴展低方差、無偏估計,這可以通過隨機特徵圖分解(常規 softmax-attention)來表達。該方法在保持線性空間和時間複雜度的同時準確率也很有保證,也可以應用到獨立的 softmax 運算。此外,該方法還可以和可逆層等其他技術進行互操作。
標準的稀疏化技術。
標準注意力矩陣包括每一對 entry 的相似度係數,由 query 和 key 上的 softmax 計算組成,表示為 q 和 k。
在 One Billion Word Benchmark (LM1B) 數據集上,研究者將原始預訓練 Transformer 的權重遷移至 Performer 模型,使得初始非零準確度為 0.07(橙色虛線)。但在微調之後,Performer 的準確度在很少的梯度步數之後迅速恢復。
推薦:這一方法超越了注意力機制,甚至可以說為下一代深度學習架構打開了思路。
論文 6:Learning Invariances in Neural Networks
作者:Gregory Benton、Marc Finzi、Pavel Izmailov、Andrew Gordon Wilson
連結:https://arxiv.org/pdf/2010.11882.pdf
摘要:平移的不變性(invariance)為卷積神經網絡注入了強大的泛化性能。然而,我們常常無法預先知道數據中存在哪些不變性,也不清楚模型在多大程度上對指定對稱群保持不變。
在這篇論文中,來自紐約大學柯朗數學科學研究所的研究者向讀者展示了,如何通過參數化增強分布以及優化網絡和增強參數的訓練損失來學習不變性和同變性。通過這一簡單過程,我們可以僅通過訓練數據從規模較大的增強空間中恢復圖像分類、回歸、分割和分子性質預測的正確集和不變性範圍。
研究者通過所提方法 Augerino 學習不變性的算法 1。
(a)Augerino 訓練示意圖;(b)損失函數和梯度變化曲線圖。
當訓練數據應用不同的增強時,CIFAR-10 數據集上訓練模型的測試準確度結果比較。
推薦:研究者表示,Augerino 是首個不需要驗證集或特殊損失函數的情況下,僅通過訓練數據即可以在神經網絡中學習對稱性的方法。
論文 7:Overview of Graph Based Anomaly Detection
作者:李忠 、靳小龍 、莊傳志、孫智
連結:http://www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6100&journal_id=jos
摘要:近年來,隨著 web2.0 的普及,使用圖挖掘技術進行異常檢測受到人們越來越多的關注. 圖異常檢測在欺詐檢測、入侵檢測、虛假投票、殭屍粉絲分析等領域發揮著重要作用。
本文在廣泛調研國內外大量文獻以及最新科研成果的基礎上,按照數據表示形式將面向圖的異常檢測劃分成靜態圖上的異常檢測與動態圖上的異常檢測兩大類,進一步按照異常類型將靜態圖上的異常分為孤立個體異常和群組異常檢測兩種類別,動態圖上的異常分為孤立個體異常、群體異常以及事件異常三種類型。對每一類異常檢測方法當前的研究進展加以介紹,對每種異常檢測算法的基本思想、優缺點進行分析、對比,總結面向圖的異常檢測的關鍵技術、常用框架、應用領域、常用數據集以及性能評估方法,並對未來可能的發展趨勢進行展望。
分層提取特徵深度學習模型。
關係的張量表示 。
LSTM 模塊單位和層級結構。
推薦:本文在《軟體學報》上發表。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. On the Transformer Growth for Progressive BERT Training. (from Jiawei Han)
2. Retrieve, Rerank, Read, then Iterate: Answering Open-Domain Questions of Arbitrary Complexity from Text. (from Christopher D. Manning)
3. DeSMOG: Detecting Stance in Media On Global Warming. (from Dan Jurafsky)
4. Understanding the Extent to which Summarization Evaluation Metrics Measure the Information Quality of Summaries. (from Dan Roth)
5. A Scalable Framework for Learning From Implicit User Feedback to Improve Natural Language Understanding in Large-Scale Conversational AI Systems. (from Young-Bum Kim)
6. Generating Plausible Counterfactual Explanations for Deep Transformers in Financial Text Classification. (from Yi Yang, Barry Smyth)
7. BARThez: a Skilled Pretrained French Sequence-to-Sequence Model. (from Michalis Vazirgiannis)
8. Meta-Learning for Domain Generalization in Semantic Parsing. (from Mirella Lapata)
9. MTGAT: Multimodal Temporal Graph Attention Networks for Unaligned Human Multimodal Language Sequences. (from Louis-Philippe Morency)
10. ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding. (from Yu Sun)
本周 10 篇 CV 精選論文是:
1. SAHDL: Sparse Attention Hypergraph Regularized Dictionary Learning. (from Yan-Jiang Wang)
2. DLDL: Dynamic Label Dictionary Learning via Hypergraph Regularization. (from Yan-Jiang Wang)
3. Hard Example Generation by Texture Synthesis for Cross-domain Shape Similarity Learning. (from Dacheng Tao)
4. Unsupervised deep learning for grading of age-related macular degeneration using retinal fundus images. (from Stella Yu)
5. Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation. (from Philip H. S. Torr)
6. Point Cloud Attribute Compression via Successive Subspace Graph Transform. (from C.-C. Jay Kuo)
7. Deep Shells: Unsupervised Shape Correspondence with Optimal Transport. (from Daniel Cremers)
8. A Teacher-Student Framework for Semi-supervised Medical Image Segmentation From Mixed Supervision. (from Guisheng Wang)
9. AdaCrowd: Unlabeled Scene Adaptation for Crowd Counting. (from Yang Wang)
10. Permute, Quantize, and Fine-tune: Efficient Compression of Neural Networks. (from Raquel Urtasun)
本周 10 篇 ML 精選論文是:
1. BiTe-GCN: A New GCN Architecture via BidirectionalConvolution of Topology and Features on Text-Rich Networks. (from Jiawei Han)
2. Understanding the Pathologies of Approximate Policy Evaluation when Combined with Greedification in Reinforcement Learning. (from Richard S. Sutton)
3. Abstract Value Iteration for Hierarchical Reinforcement Learning. (from Rajeev Alur)
4. Robustifying Binary Classification to Adversarial Perturbation. (from Babak Hassibi)
5. Stochastic groundwater flow analysis in heterogeneous aquifer with modified neural architecture search (NAS) based physics-informed neural networks using transfer learning. (from Timon Rabczuk)
6. Analysis of three dimensional potential problems in non-homogeneous media with deep learning based collocation method. (from Timon Rabczuk)
7. Representation learning for improved interpretability and classification accuracy of clinical factors from EEG. (from Greg Hajcak)
8. Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning. (from Honglak Lee)
9. Autoregressive Asymmetric Linear Gaussian Hidden Markov Models. (from Pedro Larra aga)
10. Shared Space Transfer Learning for analyzing multi-site fMRI data. (from Daoqiang Zhang, Russell Greiner)