NumPy論文登上Nature;高效Transformer綜述

2021-01-11 澎湃新聞

機器之心 & ArXiv Weekly Radiostation

參與:杜偉、楚航、羅若天

本周的重要論文包括 登上 Nature 的 NumPy 論文,以及高效 Transformer 綜述論文。

目錄:

High-frequency Component Helps Explain the Generalization of Convolutional Neural Network

Learning from Very Few Samples: A Survey

Array programming with NumPy

Progress in Quantum Computing Cryptography Attacks

Implicit Graph Neural Networks

Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

Efficient Transformers: A Survey

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:High-frequency Component Helps Explain the Generalization of Convolutional Neural Network

作者:Haohan Wang、Xindi Wu、Zeyi Huang、Eric P. Xing

論文連結:https://arxiv.org/pdf/1905.13545.pdf

摘要:如何理解神經網絡的泛化能力?CMU 的汪浩瀚、邢波等人在這篇論文中另闢蹊徑,從數據的角度入手,探討那些曾讓我們百思不得其解的泛化現象。

人與模型視覺上的區別:低頻重建的圖片與原圖看起來幾乎一致,卻被模型預測成了不同的 label。高頻重建的圖片人眼幾乎無法識別,模型卻能成功預測出原來的 label。

左:普通卷積神經網絡的卷積核的可視化;右:對對抗攻擊魯棒的卷積神經網絡的卷積核的可視化。

在訓練過程中,測試準確率隨著 epoch 數的變化。每一個板塊描述的是一個不同的訓練技巧。顏色代表著區分低頻信息和高頻信息的半徑。實線代表低頻信息,虛線代表高頻信息。虛線越高,表示越多的高頻信息被學習到了。

推薦:研究者認為在未來,更加直觀地把人的視覺特徵加入模型中的技術可能會比較重要。

論文 2:Learning from Very Few Samples: A Survey

作者:Jiang Lu、Pinghua Gong、Jieping Ye、 Jianwei Zhang、Changshui Zhang

論文連結:https://arxiv.org/pdf/2009.02653.pdf

摘要:少樣本學習(FSL)是機器學習領域中重要且有難度的課題。基於少量樣本進行學習和泛化的能力是區分人工智慧和人類智能的重要分界線,因為人類往往能夠基於一個或少量樣本建立對新事物的認知,而機器學習算法通常需要數百或數千個監督樣本才能實現泛化。

少樣本學習的研究可以追溯到 21 世紀初,近年來隨著深度學習技術的發展它也受到廣泛的關注,但是目前關於 FSL 的綜述文章較少。清華大學教授、IEEE Fellow 張長水等人廣泛閱讀和總結了自 21 世紀初到 2019 年的 300 餘篇論文,寫了一篇關於 FSL 的綜述文章。

這篇綜述文章回顧了 FSL 的演進歷史和當前進展,將 FSL 方法分為基於生成模型和基於判別模型兩大類,並重點介紹了基於元學習的 FSL 方法。

該綜述文章的主要內容,包括 FSL 的發展過程、方法分類、擴展性主題和應用。

基於生成模型的 FSL 方法。

基於增強的 FSL 方法的通用框架。

推薦:30 頁 PDF,400+ 參考文獻,清華大學張長水等撰寫少樣本學習綜述文章。

論文 3:Array programming with NumPy

作者:Charles R. Harris、K. Jarrod Millman、Travis E. Oliphant 等

論文連結:https://www.nature.com/articles/s41586-020-2649-2

摘要:NumPy 是什麼?它是大名鼎鼎的使用 Python 進行科學計算的基礎軟體包,是 Python 生態系統中數據分析、機器學習、科學計算的主力軍,極大簡化了向量與矩陣的操作處理。近日,NumPy 核心開發團隊的論文終於在 Nature 上發表,詳細介紹了使用 NumPy 的數組編程。這篇綜述論文的發表距離 NumPy 誕生已經過去了 15 年。

NumPy 數組包括多種基礎數組概念。

NumPy 是科學 Python 生態系統的基礎。

NumPy 的 API 和數組協議向生態系統提供了新的數組。

推薦:15 年!NumPy 論文終出爐,還登上了 Nature。

論文 4:Progress in Quantum Computing Cryptography Attacks

作者:WANG Chao、YAO Hao-Nan、WANG Bao-Nan、HU Feng、ZHANG Huan-Guo、JI Xiang-Min

論文連結:http://cjc.ict.ac.cn/online/onlinepaper/08150%20%E7%8E%8B%E6%BD%AE-202094103159.pdf

摘要:通用量子計算機器件進展緩慢,對實用化 1024-bit 的 RSA 密碼破譯尚不能構成威脅,現代密碼依舊是 安全的。量子計算密碼攻擊需要探索新的途徑:一是,量子計算能否協助 / 加速傳統密碼攻擊模式,拓展已有量子 計算的攻擊能力;二是,需要尋找 Shor 算法之外的量子計算算法探索密碼攻擊。對已有的各類量子計算整數分解 算法進行綜述,分析量子計算密碼攻擊時面對的挑戰,以及擴展至更大規模整數分解存在的問題。

結合 Shor 算法 改進過程,分析 Shor 算法對現代加密體系造成實質性威脅前遇到的困難並給出 Shor 破譯 2048 位 RSA 需要的資 源。分析基於 D-Wave 量子退火原理的 RSA 破譯,這是一種新的量子計算公鑰密碼攻擊算法,與 Shor 算法原理上 有本質性不同。將破譯 RSA 問題轉換為組合優化問題,利用量子退火算法獨特的量子隧穿效應跳出局部最優解逼 近全局最優解,和經典算法相比有指數級加速的潛力。進一步闡述 Grover 量子搜索算法應用於橢圓曲線側信道攻 擊,拓展其攻擊能力。探討量子人工智慧算法對 NTRU 等後量子密碼攻擊的可能性。

Shor 量子算法改進過程。

Shor 算法求解橢圓曲線離散對數 k 的流程圖。

量子退火與模擬退火示意圖。

推薦:這篇論文在 2020 年 9 月份的《計算機學報》上發表。

論文 5:Implicit Graph Neural Networks

作者:Fangda Gu、Heng Chang、Wenwu Zhu、Somayeh Sojoudi、Laurent El Ghaoui

論文連結:https://arxiv.org/pdf/2009.06211.pdf

摘要:圖神經網絡(GNN)是得到廣泛應用的深度學習模型,這些模型從圖結構數據中學習有意義的表示。但是,由於底層循環結構的有限屬性,當前 GNN 方法可能很難捕獲底層圖中的長期依賴(long-range dependency)。

為了克服相關困難,來自 UC 伯克利和清華大學的研究者在本文中提出了一種名為隱圖神經網絡(implicit graph neural network, IGNN)的圖學習框架,其中預測基於包含隱定義「狀態」向量的定點平衡方程的解。

具體而言,研究者使用 Perron-Frobenius 定理推導出了確保該框架適定性(well-posedness)的充分條件。通過隱微分,研究者又推導出了一種易處理的投影梯度下降方法來訓練框架。

一系列任務上的實驗表明,IGNN 始終捕獲了長期依賴,並優於當前 SOTA 模型。

IGNN 與其他模型在 PPI 數據集中的多標籤節點分類 Micro-F_1 的結果比較。

圖分類準確率結果比較。

異構網絡數據集上節點分類 Micro/Macro-F_1 的結果比較。

推薦:論文一作 Fangda Gu 為 UC 伯克利 EECS 博士生。

論文 6:Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

作者:Kun Zhou、Wayne Xin Zhao、Shuqing Bian、Yuanhang Zhou、Ji-Rong Wen、Jingsong Yu

論文連結:https://arxiv.org/pdf/2007.04032.pdf

摘要:在這篇論文中,來自北京大學和中國人民大學的研究者合併了面向單詞和實體的知識圖譜(KG)以提升對話推薦系統(CRS)中的數據表示,並採用互信息最大化來對齊單詞和實體層面的語義空間。

基於對齊的語義表示,研究者進一步推出了用於做出準確建議的知識圖譜增強型推薦組件,以及可以在響應文本中生成信息關鍵詞或實體的知識圖譜增強型對話組件。

大量的實驗表明,本研究中的方法可以在推薦和對話任務中實現更好的性能。

電影推薦場景中的模型架構圖。

推薦任務上的比較結果。

對話任務上的自動評估結果比較。

推薦:這篇論文被 ACM SIGKDD 2020 收錄。

論文 7:Efficient Transformers: A Survey

作者:Yi Tay、Mostafa Dehghani 、Dara Bahri、Donald Metzler

論文連結:https://arxiv.org/pdf/2009.06732.pdf

摘要:該論文提出了一種針對高效 Transformer 模型的分類法,按照技術創新和主要用途進行分類。具體而言,該論文綜述了在語言和視覺領域均有應用的 Transformer 模型,並為其中的部分模型提供了詳細的解讀。

標準 Transformer 架構圖。

高效 Transformer 模型

按發布時間順序整理的高效 Transformer 模型。

推薦:這是一篇針對高效 Transformer 模型的綜述文章。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音頻形式的論文摘要簡介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. Self-Supervised Meta-Learning for Few-Shot Natural Language Classification Tasks. (from Andrew McCallum)

2. Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes' Rule. (from Kyunghyun Cho)

3. Iterative Refinement in the Continuous Space for Non-Autoregressive Neural Machine Translation. (from Kyunghyun Cho)

4. A Systematic Characterization of Sampling Algorithms for Open-ended Language Generation. (from Kyunghyun Cho)

5. UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation. (from Minlie Huang)

6. Leveraging Semantic Parsing for Relation Linking over Knowledge Bases. (from Salim Roukos)

7. Lessons Learned from Applying off-the-shelf BERT: There is no SilverBullet. (from Lior Rokach)

8. Noisy Self-Knowledge Distillation for Text Summarization. (from Yang Liu, Mirella Lapata)

9. Reasoning about Goals, Steps, and Temporal Ordering with WikiHow. (from Chris Callison-Burch)

10. A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support. (from David C. Atkins)

本周 10 篇 CV 精選論文是:

1. Layered Neural Rendering for Retiming People in Video. (from Andrew Zisserman, David Salesin, William T. Freeman)

2. Evaluating Self-Supervised Pretraining Without Using Labels. (from Trevor Darrell, Kurt Keutzer)

3. Perceiving Traffic from Aerial Images. (from Sven Kreiss)

4. Multiple Exemplars-based Hallucinationfor Face Super-resolution and Editing. (from Tinne Tuytelaars)

5. BOP Challenge 2020 on 6D Object Localization. (from Carsten Rother, Jiri Matas)

6. Promoting Connectivity of Network-Like Structures by Enforcing Region Separation. (from Pascal Fua)

7. HOTA: A Higher Order Metric for Evaluating Multi-Object Tracking. (from Philip Torr, Andreas Geiger, Bastian Leibe)

8. Calibrating Self-supervised Monocular Depth Estimation. (from Andrea Vedaldi)

9. PointIso: Point Cloud Based Deep Learning Model for Detecting Arbitrary-Precision Peptide Features in LC-MS Map through Attention Based Segmentation. (from Ming Li)

10. Optimal Use of Multi-spectral Satellite Data with Convolutional Neural Networks. (from James Foley)

本周 10 篇 ML 精選論文是:

1. Transfer Learning of Graph Neural Networks with Ego-graph Information Maximization. (from Jiawei Han)

2. Real-Time Streaming Anomaly Detection in Dynamic Graphs. (from Christos Faloutsos)

3. Holistic Filter Pruning for Efficient Deep Neural Networks. (from Wolfram Burgard)

4. Demand Forecasting of individual Probability Density Functions with Machine Learning. (from U. Kerzel)

5. Matrix Profile XXII: Exact Discovery of Time Series Motifs under DTW. (from Eamonn Keogh)

6. Analyzing the effect of APOE on Alzheimer's disease progression using an event-based model for stratified populations. (from M. Kamran Ikram, Wiro J. Niessen)

7. Evaluating representations by the complexity of learning low-loss predictors. (from Kyunghyun Cho)

8. Disentangling Neural Architectures and Weights: A Case Study in Supervised Classification. (from Yang Gao)

9. Decoupling Representation Learning from Reinforcement Learning. (from Pieter Abbeel)

10. LAAT: Locally Aligned Ant Technique for detecting manifolds of varying density. (from Reynier F. Peletier)

原標題:《7 Papers & Radios | NumPy論文登上Nature;高效Transformer綜述》

閱讀原文

相關焦點

  • NumPy論文終出爐,還登上了Nature
    強大的線性代數、傅立葉變換和隨機數功能今日,NumPy 核心開發團隊的論文終於在 Nature 上發表,詳細介紹了使用 NumPy 的數組編程(Array programming)。這篇綜述論文的發表距離 NumPy 誕生已經過去了 15 年。
  • 谷歌研究院出品:高效 Transformer 模型最新綜述
    為了幫助對這一領域感興趣的研究者在繁多的模型中梳理出一條脈絡,谷歌研究院撰寫了最新高效 Transformer 模型研究綜述,介紹了近年來該領域的最新進展。    2  高效Transformer模型綜述  首先,我們將展示不同模型的特質。表 1 列舉出了截至 2020 年 8 月發表的一些高效 Transformer 模型,圖 2 則展示了一些關鍵的 Transformer 模型的圖形化概覽。
  • Nature分享:如何寫好綜述論文?
    綜述類論文是科學家的重要資源。它們可以提供一個領域的歷史背景,以及關於該領域未來發展的個人看法。同時,撰寫這類文章可以為自己的研究提供靈感,還可以做一些寫作練習。不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。
  • 如何寫好綜述論文?Nature分享5大要領
    不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。甚至選擇要使用的合適軟體也是一個棘手的決定。科學家經常圍繞著數據撰寫研究論文,但當撰寫綜述時,數據就不那麼受重視了。但在我看來,綜述中的數據比大多數人認為的更重要。
  • AI攢論文指日可待?Transformer生成論文摘要方法已出
    具體而言,論文的研究者使用了單個類 GPT 的 transformer 語言模型,並在文檔及其摘要上進行訓練。在推理階段,語言會基於輸入文檔執行生成任務(見圖 1)。研究者將這個任務劃分為了兩個步驟:抽取和摘要。
  • Transformer在CV領域有可能替代CNN嗎?
    儘管這些方法具有以上的優勢,但是如何學習高效的學習出一組更合適的映射規則是關鍵。 對於高效性來說,以感知機為例,它利用多個MLP來進行特徵的學習從而來表徵輸入數據。但是這樣有很明顯的缺陷,一方面計算量是非常龐大的,另一方面直接將輸入flatten為一個列向量,會破壞圖像中目標原有的結構和上下文聯繫。
  • 21世紀以來,登上Nature雜誌封面的13篇中國論文
    今天,一起來回顧一下2000年以後,那些登上Nature封面的激動人心的中國研究成果吧。 論文地址:https://www.nature.com/articles/nature21691
  • Nature重磅:5篇最新高分子材料綜述
    而催化劑高效的催化作用對於單體的合成、選擇性聚合反應的促進以及廢棄材料的循環利用都具有十分重要的意義。因此可持續聚合物材料具有很好的應用前景。  牛津大學的Charlotte K.Williams等人對利用可再生資源製備的可持續性聚合物做出了詳細的綜述。利用可再生資源生產的聚合物,其性能十分優越,但生產過程仍存在諸多挑戰,例如成本高,耐用性不足等問題。
  • Transformer在CV領域有可能替代CNN嗎?|卷積|神經網絡|算子|上下文...
    儘管這些方法具有以上的優勢,但是如何學習高效的學習出一組更合適的映射規則是關鍵。  對於高效性來說,以感知機為例, 它利用多個MLP來進行特徵的學習從而來表徵輸入數據 。但是這樣有很明顯的缺陷,一方面計算量是非常龐大的,另一方面直接將輸入flatten為一個列向量,會破壞圖像中目標原有的結構和上下文聯繫。
  • 上海交大鄧濤團隊在《Nature Energy》發表太陽能光熱界面蒸發綜述...
    近日,國際著名學術期刊《自然-能源》(Nature Energy)(2018年影響因子:46.859)在線刊登了上海交通大學材料科學與工程學院鄧濤教授團隊與合作團隊的綜述文章「Solar-driven interfacial evaporation」。
  • 如何寫好綜述論文?Nature分享5大要領
    不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。甚至選擇要使用的合適軟體也是一個棘手的決定。 近日,《自然》雜誌訪問了一些「老手」和「新手」,討論如何撰寫高被引綜述文章。 1.
  • 深2.5至4倍,參數和計算量卻更少,DeLighT Transformer是怎麼做到的?
    論文連結:https://arxiv.org/abs/2008.00623代碼連結:https://github.com/sacmehta/delight論文簡介在這篇文章中,作者提出了一個網絡較深但輕量級的 Transformer——DeLighT,與之前基於 transformer 的模型相比,它的參數更少
  • 揭秘Numpy「高效使用哲學」,數值計算再提速10倍!
    結合工作項目實踐,以Numpy高效使用哲學為主線,重點講解高頻使用函數。 1 Numpy更高效 使用Python的地方,就能看到Numpy,尤其是需要數值計算的地方,Numpy的高性能更是體現的淋漓盡致。
  • 《Nature》綜述:光子晶片未來可期
    從網格的結構和算法、多種相關技術的堆棧、可編程的光子集成電路的應用以及前景與挑戰幾個方面進行綜述。綜述涵蓋了在線性矩陣運算、量子信息處理和微波光子學等方面的潛在應用,並研究了這些通用晶片是如何通過提供一個更高層次的平臺,在不需要製造定製晶片的情況下,來實現新型光學功能原型的。
  • Facebook AI的DETR,一種基於Transformer的目標檢測方法
    utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach使用流行的YOLO框架進行目標檢測的實用指南https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python
  • Nature綜述:鹼基編輯的前世今生
    鹼基編輯在基因編輯技術領域中的崛起單核苷酸變體(SNV)約佔已知致病等位基因的一半,因此,開發出高效的然而,DSB引發的DNA修復很難實現高效穩定的單鹼基突變。NHEJ容易引起隨機插入和缺失,造成移碼突變,進而影響靶基因的功能;HDR儘管精確性高於NHEJ,但是其在細胞中的同源重組修復效率低。
  • Nature子刊:陳玲玲等發表lncRNA綜述論文,詳述lncRNA的轉錄、剪接、定位及功能
    近日,中國科學院分子細胞科學卓越創新中心陳玲玲等在 Nature Review Molecular Cell Biology 雜誌在線發表了題為:Gene regulation by long non-coding RNAs and its biological functions 的綜述論文。
  • NumPy高效使用邏輯,11個角度理順它!
    1 Numpy更高效使用Python的地方,就能看到Numpy,尤其是需要數值計算的地方,Numpy的高性能更是體現的淋漓盡致。它基於Python,提供遠高於Python的高性能向量、矩陣和更高維度的數據結構。之所以性能高是由於它在密集型計算任務中,向量化操作是用C和Fortran代碼實現。
  • 高彩霞發表農業與植物生物技術中CRISPR-Cas應用綜述文章
    相比於傳統育種,來自於原核生物的CRISPR-Cas系統可以準確、高效、可編程地對農作物基因組進行編輯,為未來農業發展提供新機遇。中國科學院遺傳與發育生物學研究所高彩霞研究組致力於植物基因組編輯技術創新及作物分子設計育種應用研究。
  • 論文文獻綜述怎麼寫?
    (一)文獻綜述大部分是對文獻的羅列,缺乏對文獻研究的概括和理解文獻綜述簡單的羅列了其他人的文獻結果,而沒有自己的概括和理解,這樣的做法其實跟抄襲複製沒啥去唄,我們應該在他人內容的基礎上,通過綜合分析,對所研究的領域的研究成功和發展水平進行介紹和評論。