【乾貨】2017年深度學習必讀31篇論文(附論文下載地址)

2021-02-23 新智元



  新智元報導  

來源:kloudstrifeblog.wordpress.com

作者:Kloud Strife

譯者:劉光明,費欣欣


【新智元導讀】2017年即將擦肩而過,Kloud Strife在其博客上盤點了今年最值得關注的有關深度學習的論文,包括架構/模型、生成模型、強化學習、SGD & 優化及理論等各個方面,有些論文名揚四海,有些論文則非常低調。

一如既往,首先,標準免責聲明適用,因為今年僅與GAN有關的論文就超過1660篇。我肯定會有疏漏,試圖縮減到每兩周一篇論文,包含了Imperial Deep Learning Reading Group上的大量素材。無論如何,我們開始吧。

今年的Convnet網絡架構已經少得多,一切都穩定了。 有些論文肯定是在推動這項研究。 其中首先是安德魯·布魯克(Andrew Brock)的破解SMASH,儘管有ICLR的評論,但它已經在1000個GPU上進行了神經架構搜索。

SMASH:基於超網絡的模型結構搜索

SMASH : one shot model architecture search through Hypernetworks

論文下載地址:https://arxiv.org/pdf/1708.05344.pdf

DenseNets(2017更新版)是一個印象深刻又非常單純的想法。TLDR是「計算機視覺,眼+皮毛=貓,所以萬物互聯(包括層)」

密集的連接卷積神經

Densely connected convolutional networks

論文下載地址:https://arxiv.org/pdf/1608.06993.pdf

在CNNs,一個非常被低估的理念是小波濾波器組係數散射變換(conv+maxpool和ReLUctant組建小波理論)。不知何故,令人驚訝的是,這揭示了為什麼一個ConvNet前幾層像Gabor濾波器,以及你可能不需要培訓他們。用Stephane Mallat的話,「我對它的工作原理非常吃驚!」見下文。

縮放散射變換

Scaling the Scattering Transform

論文下載地址:https://arxiv.org/pdf/1703.08961.pdf

在維基百科上,Tensorized LSTM是新的SOTA,有人英語的編碼限制是1.0,1.1 BPC(作為參考,LayerNorm LSTMs大約是1.3 bpc)因為新穎,我更願意把這篇論文定為「超級網絡的復興之路」。

序列學習Tensorized LSTMs

Tensorized LSTMs for sequence learning

論文下載地址:https://arxiv.org/pdf/1711.01577.pdf

最後,無需多言。

膠囊間動態路由

Dynamic Routing Between Capsules 

https://arxiv.org/pdf/1710.09829.pdf

EM路由矩陣膠囊

Matrix capsules with EM routing

論文下載地址:https://openreview.net/pdf?id=HJWLfGWRb

我故意遺漏了英偉達關於GAN網絡逐漸增大的令人頗為震驚的論文。

先用自回歸家庭–Aaron van den Oord的最新力作,vq-vae,是其中的一個文件,看起來明顯的滯後,但想出背景漸變止損功能也是不小的壯舉。我敢肯定,一堆的迭代,包括包在ELBO』ed Bayesian層中的ala PixelVAE將會發揮作用。

神經離散表示學習

Neural Discrete Representation Learning

論文下載地址:https://arxiv.org/pdf/1711.00937.pdf

另一個驚喜來自並行WaveNetwavenet。當每個人都在期待著與Tom LePaine的工作成果保持一致,DeepMind給我們師生分離,並通過解釋高維各向同性高斯/物流潛在空間,作為一個可以通過逆回歸流自噪聲整形的過程,。非常非常整潔。

並行Wavenet

Parallel Wavenet

論文下載地址:https://arxiv.org/pdf/1711.10433.pdf

頭號文件,沒有人預料到- Nvidia公司制定了標準。GAN理論完全代替了Wassersteinizing (Justin Solomon的力作),僅保持KL損失。用數據分布的多解析度近似摒棄了不相交的支持問題。這仍然需要一些技巧來穩定梯度,但經驗結果不言自明。

GAN逐漸增長

Progressive growing of GANs

論文下載地址:https://arxiv.org/pdf/1710.10196.pdf

而今年早些時候Peyre和genevay負責的法國學校定義了最小Kantorovich Estimators。這是Bousquet主導的谷歌團隊,該團隊曾寫下了 VAE-GAN的最終框架。這篇WAAE論文可能是ICLR2018最頂級的論文之一。

VeGAN手冊

The VeGAN cookbook

論文下載地址:https://arxiv.org/pdf/1705.07642.pdf

Wasserstein自動編碼器

Wasserstein Autoencoders

論文下載地址:https://arxiv.org/pdf/1711.01558.pdf

在變分推理面前,沒誰比Dustin Tran從強化學習策略和GAN中借鑑到的思路更好,再次推動了先進的VI。

層次式模型

Hierarchical Implicit Models

論文下載地址:https://arxiv.org/pdf/1702.08896.pdf

 「被軟體/ max-entropy Q-learning主導了一年,我們錯了,這些年!

Schulman證實了RL算法的主要的兩個成員之間的的等價性。裡程碑式的論文,」Nuff 稱。

策略梯度與Soft Q-learning的等價性。

Equivalence between Policy Gradients and Soft Q-learning

論文下載地址:https://arxiv.org/pdf/1704.06440.pdf

他有沒有在非常仔細的用數學和重新做分區函數計算來證實路徑的等價性?沒有人知道,除了Ofir:

縮小RL策略和價值之間的差距

Bridging the gap between value and policy RL

論文下載地址:https://arxiv.org/pdf/1702.08892.pdf

另一篇被低估的論文,Gergely通過找出RL程式和convex 優化理論的相似點,默默的超越了所有人。今年IMHO有關RL論文的佳作,不過知名度不高。

統一的熵規則MDP的觀點

A unified view of entropy-regularized MDPs

論文下載地址:https://arxiv.org/pdf/1705.07798.pdf

如果David Silver的Predictron因某種方式丟掉雷達在ICLR 2017被拒絕,那麼Theo的論文就像是一個雙重的觀點,它以優美而直觀的Sokoban實驗結果來啟動:

想像力增強劑

Imagination-Augmented Agents

論文下載地址:https://arxiv.org/pdf/1707.06203.pdf

馬克·貝萊馬爾(Marc Bellemare)發布了另外一個轉型的論文 - 廢除了所有的DQN穩定插件,並簡單地學習了分發(並且在這個過程中擊敗了SotA)。 漂亮。 許多可能的擴展,包括與Wasserstein距離的連結。

有分位數回歸的RL 

A distributional perspective on RL

論文下載地址:https://arxiv.org/pdf/1707.06887.pdf

分布RL的分布視角

Distributional RL with Quantile Regression

論文下載地址:https://arxiv.org/pdf/1710.10044.pdf

一個簡單,但非常有效,雙重whammy的想法。

勘探用噪聲網絡

Noisy Networks for Exploration

論文下載地址:https://arxiv.org/pdf/1706.10295.pdf

當然,如果沒有AlphaGo Zero的話,這個列表還是不完整的。 將策略網絡MCTS前後對齊的思想,即MCTS作為策略改進算法(以及使NN近似誤差平滑而不是傳播的手段)是傳說的東西。

在沒有人類知識的情況下掌控Go遊戲

Mastering the game of Go without human knowledge

論文下載地址:https://deepmind.com/documents/119/agz_unformatted_nature.pdf

 

對於為什麼SGD在非凸面情況下的工作方式(從廣義誤差角度來看如此難以打敗),2017年已經是一年一度的成熟了。

今年的「最技術」論文獲得者是Chaudhari。 從SGD和梯度流向PDE幾乎連接了一切。 堪稱遵循並完成「Entropy-SGD」的傑作:

深度放鬆:用於優化深度網絡的偏微分方程

Deep Relaxation : PDEs for optimizing deep networks

論文下載地址:https://arxiv.org/pdf/1704.04932.pdf

貝葉斯認為這是Mandt&Hoffman的SGD-VI連接。 如你所知,我多年來一直是一個繁忙的人,原文如此。

SGD作為近似貝葉斯推斷

SGD as approximate Bayesian inference

論文下載連結:https://arxiv.org/pdf/1704.04289.pdf

前面的文章取決於SGD作為隨機微分方程的連續鬆弛(由於CLT,梯度噪聲被視為高斯)。 這解釋了批量大小的影響,並給出了一個非常好的chi-square公式。

批量大小,diffusion近似框架

Batch size matters, a diffusion approximation framework

論文下載地址:https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

又一篇受Ornstein-Uhlenbeck啟發的論文,得到了類似的結果,出自Yoshua Bengio實驗室:

影響SGD最小值的三個因素

Three factors influencing minima in SGD

論文下載地址:https://arxiv.org/pdf/1711.04623.pdf

最後,又一篇Chandhari的論文,講述SGD-SDE-VI三位一體:

SGD執行VI,收斂到限制周期

SGD performs VI, converges to limit cycles

論文下載地址:https://arxiv.org/pdf/1710.11029.pdf

我堅信在解釋深度學習為什麼有用方面,答案將來自諧波/二階分析和資訊理論與基於熵的測量之間的交集。 Naftali Tishby的想法雖然因為最近ICLR 2018提交的內容引發了爭議,但這仍然使我們更加接近理解深度學習。

論通過資訊理論揭開深度網絡黑箱

Opening the black box of deep networks via information 

論文下載地址:https://openreview.net/pdf?id=ry_WPG-A-

論深度學習的信息瓶頸理論

On the information bottleneck theory of deep learning

論文下載地址:https://arxiv.org/pdf/1703.00810.pdf

同樣,來自ICLR2017的一篇漂亮的論文對信息瓶頸理論採取了一種變化的方法。

深度變分的信息瓶頸

Deep variational information bottleneck

論文下載地址:https://arxiv.org/pdf/1612.00410.pdf

今年已經有幾十億個生成模型,12億個因子分解對數似然的方法,大都可以歸在凸二元的下面。

A Lagrangian perspective on latent variable modelling

對潛變量建模的拉格朗日觀點

論文下載地址:https://openreview.net/pdf?id=ryZERzWCZ

最後這篇論文展示了驚人的技術實力,並且告訴我們,數學深度學習的軍備競賽仍然十分活躍!這篇論文結合了複雜的分析,隨機矩陣理論,自由概率和graph morphisms,得出了對於神經網絡損失函數的Hessian特徵值的一個精確的定律,而圖(graph)的形狀只在經驗上是已知的,這一點在Sagun等人的論文中有論述。必讀。

通過RMT看神經網絡損失曲面幾何

Geometry of NN loss surfaces via RMT

論文下載地址:http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf

深度學習非線性RMT

Nonlinear RMT for deep learning

論文下載地址:http://papers.nips.cc/paper/6857-nonlinear-random-matrix-theory-for-deep-learning.pdf

 

原文地址:https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

相關焦點

  • 2017年深度學習必讀31篇論文(附下載地址)
    2017年即將擦肩而過,Kloud Strife在其博客上盤點了今年最值得關注的有關深度學習的論文,包括架構/模型、生成模型、強化學習、SGD & 優化及理論等各個方面,有些論文名揚四海,有些論文則非常低調。一如既往,首先,標準免責聲明適用,因為今年僅與GAN有關的論文就超過1660篇。
  • NIPS 2017 深度學習論文集錦 (2)
    本文是NIPS 2017 深度學習論文集錦第二篇,第一篇是NIPS 2017 深度學習論文集錦 (1)本文是對上文的續
  • 【腦洞大開】IBM AAAI2018論文DLPaper2Code:自動從深度學習論文生成執行代碼程序(附作者博士論文下載)
    ▌引言人工智慧領域的深度學習方法在過去的十年間取得了驚人的成功,根據Google學術統計深度學習論文達到了35800篇。對於科研工作者或者工程師來說想緊跟著這股潮流真是件費勁的事。在最近的一次人工智慧頂級會議NIPS 2016 上總共有總共有2500篇投稿,錄用了大概685篇,而他們的主題都是「深度學習或者神經網絡」。但是大部分被錄用的論文都沒有提供相應的實現代碼,在NIPS 2016 上101/567也就是僅僅大概18%的的論文開源了他們的代碼。對於深度學習並不精通的軟體工程來說,實現論文中的代碼往往要花費數天時間。
  • 大盤點:Top100 深度學習論文+7 篇下載量最多的 AI 研究文章!
    從人臉識別到網頁新聞推薦,都有它的身影,而這些也離不開深度學習。深度學習從大量數據中學習樣本數據的內在規律,最終讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等,並在語音和圖像識別方面取得巨大的成果。
  • 必讀論文 | 機器學習必讀論文20篇
    擁有AI賦能的科技大數據檢索平臺 AMiner 新推出的必讀論文模塊,將會不讓你為了不知道讀什麼論文而禿頭,美貌與才華兼可得也。以下是小編整理搜索得到的,近五年來有關機器學習的 20 篇必讀論文,不知道是否符合您的心中所想?如有疏漏,請輕拍,與小編聯繫後,我們將會及時添加您心目中的dream paper。
  • 2017深度學習優秀論文盤點 | 資源
    本文是倫敦帝國學院博士生Pierre Richemond所寫的年度深度學習論文盤點,他屬於該大學的BICV計算機視覺團隊。
  • ICLR 2017深度學習(提交)論文匯總:NLP、無監督學習、自動編碼、RL、RNN(150論文下載)
    本文匯總了本年度NLP、無監督學習、對抗式生成、自動編碼、增強學習、隨機循環梯度漸變、RNN等多個領域的150篇論文。其中不乏Yoshua Bengio、Ian Goodfellow、Yann LeCun、李飛飛、鄧力等學者的作品。從收錄的論文主題來看,生成和對抗生成式網絡的研究成為熱點,一共有45篇論文被提交,數量排在第一。文內附下載。
  • 【深度學習】你心目中 idea 最驚豔的深度學習領域論文是哪篇?
    Faster R-CNN論文連結 https://arxiv.org/abs/1506.01497Faster R-CNN:現在回想起來,能在2015年想到Anchor這個想法真的是一個跨時代的,這個思想雖然簡單但影響到了幾乎所有的實例級別的理解任務。不多說,懂得都懂。
  • 【乾貨】深度人臉識別的 Caffe 實現(附模型開源地址及論文下載)
    【新智元導讀】本論文對人臉識別和驗證任務提出一種新的損失函數,即中心損失。中心損失和softmax損失聯合監督學習的CNN,其對深層學習特徵的人臉識別能力大大提高。對幾個大型人臉基準的實驗已經令人信服地證明了該方法的有效性。
  • NeurIPS 引用量最高的10篇論文!Faster R-CNN登頂!何愷明和孫劍均有兩篇論文入圍
    ,第一時間送達前言三大CV頂會引用量最高的10篇論文均已整理完畢,詳見:接下來,Amusi 將繼續整理其他頂會,像NeurIPS、ICLR、ICML上也有很多優質的CV論文,而且有更多深度學習、機器學習基礎性研究工作。
  • 【資源】深度學習Top100:近5年被引用次數最高論文(下載)
    Um譯者:張易本文長度為16219字,進入數據派公眾號回復「清華大數據」下載這份經典資料。這裡是近5年100篇被引用次數最多的深度學習論文,覆蓋了優化/訓練方法、無監督/生成模型、卷積網絡模型和圖像分割/目標檢測等十大子領域。重要的論文能夠超越其應用領域讓人獲益。
  • ICLR 2017即將開幕,機器之心帶你概覽論文全貌(附最佳論文與直播地址)
    作為深度學習領域的盛會之一,ICLR 2017 有許多精彩的內容值得我們關注。在這篇文章中,機器之心梳理了 ICLR 2017 提交論文的特點、本屆會議的最佳論文以及機器之心過去一段時間報導過的有關 ICLR 2017 的文章。此外,去不了大會現場的讀者也不必感到遺憾,因為有以下大會 Oral Session 的直播。
  • 【專知薈萃13】工業學術界用戶畫像 User Profile 實用知識資料全集(入門/進階/競賽/論文/PPT,附PDF下載)
    此外,我們也提供該文網頁桌面手機端(www.zhuanzhi.ai)完整訪問,可直接點擊訪問收錄連結地址,以及pdf版下載連結,請文章末尾查看!此為初始版本,請大家指正補充,歡迎在後臺留言!by關於用戶畫像那些事,看這一文章就夠了看完後,別再說自己不懂用戶畫像了用戶畫像,找到為你產品買單的那群人內部課程|巧用「用戶畫像」進行個性化運營【乾貨】淺談「用戶畫像」方法進階文章深度學習在用戶畫像標籤模型中的應用騰訊防刷負責人:基於用戶畫像大數據的電商防刷架構用戶畫像系統實踐 by 1
  • 下載 ‖ 2017 CVPR 開放論文合輯大全
    2.CVPR 2017論文筆記— Dilated Residual Networks這篇論文是作者將何愷明(Kaiming He)博士殘差網絡Deep Residual Networks與其之前研究的Dilated Convolution相結合的結果。
  • 60餘篇深度學習應用 中文解讀,附下載!
    《深度學習與交通大數據實戰》V2.0版是在《深度學習與交通大數據實戰》V1.0版的基礎上又增加了30餘篇頂會頂刊論文解讀,共計60餘篇11萬字300多頁,入門深度學習與交通大數據領域完全足夠了!《深度學習與交通大數據實戰》V2.0版為公眾號《當交通遇上機器學習》的歷史SCI論文原創解讀,主要包含60多篇11萬多字300多頁的深度學習在交通大數據領域內的SCI英文論文的中文解讀,其中:深度學習模型包含:LSTM、Bi-LSTM 、CNN、Seq2Seq、ResNet、ConvLSTM、GCN等多種模型及其變體的實戰應用
  • 深度學習論文TOP10,2019一季度研究進展大盤點
    9012年已經悄悄過去了1/3。過去的100多天裡,在深度學習領域,每天都有大量的新論文產生。所以深度學習研究在2019年開了怎樣一個頭呢?這篇論文的作者是黃釗金,來自華中科技大學電信學院副教授王興剛的團隊,王興剛也是這篇論文的作者之一。
  • ICLR2018 | 深度學習頂會見聞,乾貨資源都在這裡(附源碼、論文連結)
    雖然僅僅舉辦過六屆,ICLR已經是深度學習領域的頂級會議,得到了業界的廣泛認可。ICLR2018會議大觀ICLR 2018共計收到1003篇論文投稿,最終2.3%的Oral論文、31.4%的Poster論文、9%被接收為Workshop track,51%的論文被拒收、6.2%的撤回率。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)
    【導讀】轉載來自ty4z2008(GItHub)整理的機器學習&深度學習知識資料大全薈萃,包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品!具體內容推薦閱讀:http://intelligent-optimization.org/LIONbook/介紹:作者是來自百度,不過他本人已經在2014年4月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麼聯繫?那麼應該立即看看這篇文章.
  • 【專知薈萃05】聊天機器人Chatbot知識資料全集(入門/進階/論文/軟體/數據/專家等)(附pdf下載)
    聊天機器人開發指南   IBM朱小燕:對話系統中的NLP使用深度學習打造智能聊天機器人   張俊林九款工具幫您打造屬於自己的聊天機器人聊天機器人中對話模板的高效匹配方法中國計算機學會通訊 2017年第9期   人機對話專刊人機對話
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)
    【導讀】轉載來自ty4z2008(GItHub)整理的機器學習&深度學習知識資料大全薈萃,包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品!昨天介紹了第一篇:【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)今天第二篇:   介紹:使用卷積神經網絡的圖像縮放