告別2019:屬於深度學習的十年,那些我們必須知道的經典

2021-01-11 澎湃新聞

currentVersion is IOS--> 機器之心

選自leogao.dev

作者:Leo Gao

參與:一鳴、澤南、蛋醬

2020 新年快樂!

當今天的太陽升起時,我們正式告別了上一個十年。

在這十年中,伴隨著計算能力和大數據方面的發展,深度學習已經攻克了許多曾經讓我們感到棘手的問題,尤其是計算機視覺和自然語言處理方面。此外,深度學習技術也越來越多地走進我們的生活,變得無處不在。

這篇文章總結了過去十年中在深度學習領域具有影響力的論文,從 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年還有很多榮譽提名,包括了眾多名聲在外的研究成果。

2011 年:激活函數 ReLU

《Deep Sparse Rectifier Neural Networks(ReLU)》

論文連結:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf(被引用量 4071)

早期的神經網絡大多使用 sigmoid 激活函數。雖然它具有很好的效果,但是,隨著層數的增加,這種激活函數使得梯度很容易出現衰減。在 2011 年的這篇論文中,ReLU 被正式提出。它能夠幫助解決梯度消失的問題,為神經網絡增加深度鋪路。

Sigmoid 及其導數。

當然,ReLU 也有一些缺點。在函數為 0 的時候不可微,而神經元可能會「死亡」。在 2011 年之後,很多針對 ReLU 的改進也被提了出來。

年度榮譽提名:(這一年的大部分研究集中於對激活函數的改進)

1、《Rectifier Nonlinearities Improve Neural Network Acoustic Models(Leaky ReLU)》

基於對 ReLU 進行了改進的激活函數,在 x 為負時不取 0。

論文連結:https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf

2、《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)》

論文連結:https://arxiv.org/abs/1511.07289

3、《Self-Normalizing Neural Networks(SELUs)》

論文連結:https://arxiv.org/abs/1706.02515

4、《Gaussian Error Linear Units (GELUs)》

這一激活函數已證明比 ReLU 效果更好,BERT 等模型已使用。

論文連結:https://arxiv.org/abs/1606.08415

2012 年:掀起深度學習浪潮的 AlexNet

《ImageNet Classification with Deep Convolutional Neural Networks(AlexNet)》

論文連結:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks(被引用量 52025)

AlexNet 架構。

AlexNet 經常被認為是這一波人工智慧浪潮的起點,該網絡在 ImageNet 挑戰賽中的錯誤率與前一屆冠軍相比減小了 10% 以上,比亞軍高出 10.8 個百分點。AlexNet 是由多倫多大學 SuperVision 組設計的,由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 組成。

AlexNet 是一個 8 層的卷積神經網絡,使用 ReLU 激活函數,總共有 6 千萬參數量。AlexNet 的最大貢獻在於證明了深度學習的能力。它也是第一個使用並行計算和 GPU 進行加速的網絡。

在 ImageNet 上,AlexNet 取得了很好的表現。它將識別錯誤率從 26.2% 降到了 15.3%。顯著的性能提升吸引了業界關注深度學習,使得 AlexNet 成為了現在這一領域引用最多的論文。

年度榮譽提名:

1、《ImageNet: A Large-Scale Hierarchical Image Database(ImageNet)》

ImageNet 是史丹福大學李飛飛等人完成的一個用於圖像識別的數據集,是計算機視覺領域檢驗模型性能的基準數據集。

論文連結:http://www.image-net.org/papers/imagenet_cvpr09.pdf

ImageNet

2、《Flexible, High Performance Convolutional Neural Networks for Image Classification(Jurgen Schmidhuber 為通訊作者)》

論文連結:http://people.idsia.ch/~juergen/ijcai2011.pdf

3、《Gradient-Based Learning Applied to Document Recognition》

論文連結:http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

2013 年:NLP 的經典 word2vec;開啟深度強化學習時代

《Distributed Representations of Words and Phrases and their Compositionality(word2vec)》

論文連結:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf(被引用量 16923)

Word2vec 是由谷歌研究團隊裡 Thomas Mikolov 等人提出的模型,該模型能從非常大的數據集中計算出用以表示詞的連續型向量。word2vec 成為了 NLP 領域的深度學習主要的文本編碼方式。它基於在相同語境中同時出現詞具有相似含義的思路,使文本可以被嵌入為向量,並用於其他下遊任務。

年度榮譽提名:

1、《GloVe: Global Vectors for Word Representation》

論文連結:https://nlp.stanford.edu/pubs/glove.pdf

2、《Playing Atari with Deep Reinforcement Learning》

論文連結:https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf(被引用量 3251)

DeepMind 的 DQN 模型玩雅達利遊戲

DeepMind 在這一年提出的用 DQN 玩雅達利遊戲開啟了深度強化學習研究的大門。強化學習過去大多數情況下用在低維環境中,很難在更複雜的環境中使用。雅達利遊戲是第一個強化學習在高維環境中的應用。這一研究提出了 Deep Q-learning 算法,使用了一個基於價值的獎勵函數。

年度榮譽提名:

1、《Learning from Delayed Rewards(Q-Learning)》

論文連結:http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

2014 年:GAN;Adam;Attention 機制

《Generative Adversarial Networks》

論文連結:https://papers.nips.cc/paper/5423-generative-adversarial-nets(被引用量 13917)

生成對抗網絡(Generative Adversarial Network,簡稱 GAN)是 Ian Goodefellow 等人提出的非監督式學習方法,通過讓兩個神經網絡相互博弈的方式進行學習。自 2014 年 GAN 網絡提出以來,其在 Computer Vision(計算機視覺)等領域獲得了廣泛的關注

生成對抗網絡(GAN)的成功在於它能夠生成逼真圖片。這一網絡通過使用生成器和判別器之間的最小最大(minimax)博弈,GAN 能夠建模高緯度、複雜的數據分布。在 GAN 中,生成器用於生成假的樣本,而判別器進行判斷(是否為生成數據)。

年度榮譽提名:

1、《Wasserstein GAN & Improved Training of Wasserstein GANs(WGAN)》

WGAN 是 GAN 的改進版本,取得了更好的效果。

論文連結:https://arxiv.org/abs/1701.07875

2、《StyleGAN》

StyleGAN 生成的圖像

論文連結:https://arxiv.org/abs/1812.04948

3、《Neural Machine Translation by Jointly Learning to Align and Translate(attention 機制)》

論文連結:https://arxiv.org/abs/1409.0473(被引用量 9882)

注意力的可視化結果

這篇論文介紹了注意力機制的思路。與其將所有信息壓縮到一個 RNN 的隱層中,不如將整個語境保存在內存中。這使得所有的輸出都能和輸入對應。除了在機器翻譯中使用外,attention 機制還被用於 GAN 等模型中。

《Adam: A Method for Stochastic Optimization》

論文連結:https://arxiv.org/abs/1412.6980(被引用量 34082)

Adam 由於其易微調的特性而被廣泛使用。它基於對每個參數的不同學習率進行適應這種思想。雖然近來有對 Adam 性能提出質疑的論文出現,但它依然是深度學習中最受歡迎的目標函數。

年度榮譽提名:

1、《Decoupled Weight Decay Regularization》

論文地址:https://arxiv.org/abs/1711.05101

2、《RMSProp》

和 Adam 一樣出名的目標函數。

論文地址 https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf*

2015:超越人類的 ResNet;神奇的批歸一化

《Deep Residual Learning for Image Recognition》

論文連結:https://arxiv.org/abs/1512.03385(被引用量 34635)

Residual Block 結構。

大名鼎鼎的 ResNet,從 ResNet 開始,神經網絡在視覺分類任務上的性能第一次超越了人類。這一方法贏得了 ImageNet 2015、以及 COCO 競賽的冠軍,也獲得了 CVPR2016 的最佳論文獎:該研究的作者是何愷明、張祥雨、任少卿和孫劍。

最初 ResNet 的設計是用來處理深層 CNN 結構中梯度消失和梯度爆炸的問題,如今 Residual Block 已經成為了幾乎所有 CNN 結構中的基本構造。

這個想法很簡單:將輸入(input)從卷積層的每個塊添加到輸出(output)。殘差網絡之後的啟示是,神經網絡不應分解為更多的層數,在最不理想的情況下,其他層可以簡單設置為恆等映射(identity mapping)。但在實際情況中,更深層的網絡常常在訓練上遇到困難。殘差網絡讓每一層更容易學習恆等映射,並且還減少了梯度消失的問題。

儘管並不複雜,但殘差網絡很大程度上優於常規的 CNN 架構,尤其在應用於更深層的網絡上時。

幾種 CNN 之間的對比。

眾多 CNN 架構都在爭奪「頭把交椅」,以下是一部分具有代表意義的樣本:

Inceptionv1 結構。

年度榮譽提名:

1、《Going Deeper with Convolutions》

論文連結: https://arxiv.org/abs/1409.4842

2、《Very Deep Convolutional Networks for Large-Scale Image Recognition》

論文連結: https://arxiv.org/abs/1409.1556

3、《Neural Ordinary Differential Equations》

論文連結: https://arxiv.org/abs/1806.07366(NIPS 2018 最佳論文獎)

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift(批歸一化)》

論文連結:https://arxiv.org/abs/1502.03167(14384 次引用)

批歸一化(Batch normalization)是如今幾乎所有神經網絡的主流趨勢。批歸一基於另外一個簡單但是很棒的想法:在訓練過程中保持均值和方差統計,藉此將 activation 的範圍變換為零均值和單位方差。

關於批歸一化效果的確切原因還未有定論,但從實踐上說確實有效的。

年度榮譽提名:

不同歸一化技術的可視化呈現。

1、《層歸一化(Layer Normalization)》

論文連結:https://arxiv.org/abs/1607.06450

2、《實例歸一化(Instance Normalization)》

論文連結:https://arxiv.org/abs/1607.08022

3、《組歸一化(Group Normalization)》

論文連結:https://arxiv.org/abs/1803.08494

2016 年:攻陷最複雜的遊戲——AlphaGo

登上 Nature 的 AlphaGo 論文《Mastering the game of Go with deep neural networks and tree search》

論文連結:https://www.nature.com/articles/nature16961(被引用量 6310)

很多人對於現代 AI 的理解始於 DeepMind 的圍棋程序 AlphaGo。AlphaGo 研究項目始於 2014 年,目的是為了測試一個使用深度學習的神經網絡如何在 Go 上競爭。

AlphaGo 比以前的 Go 程序有了顯著的改進,在與其他可用圍棋程序(包括 Crazy Stone 和 Zen)的 500 場比賽中,在單臺計算機上運行的 AlphaGo 贏得了除一個之外的所有勝利,而運行在多臺計算機上的 AlphaGo 贏得了與其他 Go 程序對戰的所有 500 場比賽,在與單臺計算機上運行的 AlphaGo 比賽中贏下了 77%的對陣。2015 年 10 月的分布式版本使用了 1,202 個 CPU 和 176 個 GPU,當時它以 5: 0 的比分擊敗了歐洲圍棋冠軍樊麾(職業 2 段選手),轟動一時。

這是計算機圍棋程序第一次在全局棋盤(19 × 19)且無讓子的情況下擊敗了人類職業棋手。2016 年 3 月,通過自我對弈進行練習的加強版 AlphaGo 在比賽中以 4: 1 擊敗了世界圍棋冠軍李世石,成為第一個在無讓子情況下擊敗圍棋職業九段棋手的電腦程式,載入史冊。賽後,AlphaGo 被韓國棋院授予名譽職業九段的稱號。

年度榮譽提名:

1、DeepMind 的另一篇 AlphaGo Nature 論文《Mastering the game of Go without human knowledge》

論文連結:https://www.nature.com/articles/nature24270

作為 AlphaGo 的後繼版本,2017 年 10 月,DeepMind 發布最新強化版的 AlphaGo Zero,這是一個無需用到人類專業棋譜的版本,比之前的版本都強大。通過自我對弈,AlphaGo Zero 經過三天的學習就超越了 AlphaGo Lee 版本的水平,21 天后達到 AlphaGo Maseter 的實力,40 天內超越之前所有版本。

2017 年:幾乎人人都用的 Transformer

《Attention Is All You Need》

論文連結:https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf(被引用量 5059)

著名的 Transformer 架構出現了。2017 年 6 月,谷歌宣布又在機器翻譯上更進了一步,實現了完全基於 attention 的 Transformer 機器翻譯網絡架構,並且還在 WMT 2014 的多種語言對的翻譯任務上超越了之前 Facebook 的成績,實現了新的最佳水平。

在編碼器-解碼器配置中,顯性序列顯性轉導模型(dominant sequence transduction model)基於複雜的 RNN 或 CNN。表現最佳的模型也需通過注意力機制(attention mechanism)連接編碼器和解碼器。

谷歌提出了一種新型的簡單網絡架構——Transformer,它完全基於注意力機制,徹底放棄了循環和卷積。兩項機器翻譯任務的實驗表明,這些模型的翻譯質量更優,同時更並行,所需訓練時間也大大減少。新的模型在 WMT 2014 英語轉德語的翻譯任務中取得了 BLEU 得分 28.4 的成績,領先當前現有的最佳結果(包括集成模型)超過 2 個 BLEU 分值。在 WMT 2014 英語轉法語翻譯任務上,在 8 塊 GPU 上訓練了 3.5 天之後,新模型獲得了新的單模型頂級 BLEU 得分 41.0,只是目前文獻中最佳模型訓練成本的一小部分。

Transformer 在其他任務上也泛化很好,把它成功應用到了有大量訓練數據和有限訓練數據的英語組別分析上。

《Neural Architecture Search with Reinforcement Learning》

論文連結:https://openreview.net/forum?id=r1Ue8Hcxg(被引用量 1186)

神經結構搜索(NAS)表示自動設計人工神經網絡(ANN)的過程,人工神經網絡是機器學習領域中廣泛使用的模型。NAS 的各種方法設計出的神經網絡,其性能與手工設計的架構相當甚至更優越。可以根據搜索空間,搜索策略和性能評估策略三個方面對 NAS 的方法進行分類。其他方法,如《Regularized Evolution for Image Classifier Architecture Search》(即 AmoebaNet)使用了進化算法。

2018 年:預訓練模型大熱

當然是谷歌的 NLP 預訓練模型 BERT:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,這篇論文現在已經有 3025 次引用量了。

論文連結:https://arxiv.org/abs/1810.04805

本文介紹了一種新的語言表徵模型 BERT——來自 Transformer 的雙向編碼器表徵。與最近的語言表徵模型不同,BERT 旨在基於所有層的左、右語境來預訓練深度雙向表徵。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優性能的基於微調的表徵模型,其性能超越許多使用任務特定架構的系統,刷新了 11 項 NLP 任務的當前最優性能記錄。

BERT 與 GPT-2 和 ELMo 的模型結構對比。

年度榮譽提名:

自 BERT 被提出以來,基於 Transformer 的語言模型呈井噴之勢。這些論文尚需時間考驗,還很難說哪一個最具影響力。

1、《Deep contextualized word representations》

論文連結:https://arxiv.org/abs/1802.05365

2、《Improving Language Understanding by Generative Pre-Training》

論文連結:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3、《Language Models are Unsupervised Multitask Learners》——即 OpenAI 在 2 月份推出的,參數量高達 15 億的預訓練模型 GPT-2。

論文連結:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

4、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》

以往的 Transformer 網絡由於受到上下文長度固定的限制,學習長期以來關係的潛力有限。本文提出的新神經架構 Transformer-XL 可以在不引起時間混亂的前提下,可以超越固定長度去學習依賴性,同時還能解決上下文碎片化問題。

論文連結:https://arxiv.org/abs/1901.02860

5、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

BERT 帶來的影響還未平復,CMU 與谷歌大腦 6 月份提出的 XLNet 在 20 個任務上超過了 BERT 的表現,並在 18 個任務上取得了 SOTA。

論文連結:https://arxiv.org/abs/1906.08237

6、《Neural Machine Translation of Rare Words with Subword Units》

論文連結:https://arxiv.org/abs/1508.07909

2019 年:深度學習的原理改進

論文《Deep Double Descent: Where Bigger Models and More Data Hurt》,本文討論的 Double Descent 現象與經典機器學習和現代深度學習中的流行觀點背道而馳。

論文連結:https://arxiv.org/abs/1912.02292

在本文中研究者證明,各種現代深度學習任務都表現出「雙重下降」現象,並且隨著模型尺寸的增加,性能首先變差,然後變好。此外,他們表明雙重下降不僅作為模型大小的函數出現,而且還可以作為訓練時間點數量的函數。研究者通過定義一個新的複雜性度量(稱為有效模型複雜性,Effective Model Complexity)來統一上述現象,並針對該度量推測一個廣義的雙重下降。此外,他們對模型複雜性的概念使其能夠確定某些方案,在這些方案中,增加(甚至四倍)訓練樣本的數量實際上會損害測試性能。

來自 MIT CSAIL 研究者的論文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》,它也獲得了 ICLR 2019 的最佳論文獎。

論文連結:https://arxiv.org/abs/1803.03635

研究者們發現,標準的神經網絡剪枝技術會自然地發現子網絡,這些子網絡經過初始化後能夠有效進行訓練。基於這些結果,研究者提出了「彩票假設」(lottery ticket hypothesis):密集、隨機初始化的前饋網絡包含子網絡(「中獎彩票」),當獨立訓練時,這些子網絡能夠在相似的迭代次數內達到與原始網絡相當的測試準確率。

未來?

因為深度學習和基於梯度的神經網絡出現技術突破,過去十年是人工智慧高速發展的一段時期。這很大程度上是因為晶片算力的顯著提高,神經網絡正在變得越來越大,性能也越來越強。從計算機視覺到自然語言處理,新的方法已經大面積取代了傳統的 AI 技術。

但是神經網絡也有其缺點:它們需要大量已標註數據進行續聯,無法解釋自身的推斷機制,難以推廣到單個任務之外。不過因為深度學習的推動,AI 領域快速發展,越來越多的研究者正在致力於應對這些挑戰。

在未來的幾年裡,人們對於神經網絡的理解還會不斷增加。人工智慧的前景還是一片光明:深度學習是 AI 領域裡最有力的工具,它會使我們進一步接近真正的智能。

讓我們期待 2020 年的新成果吧。

參考連結:https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

近日,基於騰訊天美工作室開發的熱門 MOBA 類手遊《王者榮耀》,騰訊 AI Lab 公布了一項用深度強化學習來為智能體預測遊戲動作研究成果,在機器之心最新的一期 AAAI 2020 線上分享中,我們邀請到了論文一作、騰訊 AI Lab AI+遊戲領域高級研究員葉德珩博士為大家做解讀。

原標題:《告別2019:屬於深度學習的十年,那些我們必須知道的經典》

閱讀原文

相關焦點

  • 數據科學家必須知道的 10 個深度學習架構
    近年來,深度學習的發展勢頭迅猛,要跟上深度學習的進步速度變得越來越困難了。幾乎每一天都有關於深度學習的創新,而大部分的深度學習創新都隱藏在那些發表於ArXiv和Spinger等研究論文中。目前,我們已經了解了深度學習「高級架構」,並探究了各種類型的計算機視覺任務。那麼接下來,我們將列舉出最重要的深度學習架構,並且對這些架構進行簡單的介紹:1.
  • 博弈論速成指南:那些融入深度學習的經典想法和新思路
    對於初學者而言,遊戲環境在強化學習或模仿學習等領域中逐漸成為流行的訓練機制。理論上,任何多智能體 AI 系統都要經歷玩家之間的遊戲化交互。構建遊戲原則的數學分支正是博弈論。在人工智慧語境和深度學習系統語境下,要想使多智能體環境具備一些必備的重要能力,博弈論必不可少。在多智能體環境中,不同的 AI 程序需要交互或競爭才能達成目標。
  • 關於深度學習你必須知道的幾個信息理論概念
    資訊理論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。下面將討論深度學習和數據科學中四種流行的,廣泛使用的和必須已知的資訊理論概念:熵也可以稱為信息熵或香農熵。熵是實驗中隨機性或不確定性的度量熵給出了實驗中不確定性的度量。
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    雷鋒網 AI 科技評論按:2019 年底、2020 年初,許多機器學習界活躍的教授、研究員們投身參與了一場的突如其來的討論:深度學習是什麼?在過去十年洶湧而來的深度學習浪潮中,大家對深度學習在應用中體現出的各種特點已經非常熟悉了,但畢竟深度學習的理論仍未建立完善。
  • ...首席科學家鄧力:深度學習十年簡史和人工智慧未來展望(33PDF...
    我今天首先要感謝組委會給我這個機會,在這裡向大家介紹微軟的一些深度學習和人工智慧的研究,也感謝組委會專門給我這個題目,叫我講一下十年深度學習的歷史。正像你們剛才聽到 Yoshua Bengio 教授講的一樣,微軟在深度學習的開始階段就做了很大的投入。今天我會向大家介紹這之後我們很多的進展,最後分享對未來的展望。
  • 要理解深度學習,必須突破常規視角去理解優化
    深度學習算法有一些重要的特性並不總是反映在目標值中。所以,要加深對深度學習的理解,還得超越常規視角。使用無限寬的深度網絡進行計算由於過度參數化似乎不會對深度網絡造成太大的傷害,研究人員想知道參數到達無窮大這一極限會發生什麼:使用固定的訓練集(如 CIFAR10)來訓練經典的深度網絡架構,如 AlexNet 或 VGG19。這些網絡的寬度(即卷積濾波器中的通道數)和全連接內部層中的節點數允許參數增加到無窮大。
  • 「深度學習」這十年:52篇大神級論文再現AI榮與光
    過去十年中有哪些有影響力的深度學習論文?從「深度學習三巨頭」到何愷明,從谷歌到MIT,52篇神級論文帶大家回顧深度學習這十年。戳右邊連結上新智元小程序了解更多! 隨著2020年的到來,人類進入了一個嶄新的十年。回顧過去10年,深度學習領域取得的巨大進步。
  • 致那些離我們而去的人 | 2018,我們一直在告別
    那些帶給我們無數回憶的人紛紛在這一年與我們道別。有人說,「偉大的藝術家和藝術作品都是扎堆地出現」,而他們的離開似乎也是扎堆地。小丸子是個並不完美的動畫形象,她沒有主角光環,沒外掛、沒魔法、沒神奇道具;家境一般,外貌一般,學習一般,運氣一般,缺點一大堆……但正因為這些和我們一樣的童年特質,80後90後都十分喜歡這個懵懂又迷糊的少女。
  • 深度學習 vs. 概率圖模型 vs. 邏輯學
    【編者按】在上個月發表博客文章《深度學習 vs. 機器學習 vs. 模式識別》之後,CMU博士、MIT博士後及vision.ai聯合創始人Tomasz Malisiewicz這一次帶領我們回顧50年來人工智慧領域三大範式(邏輯學、概率方法和深度學習)的演變歷程。通過本文我們能夠更深入地理解人工智慧和深度學習的現狀與未來。
  • 深度學習框架簡史:TF和PyTorch雙頭壟斷,未來十年迎來黃金時期
    過去十年,機器學習(尤其是深度學習)領域湧現了大量算法和應用。在這些深度學習算法和應用湧現的背後,是各種各樣的深度學習工具和框架。它們是機器學習革命的腳手架:TensorFlow 和 PyTorch 等深度學習框架的廣泛使用,使得許多 ML 從業者能夠使用適合的領域特定的程式語言和豐富的構建模塊更容易地組裝模型。
  • .| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用
    編者按:本文節選自《深度學習理論與實戰:提高篇 》一書,原文連結http://fancyerii.github.io/2019/03/14/dl-book/。提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後,神經網絡再次進入大家的視野。
  • Nature Neurosci: 神經科學的深度學習框架是什麼?
    那如果我們反過來思考,也許深度學習並沒有與神經科學背道而馳,而恰恰是觸及了當前神經科學還未開拓的領域呢?那麼我們是否可以,借鑑當前深度學習已有的規則和框架,來研究神經科學本身呢?今天分享一篇經典的文章。
  • 反思深度學習與傳統計算機視覺的關係
    儘管許多人都為之深深著迷,然而,深網就相當於一個黑盒子,我們大多數人,甚至是該領域接受過培訓的科學家,都不知道它們究竟是如何運作的。大量有關深度學習的成功或失敗事例給我們上了寶貴的一課,教會我們正確處理數據。在這篇文章中,我們將深入剖析深度學習的潛力,深度學習與經典計算機視覺的關係,以及深度學習用於關鍵應用程式的潛在危險。
  • 中科院計算所陳雲霽:深度學習晶片剩下的只是工程問題,我們要起航...
    我們這個方向有10個PI,主要是來自於清華、北大、中科院;還有5位青年科學家,也是來自清華、北大和中科院。總體情況就是這樣。探索新方向問:之前有記者採訪孫茂松教授,他提到現在「深度學習碰壁了,面臨一個困境」。您怎麼看待這個觀點,以及這會對您在深度學習處理器的研究上有什麼影響?
  • 告別2019迎接2020句子說說 告別2019的話展望2020寄語
    告別2019迎接2020句子說說 告別2019的話展望2020寄語(二)  你好,新的2020年!我會用笑臉來迎接我每一個敵人。  等待著2019的告別,迎接2020~和新一年美好生活的開始~  2019年太難了,內心世界的秩序全部被打破,需要重生,那就以一場高難度的旅行,向2019年的艱難告別,在冰天雪地裡迎接2020。
  • 圖靈獎「擁抱」深度學習
    Pancake 說,「人工智慧的發展很大程度上歸功於由三位奠定基礎的深度學習領域內的最新成就。」「只要口袋裡有智慧型手機的人都可以切實體會到自然語言處理和計算機視覺方面的技術進步,這在十年前是無法想像的。除了我們每天使用的產品,深度學習的新進展為科學家們帶來強大的新工具—從醫學、天文學到材料科學。」神經網絡是一種運算模型,由大量簡單的神經元之間相互連接構成。
  • CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?
    對此問題,我們應當深思。近日,在北京語言大學舉辦的第四屆語言與智能高峰論壇上,華為諾亞方舟實驗室語音語義首席科學家劉群教授高屋建瓴,細緻分析了深度學習時代NLP的已知與未知。他從自然語言處理基於規則、統計到深度學習的範式遷移出發,探討了深度學習方法解決了自然語言處理的哪些問題以及尚未解決哪些問題。
  • 2012年至今,細數深度學習領域這些年取得的經典成果
    那麼, 自2006年Hinton發表經典論文以來,深度學習領域又取得了哪些突破性成果呢?ResNet(2015年)、Transformer模型(2017年)、BERT與微調自然語言處理模型(2018年),以及2019-2020年及之後的BIG語言模型與自監督學習等。
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    為了從數據中更好的提煉預測信號,必須對數據的時間序列信息進行分析挖掘。數據不均衡:很多疾病的發病率都不高,比如房顫患者發生腦卒中的平均概率是 10%,腦卒中患者出院後導致殘疾的平均概率是 4%。造成數據中正例相對較少,很不均衡,對機器學習算法的要求更高。
  • 迎來PyTorch,告別 Theano,2017 深度學習框架發展大盤點
    深度學習是機器學習中一種基於對數據進行表徵學習的方法,作為當下最熱門的話題,谷歌、Facebook、微軟等巨頭紛紛圍繞深度學習做了一系列研究,一直在支持開源深度學習框架的建設。這使得開發者的深度學習模型能夠有「最大限度的內存效能」,訓練比從前更大的深度神經網絡。