歷史最全深度學習與NLP核心概念、模型、策略及最新論文整理分享

2021-02-19 深度學習與NLP

本資源整理了與自然語言處理（NLP）相關的深度學習技術核心概念，以及2019年概念相關最新的論文，涉及算法優化（Adam，Adagrad、AMS、Mini-batch SGD等），參數初始化（Glorot initialization、 He initialization），模型約束（Dropout、 Word Dropout、Patience、Weight Decay等），歸一化，損失函數類型，網絡訓練方法，激活函數選擇，CNN、RNN網絡結構等核心概念。

核心概念連個方面：1、梳理了深度學習、NLP相關技術核心概念；2、整理了這些概念相關最新論文。非常值得推薦。

資源整理自網絡，源地址：https://github.com/neulab/nn4nlp-concepts/blob/master/concepts.md

帶論文連結資源下載地址：

連結: https://pan.baidu.com/s/1lC8DiPJnyzbxtvns-HXr_w

提取碼: yv6g

參數優化/學習

優化器與優化策略

•Mini-batch SGD: optim-sgd

•Adam: optim-adam (implies optim-sgd)

•Adagrad: optim-adagrad (implies optim-sgd)

•Adadelta: optim-adadelta (implies optim-sgd)

•Adam with Specialized Transformer Learning Rate ("Noam" Schedule): optim-noam (implies optim-adam)

•SGD with Momentum: optim-momentum (implies optim-sgd)

•AMS: optim-amsgrad (implies optim-sgd)

•Projection / Projected Gradient Descent: optim-projection (implies optim-sgd)

參數初始化

•Glorot/Xavier Initialization: init-glorot

•He Initialization: init-he

參數約束策略

•Dropout: reg-dropout

•Word Dropout: reg-worddropout (implies reg-dropout)

•Norm (L1/L2) Regularization: reg-norm

•Early Stopping: reg-stopping

•Patience: reg-patience (implies reg-stopping)

•Weight Decay: reg-decay

•Label Smoothing: reg-labelsmooth

歸一化策略

•Layer Normalization: norm-layer

•Batch Normalization: norm-batch

•Gradient Clipping: norm-gradient

損失函數

•Canonical Correlation Analysis (CCA): loss-cca

•Singular Value Decomposition (SVD): loss-svd

•Margin-based Loss Functions: loss-margin

•Contrastive Loss: loss-cons

•Noise Contrastive Estimation (NCE): loss-nce (implies loss-cons)

•Triplet Loss: loss-triplet (implies loss-cons)

訓練方法

•Multi-task Learning (MTL): train-mtl

•Multi-lingual Learning (MLL): train-mll (implies train-mtl)

•Transfer Learning: train-transfer

•Active Learning: train-active

•Data Augmentation: train-augment

•Curriculum Learning: train-curriculum

•Parallel Training: train-parallel

序列模型結構

激活函數

•Hyperbolic Tangent (tanh): activ-tanh

•Rectified Linear Units (RelU): activ-relu

池化操作

•Max Pooling: pool-max

•Mean Pooling: pool-mean

•k-Max Pooling: pool-kmax

循環結構

•Recurrent Neural Network (RNN): arch-rnn

•Bi-directional Recurrent Neural Network (Bi-RNN): arch-birnn (implies arch-rnn)

•Long Short-term Memory (LSTM): arch-lstm (implies arch-rnn)

•Bi-directional Long Short-term Memory (LSTM): arch-bilstm (implies arch-birnn, arch-lstm)

•Gated Recurrent Units (GRU): arch-gru (implies arch-rnn)

•Bi-directional Gated Recurrent Units (GRU): arch-bigru (implies arch-birnn, arch-gru)

其他序列化/結構化結構

•Bag-of-words, Bag-of-embeddings, Continuous Bag-of-words (BOW): arch-bow

•Convolutional Neural Networks (CNN): arch-cnn

•Attention: arch-att

•Self Attention: arch-selfatt (implies arch-att)

•Recursive Neural Network (RecNN): arch-recnn

•Tree-structured Long Short-term Memory (TreeLSTM): arch-treelstm (implies arch-recnn)

•Graph Neural Network (GNN): arch-gnn

•Graph Convolutional Neural Network (GCNN): arch-gcnn (implies arch-gnn)

結構優化技巧

•Residual Connections (ResNet): arch-residual

•Gating Connections, Highway Connections: arch-gating

•Memory: arch-memo

•Copy Mechanism: arch-copy

•Bilinear, Biaffine Models: arch-bilinear

•Coverage Vectors/Penalties: arch-coverage

•Subword Units: arch-subword

•Energy-based, Globally-normalized Mdels: arch-energy

標準複合結構

•Transformer: arch-transformer (implies arch-selfatt, arch-residual, arch-layernorm, optim-noam)

模型組合

•Ensembling: comb-ensemble

尋優搜索算法

•Greedy Search: search-greedy

•Beam Search: search-beam

•A* Search: search-astar

•Viterbi Algorithm: search-viterbi

•Ancestral Sampling: search-sampling

•Gumbel Max: search-gumbel (implies search-sampling)

預測任務

•Text Classification (text -> label): task-textclass

•Text Pair Classification (two texts -> label: task-textpair

•Sequence Labeling (text -> one label per token): task-seqlab

•Extractive Summarization (text -> subset of text): task-extractive (implies text-seqlab)

•Span Labeling (text -> labels on spans): task-spanlab

•Language Modeling (predict probability of text): task-lm

•Conditioned Language Modeling (some input -> text): task-condlm (implies task-lm)

•Sequence-to-sequence Tasks (text -> text, including MT): task-seq2seq (implies task-condlm)

•Cloze-style Prediction, Masked Language Modeling (right and left context -> word): task-cloze

•Context Prediction (as in word2vec) (word -> right and left context): task-context

•Relation Prediction (text -> graph of relations between words, including dependency parsing): task-relation

•Tree Prediction (text -> tree, including syntactic and some semantic semantic parsing): task-tree

•Graph Prediction (text -> graph not necessarily between nodes): task-graph

•Lexicon Induction/Embedding Alignment (text/embeddings -> bi- or multi-lingual lexicon): task-lexicon

•Word Alignment (parallel text -> alignment between words): task-alignment

預訓練向量融合策略

•word2vec: pre-word2vec (implies arch-cbow, task-cloze, task-context)

•fasttext: pre-fasttext (implies arch-cbow, arch-subword, task-cloze, task-context)

•GloVe: pre-glove

•Paragraph Vector (ParaVec): pre-paravec

•Skip-thought: pre-skipthought (implies arch-lstm, task-seq2seq)

•ELMo: pre-elmo (implies arch-bilstm, task-lm)

•BERT: pre-bert (implies arch-transformer, task-cloze, task-textpair)

•Universal Sentence Encoder (USE): pre-use (implies arch-transformer, task-seq2seq)

結構化模型/算法

•Hidden Markov Models (HMM): struct-hmm

•Conditional Random Fields (CRF): struct-crf

•Context-free Grammar (CFG): struct-cfg

•Combinatorial Categorical Grammar (CCG): struct-ccg

不可導函數訓練方法

•Complete Enumeration: nondif-enum

•Straight-through Estimator: nondif-straightthrough

•Gumbel Softmax: nondif-gumbelsoftmax

•Minimum Risk Training: nondif-minrisk

•REINFORCE: nondif-reinforce

對抗方法

•Generative Adversarial Networks (GAN): adv-gan

•Adversarial Feature Learning: adv-feat

•Adversarial Examples: adv-examp

•Adversarial Training: adv-train (implies adv-examp)

隱變量模型

•Variational Auto-encoder (VAE): latent-vae

•Topic Model: latent-topic

元學習

•Meta-learning Initialization: meta-init

•Meta-learning Optimizers: meta-optim

•Meta-learning Loss functions: meta-loss

•Neural Architecture Search: meta-arch

相關焦點

【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)

【導讀】昨天 Google DeepMind在Nature上發表最新論文，介紹了迄今最強最新的版本AlphaGo Zero，不使用人類先驗知識，使用純強化學習
盤點 2017 年深度學習 NLP 重磅技術

不過現在，NLP領域取得的一系列進展已證明深度學習技術將會對自然語言處理做出重大貢獻。一些常見的任務如實體命名識別，詞類標記及情感分析等，自然語言處理都能提供最新的結果，並超越了傳統方法。另外，在機器翻譯領域的應用上，深度學習技術所取得的進步應該是最顯著的。
深度學習概述:NLP vs CNN

最初的人工智慧和深度學習算法比較簡單，就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究，我們已經擁有了具有多層結構的複雜神經網絡。一些公司在他們的軟體和服務中使用了LSTMs、GANs、變分自編碼器等算法。本文在以下部分列出了人工智慧領域當前最熱門的技術以及正在研究這些熱門技術的公司。看了這些創新之後，準備好大吃一驚吧。
最新最全最詳細中文版-《遷移學習簡明手冊》pdf分享

本手冊的編寫邏輯很簡單：是什麼——介紹遷移學習；為什麼——為什麼要用遷移學習、為什麼能用；怎麼辦——如何進行遷移 (遷移學習方法)。其中，是什麼和為什麼解決概念問題，這是一切的前提；怎麼辦是我們的重點，也佔據了最多的篇幅。為了最大限度地方便初學者，我們還特別編寫了一章上手實踐，直接分享實現代碼和心得體會。
【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)

【導讀】轉載來自ty4z2008（GItHub）整理的機器學習&深度學習知識資料大全薈萃，包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品！介紹:這是一篇介紹機器學習歷史的文章，介紹很全面，從感知機、神經網絡、決策樹、SVM、Adaboost到隨機森林、Deep Learning.介紹:這是瑞士人工智慧實驗室Jurgen Schmidhuber寫的最新版本《神經網絡與深度學習綜述》本綜述的特點是以時間排序，從1940年開始講起，到60-80年代，80-90年代，一直講到2000年後及最近幾年的進展。
2020年最新深度學習模型、策略整理及實現匯總分享

本資源整理了常見的各類深度學習模型和策略，涉及機器學習基礎、神經網路基礎、CNN、GNN、RNN、GAN等，並給出了基於TensorFlow或 PyTorch的實現細節，這些實現都是Jupyter Notebooks編寫，可運行Debug且配有詳細的講解，可以幫助你體會算法實現的細節。
【專知薈萃16】主題模型Topic Model知識資料全集(基礎/進階/論文/綜述/代碼/專家,附PDF下載)

主題薈萃為用戶提供全網關於該主題的精華（Awesome）知識資料收錄整理，使得AI從業者便捷學習和解決工作問題！在專知人工智慧主題知識樹基礎上，主題薈萃由專業人工編輯和算法工具輔助協作完成，並保持動態更新！另外歡迎對此創作主題薈萃感興趣的同學，請加入我們專知AI創作者計劃，共創共贏！
PTMs| 2020最新NLP預訓練模型綜述

例如nlp中的log-linear、CRF模型等，cv中各種抽取特徵的模型，如sift特徵等。深度學習中本質上是一種表示學習，能夠一定程度上避免手動的特徵工程。究其原因，主要得益於深度學習中一系列很強大的特徵提取器，如CNN、RNN、Transformer等，這些特徵提取器能夠有效地捕獲原始輸入數據中所蘊含的特點和規律。
深度學習-機器學習從入門到深入全套資源分享

從RCNN到SSD，這應該是最全的一份目標檢測算法盤點 8. 圖像語義分割(Semantic segmentation) Survey * 9.，如何評價最新的anchor-free目標檢測模型FoveaBox？
深度學習模型壓縮方法

目前深度學習模型壓縮方法的研究主要可以分為以下幾個方向：更精細模型的設計，目前的很多網絡都具有模塊化的設計，在深度和寬度上都很大，這也造成了參數的冗餘很多，因此有很多關於模型設計的研究，如SqueezeNet、MobileNet等，使用更加細緻、高效的模型設計，能夠很大程度的減少模型尺寸，並且也具有不錯的性能。
12個領域,55部分, AI 學習資源全整理 | 資源

，主要介紹了神經網絡與深度學習中的基礎知識、主要模型（前饋網絡、卷積網絡、循環網絡等）以及在計算機視覺、自然語言處理等領域的應用。該書從淺入深介紹了基礎數學知識、機器學習經驗以及現階段深度學習的理論和發展，它能幫助人工智慧技術愛好者和從業人員在三位專家學者的思維帶領下全方位了解深度學習。書籍介紹《深度學習》通常又被稱為花書，深度學習領域最經典的暢銷書。
深度學習論文閱讀路線圖

，可能會遇到的第一個問題是「應該從哪篇論文開始讀起呢？」這裡給出了深度學習論文閱讀路線圖！路線圖按照下面四個準則構建而成：從提綱到細節從經典到前沿從通用領域到特定領域專注於最先進的技術你將會發現很多近期發表但是確實值得一讀的論文。我們將持續不斷的給這條路線圖添加論文。
史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

深度學習自然語言處理時代，史丹福大學自然語言處理組開發了一個純Python版本的深度學習NLP工具包：Stanza - A Python NLP Library for Many Human Languages，前段時間，Stanza v1.0.0 版本正式發布，算是一個裡程碑：
自然語言處理任務相關經典論文、免費書籍、博客、tf代碼整理分享

本資源整理了自然語言處理常見任務相關的文檔、論文和代碼，包括主題模型、word embedding、命名實體識別、文本分類、文本生成、文本相似性、機器翻譯等領域。所有代碼都在intensorflow 2.0中實現。
【重磅】61篇NIPS2019深度強化學習論文及部分解讀

對於這些概括，最後以與其全規劃對應方相同的速率證明了後悔。其次，將無約束的政策空間視為混合神經和程序化表示，這使得能夠採用最先進的深度政策梯度方法。第三，通過模仿學習將投射步驟作為程序綜合，並利用當代組合方法完成這項任務。最後提出了IPPG的理論收斂結果，以及三個連續控制域的經驗評估。實驗表明，IPPG可以明顯優於現有技術
一文學會最常見的10種NLP處理技術(附資源&代碼)

(http://www.ijrat.org/downloads/icatest2015/ICATEST-2015127.pdf)論文2：這篇論文非常出色，討論了運用深度學習對變化豐富的語種做詞形還原時會遇到的問題。
近200篇機器學習&深度學習資料分享(含各種文檔,視頻,源碼等)

Tenenbaum 和劍橋 Zoubin Ghahramani 合作，寫了一篇關於 automatic statistician 的文章。可以自動選擇回歸模型類別，還能自動寫報告...《Java Machine Learning》介紹：Java 機器學習相關平臺和開源的機器學習庫，按照大數據、NLP、計算機視覺和 Deep Learning 分類進行了整理。看起來挺全的，Java 愛好者值得收藏。
閱讀和實現深度學習的論文初學者指南

如果你想讓你的學習順利無壓力的開始，應該找一篇「好」的論文。作為起點建議選擇一篇描述你熟悉概念的並且被引用度高的論文。高引用率的舊論文通常解釋了非常基本的概念，這些概念也是最近研究的基礎，這些基礎知識會更好的幫你理解最新的論文。
一文回顧深度學習發展史上最重要經典模型

我將介紹一小部分技術，這些技術涵蓋了解現代深度學習研究所必需的許多基本知識。如果你是該領域的新手，那麼這是一個很好的起點。深度學習是一個瞬息萬變的領域，大量的研究論文和想法可能會令人不知所措。即使是經驗豐富的研究人員，也很難告訴公司PR什麼是真正的突破。這篇文章的目的是回顧經受住時間考驗的想法，這也許是人們應該依靠的唯一參考標準。
乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)

[ 導讀 ]本文作者一年前整理了這份關於 NLP 與知識圖譜的參考資源，涵蓋內容與形式也是非常豐富，接下來我們還會繼續努力，分享更多更好的新資源給大家，也期待能與大家多多交流，一起成長。缺點：傳統方法居多，深度學習未涉及。

歷史最全深度學習與NLP核心概念、模型、策略及最新論文整理分享

相關焦點

【AlphaGoZero核心技術】深度強化學習知識資料全集(論文/代碼/教程/視頻/文章等)

盤點 2017 年深度學習 NLP 重磅技術

深度學習概述:NLP vs CNN

最新最全最詳細中文版-《遷移學習簡明手冊》pdf分享

【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)

2020年最新深度學習模型、策略整理及實現匯總分享

【專知薈萃16】主題模型Topic Model知識資料全集(基礎/進階/論文/綜述/代碼/專家,附PDF下載)

PTMs| 2020最新NLP預訓練模型綜述

深度學習-機器學習從入門到深入全套資源分享

深度學習模型壓縮方法

12個領域,55部分, AI 學習資源全整理 | 資源

深度學習論文閱讀路線圖

史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

自然語言處理任務相關經典論文、免費書籍、博客、tf代碼整理分享

【重磅】61篇NIPS2019深度強化學習論文及部分解讀

一文學會最常見的10種NLP處理技術(附資源&代碼)

近200篇機器學習&深度學習資料分享(含各種文檔,視頻,源碼等)

閱讀和實現深度學習的論文初學者指南

一文回顧深度學習發展史上最重要經典模型

乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)