BERT/Transformer/遷移學習NLP資源大列表

2021-12-17 深度學習自然語言處理

點擊上方，選擇星標或置頂，每天給你送乾貨！

閱讀大概需要5分鐘

跟隨小博主，每天進步一丟丟

整理：專知

編輯：zenRRan

【導讀】cedrickchee維護這個項目包含用於自然語言處理(NLP)的大型機器(深度)學習資源，重點關注轉換器(BERT)的雙向編碼器表示、注意機制、轉換器架構/網絡和NLP中的傳輸學習。

https://github.com/cedrickchee/awesome-bert-nlp

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding by Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova.

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context by Zihang Dai, Zhilin Yang, Yiming Yang, William W. Cohen, Jaime Carbonell, Quoc V. Le and Ruslan Salakhutdinov.

Uses smart caching to improve the learning of long-term dependency in Transformer. Key results: state-of-art on 5 language modeling benchmarks, including ppl of 21.8 on One Billion Word (LM1B) and 0.99 on enwiki8. The authors claim that the method is more flexible, faster during evaluation (1874 times speedup), generalizes well on small datasets, and is effective at modeling short and long sequences.

Conditional BERT Contextual Augmentation by Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han and Songlin Hu.

SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering by Chenguang Zhu, Michael Zeng and Xuedong Huang.

Language Models are Unsupervised Multitask Learners by Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei and Ilya Sutskever.

The Evolved Transformer by David R. So, Chen Liang and Quoc V. Le.

They used architecture search to improve Transformer architecture. Key is to use evolution and seed initial population with Transformer itself. The architecture is better and more efficient, especially for small size models.

Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing from Google AI.

The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning).

Dissecting BERT by Miguel Romero and Francisco Ingham - Understand BERT in depth with an intuitive, straightforward explanation of the relevant concepts.

A Light Introduction to Transformer-XL.

Generalized Language Models by Lilian Weng, Research Scientist at OpenAI.

Attention Concept

The Annotated Transformer by Harvard NLP Group - Further reading to understand the "Attention is all you need" paper.

Attention? Attention! - Attention guide by Lilian Weng from OpenAI.

Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention) by Jay Alammar, an Instructor from Udacity ML Engineer Nanodegree.

Transformer Architecture

The Transformer blog post.

The Illustrated Transformer by Jay Alammar, an Instructor from Udacity ML Engineer Nanodegree.

Watch Łukasz Kaiser’s talk walking through the model and its details.

Transformer-XL: Unleashing the Potential of Attention Models by Google Brain.

Generative Modeling with Sparse Transformers by OpenAI - an algorithmic improvement of the attention mechanism to extract patterns from sequences 30x longer than possible previously.

OpenAI Generative Pre-Training Transformer (GPT) and GPT-2

Better Language Models and Their Implications.

Improving Language Understanding with Unsupervised Learning - this is an overview of the original GPT model.

How to build a State-of-the-Art Conversational AI with Transfer Learning by Hugging Face.

Additional Reading

huggingface/pytorch-pretrained-BERT - A PyTorch implementation of Google AI's BERT model with script to load Google's pre-trained models by Hugging Face.

codertimo/BERT-pytorch - Google AI 2018 BERT pytorch implementation.

innodatalabs/tbert - PyTorch port of BERT ML model.

kimiyoung/transformer-xl - Code repository associated with the Transformer-XL paper.

dreamgonfly/BERT-pytorch - PyTorch implementation of BERT in "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding".

dhlee347/pytorchic-bert - Pytorch implementation of Google BERT

Keras

Separius/BERT-keras - Keras implementation of BERT with pre-trained weights.

CyberZHG/keras-bert - Implementation of BERT that could load official pre-trained models for feature extraction and prediction.

TensorFlow

Chainer

編輯不易，還望給個好看！

今天留言內容為：

【day n】今天我學到了什麼或者今天打算學什麼。

（至少10個字，越詳細越好）

督促自己，每天進步一丟丟！

推薦閱讀：

一大批歷史精彩文章啦

詳解Transition-based Dependency parser基於轉移的依存句法解析器

乾貨 | 找工作的經驗總結（一）

經驗 | 初入NLP領域的一些小建議

學術 | 如何寫一篇合格的NLP論文

乾貨 | 那些高產的學者都是怎樣工作的？

是時候研讀一波導師的論文--一個簡單有效的聯合模型

近年來NLP在法律領域的相關研究工作

相關焦點

圖解當前最強語言模型BERT:NLP是如何攻克遷移學習的?

對於這個垃圾郵件分類器示例，有標註的數據集即為郵件信息和對應標籤構成的列表（每條郵件信息被標註為「垃圾郵件」或「非垃圾郵件」）。ULM-FiT：解決 NLP 中的遷移學習ULM-FiT 引入了新的方法，可有效利用模型在預訓練階段學習到的很多東西
Spark NLP 中使用 BERT 的命名實體識別 (NER)

from pyspark.sql import SparkSessionfrom pyspark.ml import pipelinefrom sparknlp.annotator import * from sparknlp.common import * from sparknlp.base import *import sparknlp spark
2019已經過去一大半了,努力一把成為NLP專家!

LSTM:即使transfomer更為流行，你還是有必要學習一些LSTM相關的知識，因為在某些時候你仍然可以使用它，並且它是第一個在序列數據上取得較好較好效果的模型。v=rBCqOTEfxvghttps://ai.googleblog.com/2017/08/transformer-novel-neural-network.htmlhttps://arxiv.org/pdf/1901.02860.pdfhttps://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential-of.html
一文學會目前最火NLP三大方法:基於TransFormer、RNN\CNN、機器學習!真實實例+解決方法快速入門!

實例說明1.nlp-getting-started 是kaggle入門機器學習競賽之一（https://www.kaggle.com/c/nlp-getting-started）對於希望開始使用自然語言處理的數據科學家而言，這一特殊挑戰是完美的。比賽數據集不是太大，即使你沒有太多的個人計算能力，則可以完成所有的工作。
從 one-hot 到 BERT,帶你一步步理解 BERT

而自google在2018年10月底公布BERT在11項nlp任務中的卓越表後，BERT（Bidirectional Encoder Representation from Transformers)就成為NLP一枝獨秀，本文將為大家層層剖析bert。NLP常見的任務主要有：中文自動分詞、句法分析、自動摘要、問答系統、文本分類、指代消解、情感分析等。
圖解 2018 年領先的兩大 NLP 模型:BERT 和 ELMo

這是一個重大的進展，因為任何需要構建語言處理模型的人都可以將這個強大的預訓練模型作為現成的組件使用，從而節省了從頭開始訓練模型所需的時間、精力、知識和資源。比如說，對於一個垃圾郵件分類器，標記數據集是一個電子郵件列表及其標籤(將每封電子郵件標記為「垃圾郵件」或「非垃圾郵件」)。
NLP領域最優秀的8個預訓練模型(附開源地址)

自然語言處理應用能夠快速增長，很大程度上要歸功於通過預訓練模型實現遷移學習的概念。在本文中，我將介紹一些頂級的預訓練模型，你可以用它們來開始你的自然語言處理之旅，並複製該領域的最新研究成果。如今，自然語言處理（Natural Language Processing，NLP）應用已經變得無處不在。
NLP.TM[26] | bert之我見-attention篇

往期回顧：我想現在NLP領域中，不知道bert的已經少之又少了，而bert的講解文章也已經有了很多，這裡我談一下我最近學習得到的理解。事先說明，對bert和transformer完全不懂的人看這個完全不知道咋回事的，想要看下面這些請先對這兩個玩意有初步的理解。
圖解2018年領先的兩大NLP模型:BERT和ELMo

這是一個重大的進展，因為任何需要構建語言處理模型的人都可以將這個強大的預訓練模型作為現成的組件使用，從而節省了從頭開始訓練模型所需的時間、精力、知識和資源。比如說，對於一個垃圾郵件分類器，標記數據集是一個電子郵件列表及其標籤(將每封電子郵件標記為「垃圾郵件」或「非垃圾郵件」)。
...利用基於遷移學習策略的transformer 模型進行Heck反應預測

在該篇文章中，作者選擇Heck反應作為代表反應用於驗證transformer + 遷移學習這一實驗策略方案的有效性。雖然Heck反應具有的區域選擇性和位點選擇會大大增加反應預測任務的難度（如圖1），但是考慮其是一個經典的人名反應，並且對於構建碳-碳鍵相關反應的基礎研究具有重大的意義，因此該實驗圍繞Heck反應預測為中心任務，以transformer模型和遷移學習優化手段為兩大有力工具，展開小數據預測探索的研究工作。圖1. Heck反應通式及反應機理。
|利用基於遷移學習策略的transformer 模型進行Heck...

在該篇文章中，作者選擇Heck反應作為代表反應用於驗證transformer + 遷移學習這一實驗策略方案的有效性。雖然Heck反應具有的區域選擇性和位點選擇會大大增加反應預測任務的難度（如圖1），但是考慮其是一個經典的人名反應，並且對於構建碳-碳鍵相關反應的基礎研究具有重大的意義，因此該實驗圍繞Heck反應預測為中心任務，以transformer模型和遷移學習優化手段為兩大有力工具，展開小數據預測探索的研究工作。圖1. Heck反應通式及反應機理。
NLP領域中的遷移學習現狀

圖2：遷移學習過程的說明在過去一年多的時間裡，以預訓練的語言模型形式進行的遷移學習已經在NLP領域中普及，為許多不同的任務帶來了新的最好成績。然在當前的自然語言處理領域中，普遍存在著不同類型的遷移學習。它們可以按照三個維度進行分類：1、源設定和目標設定是否處理相同的任務;2、源域和目標域的性質;3、學習任務的順序。這樣就可以把各種遷移學習分為圖中的幾類。
MobileBERT:一個在資源有限設備上使用的BERT模型

操作優化由於其目標之一是在資源有限的設備上實現快速推理，因此作者確定了他們的架構可以進一步改進的兩個方面。將normalization操作轉換為element-wise的線性變換建議知識蒸餾目標為了實現教師和學生之間的知識轉移，作者在模型的三個階段進行了知識蒸餾：特徵圖遷移 —— 允許學生模仿老師在每個transformer層的輸出。在上面的架構圖中，它表示為模型輸出之間的虛線箭頭。
AI基礎:一文看懂BERT

Goole開源這個模型，並提供預訓練好的模型，這使得所有人都可以通過它來構建一個涉及NLP的算法模型，節約了大量訓練語言模型所需的時間，精力，知識和資源。ULM-FiT：NLP領域應用遷移學習ULM-FiT機制讓模型的預訓練參數得到更好的利用。
一文看盡2019年NLP前沿突破

https://allennlp.org/elmo還有一個叫Ulmfit，是面向NLP任務的遷移學習模型，只需使用極少量的標記數據，文本分類精度就能和數千倍的標記數據訓練量達到同等水平。//github.com/google-research/bertBert 也可以作為 Tensorflow hub 模塊：https://tfhub.dev/google/collections/bert/1文末還會奉上各種非常實用的庫。
2019,不可錯過的NLP「高光時刻」

內容主要集中於 NLP 領域，但也會包括一些與 AI 有關的有趣故事，包括新發布模型、工程成果、年度報告以及學習資源等。文章較長，將近萬字，適合先馬後看，靜下心來細細研讀。模型與文獻谷歌AI 提出了 ALBERT 模型，這是 BERT 模型的簡化版本，用於語境化語言表示的自監督學習。相較於 BERT，其在模型更加精練的同時更有效地分配了模型的容量。
文本挖掘從小白到精通(十六)--- 像使用scikit-learn一樣玩轉BERT

筆者不打算詳細討論BERT是什麼，也不打算討論它的內部機理，筆者只是想以最小的工作量向你展示如何利用Sci-kit Learn來「二次開發」bert特徵抽取器，兼顧易用性和靈活性。做好這個bert特徵抽取器以後，筆者將用一個文本情緒分類數據集來檢驗一下經封裝的Sci-kit Learn transformer的實際效果。
TFX 最新博文:如何使用 TensorFlow 生態系統實現快速高效的 BERT...

當企業用這些模型在大型語料庫中進預訓練時，數據科學家可以將遷移學習應用到這些多用途的 transformer 模型中，並針對其領域特定的問題取得突破性的結果。在 SAP 的 Concur 實驗室，研究人員希望使用 BERT 解決差旅費領域的新問題。他們想簡化 BERT 的推論。但不幸的是，他們一直沒找到完美的解決方案。
BERT詳解:開創性自然語言處理框架的全面指南

可以肯定地說，ULMFiT破解了自然語言處理中遷移學習的秘密。這就是在自然語言處理中遷移學習的黃金公式：自然語言處理中的遷移學習 = 預訓練+微調ULMFiT之後，大多數自然語言處理突破上述公式的要素，並取得了最新的基準。
NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較

本教程比較了傳統的詞袋法（與簡單的機器學習算法一起使用）、流行的詞嵌入模型（與深度學習神經網絡一起使用）和最先進的語言模型（和基於attention的transformers模型中的遷移學習一起使用），語言模型徹底改變了NLP的格局。

BERT/Transformer/遷移學習NLP資源大列表

相關焦點

圖解當前最強語言模型BERT:NLP是如何攻克遷移學習的?

Spark NLP 中使用 BERT 的命名實體識別 (NER)

2019已經過去一大半了,努力一把成為NLP專家!

一文學會目前最火NLP三大方法:基於TransFormer、RNN\CNN、機器學習!真實實例+解決方法快速入門!

從 one-hot 到 BERT,帶你一步步理解 BERT

圖解 2018 年領先的兩大 NLP 模型:BERT 和 ELMo

NLP領域最優秀的8個預訓練模型(附開源地址)

NLP.TM[26] | bert之我見-attention篇

圖解2018年領先的兩大NLP模型:BERT和ELMo

...利用基於遷移學習策略的transformer 模型進行Heck反應預測

|利用基於遷移學習策略的transformer 模型進行Heck...

NLP領域中的遷移學習現狀

MobileBERT:一個在資源有限設備上使用的BERT模型

AI基礎:一文看懂BERT

一文看盡2019年NLP前沿突破

2019,不可錯過的NLP「高光時刻」

文本挖掘從小白到精通(十六)--- 像使用scikit-learn一樣玩轉BERT

TFX 最新博文:如何使用 TensorFlow 生態系統實現快速高效的 BERT...

BERT詳解:開創性自然語言處理框架的全面指南

NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較