Hugging Face官方NLP課程來了!Transformers庫維護者之一授課,完全免費

2021-12-28 AINLP

轉自：機器之心

編輯：杜偉

Hugging Face NLP 課程開課了，所有課程完全免費。

NLP 領域的小夥伴應該都非常熟悉大名鼎鼎的 Hugging Face，這家專注於解決各種 NLP 問題的初創公司為社區帶來了很多有益的技術成果。去年，該團隊的 Transformers 代碼庫論文獲得了 EMNLP 2020 最佳 demo 獎。今年 4 月，該團隊發布了適用於多 GPU、TPU 和混合精度訓練的 PyTorch 新庫「Accelerate」。近日，Hugging Face 在其官方推特上宣布推出第一部分 NLP 課程，內容涵蓋如何全面系統地使用 Hugging Face 的各類庫（即 Transformers、Datasets、Tokenizers 和 Accelerate），以及 Hugging Face Hub 中的各種模型。更重要的是，所有課程完全免費且沒有任何廣告。

課程主頁：https://huggingface.co/course/chapter0?fw=pt整個系列的課程分為入門（Introduction）、進階（Diving in）和高級（Advanced），其中具體如下：

入門：Transformer 模型、使用 Transformers、微調預訓練模型以及分享模型和 tokenizers；

進階：Datasets 庫、Tokenizers 庫、主要 NLP 任務以及如何尋求幫助；

高級：專用架構、加速訓練、自定義訓練 loop 以及向 Hugging Face 提交貢獻。

Hugging Face 本次推出的正是入門課程。通過四個章節的內容講解，學習者可以學得使用 pipeline 函數來解決文本生成和分類等 NLP 任務、Transformer 架構，以及區分編碼器、解碼器、編碼器 - 解碼器架構和用例。與此同時，Hugging Face 在課程中使用的所有庫都可以通過 Python 包獲得。學習者首先需要設置 Python 環境和安裝專用庫，並可以使用 Colab notebook 或 Python 虛擬環境來設置自己的工作環境。具體操作請參閱課程主頁中的「setup」部分。第 1 章到第 4 章（入門）介紹了 Transformers 庫的主要概念。本部分課程結束時，你將熟悉 Transformer 模型的工作原理，並了解如何使用 Hugging Face Hub 中的模型，在數據集上對其進行微調，以及在 Hub 上共享結果。第 5 章到第 8 章（進階）介紹了在深入研究經典的 NLP 任務之前，首先介紹了數據集和 Tokenizers 的基礎知識。本部分結束時，你將能夠自己解決最常見的 NLP 問題。第 9 章到第 12 章（高級），會進行深入的學習，展示了專業架構（內存效率，長序列等），並教你如何為用例編寫自定義對象。在本部分結束時，你將會解決複雜的 NLP 問題。

Matthew Carrigan 是 Hugging Face 的機器學習工程師，此前曾擔任預測分析公司 Parse.ly 的機器學習工程師和都柏林聖三一學院的博士後研究員。Lysandre Debut 同為 Hugging Face 的機器學習工程師，並且從很早期就開始從事 Transformers 庫相關的工作。Sylvain Gugger 是 Hugging Face 的研究工程師，也是 Transformers 庫的核心維護者之一。此前，他曾任非盈利研究組織 fast.ai 的研究科學家，並與 fast.ai 創始人 Jeremy Howard 合著書籍《Deep Learning for Coders with fastai and PyTorch》。他的研究重點在於設計和改進促使模型在有限資源上快速訓練的技術，使得深度學習更易獲得。進技術交流群請添加AINLP小助手微信（id: ainlper)

關於AINLP

AINLP 是一個有趣有AI的自然語言處理社區，專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享，主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等，歡迎關注！加技術交流群請添加AINLPer(id：ainlper)，備註工作/研究方向+加群目的。

閱讀至此了，分享、點讚、在看三選一吧🙏

相關焦點

Hugging Face官方課程來了!Transformers庫維護者之一授課,完全免費

Hugging Face NLP 課程開課了，所有課程完全免費。
使用Hugging Face管道輕鬆應用NLP預訓練模型

與從左到右的方法不同，這允許BERT使用所有周圍的單詞（在左側和右側）來上下文化每個單詞。如果你沒有一個標記的訓練集，已經微調的模型也可以在網上廣泛使用，例如在Hugging Face model hub(https://huggingface.co/models).。這是我將在本文中使用的方法。
BERT原理解讀及HuggingFace Transformers微調入門

本文主要介紹BERT的原理，以及如何使用HuggingFace提供的 transformers 庫完成基於BERT的微調任務。預訓練BERT在一個較大的語料上進行預訓練（Pre-train）。預訓練主要是在數據和算力充足的條件下，訓練一個大模型，在其他任務上可以利用預訓練好的模型進行微調（Fine-tune）。
【NLP】競賽必備的NLP庫

Word2Vecpath = get_tmpfile("word2vec.model")model = Word2Vec(common_texts, size=100, window=5, min_count=1, workers=4)model.save("word2vec.model")Gensim項目官網：https://radimrehurek.com/gensim/NLTK是一個免費的
數據競賽必備的NLP庫總結!

CV庫後，有很多同學問有沒有推薦的NLP庫。TorchText可以很方便加載訓練數據、驗證和測試數據集，來進行標記化、vocab構造和創建迭代器，並構建迭代器。和 Reformer 的各種轉換。hughuggingface 的代碼可讀性強和文檔也是清晰易讀。在官方github的存儲庫中，甚至通過不同的任務來組織 python 腳本，例如語言建模、文本生成、問題回答、多項選擇等。
打包帶走,競賽必備的NLP庫

庫後，有很多同學問有沒有推薦的NLP庫。AllenNLP官網：https://allennlp.org/TorchText是Pytorch下對NLP的支持庫，包含便利的數據處理實用程序，可在批量處理和準備之前將其輸入到深度學習框架中。TorchText可以很方便加載訓練數據、驗證和測試數據集，來進行標記化、vocab構造和創建迭代器，並構建迭代器。
關於深度學習、NLP和計算機視覺的30個頂級Python庫

Datasets (Huggingface)（https://github.com/huggingface/datasets）Tokenizers (Huggingface)（https://github.com/huggingface/tokenizers）
PyTorch-Transformers:最先進的自然語言處理庫(附帶python代碼)

https://github.com/huggingface/pytorch-transformers我們可以簡單地用Python導入它並進行實驗。我對現在NLP的研發速度感到非常驚訝，每一篇新論文、每一個框架和庫都在推動著這個不可思議的強大領域的發展。
最強NLP預訓練模型庫PyTorch-Transformers正式開源!支持6個預訓練框架,27個預訓練模型

更多優質內容請關注微信公眾號「AI 前線」（ID：ai-front）照例先上開源地址：https://github.com/huggingface/pytorch-transformers#quick-tour官網：https://huggingface.co/pytorch-transformers
NLP、KG相關軟體、工具、資源匯總

它為超過50個語料庫和詞彙資源(如WordNet)提供了易於使用的接口，還提供了一套用於分類、分詞、詞根分析、序列標註、文本解析和語義推理的文本處理庫。NLTK主要還是英文文本的處理。裡面也集成了斯坦福的分詞器，可用於中文分詞。
GitHub 最受歡迎的 NLP 相關項目 | 資源推薦

NLP-tutorialhttps://github.com/graykode/nlp-tutorial針對 TensorFlow 和 PyTorch 學習 NLP 的教程。多數 NLP 模型都用少於 100 行的代碼實現（注釋和空白行除外）。
Transformers快速上手

現在，這些研究被稱為BERTology，不完全的名單包括：Transformer-XL, XLNet, Albert, RoBERTa, DistilBERT, CTRL,XLM-R...所以現在碰到NLP問題，幾乎就是無腦BERT了，但是直接基於原始的BERT去進行開發對於大多數人來說都很麻煩。
HuggingFace| Transformers核心源碼閱讀和實踐

Core ComponentsTransformers: State-of-the-art Natural Language Processing參考上面的論文，transformers開源庫的核心組件包括3個：「Conﬁguration」：配置類，通常繼承自
2019,不可錯過的NLP「高光時刻」

https://github.com/huggingface/transformershttps://rsilveira79.github.io/fermenting_gradients/machine_learning/nlp/pytorch/pytorch-transformer-squad/TensorFlow 2.0帶著一系列新特點發布了。
HuggingfaceNLP筆記2:一文看清Transformer大家族的三股勢力

「Huggingface🤗NLP筆記系列-第2集」最近跟著Huggingface上的NLP tutorial
微信開源推理加速工具 TurboTransformers

在多種 CPU 和 GPU 硬體上獲得了超過 PyTorch/TensorFlow 和目前主流優化引擎（如 onnxruntime-mkldnn/onnxruntime-gpu、torch JIT、NVIDIA faster transformers）的性能表現。為 NLP 推理任務特點量身定製。
NLP簡報(Issue#9)

ML代碼完整性清單基於其中提供的腳本和人工製品來評估代碼開源庫。具體而言，它檢查代碼庫是否存在：3、Tools and Datasets ⚙️3.1 TextVQA 和 TextCaps為了鼓勵建立可以更好地檢測和讀取圖像中文本的模型，並進一步說明其回答問題和生成標題的方式，Facebook AI舉辦了兩個獨立的競賽。
基於Transformers入門自然語言處理

我最近忙了1件自己感覺有意義的事情，特來分享。我將之前零零散散的Transformer博客、講解文章進行了整理，形成了一個完整的教程叫做：learn nlp with transformers，翻譯過來是：基於Transformers入門自然語言處理。
基於Transformers入門自然語言處理!

我最近忙了1件自己感覺有意義的事情，特來分享。我將之前零零散散的Transformer博客、講解文章進行了整理，形成了一個完整的教程叫做：learn nlp with transformers，翻譯過來是：基於Transformers入門自然語言處理。

Hugging Face官方NLP課程來了!Transformers庫維護者之一授課,完全免費

相關焦點

Hugging Face官方課程來了!Transformers庫維護者之一授課,完全免費

使用Hugging Face管道輕鬆應用NLP預訓練模型

BERT原理解讀及HuggingFace Transformers微調入門

【NLP】競賽必備的NLP庫

數據競賽必備的NLP庫總結!

打包帶走,競賽必備的NLP庫

​關於深度學習、NLP和計算機視覺的30個頂級Python庫

PyTorch-Transformers:最先進的自然語言處理庫(附帶python代碼)

最強NLP預訓練模型庫PyTorch-Transformers正式開源!支持6個預訓練框架,27個預訓練模型

NLP、KG相關軟體、工具、資源匯總

GitHub 最受歡迎的 NLP 相關項目 | 資源推薦

Transformers快速上手

HuggingFace| Transformers核心源碼閱讀和實踐

2019,不可錯過的NLP「高光時刻」

HuggingfaceNLP筆記2:一文看清Transformer大家族的三股勢力

微信開源推理加速工具 TurboTransformers

NLP簡報(Issue#9)

基於Transformers入門自然語言處理

基於Transformers入門自然語言處理!

關於深度學習、NLP和計算機視覺的30個頂級Python庫