天池NLP中文預訓練模型賽來了!

2021-03-02 Datawhale

自從2017年具有劃時代意義的Transformer模型問世以來，短短兩年多的時間內，如雨後春筍般的出現了大量的預訓練模型，比如：Bert，Albert，ELECTRA，RoBERta，T5，GPT3等等。然而之前的基準評測體系存在兩個缺陷：評測強度不夠，模型不通用。評測強度不夠指的是選手只提交結果，不提交inference的代碼。模型不通用指的是預訓練模型不能保證在相同超參數情況下在所有任務上都獲得比較好的性能。以上兩點極大限制了預訓練技術的應用和發展。如果我們能通過算法實現泛化能力強的中文預訓練模型，這將提高下遊業務的準確性，從而提升企業的核心競爭力，並為企業創造更多的價值。

為此阿里雲計算平臺PAI團隊聯合CLUE中文語言理解評測組織和上海樂言信息科技有限公司，共同推出中文預訓練模型泛化能力挑戰賽，邀請業內算法高手、愛好者一起促進自然語言處理預訓練技術的發展。

1本賽題精選了以下3個具有代表性的任務，要求選手提交的模型能夠同時預測每個任務對應的標籤：

任務1：OCNLI–中文原版自然語言推理

任務2：OCEMOTION–中文情感分類

任務3：TNEWS–今日頭條新聞標題分類

競賽組隊交流群

魚佬，武漢大學碩士，2020騰訊廣告算法大賽冠軍

阿水，北航計算機碩士，CV領域Top選手

傑少：南京大學碩士，DCIC冠軍選手

報名地址（如果群滿後臺回復天池進新群）：

https://tianchi.aliyun.com/s/47420d202909774a1960635ac9d29aea

點擊【閱讀原文】直接報名↓

相關焦點

Task0.中文預訓練模型泛化能力挑戰賽(NLP)

一、整體流程整個流程分為兩大部分1.訓練和預測生成結果：這部分就是常規的預訓練模型進行訓練和預測，比賽當然還需要一些改進提高預測效果
NLP中文預訓練模型泛化能力挑戰賽

背景介紹中文預訓練模型的質量會影響以AI技術驅動的企業中核心業務算法的性能。比如智能客服問答，搜索推薦，安全風控，輿情分析，文字識別，信息抽取，智能打標等等，這些業務或產品都會或多或少依賴於預訓練模型提供的通用語言學知識來做遷移學習。因此打造高質量的預訓練模型是當前產業界和學術界的熱點。
8種優秀預訓練模型大盤點,NLP應用so easy!

模型的作者已經設計出了基準模型，這樣我們就可以在自己的NLP數據集上使用該預訓練模型，而無需從頭開始構建模型來解決類似的問題儘管需要進行一些微調，但這為我們節省了大量的時間和計算資源在本文中展示了那些助你開始NLP之旅的頂級預訓練模型，以及該領域的最新研究成果。
支持 53 種語言預訓練模型,斯坦福發布全新 NLP 工具包 StanfordNLP

Stanford NLP 團隊發布了包含 53 種語言預訓練模型的自然語言處理工具包 StanfordNLP，該工具包支持 Python 3.6
支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP

今日，Stanford NLP 團隊發布了包含 53 種語言預訓練模型的自然語言處理工具包 StanfordNLP，該工具包支持 Python
復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

新智元報導編輯：SF【新智元導讀】本文該綜述系統地介紹了nlp中的預訓練模型，深入盤點了目前主流的預訓練模型，提出了一種預訓練模型的分類體系。本篇文章主要介紹邱錫鵬老師在2020年發表的一篇預訓練模型的綜述：「Pre-trained Models for Natural Language Processing: A survey」。該綜述系統地介紹了nlp中的預訓練模型。主要的貢獻包括：1、深入盤點了目前主流的預訓練模型，如word2vec，ELMo，BERT等。
NLP集大成之預訓練模型綜述

介紹預訓練模型的出現，將自然語言處理帶入了新紀元，本論文中就此綜合地介紹了自然語言的預訓練模型。預訓練模型主要有以下三個優點：可以從巨大的語料中學習表示，從而幫助到下遊任務；提供了一個很好的模型初始化結果，有著更好的泛化能力，並且能加速下遊任務的收斂。
中文預訓練模型ERNIE超詳細使用指南

作者 | 高開遠，上海交通大學，自然語言處理研究方向最近在工作上處理的都是中文語料，也嘗試了一些最近放出來的預訓練模型（ERNIE
復旦大學邱錫鵬教授:NLP預訓練模型綜述

而預訓練模型（Pre-trained Models, PTMs）的出現將NLP帶入一個新的時代，更「深」的模型和訓練技巧的增強也使得 PTMs 由「淺」變「深」，在多項任務都達到了 SOTA 性能。這一通過 PTMs 從未標註大規模數據集中提取表示的預訓練過程在很多 NLP 任務中都取得了很好的表現。預訓練的優點可以總結為以下三點：1 在大規模語料上通過預訓練學習通用語言表示對下遊任務很有幫助；2) 預訓練提供了更好的模型初始化參數，使得在目標任務上有更好的泛化性能和更快的收斂速度；3) 預訓練是一種有效的正則化方法，能夠避免在小數據集上過擬合。
PTMs:NLP預訓練模型

本文以此篇綜述論文為主要參考，通過借鑑不同的歸納方法進行總結，同時也整合了專欄之前已經介紹過的《nlp中的詞向量對比》和《nlp中的預訓練語言模型總結》兩篇文章，以QA形式對PTMs進行全面總結歸納。獲取總結圖片下載以及單模型精讀請到 github:NLP預訓練模型的全面總結，希望為大家的學習工作提供一些幫助。
RoBERTa中文預訓練模型:RoBERTa for Chinese

中文預訓練本項目是用TensorFlow實現了在大規模中文上RoBERTa的預訓練，也會提供PyTorch的預訓練模型和加載方式。(roberta_l24_zh)，使用30G文件訓練， 9月8日2、12層RoBERTa模型(roberta_l12_zh)，使用30G文件訓練， 9月8日3、6層RoBERTa模型(roberta_l6_zh)，使用30G文件訓練， 9月8日4、PyTorch版本的模型(roberta_l6_zh_pytorch) 9月8日5、30G中文語料
【NLP】預訓練模型綜述

第 2 節按時間順序簡要概述了預訓練語言模型的整個發展歷史；第 3 節詳細介紹自然語言處理領域的經典預訓練模型；第 4 節小結了預訓練模型的優點和其對比分類；第 5 節對自然語言處理領域的預訓練語言模型的未來發展趨勢進行展望。2 預訓練模型發展歷史早期的 PTMs 技術的目標是學習好的詞嵌入。
pytorch中文語言模型bert預訓練代碼

這篇論文做了很多語言模型預訓練的實驗，系統的分析了語言模型預訓練對子任務的效果提升情況。有幾個主要結論：在目標領域的數據集上繼續預訓練（DAPT）可以提升效果；目標領域的語料與RoBERTa的原始預訓練語料越不相關，DAPT效果則提升更明顯。在具體任務的數據集上繼續預訓練（TAPT）可以十分「廉價」地提升效果。
一文讀懂最強中文NLP預訓練模型ERNIE

通過使用連續學習，可以不斷積累新的知識，模型在新任務當中可以用歷史任務學習到參數進行初始化，一般來說比直接開始新任務的學習會獲得更好的效果。 a: 預訓練連續學習ERNIE 的預訓練連續學習分為兩步，首先，連續用大量的數據與先驗知識連續構建不同的預訓練任務。其次，不斷的用預訓練任務更新ERNIE 模型。
中文任務全面超越BERT:百度正式發布NLP預訓練模型ERNIE

），並發布了基於 PaddlePaddle 的開原始碼與模型，在語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理（NLP）各類中文任務上的驗證顯示，模型效果全面超越 BERT。ERNIE Github 項目地址：https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE近年來，無監督文本的深度神經網絡預訓練模型大幅提升了各個 NLP 任務的效果。早期的工作聚焦於上下文無關的詞向量建模，而之後提出的 Cove，ELMo，GPT 等模型，構建了語句級的語義表示。
【論文解讀】MacBERT: 中文自然語言預訓練模型

在本文中，我們的目標是重新審視中文預訓練語言模型，以檢驗其在非英語語言中的有效性，並向社區發布中文預訓練語言模型系列。我們還提出了一個簡單但有效的模型，稱為MacBERT，該模型在多個方面對RoBERTa進行了改進，尤其是採用MLM作為校正(Mac)的masked策略。我們對8個中文NLP任務進行了廣泛的實驗，以重新審視現有的預訓練語言模型以及提議的MacBERT。
中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型

而在中文領域，哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型，在多個中文數據集上取得了當前中文預訓練模型的最佳水平，效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示（BERT）在多個自然語言處理任務中取得了廣泛的性能提升。
哈工大訊飛聯合實驗室發布中文ELECTRA預訓練模型

由谷歌與史丹福大學共同研發的最新預訓練模型ELECTRA因其小巧的模型體積以及良好的模型性能受到了廣泛關注。
ERNIE 3.0 Titan:最強中文預訓練模型

作者提出了名為ERNIE 3.0的統一框架，用於預訓練大規模知識增強模型，並訓練了一個具有 100 億個參數的模型。ERNIE 3.0 在各種 NLP 任務上的表現優於最先進的模型。為了探索擴展 ERNIE 3.0 的性能，作者在PaddlePaddle平臺上訓練了具有多達2600億個參數的百億參數模型 ERNIE 3.0 Titan。
哈工大訊飛聯合實驗室發布中文RoBERTa-large預訓練模型

近期，Facebook提出的RoBERTa模型進一步刷新了多個英文數據集的最好成績，成為目前最流行的預訓練模型之一。為了進一步提升中文自然語言處理任務效果，哈工大訊飛聯合實驗室、認知智能國家重點實驗室發布RoBERTa-large的中文預訓練模型，並且首次在CMRC 2018閱讀理解挑戰集上F1超過60%，預示著中文預訓練模型在困難問題上首次超過「及格線」。同時，我們通過大規模實驗驗證該模型在多個自然語言處理任務中取得了顯著性能提升。

天池NLP中文預訓練模型賽來了!

相關焦點

Task0.中文預訓練模型泛化能力挑戰賽(NLP)

NLP中文預訓練模型泛化能力挑戰賽

8種優秀預訓練模型大盤點,NLP應用so easy!

支持 53 種語言預訓練模型,斯坦福發布全新 NLP 工具包 StanfordNLP

支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP

復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

NLP集大成之預訓練模型綜述

中文預訓練模型ERNIE超詳細使用指南

復旦大學邱錫鵬教授:NLP預訓練模型綜述

PTMs:NLP預訓練模型

RoBERTa中文預訓練模型:RoBERTa for Chinese

【NLP】預訓練模型綜述

pytorch中文語言模型bert預訓練代碼

一文讀懂最強中文NLP預訓練模型ERNIE

中文任務全面超越BERT:百度正式發布NLP預訓練模型ERNIE

【論文解讀】MacBERT: 中文自然語言預訓練模型

中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型

哈工大訊飛聯合實驗室發布中文ELECTRA預訓練模型

ERNIE 3.0 Titan:最強中文預訓練模型

哈工大訊飛聯合實驗室發布中文RoBERTa-large預訓練模型