性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型

2021-01-09 機器之心Pro

機器之心編輯部

在最新的博客文章中，谷歌公布了一個新的 NLP 模型，在文本分類任務上可以達到 BERT 級別的性能，但參數量僅為 BERT 的 1/300。

在過去的十年中，深度神經網絡從根本上變革了自然語言處理（NLP）領域的發展，但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小，但性能不打折扣。

去年，谷歌發布了一種被稱為 PRADO 的神經架構，該架構當時在許多文本分類問題上都實現了 SOTA 性能，並且參數量少於 200K。大多數模型對每個 token 使用固定數目的參數，而 PRADO 模型使用的網絡結構只需要很少的參數即可學習與任務最相關或最有用的 token。

論文連結：https://www.aclweb.org/anthology/D19-1506.pdf

在最新的博客文章中，谷歌的研究者宣布它們改進了 PRADO，並將改進後的模型稱為 pQRNN。新模型以最小的模型尺寸達到了 NLP 任務的新 SOTA。pQRNN 的新穎之處在於，它將簡單的投影運算與 quasi-RNN 編碼器相結合，以進行快速、並行的處理。該研究表明，pQRNN 模型能夠在文本分類任務上實現 BERT 級別的性能，但參數量僅為原來的 1/300。

PRADO 的工作原理

在一年前開發該模型時，PRADO 在文本分割上充分利用特定領域的 NLP 知識，以降低模型大小和提升模型性能。通常來說，首先通過將文本分割成與預定義通用詞典中的值相對應的 token，將 NLP 模型的文本輸入處理成適用於神經網絡的形式。然後，神經網絡使用可訓練參數向量（包括嵌入表）來唯一識別每個文本片段。但是，文本分割的方式對模型性能、大小和延遲都有顯著的影響。

下圖展示了 NLP 社區使用的各種文本分割方法及其相應的優缺點：

由於文本片段的數量是影響模型性能和壓縮的重要參數，因此引出了一個問題，即 NLP 模型是否需要能夠清楚地識別每個可能的文本片段。為了回答這個問題，研究者探索了 NLP 任務的固有複雜性。

只有語言建模和機器翻譯等少數 NLP 任務需要了解文本片段之間的細微差異，因此可能需要唯一識別所有可能的文本片段。其他大多數任務僅通過了解這些文本片段的子集即可解決。此外，任務相關的文本片段子集並不一定是頻率最高的部分，因為可能很大一部分是專用的冠詞，如 a、an 和 the，而這些對很多任務來說並不重要。

所以，允許網絡決定給定任務的最相關片段可以實現更好的性能。並且，網絡不需要唯一識別這些文本片段，只需要識別出文本片段的聚類即可。舉例而言，情感分類器只需要了解與文本中的情感強相關的片段聚類就行了。

基於此，PRADO 被設計成從詞（word）中學習文本片段的聚類，而不是 word piece 或字符，從而使它能夠在低複雜度 NLP 任務中實現良好的性能。由於 word unit 更有意義，而且與大多數任務最相關的詞並不多，所以學習相關詞聚類的簡化子集所需要的模型參數就少了很多。

改進 PRADO

谷歌研究者在 PRADO 的基礎上開發了一個更強的 NLP 模型——pQRNN。該模型由三個構建塊組成——一個是將文本中的 token 轉化為三元向量序列的投影算子、一個密集 bottleneck 層和若干 QRNN 編碼器。

pQRNN 中投影層的實現與 PRADO 中所用到的一致，幫助模型學習相關性最強的 token，但沒有一組固定的參數來定義這些 token。它首先對文本中的 token 進行識別，然後使用一個簡單的映射函數將其轉換為三元特徵向量。這將產生一個三元向量序列，該序列具有平衡對稱分布，用來表示文本。這種表示沒有直接用途，因為它不包含解決感興趣任務所需的任何信息，而且網絡無法控制這種表示。

研究者將其與一個密集 bottleneck 層結合在一起，以使網絡可以學習到一個與手頭任務相關的逐詞表示。bottleneck 層產生的表示仍然沒有考慮到詞的上下文。因此，研究者利用若干雙向 QRNN 編碼器學習了一個上下文表示。這樣可以得到一個僅從文本輸入就能學到上下文表示的網絡，並且無需任何預處理。

pQRNN 的性能

研究者在 civil_comments 數據集上評估了 pQRNN，並將其與 BERT 模型在相同的任務中進行了比較。模型的大小與其參數量成正比，因此 pQRNN 比 BERT 小得多。

此外，pQRNN 還進行了量化處理（quantized），因此模型體積進一步縮小到原來的 1/4。公開訓練的 BERT 在本文的任務中表現不好，因此拿來對比的 BERT 其實是在幾個不同的相關多語言數據源上進行預訓練得到的，以使其達到最好的表現。

在實驗中，研究者得到了兩個模型的 AUC 信息。在沒有任何預訓練、只在監督數據訓練的情況下，pQRNN 的 AUC 是 0.963，用到了 130 萬個量化（8-bit）參數。在幾個不同數據源進行預訓練並在監督數據上進行微調之後，BERT 模型得到的 AUC 是 0.976，用到了 1.1 億個浮點參數。

為了鼓勵社區在谷歌研究成果的基礎上做出進一步改進，谷歌還開源了 PRADO 模型。

項目地址：https://github.com/tensorflow/models/tree/master/research/sequence_projection

博客連結：https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html

相關焦點

NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較

我將數據集劃分為訓練集（70%）和測試集（30%），以評估模型的性能。=300, window=8, min_count=1, sg=1, iter=30)現在我們有了詞嵌入模型，所以現在可以從語料庫中任意選擇一個詞，將其轉化為一個300維的向量。
谷歌最強NLP模型BERT,為何炫酷又強大?騰訊程式設計師給你從頭講起

bert-base 模型共 12 層每層有 12 個 head，下面實驗各個 head 提取的特徵是否有明顯的模式(Bert 模型為在 query-title 數據上 finetune 好的中文字模型)2.1 Attention-Head 比較冗餘標準大小的 bert 一共有 12*12 共 144 個 head.我們嘗試對訓練好的 bert 模型，隨機 mask
NLP歷史突破!谷歌BERT模型狂破11項紀錄,全面超越人類!

谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好：它在所有兩項測試中的表現都優於人類，在11種不同的nlp測試中表現最好。毫無疑問，伯特模型已經迎來了NLP的一個新時代！記住今天伯特模型的名字。
基於Bert和通用句子編碼的Spark-NLP文本分類

文本分類問題中使用了幾個基準數據集，可以在nlpprogress.com上跟蹤最新的基準。以下是關於這些數據集的基本統計數據。簡單的文本分類應用程式通常遵循以下步驟：文本預處理和清理特徵工程(手動從文本創建特徵)特徵向量化(TfIDF、頻數、編碼)或嵌入(word2vec、doc2vec、Bert、Elmo、句子嵌入等)用ML和DL算法訓練模型。
中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型

為了利用這種思想提升預訓練模型在中文的表現，百度發布了知識增強的表示模型 ERNIE，在中文數據集的表現中超過了 BERT。近期，谷歌發布了基於全詞覆蓋（Whold Word Masking）的 BERT 預訓練模型，則進一步提升了 BERT 模型的性能水平。然而，由於全詞覆蓋的 BERT 模型的研究測試集中於國外公開數據集，缺乏一種中文語言的相關模型。
谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

而谷歌作為BERT的本家，更是將它的優勢發揮的淋漓盡致。加入谷歌搜索剛一年，BERT「佔領」幾乎所有英語查詢2019年10月，BERT首次亮相谷歌搜索時，這一比例僅為10%。如果你拼錯了什麼，谷歌的拼寫系統可以幫助你修改為正確的單詞。據谷歌統計，在每十個日常搜索中，就有一個拼寫錯誤，應用了BERT之後，這種手誤就可以更好地糾正，比如下面這個dinner誤輸入為dibber，BERT能更好地理解搜索意圖，直接返回了地圖上的位置。
谷歌搜索:幾乎所有的英文搜索都用上BERT了

機器之心報導機器之心編輯部在前段時間舉辦的「Search On」活動中，谷歌宣布，BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支持。而在去年，這一比例僅為 10%。
TFX 最新博文:如何使用 TensorFlow 生態系統實現快速高效的 BERT...

它提供了簡單、一致、可伸縮的模型部署。我們密切關注的另一個系統項目是 TensorFlow Transform。它為我們提供了一個將模型預處理步驟構建為圖的機會，然後，我們可以將這些圖與實際的深度學習模型一起導出。TensorFlow Transform 要求所有預處理步驟都表示為 TensorFlow 操作。正因為如此，TensorFlow 文本的最新發展對我們來說也非常有幫助。
搞定NLP領域的「變形金剛」!教你用BERT進行多標籤文本分類

預訓練模型在研究領域的應用已經令許多NLP項目的最新成果產生了巨大的飛躍，例如文本分類，自然語言推理和問答。ELMo，ULMFiT 和OpenAI Transformer是其中幾個關鍵的裡程碑。所有這些算法都允許我們在大型資料庫（例如所有維基百科文章）上預先訓練無監督語言模型，然後在下遊任務上對這些預先訓練的模型進行微調。
PTMs|2020最新NLP預訓練模型綜述

該綜述系統地介紹了nlp中的預訓練模型。主要的貢獻包括：1.深入盤點了目前主流的預訓練模型，如word2vec，ELMo，BERT等。2.但是相反，nlp領域的優勢在於，存在大量的無監督數據集，如果能夠充分利用這類數據進行訓練，那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練，學習得到通用的語言表徵，有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」？
BERT模型:自然語言處理最新裡程碑完整詳解!

2017年，谷歌發表了一篇題為《你所需要的是注意力》的論文，該論文提出一種基於注意力的結構，以處理與序列模型相關的問題，例如機器翻譯。傳統的神經機器翻譯大多使用循環神經網絡（RNN）或卷積神經網絡（CNN）作為編碼-解碼的模型庫。然而，谷歌這一基於注意力的變換器模型摒棄傳統的RNN和CNN公式。該模型高度並行運行，因此在提高翻譯性能的同時，其訓練速度也非常快。
76分鐘訓練BERT!谷歌大腦新型優化器LAMB加速大批量訓練

選自arXiv作者：Yang You、Jing Li等機器之心編輯部去年，谷歌發布了基於雙向 Transformer 的大規模預訓練語言模型 BERT 並開源。該模型參數量非常大——3 億，訓練時間也很長。
NLP新標杆!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT

新智元報導來源：arxiv、知乎等編輯：大明【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet，性能全面超越此前NLP領域的黃金標杆BERT，在20個任務上實現了性能的大幅提升，刷新了18個任務上的SOTA結果，可謂全面屠榜！近日，谷歌大腦主任科學家Quoc V.
大神教程乾貨:使用BERT的多類別情感分析!(附代碼)

8. max_seq_length：所發布的模型經過訓練，序列長度最大為512，但是您可以使用更短的最大序列長度進行微調以節省大量內存。較長的序列不成比例地昂貴，因為注意力是序列長度的平方。填充比指定長度短的序列9. train_batch_size：培訓的總批次大小。內存使用量也與批量大小成正比。默認值為32。指定此參數僅用於訓練。
浪潮AI伺服器大幅提升NLP模型Transformer訓練性能

近日，在北京舉行的2019人工智慧計算大會（AICC 2019）上，浪潮發布主流自然語言處理（NLP）模型Transformer的最新性能測試數據。Transformer模型參數規模可達數億，對計算、通信的要求非常高。
2019 年 NLP 領域都發生了哪些大事件?

該模型主要的改進之處在於減少冗餘，並且更高效地分配模型的容量。該方法在12個自然語言處理任務上，都實現了最先進的性能。2019 年初，英偉達的研究人員發表了一篇著名的論文「StyleGAN」，它基於風格遷移方法，提出了一種可選的 GAN 生成架構。
乾貨| BERT fine-tune 終極實踐教程

不過所幸的是谷歌滿足了Issues#2裡各國開發者的請求，針對大部分語言都公布了BERT的預訓練模型。因此在我們可以比較方便地在自己的數據集上進行fine-tune。下載預訓練模型對於中文而言，google公布了一個參數較小的BERT預訓練模型。
1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...

但 Mixture of Experts (MoE，混合專家) 模型是個例外，它們會為每個輸入的例子選擇不同的參數，結果得到一個稀疏激活模型——雖然參數量驚人，但計算成本恆定。目前，MoE 模型已在機器翻譯領域取得了令人矚目的成就，但由於模型複雜度高、通信成本高、訓練不夠穩定，其廣泛應用受到了一定的阻礙。
Pytorch-Transformers 1.0 發布,支持六個預訓練框架,含 27 個預...

哪些支持PyTorch-Transformers（此前叫做pytorch-pretrained-bert）是面向自然語言處理，當前性能最高的預訓練模型開源庫。該開源庫現在包含了 PyTorch 實現、預訓練模型權重、運行腳本和以下模型的轉換工具：1、谷歌的 BERT，論文：「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」，論文作者：Jacob Devlin, Ming-Wei
「蜻蜓44」星系暗物質構成之謎：數量僅為普通物質300倍

有研究人員稱，其所含暗物質數量是普通物質的萬倍——99.99%是暗物質，與其同類星系大相逕庭，因此，其形成無法用現有模型解釋。但一個國際研究團隊在最新一期《皇家天文學會月報》上撰文指出，他們的新研究表明，該星系所含暗物質僅為普通物質的300倍，與同類相差不大，現有模型就可以闡述其形成，顛覆了此前的觀點。

性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型

相關焦點

NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較

谷歌最強NLP模型BERT,為何炫酷又強大?騰訊程式設計師給你從頭講起

NLP歷史突破!谷歌BERT模型狂破11項紀錄,全面超越人類!

基於Bert和通用句子編碼的Spark-NLP文本分類

中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型

谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

谷歌搜索:幾乎所有的英文搜索都用上BERT了

TFX 最新博文:如何使用 TensorFlow 生態系統實現快速高效的 BERT...

搞定NLP領域的「變形金剛」!教你用BERT進行多標籤文本分類

PTMs|2020最新NLP預訓練模型綜述

BERT模型:自然語言處理最新裡程碑完整詳解!

76分鐘訓練BERT!谷歌大腦新型優化器LAMB加速大批量訓練

NLP新標杆!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT

大神教程乾貨:使用BERT的多類別情感分析!(附代碼)

浪潮AI伺服器大幅提升NLP模型Transformer訓練性能

2019 年 NLP 領域都發生了哪些大事件?

乾貨| BERT fine-tune 終極實踐教程

1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...

Pytorch-Transformers 1.0 發布,支持六個預訓練框架,含 27 個預...

「蜻蜓44」星系暗物質構成之謎：數量僅為普通物質300倍