一文講透預訓練模型的改進訓練算法 ,輕鬆達到State of the Art

2020-12-11 中國軟體網

隨著BERT在NLP各種任務上取得驕人的戰績，預訓練模型在不到兩年的時間內得到了很大的發展。BERT和Open-GPT等預訓練語言模型的引入，使整個自然語言研究界發生了革命性的變化。然而，與它們巨大的好處相比，研究人員對它們的理論和經驗性質仍然知之甚少。本文回顧了有關預訓練深度神經網絡的相關文獻及觀點，以及帶有詞嵌入的微調策略。針對已有的兩種主流算法NFT-TM和FT-NTM，綜合考慮了在預訓練語言模型上建立一個上層網絡，並以適當的方式對兩者進行微調的可能性，提出了一種新算法FT-TM。通過對一系列NLP任務的實驗結果分析，比較了算法FT-TM和FT-NTM的效果，證明了新算法FT-TM的優勢。

在NLP的預訓練語言模型時代，針對已有的兩種主流算法NFT-TM和FT-NTM，本文提出了一種新算法FT-TM。它首先在BERT的基礎上建立一個上層神經網絡(LSTM或者CNN等等)，然後在適當的策略下對兩者進行同時訓練。該算法融合了NFT-TM和FT-NTM兩種算法的優勢，通過一系列NLP任務的實驗結果表明，新算法FT-TM能取得更好的效果，而且在公開的Quora和SLNI兩個問題語義等價數據集上，新算法FT-TM的效果都達到了目前的State of the Art。

引言

諸如BERT[1]和Open-GPT[2]等預訓練語言模型的引入，為NLP研究和工業界帶來了巨大的進步，這些模型的貢獻可以分為兩個方面。首先，經過預訓練的語言模型使建模人員可以利用少量數據獲得合理的準確性，這種策略與經典的深度學習方法相反，經典的深度學習方法需要大量的數據才能達到可比的結果。其次，對於許多NLP任務，例如SQuAD [4]，CoQA[5]，命名實體識別[6]，Glue[7]，機器翻譯[8]，預訓練的模型如果給定合理數量的標記數據，可以創造新的State of the Art。

在預訓練語言模型時代，新的技術會遵循兩個方向發展，第一個方向是改進預訓練過程，例如ERNIE[9]和GPT2.0 [2]。第二個方向是在預先訓練的語言模型之上構建新的神經網絡結構。

目前有三種算法可以在預訓練的語言模型之上訓練帶有上層神經網絡的網絡結構，如表1所示，其中，算法NFT-TM是指在BERT模型的上層添加複雜的網絡結構，在訓練時，固定BERT的參數，僅單獨訓練上層任務模型網絡。算法FT-NTM是指在在BERT模型後接一個簡單的特定任務層(如全連接網絡)，在訓練時，根據任務的訓練樣本集對BERT進行fine-tune即可。Peter等[3]比較了算法FT-NTM和NFT-TM的可能性，並得出結論，算法FT-NTM比NFT-TM的效果更好。然而，Peter等[3]沒有比較算法FT-TM和FT-NTM。另一方面，在預訓練語言模型流行之前，研究人員經常使用與方法FT-TM類似的策略，也就是說，建模人員首先對模型進行訓練，直到收斂為止，然後在幾個訓練周期內對詞嵌入進行微調。由於預訓練的語言模型類似於詞嵌入，那麼不考慮算法FT-TM將是不明智的。

在這項研究中，我們的目標是比較算法FT-TM和FT-NTM的效果，更具體地說，我們執行三個NLP任務，包括序列標記、文本分類和句子語義等價性。在第一個任務中，實驗結果表明即使不修改網絡結構，在預訓練語言模型之上構建上層網絡也可以提高準確性。在第二個任務中，實驗結果表明通過集成不同的神經網絡，甚至可以進一步提高微調方法FT-NTM的效果。在最後一項任務中，實驗結果表明如果可以定製一個專門適合於預訓練語言模型特徵的上層神經網絡，則可以進一步提高效果。因此，所有實驗結果都表明算法FT-TM優於FT-NTM。

表1 基於預訓練模型構建上層網絡的方法

本文接下來的內容安排如下：首先，我們回顧了有關預訓練深度神經網絡的相關文獻，包括Peter等人的觀點[3]以及帶有詞嵌入的微調策略;其次，我們給出了三個實驗的結果，並顯示了算法FT-TM與FT-NTM相比，能達到更好的效果，證明了算法FT-TM的優勢。

文獻綜述

在引入深度神經網絡之前，NLP領域的研究人員一直在使用預訓練模型。在它們當中，最著名的是詞嵌入，它把每個單詞映射到一個連續的向量中，而不是使用one-hot編碼[10]。這樣，我們不僅可以減少輸入函數的維數(這有助於避免過擬合)，而且還可以捕獲每個單詞的內部含義。

但是，由於每個單詞在詞嵌入中僅被賦予固定的數值矢量，因此詞嵌入無法捕獲單詞在文本中的上下文含義。例如，考慮「蘋果」一詞，句子「我吃了一個蘋果」和「我買了一個蘋果電腦」。顯然，「蘋果」一詞代表完全不同的含義，而詞嵌入技術卻無法捕捉到這種語義的差別。

圖1 BERT和Open-GPT模型的差異[1]

上述缺陷促使研究人員提出了一種深度神經網絡，該網絡能夠以無監督的方式進行訓練，同時能夠捕獲文本中包含單詞的上下文含義。一些早期的嘗試包括各種預訓練模型，例如基於LSTM [13]構建的ELMo [11]和ULMFiT [12]，但是，最成功的是BERT [1]和Open-GPT [2]，與ELMo和ULMFiT不同，BERT和Open-GPT構建在Transformer[14]結構之上，不同之處在於BERT使用雙向自注意力，而Open-GPT僅使用單向注意力，如圖1所示。Transformer的結構與LSTM有兩個重要不同，首先，它允許使用殘餘連接和批處理歸一化來連接多層網絡，從而允許自由梯度流動。其次，Transformer的核心計算單元是矩陣乘法，這使研究人員可以充分利用TPU的全部計算潛力[15]。經過大型語料庫的訓練後，BERT和Open-GPT都能夠更新許多重要自然語言任務的基準，例如SQuAD [4]，CoQA [5]，命名為實體識別[6]，Glue [7]，機器翻譯[8]。

在存在預訓練語言模型的情況下，那麼如何最好地利用預訓練模型獲得更好的效果呢?在這方面，Peters等[3]研究了如何使用預訓練模型最佳地適應目標任務，並提出了兩種不同的適應算法：特徵提取算法和直接微調預訓練模型算法，這對應於表1中的算法NFT-TM和FT-NTM，Peters等進行了五個實驗，包括：(1)命名實體識別[6];(2)情緒分析[16];(3)自然語言推論[17];(4)複述檢測[18];(5)語義文本相似度[19]。通過執行所有這些任務，Peters等得出的結論是，算法FT-NTM比NFT-TM的效果更好。

Peters等的工作展示了如何應用預訓練語言模型，我們認為這方面還需要深入研究。在預訓練語言模提出型之前，建模人員通常採用以下策略，首先，他們在詞嵌入之上訓練了語言模型，通常採用CNN或LSTM的形式，並固定單詞嵌入，在訓練過程收斂之後，再將詞嵌入微調訓練幾個時期，實驗結果顯示出該策略可以提高整體預測精度。如果將預訓練語言模型視為詞嵌入的增強版本，那麼可以類似的提高訓練效果的算法，更具體地說，就是首先在預訓練語言模型之上訓練上層神經網絡直到某個收斂點，然後聯合訓練整個神經網絡(包括預訓練語言模型)，這會進一步改善結果。

改進訓練算法FT-TM

在傳統的NLP語言處理中，通常採用的方法是詞向量加上層模型的方式。在這個訓練的過程中，由於詞向量是已經經過大量訓練，而上層模型的參數初始化是隨機的，所以一般來說，如果直接同時訓練詞向量的參數和上層模型的參數，其效果將會大打折扣。對於這種情況，常常採用的策略是，首先固定詞向量，並訓練上層模型若干輪數達到理想效果，然後訓練詞向量或詞向量加上層模型少數epoch。

如果我們將以上思維應用於BERT的話，我們會發現如果我們僅僅是同時訓練BERT和上層模型將會產生較差的效果。BERT相比於詞向量具備更大的參數，因此如果我們同時訓練上層模型和BERT，就會面臨兩種困境。如果我們採用較小的學習率，上層模型收斂就會較慢，其效果不好。如果我們採用較大的學習率，就會嚴重破壞已經預訓練好的BERT結構。因此我們必須採用其他的方法進行訓練。

根據剛剛的分析，我們在本文中提出了一種基於預訓練模型和聯合調參的改進訓練算法FT-TM，在該算法中，首先固定BERT的參數，然後訓練上層的模型。在這裡上層的模型既可以是比較通用的，例如LSTM和CNN，也可以是其他的模型。當訓練達到一定的精度後，再同時開始訓練BERT和上層模型，我們發現FT-TM已經可以顯著的提高訓練的效果。

但是在訓練的過程中，有一些問題需要注意，首先如果是對於詞向量來說，一般的方法是訓練上層模型直至其收斂，換句話說，直至其在驗證集上達到的最高的準確率。但是在對BERT進行試驗的時候我們發現，這種方法效果並不理想，通過分析其訓練集和驗證集的預測精度對比，我們發現問題的根源在於可能存在的過擬合現象，這也是有一定直觀原因的，從參數數量來說，BERT的參數數量遠大於上層模型和常用的NLP模型，所以如果在上層模型精度達到最高后再開始訓練，BERT就很有可能導致嚴重的過擬合。

這點在具體的NLP任務實驗中也是很明顯的，在實驗中，這樣的做法下，訓練集的精度甚至會達到接近100%，為了解決這個問題，FT-TM中的做法是，不在上層模型收斂後再開始訓練BERT和上層模型，而是在其達到一定的準確度就開始這個過程。

除此之外，在訓練BERT的時候還會有另外的一種情況，如果BERT預訓練語料和目標語料差別較大，就可能BERT在fine-tune的時候收斂很慢。在這種情況下，採用以上的方法進行訓練效果並不好，為了應對這種情況，FT-TM中採取的做法是：首先，採用BERT加上全連接層對BERT的參數進行fine-tune，然後再採用前面講到的措施進行fine-tune。

同時，在句子語義等價的NLP任務上，我們對FT-TM算法進行了進一步的具體化，在具體的實現中，預訓練模型採用BERT，上層神經網絡基於BIMPM[27]進行了改進，在實驗4.3部分會介紹這種方法的效果，目的是說明FT-TM這種聯合訓練的算法相比FT-NTM能達到更好的效果，甚至能達到業界的State of the Art。在具體介紹算法之前，首先對句子等價的任務進行說明。判斷句子是否等價的任務要遠遠比單純的詞語匹配複雜。舉例來說，問題「市政府的管轄範圍是什麼?」和「市長的管轄範圍是什麼?」僅有兩個字的差異，但兩者語義是不相同的，因此其回答也應該不一樣的。另一方面來說，「市政府的職責是什麼」和「請問，從法律上來講，市政府究竟可以管哪些事情「這兩個問題，除去在「市政府」一詞外，幾乎是沒有任何重合的，但兩者語義是等價的，因此其答案也應該是一樣的。從這幾個例子來看，句子匹配的任務需要模型能夠真正理解其句子的語義。

在BERT等預訓練模型出現之前，語義本身的表達一般是用word vector來實現。為了得到句子的深層語義表達，所採用的方法往往是在上層架設網絡，以BIMPM為例，BIMPM是一種matching-aggregation的方法，它對兩個句子的單元做匹配，如經過LSTM處理後得到不同的time step輸出，然後通過一個神經網絡轉化為向量，然後再將向量做匹配。下面來詳細介紹一下BiMPM的大體流程，如圖中所示，從Word Representation Layer 開始，將每個句子中的每個詞語表示成d維向量，然後經過Context Representation Layer 將上下文的信息融合到需要對比的P和Q兩個問題中的每個time-step表示。Matching Layer 則會比較問題P和問題Q的所有上下文向量，這裡會用到multi-perspective 的匹配方法，用於獲取兩個問題細粒度的聯繫信息，然後進入Aggregation Layer 聚合多個匹配向量序列，組成一個固定長度的匹配向量，最後用於Prediction Layer 進行預測概率。

圖2 BIMPM神經網絡結構[27]

通過BIMPM模型可以捕捉到句子之間的交互特徵，但是這樣的匹配僅僅也只是在表層特徵進行比較，並不涉及深層次的特徵比較。為了進行深層次的特徵比較，我們借鑑了圖像中的MMD思想，Maximum Mean Discrepancy，即最大平均差異，通過深度神經網絡的特徵變換能力，對變換後的特徵分布進行匹配。MMD的最大優點在於它不僅進行表層特徵的匹配，還進行深層次特徵的匹配，這樣可以更精確地計算出特徵之間的匹配程度，提升模型的效果。拿圖像對比來舉例，圖像中所蘊含的信息不單單是由表層特徵就可以來涵蓋的，往往是通過表層、多個隱藏層以及它們之間不同的參數相加得到的結果。

BIMPM將每個句子中的每個詞語表示成d維向量，然後經過Context Representation Layer，將上下文的信息融合到需要對比的P和Q兩個句子中的time-step表示，最終比較句子P和句子Q的所有上下文向量，但它也只是對表層特徵進行匹配，從而忽略很多額外的語義特徵，但是BERT 預訓練模型的流行，讓深層特徵匹配成為了現實。

如果我們將MMD的思想應用到句子匹配的任務上，並用BERT預訓練深層模型來實現，就會得到一個重要的啟發，MMD思想的主要效果來源於它將BERT預訓練深層模型的不同層表示進行匹配，形象地來說，這是一種「向下匹配」的思維。而BIMPM由於在BERT之前出現，其語義表示只能通過詞(字)向量和LSTM等網絡進行，因此它捕捉特徵表示的方法只能通過「向上匹配」。這是否意味著自從BERT出現以後，將這兩種方式進行結合呢?

基於這個思路，我們在本文中提出了問題語義等價的FT-TM具體實現，它的思想是將特徵「向下匹配」和「向上匹配」相結合。在具體的實現上，我們分別從BERT深層模型的最後幾層中提取特徵通過加法進行拼接，替代原始的字向量輸入到BIMPM模型當中。這種做法是和MMD很相似的，只不過MMD中採用各種距離函數，而在這裡我們採用的是多種匹配函數。除此之外，我們對BIMPM模型也做了以下修改：

首先，我們去掉了原始BIMPM模型中接在字向量層的Bi-LSTM模型，之所以這樣做，其原因在於LSTM並沒有設計機制保證梯度向深度模型的後向傳導;

其次，我們用Transformer模型替代了BIMPM最上層的Bi-LSTM模型。這樣做的原因主要是考慮到Bi-LSTM能夠捕捉數據當中的序列特徵。但是由於BIMPM採用多種匹配後，其序列性並不強，所以Transformer更適合該模型。

實驗

概述

本節內容會通過三個不同NLP任務的實驗來檢驗我們的設想，首先，通過在BERT模型頂部添加Bi-LSTM來運行命名實體識別任務。在本實驗中，我們希望測試通過對常用網絡結構進行修改，提出的訓練策略是否可以提高整體準確性。其次，我們進行文本分類實驗，實驗中訓練了三個模型，並執行了模型集成。我們希望驗證，如果添加的網絡無法顯著提高準確性，但可以通過模型集成來提高效果。最後，我們進行了文本語義相似性測試，實驗結果表明，如果可以定製一個專門適合於預訓練語言特徵的網絡，則可以期待更大的改進。

實驗A：序列標註

在序列標記任務中，我們使用共享基準數據集CoNLL03數據集[6]探索實體識別子任務。文獻[20]，[21]，[22]在此數據集上測試了它們的新網絡結構。該實驗以僅對BERT進行fine-tune(即方法FT-NTM)的結果為baseline，對比了在BERT基礎上增加一個傳統用於NER任務的Bi-LSTM網絡(即方法FT-TM)的效果，實驗結果如表2中所示。

表2 命名實體識別的結果

實驗結果表明，結合BERT的fine-tune和上層神經網絡的FT-TM算法在該任務上的F1值較baseline提升了近7個百分點。

實驗B：文本分類

在文本分類任務中，我們使用了Yahoo Answer分類數據集. Yahoo Answers由10個類構成，但是由於數據集數量巨大，我們只選擇其中兩個。對於上層模型，我們選擇DenseNet[23]和HighwayLSTM [24]。

DenseNet結構包含四個獨立的塊，每個塊具有四個通過殘差連接的CNN。我們使用BERT初始化詞表示層中的詞嵌入。我們將每個字符初始化為768維向量。在訓練DenseNet的實驗中，我們將使用[CLS]進行預測的DenseNet輸出向量，隱藏大小設置為300。在所有實驗中，我們還使用了dropout技巧以避免每個完全連接的層過度擬合，並將dropout率設置為0.5。

表3 文本分類的結果

實驗結果如表3中所示，可以看出，雖然模型集成後的效果並不十分明顯，但也有一定的效果提升。

實驗C：句子語義等價任務

我們使用「Quora-Question-Pairs」標準數據集，這是一個包含40萬個問題對的數據集，人工注釋是否等效。由於數據集的質量很高，它是測試各種語義相似性模型效果的標準數據集，文獻[25]，[26]，[27]，[28]提出了在該數據集上進行效果測試的各種模型。我們提出的FT-TM算法在公開的Quora數據集達到了目前的State of the Art，這個數據集包括了超過400,000問題組，專門用來研究兩個句子是否語義等價的二分問題。因為該數據集的標註質量非常高，它經常用來測試語義理解的模型效果，我們按照7：2：1的比例來分配訓練集、驗證集和測試集。

本次實驗將僅對BERT進行fine-tune的方法FT-NTM為baseline，對比了在BERT之後接BIMPM網絡的效果。同時以方法NFT-TM為baseline，對比了兩種改進BIMPM之後模型結構的效果(移除BIMPM中的第一層Bi-LSTM模型和將BIMPM的matching層與transformer相結合的模型)。注意，在模型訓練時有個重要的技巧，考慮到預訓練模型本身的效果和其與頂層模型的融合問題，在訓練模型時，需要分兩步進行：先固定預訓練模型的參數，僅訓練其上層特定任務網絡，第二步再將整個網絡聯合訓練。實驗結果如表4中所示，可以看出，由實驗結果可得，Bert+Sim-Transformer結合fine-tune Bert的FT-TM算法效果相較僅對BERT進行fine-tune的方法FT-NTM，準確率提升了近5個百分點，達到了目前的State of the Art。

表4 句子語義相似任務在Quora數據集的結果

為了確保實驗結論的有效性，除去Quora的數據集之外，我們還採用了SLNI數據集當中包含句子等價性的數據集，該數據集包括55萬條訓練集和10000條測試集。很多學者都用了這些數據來測試他們的模型包效果，對比這些模型，FT-TM算法的準確率上有將近兩個點的提升，達到了目前的State of the Art，具體實驗結果如下表所示：

表5 句子語義相似任務在SNLI數據集的結果

因此，從上面一系列的實驗結果可以看出，我們提出的結合上層複雜模型和fine-tune的算法FT-TM是有效的，並且在NLP任務中優於fine-tune的算法FT-NTM，同時在BERT預訓練模型上面集成的神經網絡模型好壞也會影響到最終的任務效果。

參考文獻

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. OpenAI Blog, 1:8, 2019.

Matthew Peters, Sebastian Ruder, and Noah A Smith. To tune or not to tune? adapting pretrained representations to diverse tasks. arXiv preprint arXiv:1903.05987, 2019.

Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250, 2016.

Siva Reddy, Danqi Chen, and Christopher D Manning. Coqa: A conversational question answering challenge. arXiv preprint arXiv:1808.07042, 2018.

Erik F Sang and Fien De Meulder. Introduction to the conll-2003 shared task: Language-independent named entity recognition. arXiv preprint cs/0306050, 2003..

Alex Wang, Amapreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461, 2018.

Sébastien Jean, Orhan Firat, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. Montreal neural machine translation systems for wmt』15. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 134–140, 2015.

Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, and Hua Wu. Ernie: Enhanced representation through knowledge integration. arXiv preprint arXiv:1904.09223, 2019.

Tomas Mikolov, Kai Chen, Gregory S Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. international conference on learning representations, 2013.

Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher G Clark, Kenton Lee, and Luke S Zettlemoyer. Deep contextualized word representations. north american chapter of the association for computa- tional linguistics, 1:2227–2237, 2018.

Jeremy Howard and Sebastian Ruder. Universal language model fine-tuning for text classification. meeting of the association for computational linguistics, 1:328–339, 2018.

Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017.

Kaz Sato, Cliff Young, and David Patterson. An in-depth look at google’s first tensor processing unit (tpu). Google Cloud Big Data and Machine Learning Blog, 12, 2017.

Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Ng, and Christopher Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1631–1642, 2013

Adina Williams, Nikita Nangia, and Samuel R Bowman. A broad-coverage challenge corpus for sentence understanding through inference. arXiv preprint arXiv:1704.05426, 2017.

WilliamBDolanandChrisBrockett.Automaticallyconstructingacorpusofsententialparaphrases.InProceedings of the Third International Workshop on Paraphrasing (IWP2005), 2015.

Daniel Cer, Mona Diab, Eneko Agirre, Inigo Lopez-Gazpio, and Lucia Specia. Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055,2017.

Jeffrey Pennington, Richard Socher, and Christopher Manning. Glove:Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543, 2014.

Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360, 2016.

Xuezhe Ma and Eduard Hovy. End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354, 2016.

Hoa T Le, Christophe Cerisara, and Alexandre Denis. Do convolutional networks need to be deep for text classification? In Workshops at the Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

Yu Zhang, Guoguo Chen, Dong Yu, Kaisheng Yaco, Sanjeev Khudanpur,and James Glass. Highway long short-term memory rnns for distant speech recognition. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5755–5759.IEEE, 2016.

Jonas Mueller and Aditya Thyagarajan. Siamese recurrent architectures for learning sentence similarity. In Thirtieth AAAI Conference on Artificial Intelligence, 2016.

Shuohang Wang and Jing Jiang. A compare-aggregate model for matching text sequences. arXiv preprint arXiv:1611.01747, 2016.

Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang, and Diana Inkpen. Enhanced lstm for natural language inference. arXiv preprint arXiv:1609.06038, 2016.

Zhiguo Wang,Wael Hamza, and Radu Florian. Bilateral multi-perspective matching for natural language esentences. arXiv preprint arXiv：1702.03814, 2017.

免責聲明：

本站系本網編輯轉載，會儘可能註明出處，但不排除無法註明來源的情況，轉載目的在於傳遞更多信息，並不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題，請在30日內與本網聯繫，來信: liujun@soft6.com 我們將在收到郵件後第一時間刪除內容！

[聲明]本站文章版權歸原作者所有，內容為作者個人觀點，不代表本網站的觀點和對其真實性負責，本站擁有對此聲明的最終解釋權。

一文講透預訓練模型的改進訓練算法 ,輕鬆達到State of the Art

相關焦點

[預訓練語言模型專題] MT-DNN(KD) : 預訓練、多任務、知識蒸餾的結合

[預訓練語言模型專題] BERT,開啟NLP新時代的王者

華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA

預訓練語言模型:還能走多遠?

基於飛槳PaddlePaddle的多種圖像分類預訓練模型強勢發布

PTMs|2020最新NLP預訓練模型綜述

RestNet50預訓練模型top1近80%,基於飛槳PaddlePaddle的多種圖像...

一文讀懂最強中文NLP預訓練模型ERNIE

百度預訓練模型ERNIE榮登榜首

26億參數,智源、清華開源中文大規模預訓練模型

深度| 通過NMT訓練的通用語境詞向量:NLP中的預訓練模型?

復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

LogME:通用快速準確的預訓練模型評估方法

OCR模型訓練

20項任務全面碾壓BERT,CMU全新XLNet預訓練模型屠榜(已開源)

預訓練還需要監督信息嗎?一文了解無監督訓練的優勢

超越SOTA Transformer模型,哈佛、FAIR提出基於殘差能量模型的文本...

NLP領域最優秀的8個預訓練模型(附開源地址)

預訓練後性能反而變差,自訓練要取代預訓練了嗎?

劉鐵巖:如何四兩撥千斤,高效地預訓練NLP模型?