一文講透預訓練模型的改進訓練算法 ,輕鬆達到State of the Art

2020-12-11 中國軟體網
隨著BERT在NLP各種任務上取得驕人的戰績,預訓練模型在不到兩年的時間內得到了很大的發展。BERT和Open-GPT等預訓練語言模型的引入,使整個自然語言研究界發生了革命性的變化。然而,與它們巨大的好處相比,研究人員對它們的理論和經驗性質仍然知之甚少。本文回顧了有關預訓練深度神經網絡的相關文獻及觀點,以及帶有詞嵌入的微調策略。針對已有的兩種主流算法NFT-TM和FT-NTM,綜合考慮了在預訓練語言模型上建立一個上層網絡,並以適當的方式對兩者進行微調的可能性,提出了一種新算法FT-TM。通過對一系列NLP任務的實驗結果分析,比較了算法FT-TM和FT-NTM的效果,證明了新算法FT-TM的優勢。

在NLP的預訓練語言模型時代,針對已有的兩種主流算法NFT-TM和FT-NTM,本文提出了一種新算法FT-TM。它首先在BERT的基礎上建立一個上層神經網絡(LSTM或者CNN等等),然後在適當的策略下對兩者進行同時訓練。該算法融合了NFT-TM和FT-NTM兩種算法的優勢,通過一系列NLP任務的實驗結果表明,新算法FT-TM能取得更好的效果,而且在公開的Quora和SLNI兩個問題語義等價數據集上,新算法FT-TM的效果都達到了目前的State of the Art。

01

引 言

諸如BERT[1]和Open-GPT[2]等預訓練語言模型的引入,為NLP研究和工業界帶來了巨大的進步,這些模型的貢獻可以分為兩個方面。首先,經過預訓練的語言模型使建模人員可以利用少量數據獲得合理的準確性,這種策略與經典的深度學習方法相反,經典的深度學習方法需要大量的數據才能達到可比的結果。其次,對於許多NLP任務,例如SQuAD [4],CoQA[5],命名實體識別[6],Glue[7],機器翻譯[8],預訓練的模型如果給定合理數量的標記數據,可以創造新的State of the Art。

在預訓練語言模型時代,新的技術會遵循兩個方向發展,第一個方向是改進預訓練過程,例如ERNIE[9]和GPT2.0 [2]。第二個方向是在預先訓練的語言模型之上構建新的神經網絡結構。

目前有三種算法可以在預訓練的語言模型之上訓練帶有上層神經網絡的網絡結構,如表1所示,其中,算法NFT-TM是指在BERT模型的上層添加複雜的網絡結構,在訓練時,固定BERT的參數,僅單獨訓練上層任務模型網絡。算法FT-NTM是指在在BERT模型後接一個簡單的特定任務層(如全連接網絡),在訓練時,根據任務的訓練樣本集對BERT進行fine-tune即可。Peter等[3]比較了算法FT-NTM和NFT-TM的可能性,並得出結論,算法FT-NTM比NFT-TM的效果更好。然而,Peter等[3]沒有比較算法FT-TM和FT-NTM。另一方面,在預訓練語言模型流行之前,研究人員經常使用與方法FT-TM類似的策略,也就是說,建模人員首先對模型進行訓練,直到收斂為止,然後在幾個訓練周期內對詞嵌入進行微調。由於預訓練的語言模型類似於詞嵌入,那麼不考慮算法FT-TM將是不明智的。

在這項研究中,我們的目標是比較算法FT-TM和FT-NTM的效果,更具體地說,我們執行三個NLP任務,包括序列標記、文本分類和句子語義等價性。在第一個任務中,實驗結果表明即使不修改網絡結構,在預訓練語言模型之上構建上層網絡也可以提高準確性。在第二個任務中,實驗結果表明通過集成不同的神經網絡,甚至可以進一步提高微調方法FT-NTM的效果。在最後一項任務中,實驗結果表明如果可以定製一個專門適合於預訓練語言模型特徵的上層神經網絡,則可以進一步提高效果。因此,所有實驗結果都表明算法FT-TM優於FT-NTM。

表1 基於預訓練模型構建上層網絡的方法

本文接下來的內容安排如下:首先,我們回顧了有關預訓練深度神經網絡的相關文獻,包括Peter等人的觀點[3]以及帶有詞嵌入的微調策略;其次,我們給出了三個實驗的結果,並顯示了算法FT-TM與FT-NTM相比,能達到更好的效果,證明了算法FT-TM的優勢。

02

文獻綜述

在引入深度神經網絡之前,NLP領域的研究人員一直在使用預訓練模型。在它們當中,最著名的是詞嵌入,它把每個單詞映射到一個連續的向量中,而不是使用one-hot編碼[10]。這樣,我們不僅可以減少輸入函數的維數(這有助於避免過擬合),而且還可以捕獲每個單詞的內部含義。

但是,由於每個單詞在詞嵌入中僅被賦予固定的數值矢量,因此詞嵌入無法捕獲單詞在文本中的上下文含義。例如,考慮「蘋果」一詞,句子「我吃了一個蘋果」和「我買了一個蘋果電腦」。顯然,「 蘋果」一詞代表完全不同的含義,而詞嵌入技術卻無法捕捉到這種語義的差別。

圖1 BERT和Open-GPT模型的差異[1]

上述缺陷促使研究人員提出了一種深度神經網絡,該網絡能夠以無監督的方式進行訓練,同時能夠捕獲文本中包含單詞的上下文含義。一些早期的嘗試包括各種預訓練模型,例如基於LSTM [13]構建的ELMo [11]和ULMFiT [12],但是,最成功的是BERT [1]和Open-GPT [2],與ELMo和ULMFiT不同,BERT和Open-GPT構建在Transformer[14]結構之上,不同之處在於BERT使用雙向自注意力,而Open-GPT僅使用單向注意力,如圖1所示。Transformer的結構與LSTM有兩個重要不同,首先,它允許使用殘餘連接和批處理歸一化來連接多層網絡,從而允許自由梯度流動。其次,Transformer的核心計算單元是矩陣乘法,這使研究人員可以充分利用TPU的全部計算潛力[15]。經過大型語料庫的訓練後,BERT和Open-GPT都能夠更新許多重要自然語言任務的基準,例如SQuAD [4],CoQA [5],命名為實體識別[6],Glue [7],機器翻譯[8]。

在存在預訓練語言模型的情況下,那麼如何最好地利用預訓練模型獲得更好的效果呢?在這方面,Peters等[3]研究了如何使用預訓練模型最佳地適應目標任務,並提出了兩種不同的適應算法:特徵提取算法和直接微調預訓練模型算法,這對應於表1中的算法NFT-TM和FT-NTM,Peters等進行了五個實驗,包括:(1)命名實體識別[6];(2)情緒分析[16];(3)自然語言推論[17];(4)複述檢測[18];(5)語義文本相似度[19]。通過執行所有這些任務,Peters等得出的結論是,算法FT-NTM比NFT-TM的效果更好。

Peters等的工作展示了如何應用預訓練語言模型,我們認為這方面還需要深入研究。在預訓練語言模提出型之前,建模人員通常採用以下策略,首先,他們在詞嵌入之上訓練了語言模型,通常採用CNN或LSTM的形式,並固定單詞嵌入,在訓練過程收斂之後,再將詞嵌入微調訓練幾個時期,實驗結果顯示出該策略可以提高整體預測精度。如果將預訓練語言模型視為詞嵌入的增強版本,那麼可以類似的提高訓練效果的算法,更具體地說,就是首先在預訓練語言模型之上訓練上層神經網絡直到某個收斂點,然後聯合訓練整個神經網絡(包括預訓練語言模型),這會進一步改善結果。

03

改進訓練算法FT-TM

在傳統的NLP語言處理中,通常採用的方法是詞向量加上層模型的方式。在這個訓練的過程中,由於詞向量是已經經過大量訓練,而上層模型的參數初始化是隨機的,所以一般來說,如果直接同時訓練詞向量的參數和上層模型的參數,其效果將會大打折扣。對於這種情況,常常採用的策略是,首先固定詞向量,並訓練上層模型若干輪數達到理想效果,然後訓練詞向量或詞向量加上層模型少數epoch。

如果我們將以上思維應用於BERT的話,我們會發現如果我們僅僅是同時訓練BERT和上層模型將會產生較差的效果。BERT相比於詞向量具備更大的參數,因此如果我們同時訓練上層模型和BERT,就會面臨兩種困境。如果我們採用較小的學習率,上層模型收斂就會較慢,其效果不好。如果我們採用較大的學習率,就會嚴重破壞已經預訓練好的BERT結構。因此我們必須採用其他的方法進行訓練。

根據剛剛的分析,我們在本文中提出了一種基於預訓練模型和聯合調參的改進訓練算法FT-TM,在該算法中,首先固定BERT的參數,然後訓練上層的模型。在這裡上層的模型既可以是比較通用的,例如LSTM和CNN,也可以是其他的模型。當訓練達到一定的精度後,再同時開始訓練BERT和上層模型,我們發現FT-TM已經可以顯著的提高訓練的效果。

但是在訓練的過程中,有一些問題需要注意,首先如果是對於詞向量來說,一般的方法是訓練上層模型直至其收斂,換句話說,直至其在驗證集上達到的最高的準確率。但是在對BERT進行試驗的時候我們發現,這種方法效果並不理想,通過分析其訓練集和驗證集的預測精度對比,我們發現問題的根源在於可能存在的過擬合現象,這也是有一定直觀原因的,從參數數量來說,BERT的參數數量遠大於上層模型和常用的NLP模型,所以如果在上層模型精度達到最高后再開始訓練,BERT就很有可能導致嚴重的過擬合。

這點在具體的NLP任務實驗中也是很明顯的,在實驗中,這樣的做法下,訓練集的精度甚至會達到接近100%,為了解決這個問題,FT-TM中的做法是,不在上層模型收斂後再開始訓練BERT和上層模型,而是在其達到一定的準確度就開始這個過程。

除此之外,在訓練BERT的時候還會有另外的一種情況,如果BERT預訓練語料和目標語料差別較大,就可能BERT在fine-tune的時候收斂很慢。在這種情況下,採用以上的方法進行訓練效果並不好,為了應對這種情況,FT-TM中採取的做法是:首先,採用BERT加上全連接層對BERT的參數進行fine-tune,然後再採用前面講到的措施進行fine-tune。

同時,在句子語義等價的NLP任務上,我們對FT-TM算法進行了進一步的具體化,在具體的實現中,預訓練模型採用BERT,上層神經網絡基於BIMPM[27]進行了改進,在實驗4.3部分會介紹這種方法的效果,目的是說明FT-TM這種聯合訓練的算法相比FT-NTM能達到更好的效果,甚至能達到業界的State of the Art。在具體介紹算法之前,首先對句子等價的任務進行說明。判斷句子是否等價的任務要遠遠比單純的詞語匹配複雜。舉例來說,問題「市政府的管轄範圍是什麼?」和「市長的管轄範圍是什麼?」僅有兩個字的差異,但兩者語義是不相同的,因此其回答也應該不一樣的。另一方面來說,「市政府的職責是什麼」和「請問,從法律上來講,市政府究竟可以管哪些事情「這兩個問題,除去在「市政府」一詞外,幾乎是沒有任何重合的,但兩者語義是等價的,因此其答案也應該是一樣的。從這幾個例子來看,句子匹配的任務需要模型能夠真正理解其句子的語義。

在BERT等預訓練模型出現之前,語義本身的表達一般是用word vector來實現。為了得到句子的深層語義表達,所採用的方法往往是在上層架設網絡,以BIMPM為例,BIMPM是一種matching-aggregation的方法,它對兩個句子的單元做匹配,如經過LSTM處理後得到不同的time step輸出,然後通過一個神經網絡轉化為向量,然後再將向量做匹配。下面來詳細介紹一下BiMPM的大體流程,如圖中所示,從Word Representation Layer 開始,將每個句子中的每個詞語表示成d維向量,然後經過Context Representation Layer 將上下文的信息融合到需要對比的P和Q兩個問題中的每個time-step表示。Matching Layer 則會比較問題P和問題Q的所有上下文向量,這裡會用到multi-perspective 的匹配方法,用於獲取兩個問題細粒度的聯繫信息,然後進入Aggregation Layer 聚合多個匹配向量序列,組成一個固定長度的匹配向量,最後用於Prediction Layer 進行預測概率。

圖2 BIMPM神經網絡結構[27]

通過BIMPM模型可以捕捉到句子之間的交互特徵,但是這樣的匹配僅僅也只是在表層特徵進行比較,並不涉及深層次的特徵比較。為了進行深層次的特徵比較,我們借鑑了圖像中的MMD思想,Maximum Mean Discrepancy,即最大平均差異,通過深度神經網絡的特徵變換能力,對變換後的特徵分布進行匹配。MMD的最大優點在於它不僅進行表層特徵的匹配,還進行深層次特徵的匹配,這樣可以更精確地計算出特徵之間的匹配程度,提升模型的效果。拿圖像對比來舉例,圖像中所蘊含的信息不單單是由表層特徵就可以來涵蓋的,往往是通過表層、多個隱藏層以及它們之間不同的參數相加得到的結果。

BIMPM將每個句子中的每個詞語表示成d維向量,然後經過Context Representation Layer,將上下文的信息融合到需要對比的P和Q兩個句子中的time-step表示,最終比較句子P和句子Q的所有上下文向量,但它也只是對表層特徵進行匹配,從而忽略很多額外的語義特徵,但是BERT 預訓練模型的流行,讓深層特徵匹配成為了現實。

如果我們將MMD的思想應用到句子匹配的任務上,並用BERT預訓練深層模型來實現,就會得到一個重要的啟發,MMD思想的主要效果來源於它將BERT預訓練深層模型的不同層表示進行匹配,形象地來說,這是一種「向下匹配」的思維。而BIMPM由於在BERT之前出現,其語義表示只能通過詞(字)向量和LSTM等網絡進行,因此它捕捉特徵表示的方法只能通過「向上匹配」。這是否意味著自從BERT出現以後,將這兩種方式進行結合呢?

基於這個思路,我們在本文中提出了問題語義等價的FT-TM具體實現,它的思想是將特徵「向下匹配」和「向上匹配」相結合。在具體的實現上,我們分別從BERT深層模型的最後幾層中提取特徵通過加法進行拼接,替代原始的字向量輸入到BIMPM模型當中。這種做法是和MMD很相似的,只不過MMD中採用各種距離函數,而在這裡我們採用的是多種匹配函數。除此之外,我們對BIMPM模型也做了以下修改:

首先,我們去掉了原始BIMPM模型中接在字向量層的Bi-LSTM模型,之所以這樣做,其原因在於LSTM並沒有設計機制保證梯度向深度模型的後向傳導;

其次,我們用Transformer模型替代了BIMPM最上層的Bi-LSTM模型。這樣做的原因主要是考慮到Bi-LSTM能夠捕捉數據當中的序列特徵。但是由於BIMPM採用多種匹配後,其序列性並不強,所以Transformer更適合該模型。

04

實 驗

概述

本節內容會通過三個不同NLP任務的實驗來檢驗我們的設想,首先,通過在BERT模型頂部添加Bi-LSTM來運行命名實體識別任務。在本實驗中,我們希望測試通過對常用網絡結構進行修改,提出的訓練策略是否可以提高整體準確性。其次,我們進行文本分類實驗,實驗中訓練了三個模型,並執行了模型集成。我們希望驗證,如果添加的網絡無法顯著提高準確性,但可以通過模型集成來提高效果。最後,我們進行了文本語義相似性測試,實驗結果表明,如果可以定製一個專門適合於預訓練語言特徵的網絡,則可以期待更大的改進。

實驗A:序列標註

在序列標記任務中,我們使用共享基準數據集CoNLL03數據集[6]探索實體識別子任務。文獻[20],[21],[22]在此數據集上測試了它們的新網絡結構。該實驗以僅對BERT進行fine-tune(即方法FT-NTM)的結果為baseline,對比了在BERT基礎上增加一個傳統用於NER任務的Bi-LSTM網絡(即方法FT-TM)的效果,實驗結果如表2中所示。

表2 命名實體識別的結果

實驗結果表明,結合BERT的fine-tune和上層神經網絡的FT-TM算法在該任務上的F1值較baseline提升了近7個百分點。

實驗B:文本分類

在文本分類任務中,我們使用了Yahoo Answer分類數據集. Yahoo Answers由10個類構成,但是由於數據集數量巨大,我們只選擇其中兩個。對於上層模型,我們選擇DenseNet[23]和HighwayLSTM [24]。

DenseNet結構包含四個獨立的塊,每個塊具有四個通過殘差連接的CNN。我們使用BERT初始化詞表示層中的詞嵌入。我們將每個字符初始化為768維向量。在訓練DenseNet的實驗中,我們將使用[CLS]進行預測的DenseNet輸出向量,隱藏大小設置為300。在所有實驗中,我們還使用了dropout技巧以避免每個完全連接的層過度擬合,並將dropout率設置為0.5。

表3 文本分類的結果

實驗結果如表3中所示,可以看出,雖然模型集成後的效果並不十分明顯,但也有一定的效果提升。

實驗C:句子語義等價任務

我們使用「Quora-Question-Pairs」標準數據集,這是一個包含40萬個問題對的數據集,人工注釋是否等效。由於數據集的質量很高,它是測試各種語義相似性模型效果的標準數據集,文獻[25],[26],[27],[28]提出了在該數據集上進行效果測試的各種模型。我們提出的FT-TM算法在公開的Quora數據集達到了目前的State of the Art,這個數據集包括了超過400,000問題組,專門用來研究兩個句子是否語義等價的二分問題。因為該數據集的標註質量非常高,它經常用來測試語義理解的模型效果,我們按照7:2:1的比例來分配訓練集、驗證集和測試集。

本次實驗將僅對BERT進行fine-tune的方法FT-NTM為baseline,對比了在BERT之後接BIMPM網絡的效果。同時以方法NFT-TM為baseline,對比了兩種改進BIMPM之後模型結構的效果(移除BIMPM中的第一層Bi-LSTM模型和將BIMPM的matching層與transformer相結合的模型)。注意,在模型訓練時有個重要的技巧,考慮到預訓練模型本身的效果和其與頂層模型的融合問題,在訓練模型時,需要分兩步進行:先固定預訓練模型的參數,僅訓練其上層特定任務網絡,第二步再將整個網絡聯合訓練。實驗結果如表4中所示,可以看出,由實驗結果可得,Bert+Sim-Transformer結合fine-tune Bert的FT-TM算法效果相較僅對BERT進行fine-tune的方法FT-NTM,準確率提升了近5個百分點,達到了目前的State of the Art。

表4 句子語義相似任務在Quora數據集的結果

為了確保實驗結論的有效性,除去Quora的數據集之外,我們還採用了SLNI數據集當中包含句子等價性的數據集,該數據集包括55萬條訓練集和10000條測試集。很多學者都用了這些數據來測試他們的模型包效果,對比這些模型,FT-TM算法的準確率上有將近兩個點的提升,達到了目前的State of the Art,具體實驗結果如下表所示:

表5 句子語義相似任務在SNLI數據集的結果

因此,從上面一系列的實驗結果可以看出,我們提出的結合上層複雜模型和fine-tune的算法FT-TM是有效的,並且在NLP任務中優於fine-tune的算法FT-NTM,同時在BERT預訓練模型上面集成的神經網絡模型好壞也會影響到最終的任務效果。

參考文獻

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. OpenAI Blog, 1:8, 2019.

Matthew Peters, Sebastian Ruder, and Noah A Smith. To tune or not to tune? adapting pretrained representations to diverse tasks. arXiv preprint arXiv:1903.05987, 2019.

Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250, 2016.

Siva Reddy, Danqi Chen, and Christopher D Manning. Coqa: A conversational question answering challenge. arXiv preprint arXiv:1808.07042, 2018.

Erik F Sang and Fien De Meulder. Introduction to the conll-2003 shared task: Language-independent named entity recognition. arXiv preprint cs/0306050, 2003..

Alex Wang, Amapreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461, 2018.

Sébastien Jean, Orhan Firat, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. Montreal neural machine translation systems for wmt』15. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 134–140, 2015.

Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, and Hua Wu. Ernie: Enhanced representation through knowledge integration. arXiv preprint arXiv:1904.09223, 2019.

Tomas Mikolov, Kai Chen, Gregory S Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. international conference on learning representations, 2013.

Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher G Clark, Kenton Lee, and Luke S Zettlemoyer. Deep contextualized word representations. north american chapter of the association for computa- tional linguistics, 1:2227–2237, 2018.

Jeremy Howard and Sebastian Ruder. Universal language model fine-tuning for text classification. meeting of the association for computational linguistics, 1:328–339, 2018.

Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017.

Kaz Sato, Cliff Young, and David Patterson. An in-depth look at google’s first tensor processing unit (tpu). Google Cloud Big Data and Machine Learning Blog, 12, 2017.

Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Ng, and Christopher Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1631–1642, 2013

Adina Williams, Nikita Nangia, and Samuel R Bowman. A broad-coverage challenge corpus for sentence understanding through inference. arXiv preprint arXiv:1704.05426, 2017.

WilliamBDolanandChrisBrockett.Automaticallyconstructingacorpusofsententialparaphrases.InProceedings of the Third International Workshop on Paraphrasing (IWP2005), 2015.

Daniel Cer, Mona Diab, Eneko Agirre, Inigo Lopez-Gazpio, and Lucia Specia. Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055,2017.

Jeffrey Pennington, Richard Socher, and Christopher Manning. Glove:Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543, 2014.

Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360, 2016.

Xuezhe Ma and Eduard Hovy. End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354, 2016.

Hoa T Le, Christophe Cerisara, and Alexandre Denis. Do convolutional networks need to be deep for text classification? In Workshops at the Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

Yu Zhang, Guoguo Chen, Dong Yu, Kaisheng Yaco, Sanjeev Khudanpur,and James Glass. Highway long short-term memory rnns for distant speech recognition. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5755–5759.IEEE, 2016.

Jonas Mueller and Aditya Thyagarajan. Siamese recurrent architectures for learning sentence similarity. In Thirtieth AAAI Conference on Artificial Intelligence, 2016.

Shuohang Wang and Jing Jiang. A compare-aggregate model for matching text sequences. arXiv preprint arXiv:1611.01747, 2016.

Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang, and Diana Inkpen. Enhanced lstm for natural language inference. arXiv preprint arXiv:1609.06038, 2016.

Zhiguo Wang,Wael Hamza, and Radu Florian. Bilateral multi-perspective matching for natural language esentences. arXiv preprint arXiv:1702.03814, 2017.




免責聲明:

本站系本網編輯轉載,會儘可能註明出處,但不排除無法註明來源的情況,轉載目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯繫, 來信: liujun@soft6.com 我們將在收到郵件後第一時間刪除內容!

[聲明]本站文章版權歸原作者所有,內容為作者個人觀點,不代表本網站的觀點和對其真實性負責,本站擁有對此聲明的最終解釋權。

相關焦點

  • [預訓練語言模型專題] MT-DNN(KD) : 預訓練、多任務、知識蒸餾的結合
    感謝清華大學自然語言處理實驗室對預訓練語言模型架構的梳理,我們將沿此脈絡前行,探索預訓練語言模型的前沿技術,紅框中為已介紹的文章,綠框中為本期介紹的文章,歡迎大家留言討論交流。眾所周知,語言模型預訓練方法和多任務學習策略都是提高模型性能的重要手段,本文就結合了兩者的優點,提出了MT-DNN的方案,並在GLUE上的八個NLU任務上超越了之前的state-of-art模型。首先,MT-DNN考慮了四種類型的NLU任務,分別是單句文本分類(CoLA, SST-2),文本對的分類(RTE,MNLI,QQP,MRPC),文本相似度度量(STS-B),相關度排序(QNLI)。
  • [預訓練語言模型專題] BERT,開啟NLP新時代的王者
    谷歌團隊成員Thang Luong在推特上表示,BERT模型開啟了NLP的新時代。就其效果、易用性、通用性各方面來說,在當時不愧稱為預訓練語言模型的王者,壓服眾多的模型。讓我們花十分鐘一起,跟著論文來體會BERT的設計思路和重點。文章在一開始概括了當時的兩種不同的預訓練語言模型的策略,feature-based 策略及 fine-tuning 策略。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。 據介紹,當前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。
  • 預訓練語言模型:還能走多遠?
    雖然這個模型比較有效,但它在GPU上的性能反而不如Transformer,因為Transformer更利於大塊矩陣的計算,這就是目前的現狀,但我覺得還是可以往這個方向繼續去改進。 第三個就是預訓練模型裡面到底隱含了哪些知識? 我們要理解一個語言或者一段文本,要分成兩方面的知識,一是語言知識,二是世界知識。
  • 基於飛槳PaddlePaddle的多種圖像分類預訓練模型強勢發布
    一、當前效果最優的ResNet50預訓練模型ResNet是近幾年非常流行的卷積神經網絡結構,其創造性提出的殘差結構,一舉在ILSVRC2015比賽中取得冠軍,並且獲得計算機視覺頂級會議CVPR 2016的最佳論文。其中50層的網絡結構(ResNet50)的效果優化,備受學術界和工業界關注。
  • PTMs|2020最新NLP預訓練模型綜述
    提出了一種預訓練模型的分類體系,通過四種分類維度來劃分目前已有的預訓練模型。代表性工作有:(1) 「ULMFiT」[7] (Universal Language Model Fine-tuning):通過在文本分類任務上微調預訓練好的語言模型達到了state-of-the-art結果。
  • RestNet50預訓練模型top1近80%,基於飛槳PaddlePaddle的多種圖像...
    一、當前效果最優的ResNet50預訓練模型ResNet是近幾年非常流行的卷積神經網絡結構,其創造性提出的殘差結構,一舉在ILSVRC2015比賽中取得冠軍,並且獲得計算機視覺頂級會議CVPR 2016的最佳論文。其中50層的網絡結構(ResNet50)的效果優化,備受學術界和工業界關注。
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    但是,BERT 模型主要是聚焦在針對字或者英文word粒度的完形填空學習上面,沒有充分利用訓練數據當中詞法結構,語法結構,以及語義信息去學習建模。比如 「我要買蘋果手機」,BERT 模型 將 「我」,「要」, 「買」,「蘋」, 「果」,「手」, 「機」 每個字都統一對待,隨機mask,丟失了「蘋果手機」 是一個很火的名詞這一信息,這個是詞法信息的缺失。
  • 百度預訓練模型ERNIE榮登榜首
    雷鋒網AI科技評論了解到,北京時間12月10日,預訓練模型界的「MVP」百度ERNIE,在自然語言處理領域權威數據集GLUE中榮登榜首,並以9個任務平均得分首次突破90大關刷新該榜單歷史,超越微軟MT-DNN-SMART、谷歌T5、ALBERT等一眾國際頂級預訓練模型的表現。
  • 26億參數,智源、清華開源中文大規模預訓練模型
    近日,北京智源人工智慧研究院和清華大學研究團隊合作開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規模預訓練模型開源計劃,旨在構建以中文為核心的大規模預訓練模型。首期開源內容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用於中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產業界開放下載,供研究使用。
  • 深度| 通過NMT訓練的通用語境詞向量:NLP中的預訓練模型?
    深度學習模型以詞向量序列的形式讀取序列化的單詞,而不是以文本的形式。預訓練的詞向量有時候在為特定任務訓練模型之前,詞向量會被初始化成隨機數,但是,也有其他很常見的方式,例如,使用 word2vec、GloVe 或者 FastText 等方法來初始化詞向量。前兩個方法會逐漸和這一假設結合起來:至少一個單詞的部分含義是和它的用法有關的。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    由於是上下文無關的,這些方法通常無法捕獲高階的概念(high-level concepts),如一詞多義,句法結構,語義角色,指代消解。代表性工作包括:「NNLM」,「word2vec」,「GloVe」。第二代預訓練模型致力於學習「contextual」 word embeddings。第一代預訓練模型主要是word-level的。
  • LogME:通用快速準確的預訓練模型評估方法
    這個重要問題很少有人研究,因此人們目前只好使用一些簡單粗暴的辦法:使用預訓練指標(例如ImageNet準確率)高的模型如果想要準確地選擇最好的預訓練模型,我們需要把每一個候選模型都做一遍微調。因為微調涉及到模型訓練,時間至少幾個小時起步。有些預訓練模型的微調還需要進行超參數搜索,想要決定一個預訓練模型的遷移效果就需要將近50個小時!
  • OCR模型訓練
    訓練,這裡主要是定義每批次數據訓練的操作策略,如保存策略,日誌策略,測試策略等。我們在文本定位中採用的是 Craft 算法,它是一種基於分割的算法,無需進行大量候選框的回歸,也無需進行 NMS 後處理,因此極大提升了速度,並且它是字符級別的文本檢測器,定位的是字符,對於尺寸縮放不敏感,無需多尺度訓練和預測來解決尺度方差問題,最後其泛化性能也能達到 SOTA 的水平。
  • 20項任務全面碾壓BERT,CMU全新XLNet預訓練模型屠榜(已開源)
    BERT 帶來的震撼還未平息,今日又一全新模型出現。來自卡耐基梅隆大學與谷歌大腦的研究者提出新型預訓練語言模型 XLNet,在 SQuAD、GLUE、RACE 等 20 個任務上全面超越 BERT。最終,XLNet 在 20 個任務上超過了 BERT 的表現,並在 18 個任務上取得了當前最佳效果(state-of-the-art),包括機器問答、自然語言推斷、情感分析和文檔排序。以前超越 BERT 的模型很多都在它的基礎上做一些修改,本質上模型架構和任務都沒有太大變化。
  • 預訓練還需要監督信息嗎?一文了解無監督訓練的優勢
    在微軟亞洲研究院和香港城市大學的一項研究中,作者從 MoCo 預訓練和目標檢測的遷移出發,深入探討了為什麼無監督訓練在遷移任務上更有優勢?結合新的發現,是否有可能改進有監督的預訓練?MoCo 是一種通過區分不同實例 (instance discrimination)的 pretext task 進行無監督訓練的方法。
  • 超越SOTA Transformer模型,哈佛、FAIR提出基於殘差能量模型的文本...
    比如我們可以訓練一個分類器去區分真實文本和語言模型生成的文本,而且可以達到非常高的準確率 [1,2]。那麼,一個自然的問題是,我們能否使用這個分類器去提高文本生成的質量,以期達到更加以假亂真的水平呢?這就是本文的研究問題。
  • NLP領域最優秀的8個預訓練模型(附開源地址)
    這一突破,使得每個人都能夠輕鬆地完成任務,尤其是那些沒有時間、也沒有資源從頭開始構建自然語言處理模型的人們。對於想要學習或過渡到自然語言處理的初學者來講,它也堪稱完美。為什麼要使用預訓練模型?作者已盡其所能設計了基準模型。
  • 預訓練後性能反而變差,自訓練要取代預訓練了嗎?
    一、序言在進一步探討論文細節之前,我們先了解一些術語。預訓練是運用在不同領域(例如計算機視覺、自然語言處理、語音處理)的一種非常普遍的做法。在計算機視覺任務中,我們通常使用在某個數據集上經過預訓練並可直接運用到另一個數據集的模型。例如,利用ImageNet預訓練就是一種可廣泛運用到目標分割和目標檢測任務的初始化方法。為實現此目的,我們常使用遷移學習和微調這兩種技術。
  • 劉鐵巖:如何四兩撥千斤,高效地預訓練NLP模型?
    目前,GPT-3 等模型的預訓練任務需要使用大量的計算資源,計算效率低下。在本次演講中,劉鐵巖博士從數據處理、模型結構、損失函數、優化算法等多個維度介紹了微軟亞洲研究院(MSRA)的研究者們針對高效 NLP 模型訓練的研究。