傳銷的靈感來自完形填空任務(泰勒,1953年),在MLM隨機掩蔽模型的輸入中,一些符號的目標是僅僅基於掩蔽詞的上下文來預測原始詞彙表id
<;span class=「BJH-hr」>;辛至遠報導來源:arxiv,志虎。
編者:新志遠編輯部。
今天,NLP領域最重要的突破!谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好:它在所有兩項測試中的表現都優於人類,在11種不同的nlp測試中表現最好。毫無疑問,伯特模型已經迎來了NLP的一個新時代!
記住今天伯特模型的名字。
谷歌人工智慧團隊發布的新伯特模型在squad1.1中表現得出奇的好,squad1.1是機器閱讀理解的頂級測試:在所有兩項指標上都超過了人類!在11種不同的NLP測試中也取得了最好的結果,包括將GLUE基準推送到80.4%(絕對改進7.6%),多重NLI準確度達到86.7%(絕對改進5.6%)等。
谷歌團隊對張良的直接定義:伯特模式開啟了NLP的新時代!
本文從論文的解讀、伯特模型的成就以及職業評價三個方面作介紹。
硬核閱讀:理解伯特的一種新的語言表達模式.。
首先,讓我們來看看這篇由谷歌人工智慧團隊撰寫的文章。
文件地址:
https:/arxiv.org/abs/1810.04805。
提出了一種新的BERT語言表示模型,它代表了互感器的雙向編碼器表示。與其他最新的語言表示模型不同,Bert的目標是通過聯合所有層中的上下文來預先訓練深層的雙向表示。因此,預先訓練好的Bert表示可以通過一個額外的輸出層進行微調,用於構建廣泛的任務(如問答任務和語言推理)的最先進的模型,而不需要對特定於任務的體系結構進行重大更改。
筆者認為,現有的技術嚴重製約了學生的訓練前表現力.。主要的限制是標準語言模型是單向的,這限制了可用於模型的預訓練的體系結構類型。
為了改進基於體系結構微調的Bert:雙向編碼表示方法,作者提出了一種雙向編碼表示,即互感器。
為了克服上述局限性,Bert提出了一個新的預訓練目標:掩蔽語言模型(MsudLanguageModel,MLM)。傳銷的靈感來自完形填空任務(泰勒,1953年)。在MLM隨機掩蔽模型的輸入中,一些符號的目標是僅僅基於掩蔽詞的上下文來預測原始詞彙表id。
不同於語言模型從左到右的預訓練,傳銷目標允許表示融合左和右上下文,從而預先訓練深度雙向轉換器。除了掩蔽語言模型之外,作者還引入了「下一句預測」任務,該任務可與MLM一起用於預訓練文本對的表示。
論文的核心部分:詳細闡述了伯特模型體系結構。
本部分介紹了BERT模型的體系結構和實現方法,以及本文的核心創新之處&預培訓任務。
模型架構。
伯特的模型體系結構是基於Vaswani等人的。(2017)中描述的多層雙向變壓器編碼器的最初實現發表在張量2張量庫中。由於變壓器的使用最近變得普遍,本文中的實現與最初的實現是相同的,因此這裡將省略對模型結構的詳細描述。
在本文中,層數(即變壓器塊)表示為L,隱藏大小表示為H,自注意頭數表示為A)。在所有情況下,前饋/濾波器的大小都被設置為4H,當H=768和3072H=1024時,該大小為4096。本文報告了兩種模型尺寸的結果:
:L,12,H,768,A,12,總參數=110 m。
:L,24,H,1024,A,16,總參數=340 m。
為了進行比較,本文選擇了。
它的模型大小與OpenAI GPT相同。然而,重要的是,伯特變壓器使用雙向的自我關注,而gPT變壓器使用受限的自我關注,其中每個令牌只能處理其左側的上下文。研究小組注意到,在文獻中,雙向轉換器通常被稱為「轉換器編碼器」,而左邊的上下文被稱為「轉換器解碼器」,因為它可以用於文本生成。Bert、OpenAI、GPT和Elmo之間的比較如圖1所示。
圖1:訓練前模型體系結構的差異。伯特使用雙向變壓器。OpenAI GPT使用從左到右的轉換器。Elmo使用獨立訓練的從左到右和從右到左的lstm co。