NLP歷史突破!谷歌BERT模型狂破11項紀錄,全面超越人類!

2021-01-13 騰訊網

傳銷的靈感來自完形填空任務(泰勒,1953年),在MLM隨機掩蔽模型的輸入中,一些符號的目標是僅僅基於掩蔽詞的上下文來預測原始詞彙表id

<span class=「BJH-hr」>辛至遠報導來源:arxiv,志虎。

編者:新志遠編輯部。

今天,NLP領域最重要的突破!谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好:它在所有兩項測試中的表現都優於人類,在11種不同的nlp測試中表現最好。毫無疑問,伯特模型已經迎來了NLP的一個新時代!

記住今天伯特模型的名字。

谷歌人工智慧團隊發布的新伯特模型在squad1.1中表現得出奇的好,squad1.1是機器閱讀理解的頂級測試:在所有兩項指標上都超過了人類!在11種不同的NLP測試中也取得了最好的結果,包括將GLUE基準推送到80.4%(絕對改進7.6%),多重NLI準確度達到86.7%(絕對改進5.6%)等。

谷歌團隊對張良的直接定義:伯特模式開啟了NLP的新時代!

本文從論文的解讀、伯特模型的成就以及職業評價三個方面作介紹。

硬核閱讀:理解伯特的一種新的語言表達模式.。

首先,讓我們來看看這篇由谷歌人工智慧團隊撰寫的文章。

文件地址:

https:/arxiv.org/abs/1810.04805。

提出了一種新的BERT語言表示模型,它代表了互感器的雙向編碼器表示。與其他最新的語言表示模型不同,Bert的目標是通過聯合所有層中的上下文來預先訓練深層的雙向表示。因此,預先訓練好的Bert表示可以通過一個額外的輸出層進行微調,用於構建廣泛的任務(如問答任務和語言推理)的最先進的模型,而不需要對特定於任務的體系結構進行重大更改。

筆者認為,現有的技術嚴重製約了學生的訓練前表現力.。主要的限制是標準語言模型是單向的,這限制了可用於模型的預訓練的體系結構類型。

為了改進基於體系結構微調的Bert:雙向編碼表示方法,作者提出了一種雙向編碼表示,即互感器。

為了克服上述局限性,Bert提出了一個新的預訓練目標:掩蔽語言模型(MsudLanguageModel,MLM)。傳銷的靈感來自完形填空任務(泰勒,1953年)。在MLM隨機掩蔽模型的輸入中,一些符號的目標是僅僅基於掩蔽詞的上下文來預測原始詞彙表id。

不同於語言模型從左到右的預訓練,傳銷目標允許表示融合左和右上下文,從而預先訓練深度雙向轉換器。除了掩蔽語言模型之外,作者還引入了「下一句預測」任務,該任務可與MLM一起用於預訓練文本對的表示。

論文的核心部分:詳細闡述了伯特模型體系結構。

本部分介紹了BERT模型的體系結構和實現方法,以及本文的核心創新之處&預培訓任務。

模型架構。

伯特的模型體系結構是基於Vaswani等人的。(2017)中描述的多層雙向變壓器編碼器的最初實現發表在張量2張量庫中。由於變壓器的使用最近變得普遍,本文中的實現與最初的實現是相同的,因此這裡將省略對模型結構的詳細描述。

在本文中,層數(即變壓器塊)表示為L,隱藏大小表示為H,自注意頭數表示為A)。在所有情況下,前饋/濾波器的大小都被設置為4H,當H=768和3072H=1024時,該大小為4096。本文報告了兩種模型尺寸的結果:

:L,12,H,768,A,12,總參數=110 m。

:L,24,H,1024,A,16,總參數=340 m。

為了進行比較,本文選擇了。

它的模型大小與OpenAI GPT相同。然而,重要的是,伯特變壓器使用雙向的自我關注,而gPT變壓器使用受限的自我關注,其中每個令牌只能處理其左側的上下文。研究小組注意到,在文獻中,雙向轉換器通常被稱為「轉換器編碼器」,而左邊的上下文被稱為「轉換器解碼器」,因為它可以用於文本生成。Bert、OpenAI、GPT和Elmo之間的比較如圖1所示。

圖1:訓練前模型體系結構的差異。伯特使用雙向變壓器。OpenAI GPT使用從左到右的轉換器。Elmo使用獨立訓練的從左到右和從右到左的lstm co。

相關焦點

  • NLP新標杆!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT
    新智元報導 來源:arxiv、知乎等編輯:大明【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標杆BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜!近日,谷歌大腦主任科學家Quoc V.
  • 谷歌最強NLP模型BERT,為何炫酷又強大?騰訊程式設計師給你從頭講起
    雖然知道了 bert能解決這個問題,我們更好奇的是"Ϊʲô":為什麼 bert 的表現能這麼好?這裡面有沒有可解釋的部分呢?因為 Multi-head-attention 是 bert 的主要組成部分,所以我們從"頭"入手,希望弄清楚各個 head 對 bert 模型有什麼作用。為了研究某個 head 對模型的影響,我們需要比較有這個 head 和沒有這個 head 模型的前後表現。
  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜索結果的相關性。BERT 模型中創新性的 架構是一大亮點。
  • NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較
    在Python中,可以像這樣從genism-data中加載一個預訓練好的詞嵌入模型:nlp = gensim_api.load("word2vec-google-news-300")我將不使用預先訓練好的模型,而是用gensim
  • 性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型
    機器之心編輯部在最新的博客文章中,谷歌公布了一個新的 NLP 模型,在文本分類任務上可以達到 BERT 級別的性能,但參數量僅為 BERT 的 1/300。在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。
  • 微軟創CoQA挑戰新紀錄,最接近人類水平的NLP系統誕生
    新智元報導 來源:Arxiv/CoQA編輯:大明,文強【新智元導讀】微軟語音與對話研究團隊開發的SDNet,在面向公共數據集CoQA的問答對話系統模型性能挑戰賽中刷新最佳性能紀錄,成功奪冠!SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%。
  • 谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣
    △ 「芝麻街」中的Big Bird眾所周知,谷歌開發的BERT,曾經被稱為「地表最強」NLP模型。而BERT,則與美國知名動畫片「芝麻街」(Sesame Street)裡的虛擬人物同名。此前,谷歌的「芝麻街」系列已經有5個成員(論文連結見傳送門),現在Big Bird的到來,意味著谷歌在NLP的研究上更進一步。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    BERT查詢結果更「盡人意」,也需要更多TPU2019年,谷歌將 BERT 模型應用於搜索。BERT的突破來自谷歌transformer相關的研究成果,transformer可以更好地處理句子中所有單詞的相關性,而不是按順序逐個來。
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    文本分類問題中使用了幾個基準數據集,可以在nlpprogress.com上跟蹤最新的基準。以下是關於這些數據集的基本統計數據。簡單的文本分類應用程式通常遵循以下步驟:文本預處理和清理特徵工程(手動從文本創建特徵)特徵向量化(TfIDF、頻數、編碼)或嵌入(word2vec、doc2vec、Bert、Elmo、句子嵌入等)用ML和DL算法訓練模型。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    機器之心報導參與:一鳴昨日,機器之心報導了 CMU 全新模型 XLNet 在 20 項任務上碾壓 BERT 的研究,引起了極大的關注。而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。
  • 騰訊提出NumNet+模型,超越谷歌登DROP排行榜第一名
    下面是新智元對微信 AI 團隊的採訪: 專訪微信AI:機器閱讀理解今年最大突破是預訓練模型 新智元:在 SQuAD 數據集上,谷歌的 ALBERT 等模型已經超越了人類的表現,但在 DROP 排行榜看來,AI 距離人類的水平 (F1 96.42%
  • 百度多模態模型ERNIE-ViL刷新5項任務紀錄 登頂權威榜單VCR
    機器之心報導機器之心編輯部近日,百度在多模態語義理解領域取得突破,提出知識增強視覺-語言預訓練模型 ERNIE-ViL,首次將場景圖(Scene Graph)知識融入多模態預訓練,在 5 項多模態任務上刷新世界最好效果,並在多模態領域權威榜單 VCR 上超越微軟、谷歌、Facebook 等機構,登頂榜首。
  • 搞定NLP領域的「變形金剛」!教你用BERT進行多標籤文本分類
    文章連結:https://arxiv.org/pdf/1508.07909在我看來,這與BERT本身一樣都是一種突破。模型架構我們將改寫BertForSequenceClassification類以使其滿足多標籤分類的要求。
  • 《007之大破天幕殺機》票房破10億 刷新紀錄
    《007之大破天幕殺機》  搜狐娛樂訊 由奧斯卡最佳導演得主山姆-門德斯執導的第23部007系列電影《天幕墜落》(Skyfall),在經歷了一個熱鬧的聖誕節檔期之後,全球總票房突破了10億美元。這是索尼電影公司歷史的第一部全球票房破10億的作品,也是該公司歷史上票房最高的作品。《天幕殺機》是今年繼《復仇者聯盟》(15億美元)和《黑暗騎士崛起》(10億美元)之後,又一部突破10億美元大關的電影。
  • AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄
    智東西5月5日消息,人類在NLP領域的研究已長達半世紀,現在AI終於揚眉吐氣了!5月4日,在史丹福大學的會話問答(CoQA)挑戰賽中,AI的會話能力已媲美人類,並以0.6分優勢全面「碾壓」人類水平!也就是說,人類與這個模型互動更像是與真人之間的交流。CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 2019 年 NLP 領域都發生了哪些大事件?
    關於這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。
  • 從想法到實幹,2018年13項NLP絕美新研究
    這些預訓練模型有很多,包括 ELMo、ULMFiT、OpenAI Transformer 和 BERT,其中又以 BERT 最具代表性,它在 11 項 NLP 任務中都獲得當時最佳的性能。不過目前有 9 項任務都被微軟的新模型超過。
  • 乾貨| BERT fine-tune 終極實踐教程
    不過所幸的是谷歌滿足了Issues#2裡各國開發者的請求,針對大部分語言都公布了BERT的預訓練模型。因此在我們可以比較方便地在自己的數據集上進行fine-tune。下載預訓練模型對於中文而言,google公布了一個參數較小的BERT預訓練模型。
  • 世體列梅西在2020年有望突破的紀錄:超越貝利、七奪金球
    新年新氣象,《世界體育報》羅列了在已經來臨的2020年裡,梅西有望突破的二十大紀錄。1、在巴薩收穫500勝梅西在巴薩的705場比賽裡有498場取勝,這一勝場數也超過了哈維,梅西是巴薩隊史這一數據最多的球員。巴塞隆納接下來的兩個對手是:聯賽中對陣西班牙人,以及西班牙超級盃對陣馬競。