BERT霸榜問答任務,谷歌新基準模型縮小AI與人類差距50%

2020-12-11 騰訊網

新智元報導

來源:Google AI

編輯:肖琴

【新智元導讀】谷歌為最近發布的自然問題數據集開發了一個新的基於BERT的新模型,刷新了AI在這個任務上的表現。對於長答案和短答案任務,分別將AI系統與人類表現之間的差距縮小了30%和50%。

上周,

谷歌AI團隊發布了一個新的NLP基準數據集

:自然問題數據集(Natural Questions)。

NQ數據集包含30萬個來自真實用戶的問題及來自Wikipedia頁面的人工注釋答案,用於訓練QA系統。

此外,NQ語料庫還包含16000個示例,每個示例都由5位不同的注釋人提供答案(針對相同的問題),這對於評估所學習的QA系統的性能非常有用。

谷歌還發起了一項基於此數據集的挑戰賽,以幫助提高計算機對自然語言的理解。任務要求QA系統閱讀和理解整個Wikipedia文章,其中可能包含問題的答案,也可能不包含,因此NQ比以前的QA數據集更具有現實性和挑戰性。

在該數據集的原始論文《Natural Questions: a Benchmark for Question Answering Research》中,谷歌團隊的研究人員報告了人類在「長答案」和「短答案」兩個QA任務上的最優表現,分別是長答案90% precision, 85% recall;短答案79% precision, 72% recall。

在原始論文中,谷歌測試了DocumentQA和DecAtt + DocReader兩個模型,顯然後者的表現略好,但與人類表現相比差距仍然很大。

在這篇原始論文發布之後,谷歌AI團隊很快發布一篇新論文「A BERT Baseline for the Natural Questions」,描述了Natural Questions數據集的一個新基線模型。

https://arxiv.org/pdf/1901.08634.pdf

該模型基於BERT,並且對於長答案和短答案任務,分別將模型的 F1分數與人類表現之間的差距縮小了30%和50%。該基線模型已經提交給官方NQ挑戰賽排行榜。谷歌計劃在不久的將來開放原始碼。

例如,在撰寫本文時,SQuAD 2.0排行榜上的前17個系統、以及CoQA排行榜上的前5個系統都是基於BERT的模型。基於BERT的問答模型獲得的結果也正在迅速接近這些數據集所報告的人類水平表現(human performance)。

SQuAD 2.0排行榜的前17個模型都是基於BERT的

CoQA排行榜上的前5個系統都基於BERT

我們假設自然問題(NQ)可能比問題回答任務(如SQuAD 2.0和CoQA)更具有挑戰性,因此NQ可能是當前NLP社區關注的一個很好的benchmark。

我們認為NQ比其他問答數據集更具挑戰性的理由如下:

NQ中的問題都是由人類出於真正的好奇心或出於完成某項任務必須的答案而提出的;

提問題的人在提問之前沒有看過可能包含答案的文檔;

需要在上面找答案的文檔比現有問答挑戰任務使用的文檔更長。

在本文中,我們描述了一個用於Natural Questions數據集的基於BERT的模型。BERT在這個數據集上的表現非常好,對於長回答和短回答,該模型分別將原始數據集論文中報告的模型F1分數與人類上限之間的差距分別縮小了30%和50%。但仍有很大的提升空間:長回答任務是22.5 F1 points,短回答任務是23 F1 points。

我們方法中的關鍵見解是:

1. 在單個模型中聯合預測短答案和長答案,而不是使用 pipeline 方法,

2. 通過使用token重疊窗口將每個文檔分割為多個訓練實例,就像在SQuAD任務中的原始BERT模型一樣,

3.在訓練時主動向下採樣空實例(即沒有答案的實例),以創建一個平衡訓練集,

4. 在訓練時使用「[CLS]」標記來預測空實例,並通過span分數和「[CLS]」分數之間的差異來預測空實例。

我們將這個模型稱為,以強調我們是在單個模型中建模短答案和長答案,而不是在兩個模型的pipeline中建模。

接下來的部分,我們將進一步詳細說明如何如何對NQ數據集進行預處理,解釋我們在基於BERT的模型中為使其適應NQ任務而做出的建模選擇,並最終展示這個模型的結果。

模型

在形式上,我們將訓練集實例定義為一個四元組

其中c是512個wordpiece id(包括問題,文檔標記和標記符號)的上下文,

是指向目標答案範圍的開始和結束的包容性索引(inclusive indices),

是帶注釋的答案類型,對應標籤「short」、「long」、「yes」、「no」和「no-answer」。

我們為訓練實例定義模型的損失函數

其中,每一個概率p都是由BERT模型計算得到的分數作為softmax,如下所示:

其中θ表示 BERT模型參數,

分別表示來自BERT最後一層的3個不同輸出。

在推理時,我們對每個文檔的所有上下文進行評分,然後根據評分對所有文檔範圍(s, e)進行排序

然後,返回文檔中得分最高的span,作為預測的短答案範圍。

我們選擇通過總是輸出單個短回答作為預測來限制這個基線模型的複雜性,並根據官方NQ評估腳本設置閾值來決定哪個預測應該改為只有長答案或沒有答案。

我們期望通過將 start/end 和回答類型輸出結合起來,有時預測 yes/no 的答案,而不是總是預測一個span作為短答案,從而進一步改進模型。我們還期望通過擴展模型,使其能夠輸出由多個不相交跨度組成的簡短答案,從而實現額外的改進。

實驗和結果

我們根據在SQuAD 1.1 調優過的BERT模型初始化了我們的模型。然後,在預計算的訓練實例上進一步調優了模型。

我們使用Adam optimizer最小化了上一節中的損失函數L,將batch size變為8。

按照BERT模型的慣例,我們只微調了epoch數和初始學習率,發現1 epoch、初始學習率為0.005是最好的設置。

使用單個Tesla P100 GPU,在NQ開發集和測試集上完成評估大約需要5小時。

模型得到的結果如表1所示。我們為NQ數據集開發的BERT模型比原始NQ論文中的模型性能要好得多。我們的模型縮小了原始基線系統的F1分數與人類表現上限之間的差距,長回答NQ任務的表現差距縮小了30%,短回答NQ任務表現差距縮小了50%。

表1:我們的模型在NQ上的結果與原始數據集論文中的基線模型進行了比較,並與單個人工注釋者和一組人工注釋者的表現進行了比較。原始數據集論文中使用的模型是DocumentQA (Clark and Gardner, 2017), DecAtt (Parikh et al., 2016), 和 Document Reader (Chen et al., 2017).

然而,NQ問題似乎還遠遠沒有解決,對於長回答和短回答任務,都有超過20 F1分數的差距。

結論

我們提出了一個基於BERT的模型,作為新發布的Natural Questions數據集的新基線。

我們希望這個基線模型可以為希望為 Natural Questions和其他具有類似特徵的問答數據集創建更好的模型的研究人員提供一個良好的起點。

論文地址:

https://arxiv.org/pdf/1901.08634.pdf

【加入社群】

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    基於一年前推出的GLUE基準,SuperGLUE包含了一系列更難理解的語言挑戰、改進的資源和公開的排行榜。當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 谷歌開源 BERT 模型原始碼
    BERT 模型以來,BERT 模型以其雙向、深層等特點,成功在 11 項 NLP 任務中取得 state of the art 的結果,贏得自然語言處理學界的一片讚譽之聲。驚鴻一瞥後,人們都在期待谷歌何時會放出 BERT 模型原始碼。直至今日,谷歌終於一鼓作氣發布了包括 BERT 模型 TensorFlow 代碼、BERT-Base 與 BERT-Large 模型的預訓練檢查點、微調實驗結果的自動化復現 TensorFlow 代碼、預訓練數據生成和數據訓練的代碼在內的「BERT 模型大禮包」。
  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌兩家「攻破」
    在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。SuperGLUE相比「前輩」GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。現如今,人類一下子被兩家AI超越。一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。
  • 最強NLP預訓練模型!谷歌BERT橫掃11項NLP任務記錄
    近日,谷歌 AI 的一篇NLP論文引起了社區極大的關注與討論,被認為是 NLP 領域的極大突破。如谷歌大腦研究科學家 Thang Luong Twitter 表示這是 NLP 領域的新時代。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優性能的基於微調的表徵模型,其性能超越許多使用任務特定架構的系統。BERT 刷新了 11 項 NLP 任務的當前最優性能記錄。本論文還報告了 BERT 的模型簡化測試(ablation study),證明該模型的雙向特性是最重要的一項新貢獻。
  • 覆蓋40種語言:谷歌發布多語言、多任務NLP新基準XTREME
    不過現有的大多數 NLP 基準僅限於英文任務,無法評價 NLP 模型在其他語言上的能力。近日,來自 CMU、谷歌研究院和 DeepMind 的科學家們提出了覆蓋四十種語言的大規模多語言多任務基準 XTREME,希望一舉解決這個問題。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試Xtreme
    谷歌今天發布了一個自然語言處理系統基準測試Xtreme,其中包括對12種語言家族和40種語言進行的9項推理任務。這家科技巨頭的研究人員斷言,它能夠評估人工智慧模型是否能夠學習跨語言的知識,這對于越來越多的自然語言應用程式是有用的。
  • 谷歌BERT模型狂破11項紀錄,全面超越人類!
    谷歌AI團隊新發布的BERT模型,在機器閱讀理解頂級水平測試SQuAD1.1中表現出驚人的成績:全部兩個衡量指標上全面超越人類!並且還在11種不同NLP測試中創出最佳成績,包括將GLUE基準推至80.4%(絕對改進7.6%),MultiNLI準確度達到86.7% (絕對改進率5.6%)等。
  • 自然語言理解新突破:微軟谷歌AI模型在這張榜單上超過人類
    為了衡量人工智慧模型的自然語言理解能力,紐約大學、華盛頓大學、Facebook和DeepMind在2019年合作提出一個名為SuperGLUE的人工智慧基準測試。SuperGLUE由2018年GLUE演化而來,其語言理解任務難度更大,包括問答、自然語言推理、指代消解和詞義消歧等等。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    XTREME設計原則正如谷歌論文的標題,XTREME是一個基準,用來評估跨語言遷移學習的好壞,在多樣化和具有代表性的任務和語言上,其選擇構成基準的任務和語言主要考慮的原則包括:任務的難度、任務的多樣性、以及訓練的效率、多語言性、充足的單語數據等等。
  • 三分鐘帶你讀懂 BERT
    -3-minutes-2c2f9968268c由谷歌公司出品的用於自然語言理解的預訓練BERT算法,在許自然語言處理的任務表現上遠遠勝過了其他模型。NSP任務通過預測後一個句子是否應該接在前一句之後,從而使得BERT可以學習句子間的關係。訓練數據採用50%順序正確的句子對加上另外50%隨機選取的句子對。BERT同時訓練MLM和NSP這兩個目標。BERT訓練使用了33億單詞以及25億維基百科和8億文本語料。訓練採用TPU, GPU,大致情況如下.
  • 谷歌提出「T5」 新NLP模型,多基準測試達SOTA
    作者在C4數據集上對T5 模型進行預訓練,讓模型在許多 NLP 基準上都實現了最佳結果,與此同時還擁有足夠的靈活性,進行微調後可應用到多個重要的下遊任務上。創建了T5模型後,作者將所有的 NLP 任務都重新構建為統一的文本到文本格式,輸入和輸出都始終是文本字符串,與只能輸出類標籤或者輸入範圍的 BERT 式的模型截然不同。
  • 谷歌提出XTREME:評估跨語言的大規模多語言多任務基準
    我們提供了代碼和數據,包括運行各種基準的示例,可在 GitHub 上獲得。地址:https://github.com/google-research/xtremeXTREME 中包含的任務涵蓋了一系列範式,包括文檔分類、結構化預測、文獻檢索和問答系統。因此,為了使模型在 XTREME 基準測試上取得成功,它們必須學習泛化到許多標準跨語言遷移設置的表示法。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?AI全方面完勝人類,是時間問題,還是技術問題?話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。
  • BERT之後,GLUE基準升級為SuperGLUE:難度更大
    BERT 等模型的進展已讓 GLUE 基準在新模型的評估方面日漸乏力,為推動 NLP 技術的進一步發展,有必要對 GLUE 指標進行更新。為此,紐約大學、Facebook 人工智慧研究所、華盛頓大學和劍橋大學的多名研究者聯合整理髮布了 SuperGLUE 基準,其中保留了兩項 GLUE 任務,另外又加入了其它五項新任務。相關工具包和數據集將於五月初發布。
  • NLP模型太強,基準測試要跟不上了!FaceBook、DeepMind聯推「新考卷」
    而對於未來的自然語言處理的趨勢,FaceBook 認為,自然語言處理模型在一些任務上已經有了超越人類的表現,但現實應用中卻仍有局限,是時候推出一個新的衡量基準來評估自然語言處理出現的一些新進展。在發布後的一年內,一些 NLP 模型(包括 RoBERTa)已經在 GLUE 基準上超過了人類的基礎能力。目前的模型已經提出了一種非常有效的方法,它將對大量文本數據集的語言模型預訓練與簡單的多任務和遷移學習技術結合了起來。這種快速的發展是大型人工智慧社區互相協作的結果。
  • 官方解讀,谷歌「T5」模型,如何突破遷移學習局限,實現多基準測試SOTA
    過去幾年間,遷移學習給 NLP 領域帶來了豐碩的成果,掀起了新一波的發展浪潮。而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • 谷歌搜索的靈魂!BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!作者 | 子佩編輯 | Panken如果你在谷歌上搜索「如何在沒有馬路的山上停車」,谷歌會告訴你什麼?在搜尋引擎「猜」透人心背後,是谷歌的BERT模型逐漸開始理解人類語言。
  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!在搜尋引擎「猜」透人心背後,是谷歌的BERT模型逐漸開始理解人類語言。今年10月,谷歌在「Search On」活動中介紹了數千項AI領域的新應用,其中就包括BERT模型的新進展:已應用於谷歌上近乎所有的英文查詢,適用範圍也拓展至70多種語言,而去年這個時候,BERT在英文查詢中的使用比例不超過10%。
  • AI大事件 | 機器學習增強人類記憶力,谷歌上線AI速成課
    連結:https://www.theverge.com/tldr/2018/2/28/17062338/ai-agent-atari-q-bert-cracked-bug-cheat?谷歌的人工智慧晶片智能相機現已上市來源:TECHCRUNCH.COM連結:https://techcrunch.com/2018/02/27/googles-ai-powered-clips-smart-camera-is-now-available