新智元報導
來源:Google AI
編輯:肖琴
【新智元導讀】谷歌為最近發布的自然問題數據集開發了一個新的基於BERT的新模型,刷新了AI在這個任務上的表現。對於長答案和短答案任務,分別將AI系統與人類表現之間的差距縮小了30%和50%。
上周,
谷歌AI團隊發布了一個新的NLP基準數據集
:自然問題數據集(Natural Questions)。
NQ數據集包含30萬個來自真實用戶的問題及來自Wikipedia頁面的人工注釋答案,用於訓練QA系統。
此外,NQ語料庫還包含16000個示例,每個示例都由5位不同的注釋人提供答案(針對相同的問題),這對於評估所學習的QA系統的性能非常有用。
谷歌還發起了一項基於此數據集的挑戰賽,以幫助提高計算機對自然語言的理解。任務要求QA系統閱讀和理解整個Wikipedia文章,其中可能包含問題的答案,也可能不包含,因此NQ比以前的QA數據集更具有現實性和挑戰性。
在該數據集的原始論文《Natural Questions: a Benchmark for Question Answering Research》中,谷歌團隊的研究人員報告了人類在「長答案」和「短答案」兩個QA任務上的最優表現,分別是長答案90% precision, 85% recall;短答案79% precision, 72% recall。
在原始論文中,谷歌測試了DocumentQA和DecAtt + DocReader兩個模型,顯然後者的表現略好,但與人類表現相比差距仍然很大。
在這篇原始論文發布之後,谷歌AI團隊很快發布一篇新論文「A BERT Baseline for the Natural Questions」,描述了Natural Questions數據集的一個新基線模型。
https://arxiv.org/pdf/1901.08634.pdf
該模型基於BERT,並且對於長答案和短答案任務,分別將模型的 F1分數與人類表現之間的差距縮小了30%和50%。該基線模型已經提交給官方NQ挑戰賽排行榜。谷歌計劃在不久的將來開放原始碼。
例如,在撰寫本文時,SQuAD 2.0排行榜上的前17個系統、以及CoQA排行榜上的前5個系統都是基於BERT的模型。基於BERT的問答模型獲得的結果也正在迅速接近這些數據集所報告的人類水平表現(human performance)。
SQuAD 2.0排行榜的前17個模型都是基於BERT的
CoQA排行榜上的前5個系統都基於BERT
我們假設自然問題(NQ)可能比問題回答任務(如SQuAD 2.0和CoQA)更具有挑戰性,因此NQ可能是當前NLP社區關注的一個很好的benchmark。
我們認為NQ比其他問答數據集更具挑戰性的理由如下:
NQ中的問題都是由人類出於真正的好奇心或出於完成某項任務必須的答案而提出的;
提問題的人在提問之前沒有看過可能包含答案的文檔;
需要在上面找答案的文檔比現有問答挑戰任務使用的文檔更長。
在本文中,我們描述了一個用於Natural Questions數據集的基於BERT的模型。BERT在這個數據集上的表現非常好,對於長回答和短回答,該模型分別將原始數據集論文中報告的模型F1分數與人類上限之間的差距分別縮小了30%和50%。但仍有很大的提升空間:長回答任務是22.5 F1 points,短回答任務是23 F1 points。
我們方法中的關鍵見解是:
1. 在單個模型中聯合預測短答案和長答案,而不是使用 pipeline 方法,
2. 通過使用token重疊窗口將每個文檔分割為多個訓練實例,就像在SQuAD任務中的原始BERT模型一樣,
3.在訓練時主動向下採樣空實例(即沒有答案的實例),以創建一個平衡訓練集,
4. 在訓練時使用「[CLS]」標記來預測空實例,並通過span分數和「[CLS]」分數之間的差異來預測空實例。
我們將這個模型稱為,以強調我們是在單個模型中建模短答案和長答案,而不是在兩個模型的pipeline中建模。
接下來的部分,我們將進一步詳細說明如何如何對NQ數據集進行預處理,解釋我們在基於BERT的模型中為使其適應NQ任務而做出的建模選擇,並最終展示這個模型的結果。
模型
在形式上,我們將訓練集實例定義為一個四元組
其中c是512個wordpiece id(包括問題,文檔標記和標記符號)的上下文,
是指向目標答案範圍的開始和結束的包容性索引(inclusive indices),
是帶注釋的答案類型,對應標籤「short」、「long」、「yes」、「no」和「no-answer」。
我們為訓練實例定義模型的損失函數
其中,每一個概率p都是由BERT模型計算得到的分數作為softmax,如下所示:
其中θ表示 BERT模型參數,
分別表示來自BERT最後一層的3個不同輸出。
在推理時,我們對每個文檔的所有上下文進行評分,然後根據評分對所有文檔範圍(s, e)進行排序
然後,返回文檔中得分最高的span,作為預測的短答案範圍。
我們選擇通過總是輸出單個短回答作為預測來限制這個基線模型的複雜性,並根據官方NQ評估腳本設置閾值來決定哪個預測應該改為只有長答案或沒有答案。
我們期望通過將 start/end 和回答類型輸出結合起來,有時預測 yes/no 的答案,而不是總是預測一個span作為短答案,從而進一步改進模型。我們還期望通過擴展模型,使其能夠輸出由多個不相交跨度組成的簡短答案,從而實現額外的改進。
實驗和結果
我們根據在SQuAD 1.1 調優過的BERT模型初始化了我們的模型。然後,在預計算的訓練實例上進一步調優了模型。
我們使用Adam optimizer最小化了上一節中的損失函數L,將batch size變為8。
按照BERT模型的慣例,我們只微調了epoch數和初始學習率,發現1 epoch、初始學習率為0.005是最好的設置。
使用單個Tesla P100 GPU,在NQ開發集和測試集上完成評估大約需要5小時。
模型得到的結果如表1所示。我們為NQ數據集開發的BERT模型比原始NQ論文中的模型性能要好得多。我們的模型縮小了原始基線系統的F1分數與人類表現上限之間的差距,長回答NQ任務的表現差距縮小了30%,短回答NQ任務表現差距縮小了50%。
表1:我們的模型在NQ上的結果與原始數據集論文中的基線模型進行了比較,並與單個人工注釋者和一組人工注釋者的表現進行了比較。原始數據集論文中使用的模型是DocumentQA (Clark and Gardner, 2017), DecAtt (Parikh et al., 2016), 和 Document Reader (Chen et al., 2017).
然而,NQ問題似乎還遠遠沒有解決,對於長回答和短回答任務,都有超過20 F1分數的差距。
結論
我們提出了一個基於BERT的模型,作為新發布的Natural Questions數據集的新基線。
我們希望這個基線模型可以為希望為 Natural Questions和其他具有類似特徵的問答數據集創建更好的模型的研究人員提供一個良好的起點。
論文地址:
https://arxiv.org/pdf/1901.08634.pdf
【加入社群】
新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。