用BERT解決表格問答任務,谷歌提出弱監督表格解析器TaPas

2021-01-10 澎湃新聞

選自Google AI Blog

作者:Thomas Müller

機器之心編譯

參與:Panda

BERT 在自然語言上已經取得了非凡的成就。近日,谷歌一篇 ACL 2020 論文又將 BERT 模型應用到了基於表格的問答場景中,為弱監督式的表格解析性能帶來了顯著提升。此外,谷歌開源了相關代碼和預訓練模型。

論文地址:https://arxiv.org/pdf/2004.02349.pdf

代碼和模型:https://github.com/google-research/tapas

世上許多信息都是以表格形式存儲的,這些表格見諸於網絡、資料庫或文件中。它們包括消費產品的技術規格、金融和國家發展統計數據、體育賽事結果等等。目前,要想找到問題的答案,人們仍需以人工方式查找這些表格,或使用能提供特定問題(比如關於體育賽事結果的問題)的答案的服務。如果可通過自然語言來查詢這些信息,那麼取用這些信息會容易很多。

舉個例子,下圖展示了一個表格,並給出了一些人們想問的問題。這些問題的答案可在該表格的一個或多個單元格中找到(哪位摔跤運動員奪冠次數最多?),或需要聚合多個單元格的信息才能得到(僅奪冠一次的世界冠軍有多少人?)。

表格,以及問題和預期答案。有的答案通過選擇即可得到(如問題 1 和問題 4),有的答案則需要計算(問題 2 和問題 3)。

針對這一問題,近來的很多方法採用了傳統的語義解析方案,即將自然語言問題轉譯成一個類 SQL 的資料庫查詢,其在資料庫上執行後可提供答案。例如,「僅奪冠一次的世界冠軍有多少人?」這個問題會被映射到這樣一個查詢:select count(*) where column("No. of reigns") == 1,執行該查詢後即可得到答案。為了得到句法和語義上有效的查詢,這種方法所需的工程量大,而且僅適用於與特定表格(如體育賽事結果)有關的問題,難以擴展應用於任意問題。

谷歌在一篇 ACL 2020 論文中提出了一種不同的方法。這篇論文題為《TaPas:通過預訓練實現弱監督式表格解析(TaPas: Weakly Supervised Table Parsing via Pre-training)》,提出了一種擴展型的 BERT 架構。該架構可對問題與表格數據結構進行聯合編碼,最終得到的模型可直接指向問題答案。並且,這種新方法所創建的模型適用於多個領域的表格。

要想得到優良的模型,優質的數據自然是不可或缺的。谷歌首先使用了數百萬個維基百科表格對模型進行預訓練,然後又在三個學術級表格問答數據集上進行實驗,結果表明新方法的準確度表現極具競爭力。不僅如此,谷歌開源了模型訓練和測試代碼,還公開分享了他們在維基百科數據上得到的預訓練模型。

如何處理問題?

對於「兩位頂級摔跤運動員的冠軍賽平均時間是多少?」這樣的問題,谷歌新方法的編碼方式是一種基於擴展型 BERT 模型的聯合編碼方法。這種擴展型 BERT 模型使用特定的嵌入來編碼表格結構,並且能在逐行編碼表格內容的同時聯合編碼問題。

對於基於 transformer 的 BERT 模型,谷歌提出的核心擴展思路是新增了用於編碼結構化輸入的額外嵌入。這依賴於為列索引、行索引和一個特別的排序索引(表示數值列中元素的順序)所學習的嵌入。下圖展示了這些嵌入聚合成輸入的方式以及饋送入 transformer 網絡層的方式。

下圖展示了編碼問題的方式,並在左邊給出了一張小表格。每個單元格 token 都有一個指示其行、列和在列中的數值排序的特殊嵌入。

BERT 層輸入:每個輸入 token 都被表示成其詞、絕對位置、句段(無論是屬於問題還是表)、列和行以及數值排序的嵌入之和。

該模型有兩個輸出:1)一個分數,用於表示每個表格單元格的內容屬於答案一部分的概率;2)一個聚合操作,用於表示是否應用操作以及應用哪些操作來將各個單元格的內容聚合成最終答案。下圖展示了對於問題「兩位頂級摔跤運動員的冠軍賽平均時間是多少?」,該模型有較高的概率選擇 Combined days 列的前兩個單元格以及使用 AVERAGE 操作。

模型示意圖:BERT 層同時編碼問題和表格。該模型會輸出每個聚合操作的概率以及每個表格單元格的選擇概率。對於問題「兩位頂級摔跤運動員的冠軍賽平均時間是多少?」,該模型以較高的概率選擇了 AVERAGE 操作以及數值為 3749 和 3103 的兩個單元格。

預訓練

谷歌採用的預訓練過程類似於 BERT 在文本上的訓練方法,其訓練數據是從英語維基百科提取的 620 萬組表格 - 文本數據對。在預訓練過程中,模型的學習目標是恢復表格和文本中被掩碼替換的詞。通過實驗發現,該模型在這項任務上的準確度相對較高——對於訓練過程中未曾見過的表格,該模型能夠正確恢復 71.4% 的被掩蓋 token。

僅從答案學習

在微調過程中,模型的目標是學習如何基於表格回答問題。這可以通過強監督方法實現,也可使用弱監督方法。如果使用強監督方法,則對於給定表格和問題,必須先提供所要選擇的單元格和聚合操作(比如求和或計數),但這個過程非常耗時耗力。因此更常見的情況是使用弱監督方法進行訓練,此時僅需提供正確答案即可(比如對於以上示例,正確答案是 3426)。

在弱監督情況下,模型需要自己嘗試尋找能得到接近正確答案的聚合操作和單元格。這個過程需要在所有可能的聚合決策上計算期望,並將其與真實結果進行比較。弱監督方法更加有利,因為它讓非專家也能提供訓練模型所需的數據,而且消耗的時間也比強監督方法少。

結果

谷歌在 SQA、WikiTableQuestions (WTQ) 和 WikiSQL 這三個數據集上進行了實驗驗證,並對比了在解析表格數據任務中表現最佳的三種其它方法。其中,在 WikiSQL 上對比的模型為 Min et al (2019),在 WTQ 上對比的模型為 Wang et al. (2019),在 SQA 上對比的模型為 Mueller et al., (2019)(這是谷歌這個團隊自己之前的一項研究)。

對於所有數據集,報告的結果都是弱監督訓練設置下在測試集上的答案準確度。對於 SQA 和 WikiSQL,谷歌使用了基於維基百科數據得到的預訓練模型作為基礎模型;而對於 WTQ,他們發現在 SQA 數據上再進行預訓練會更有利。谷歌新方法的表現優於之前最佳水平——在 SQA 上超過之前最佳方法 12 個百分點,在 WTQ 上超過之前最佳方法 4 個百分點,在 WikiSQL 上與之前最佳方法表現相近。

弱監督設置下,模型在三個學術級表格問答數據集上的測試答案準確度。

原文連結:https://ai.googleblog.com/2020/04/using-neural-networks-to-find-answers.html

世界人工智慧大會線上活動(WAIC)是由上海市政府打造的國際頂級人工智慧會議。為進一步促進人工智慧技術與產業相融合,推動開發者技術生態建設,WAIC 2020年黑客馬拉松將於7月9日-11日期間舉辦。

機器之心聯合優必選科技與軟銀機器人公布兩大賽題,邀請全球開發者來戰。更多精彩賽題將於近期公布,歡迎關注。

原標題:《ACL 2020 | 用BERT解決表格問答任務,谷歌提出弱監督表格解析器TaPas》

閱讀原文

相關焦點

  • 用BERT解決表格問答任務,谷歌提出弱監督表格解析器TaPas
    近日,谷歌一篇 ACL 2020 論文又將 BERT 模型應用到了基於表格的問答場景中,為弱監督式的表格解析性能帶來了顯著提升。此外,谷歌開源了相關代碼和預訓練模型。這樣的問題,谷歌新方法的編碼方式是一種基於擴展型 BERT 模型的聯合編碼方法。這種擴展型 BERT 模型使用特定的嵌入來編碼表格結構,並且能在逐行編碼表格內容的同時聯合編碼問題。對於基於 transformer 的 BERT 模型,谷歌提出的核心擴展思路是新增了用於編碼結構化輸入的額外嵌入。
  • ACL2020|用BERT解決表格問答任務,谷歌提出弱監督表格解析器TaPas
    用 R2 值、MSE 還是 MAE?如何提升模型的預測能力?是否使用正則化回歸模型(regularized regression model)?回歸係數是多少?截距是多少(intercept)?很明顯,如果沒有良好的數學背景,你將無法解決上述問題。因此,在數據科學和機器學習中,數學技能和編程技能一樣重要,這很關鍵。作為一個數據科學的推崇者,投入時間來學習數據科學和機器學習中的理論基礎和數學基礎很有必要。毫不誇張地說,你所構建的可靠有效模型能否用於解決現實世界的問題,這也將取決於你的數學技能有多好。
  • 7 Papers|GCN大佬公開博士論文;谷歌提出擴展型BERT架構
    基於此,研究者提出了 Synthesizer,這是一個無需 token-token 交互即可學習合成注意力權重的模型。本研究提出的 Synthesizer 模型架構圖。在 WMT』14 英語 - 德語、WMT』14 英語 - 法語機器翻譯任務以及 10 億語言建模(LM1B)任務上的 NMT 和 LM 效果對比。
  • 谷歌Google表格的新功能已正式發布
    對於那些不願意使用像Microsoft Excel的之類的付費軟體的用戶,谷歌表格實際上是一個更好的選擇,當然在部分功能上Microsoft Excel要更好,谷歌表格的功能並沒有Microsoft Excel那麼強大,但在大部分情況下谷歌表格也可以完成大部分任務,對於大部分不希望為高級功能付款的用戶來說或許正好
  • 表格爆改大師的福音?谷歌發布新效率工具Tables
    Tables就是這樣,它的實現方式顧名思義就是表格。至於自動化,則是在表格的基礎上,用機器人來自動化一些重複性的工作。回到表格的概念,如果表格做出花了,做出來的東西也就跟一個應用差不多了。這也是AirTable主打的APaaS概念——應用程式平臺即服務。
  • 谷歌在電子表格中使用AI實現辦公室工作自動化
    想將枯燥的數據變為炫酷的表格?只需提出要求,谷歌算法負責如你所願。谷歌為虛擬助理製作的商業廣告顯示,人們可以要求它播放舞蹈音樂或視頻,也可以設置計時器。相對而言,谷歌為在線電子表格開發的提問新功能可能沒那麼華麗,但或許會成為一項開端,對一些公司的運作產生巨大影響。
  • 表格爆改大師的福音?谷歌發布新效率工具Tables-虎嗅網
    Tables就是這樣,它的實現方式顧名思義就是表格。至於自動化,則是在表格的基礎上,用機器人來自動化一些重複性的工作。回到表格的概念,如果表格做出花了,做出來的東西也就跟一個應用差不多了。這也是AirTable主打的APaaS概念——應用程式平臺即服務。
  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜索結果的相關性。BERT 模型中創新性的 架構是一大亮點。
  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜索結果的相關性。BERT 模型中創新性的 架構是一大亮點。
  • excel表格內容錯亂怎麼辦? Excel表格內容錯亂的解決方法
    excel表格內容錯亂怎麼辦? Excel表格內容錯亂的解決方法時間:2017-07-23 15:54   來源:三聯   責任編輯:沫朵 川北在線核心提示:原標題:excel表格內容錯亂怎麼辦? Excel表格內容錯亂的解決方法 excel表格內容錯亂如何處理?
  • 碼雲Markdown 解析器更換為 CommonMark 解析器
    之前碼雲的解析器基於用戶的反饋做了很多定製化的修改,但是隨著使用碼雲的用戶越來越多,以及越來越多的Github用戶往碼雲上遷移,
  • 谷歌提供申請表格首日:1.2萬人要求刪除搜索結果
    在谷歌提供申請表格供人們作出這種請求後,歐洲居民的需求強烈。首日,谷歌就在歐洲收到了逾1.2萬份要求刪除相關搜索結果的申請,每分鐘平均有20份申請。在歐洲最高法院作出裁決之後,谷歌提供申請表格之前,僅有幾千人要求刪除和自己有關的搜索結果。雅虎也在周五表示,公司正在為歐洲用戶制定解決方案,以平衡用戶的隱私和表達權。
  • 谷歌發布新站點 不登陸可進行文檔處理表格繪畫
    谷歌發布新站點 不登陸可進行文檔處理表格繪畫 ,可幫助用戶在不登陸谷歌帳戶的情況下體驗完整的文檔處理功能、表格和繪畫工具。
  • 智能表格用過嗎?用它能夠快速美化表格,製作動態土圖表
    可能很多人對這個名字十分的陌生,但是我們卻經常用到它,最常見的就是用它來一鍵美化表格,如下圖,我們點擊數據直接按Ctrl+T,然後點擊確定,即可快速套用表格格式當然他的作用不僅限於這些,我們還可以用它製作動態圖表以及動態數據透視表、匯總數據等功能,下面就跟我我一起來認識下智能表格吧!
  • 美國1040表格和W-2表格的介紹,以及如何準備這兩種材料
    謝謝土豪昨天這篇文章忘記設置為原創了,所以今天設好後再發一次。在之前的文章美國未婚妻籤證K1問答中有一個面籤清單圖片,裡面提到了需要準備w2表格和1040表格。這兩種表格是需要美國申請人準備的,所以我根本沒在意這些材料,老公全程搞定他經濟方面的材料。但是有很多人問這是什麼意思,什麼表格。那麼今天就來寫一下。
  • 記錄和管理工作計劃,用 SeaTable 表格更簡單
    我們就屬於這種類型,行政部在做各個月度工作規劃時,一般是在會議上口頭分配任務,或者用Excel、Word進行記錄和傳達,這些方式雖然也能推動工作進行,但越來越多的行政工作事項,無法有效記錄到一起,更缺乏協同。那麼,如何用更低門檻和更簡單的工具,來對工作事項進行記錄和協同管理呢?
  • 在Word中編輯表格時表格不夠用了怎麼辦
    教大家如何在Word中編輯表格時表格不夠用了該怎麼辦,下面用兩種方法去解決,希望能幫到大家方法一:打開需要編輯的Word表格文檔方法 二:打開需要編輯的Word表格文檔方法一:點擊表格最下邊邊框十字圖標添加
  • 谷歌為Sheets增加智能填表功能 可自動填充簡單表格欄位
    谷歌Sheets標準版現在已經增加了一個實用的功能:智能填表(Smart Autofill Add-on),能夠為Sheets的
  • 谷歌為Sheets增加智能填表功能 可自動填充簡單表格欄位
    谷歌Sheets標準版現在已經增加了一個實用的功能:智能填表(Smart Autofill Add-on),能夠為Sheets的
  • NIPS 2018 | MIT等提出NS-VQA:結合深度學習與符號推理的視覺問答
    Tenenbaum機器之心編譯參與:panda視覺問答是人工智慧領域的一大重要研究問題,可幫助開發能遵照人類口語指令執行任務的程序或機器人等應用MIT、哈佛等機構合作的一項研究提出了一種神經符號視覺問答(NS-VQA)系統,將深度表徵學習與符號程序執行結合到了一起。該研究的論文已被 NIPS 2018 接收。