李航等提出多粒度AMBERT模型,中文提升顯著

2021-01-11 機器之心Pro

選自arXiv

作者:Xinsong Zhang、李航

機器之心編譯

編輯:杜偉、小舟

自谷歌 BERT 模型問世以來,各式各樣的 BERT 變體模型在自然語言理解任務上大顯身手。近日,字節跳動 AI 實驗室李航等研究者提出了一種新型多粒度 BERT 模型,該模型在 CLUE 和 GLUE 任務上的性能超過了谷歌 BERT、Albert、XLNet 等。

BERT 等預訓練語言模型在自然語言理解(Natural Language Understanding, NLU)的許多任務中均表現出了卓越的性能。

可以看到,模型中的 token 通常是細粒度的,對於像英語這樣的語言,token 是單詞或子詞;對於像中文這樣的語言,則是單個漢字。例如在英語中有多個單詞表達式構成的自然詞彙單元,因此使用粗粒度標記化(tokenization)似乎也是合理的。實際上,細粒度和粗粒度標記化對於學習預訓練語言模型都各有利弊。

近日,字節跳動 Xinsong Zhang、李航兩位研究者在細粒度和粗粒度標記化的基礎上,提出了一種新的預訓練語言模型,他們稱之為 AMBERT(一種多粒度 BERT)。在構成上,AMBERT 具有兩個編碼器。

對於英文,AMBERT 將單詞序列(細粒度標記)和短語序列(粗粒度標記)作為標記化後的輸入,其中使用一個編碼器處理單詞序列,另一個編碼器處理短語序列,並利用兩個編碼器之間的共享參數,最終分別創建單詞和短語的上下文表示序列。

論文連結:https://arxiv.org/pdf/2008.11869.pdf

研究團隊已經在一些中文和英文的基準數據集(包括 CLUE、GLUE、SQuAD 和 RACE)上進行了實驗。實驗結果表明,AMBERT 的性能幾乎在所有情況下都優於現有的最佳性能模型。尤其是對於中文而言,AMBERT的提升效果顯著。

我們首先看一下中英文任務中細、粗粒度模型層的注意力圖。

下圖 1 顯示了適用於中英文句子的細粒度模型的首層注意力圖。可以看到,某些 token 不恰當地出現在句子的其他 token 上。

例如在英文句子中,「drawing」、「new」和「dog」分別對「portrait」、「york」和「food」這幾個詞有高注意力權重,但這是不合適的。而在中文句子中,漢字「拍」、「北」和「長」分別對「賣」「京」「市」有高注意力權重,這也是不合適的。

下圖 2 顯示了中英文相同句子粗粒度模型的首層注意力圖。

在英文句子中,單詞組成的短語包括「drawing room」、「york minister」和「dog food」,前兩個句子中的注意力是恰當的,但最後一個句子則因為不正確的標記化而出現了不恰當的注意力。類似地,在中文句子中,高注意力權重的「球拍(bat)」和「京城(capital)」都是合理的,但「市長(mayor)」不合理。但請注意:錯誤的標記化是不可避免的。

接下來詳細解讀 AMBERT 模型的細節和實驗結果。

AMBERT 模型

研究者在下圖 3 中給出了 AMBERT 的整體框架。AMBERT 以文本作為輸入,其中,文本要麼是單個文檔中的長序列,要麼是兩個不同文檔中兩個短序列的級聯。接著在輸入文本上進行標記化,以獲得細、粗粒度的 token 序列。

AMBERT 模型整體框架

具體來說,AMBERT 具有兩個編碼器,分別用於處理細、粗粒度 token 序列。每個編碼器具有與 BERT(Devlin 等人,2018)或 Transformer 編碼器(Vaswani 等人,2017)完全相同的架構。

此外,兩個編碼器在每個對應層共享相同的參數,但兩者的嵌入參數不同。細粒度編碼器在對應層上從細粒度 token 序列中生成上下文表示,而粗粒度編碼器在對應層上從粗粒度 token 序列中生成上下文表示。

最後,AMBERT 分別輸出細、粗粒度 token 的上下文表示序列。

預訓練

AMBERT 的預訓練主要基於掩碼語言建模(mask language modeling, MLM)進行,並從細、粗粒度兩個層面展開。出於比較的目的,研究者在實驗中只使用了預測下一個句子(next sentence prediction, NSP)。

預訓練過程被定義為以下函數的優化:

微調

在分類任務上的 AMBERT 微調中,細、粗粒度編碼器分別創建特定的 [CLS] 表示,並且這些表示都用於分類任務。微調過程被定義為以下函數的優化:

類似地,我們可以對跨度檢測(span detection)任務上的 AMBERT 進行微調,其中細粒度 token 的表示與對應粗粒度 token 的表示實現了級聯。

替代模型

研究者還提出了 AMBERT 的兩種替代模型 AMBERT-Combo 和 AMBERT-Hybrid,它們也依賴於多粒度的標記化。研究者在實驗部分也將三者進行了比較。

實驗

在實驗部分,研究者分別在中英文基準數據集上,將 AMBERT 與細、粗粒度 BERT 基線以及 AMBERT-Combo 和 AMBERT-Hybrid 替代模型進行了比較。

中文任務

下表 1 展示了分類任務的結果。可以看到,AMBERT 將 BERT 基線方法的平均得分提升了約 1.0%,並且其性能優於 AMBERT-Combo 和 AMBERT-Hybrid 替代模型。

下表 2 展示了機器閱讀理解(Machine Reading Comprehensive, MRC)任務上的結果。可以看到,AMBERT 將 BERT 基線的平均得分提升了約 3.0%。

此外,研究者還在 CLUE 排行榜上將 AMBERT 與當前最優模型進行了比較,結果如下表所示:

英文任務

研究者在 GLUE 任務上將 AMBERT 與 BERT 模型以及 AMBERT-Combo、AMBERT-Hybrid 替代模型進行了比較。Google BERT 的結果出自原論文,Our BERT 的結果由研究者獲得。

如下表 4 所示,AMBERT 在大多數任務上的性能優於其他模型,並且 AMBERT 等多粒度模型能夠取得優於單粒度模型的結果。在多粒度模型中,AMBERT 在參數和計算量更少的情況下依然實現了最佳性能。

研究者在 SQuAD 任務上將 AMBERT 與其他 BERT 模型進行了比較。Google BERT 結果出自原論文或者由研究者使用官方代碼運行獲得。

如下表 5 所示,AMBERT 在 SQuAD 任務上顯著優於 Google BERT。Our BERT (word)通常表現良好,Our BERT (phrase)在跨度檢測任務上表現糟糕。

此外,在RACE任務上,AMBERT在所有開發集和測試集的基線中表現最好。

AMBERT是最佳的多粒度模型。

最後,研究者在 GLUE 和 MRC 任務上將 AMBERT 與 SOTA 模型進行了比較,結果如下表 6 所示:

案例研究

研究者對 BERT 和 AMBERT 的結果進行了定性研究,結果如下表 7 所示,研究者給出了蘊含任務 QNLI 和 CMNLI 的一些隨機示例。其中數值「0」表示有蘊含關係,數值「1」表示無蘊含關係。WORD/PHRASE 表示 Our BERT 的詞或者短語。

相關焦點

  • KDD 2018:滴滴提出WDR模型顯著提升ETA預測精度
    四篇論文分別是(文末附論文打包下載地址)Kaixiang Lin (Michigan State University); Renyu Zhao (AI Labs, Didi Chuxing); Zhe Xu (AI Labs, Didi Chuxing); Jiayu Zhou (Michigan State University)Yaguang Li (
  • 李航《統計學習方法》第二版上線,6 年耕耘增加無監督學習
    此前,李航老師完成的《統計學習方法》是了解機器學習最好的教材之一,該書從 2005 年開始寫作一直到 2012 年完成,包含了眾多主要的監督學習算法與模型。最近,《統計學習方法》第二版正式發布,通過 6 年時間的努力,在第一版的基礎上又增加了無監督學習的主要算法與模型。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    DoNews7月13日消息(記者 翟繼茹)13日,記者從創新工場獲悉,其最新提出了中文分詞和詞性標註模型,可將外部知識(信息)融入分詞及詞性標註模型,剔除了分詞「噪音」誤導,提升了分詞及詞性標註效果。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    基於此,創新工場近日公布的兩篇論文各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • KDD 2019 | 自動探索特徵組合,第四範式提出新方法AutoCross
    特徵組合是提高模型效果的重要手段,但依靠專家手動探索和試錯成本過高且過於繁瑣。於是,第四範式提出了一種新型特徵組合方法 AutoCross,該方法可在實際應用中自動實現表數據的特徵組合,提高機器學習算法的預測能力,並提升效率和有效性。目前,該論文已被數據挖掘領域頂會 KDD 2019 接收。
  • ...計算機科學、神經科學,看中國中文信息學會2017學術年會如何...
    對於為什麼要提出PMJ模型,她表示,「認知即計算」已成為認知科學的主流觀念,計算機科學不僅關注數值計算,更重視解決現實世界的問題 ,人類作為智能生物對複雜環境信息的高效加工方式,值得計算機科學借鑑。她進一步闡述了什麼是認知計算,「認知計算是以人為中心的計算,要解決計算問題,更要解決認知問題,要利用認知神經科學成果對計算模型提出生物學意義的具體約束,要利用腦功能連接組學成果對大腦神經網絡進行建模和仿真。」那麼PMJ模型的核心思想是什麼呢?
  • 今日頭條人工智慧實驗室主任李航:如何構建擁有長期記憶的智能問答...
    關於大會第一天的內容,雷鋒網 AI 科技評論之前有詳細報導,具體信息請參見橫跨心理學、計算機科學、神經科學,看中國中文信息學會 2017 學術年會如何引起多個領域大碰撞在此次會議上,作為最後一位特邀報告嘉賓,李航研究員帶來了主題為《人工智慧的未來—記憶、知識與語言》的分享,他此次的分享主要圍繞智能問答系統展開,為大家分析了 NLP 所面臨的三大挑戰、目前值得借鑑的應對方法以及對智能問答系統的展望
  • Psychological Review | 心理所構建中文閱讀的認知計算模型
    對中文閱讀的認知機理進行研究,並使其更好地為中文閱讀者服務,具有重要的理論與實際意義。與英文等拼音文字相比,中文具有很多鮮明的特點。其中一個顯著特點是中文文本在詞和詞之間沒有空格,這使得現有的閱讀模型面對中文時都無能為力。
  • 依據仿真模型提出一種提升EUV收集鏡反射率的方法
    ;利用磁控濺射鍍膜機在不同基底傾角下製備了Mo/Si多層膜樣品,驗證了模型的準確性;並通過建立的模型提出了一種提升EUV收集鏡反射率的鍍膜方法。因此,如何提升極紫外光刻收集鏡多層膜的反射率一直是極紫外光刻光源的重要研究目標。在過去的研究中,研究人員往往通過不斷地進行實驗來提高收集鏡的反射率。這種依靠經驗優化鍍膜工藝的過程猶如大海撈針,限制了極紫外光刻收集鏡反射率的進一步提升。圖1.
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    另外,在詞性標註方面,TwASP模型同樣刷新了成績。中文分詞的SOTA中文分詞目的是在中文的字序列中插入分隔符,將其切分為詞。例如,「我喜歡音樂」將被切分為「我/喜歡/音樂」(「/」表示分隔符)。對此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網絡的中文分詞模型。
  • 李航:人工智慧的未來 ——記憶、知識、語言
    雷鋒網 AI 科技評論按:本文作者李航,首發於《中國計算機學會通信》2018 年第 3 期,AI 科技評論獲其授權轉載。該文未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。如需轉載,請通過向 CCFvoice 公眾號後臺申請並獲得授權。
  • 華為李航:中國計算機科學界如何提高科研創新力,從國家、機構...
    本文作者華為諾亞方舟實驗室主任李航提出關於創造力的三個問題,他認為對於一個研究機構來說,重要的是要找到最優秀的人才,提供良好的環境;把科研成果轉化為核心競爭力才是關鍵;應該有爭做 Only One 而不是 No. One 的意識。   華為技術有限公司諾亞方舟實驗室主任李航,北京大學、南京大學客座教授,ACM傑出科學家。
  • 削弱顯著特徵為細粒度分類帶來提升|AAAI 2020
    來優化訓練過程,模型在ResNet-50上提升3.2%,算法思路巧妙,結構易移植且效果也不錯,值得學習。簡介在FGVC(fine-grained visual categorization)上,一般的深度學習模型都是通過學習輸入圖片到輸出標籤的映射,這樣會導致模型傾向於專注少部分顯著區域來同時區分模糊的種群內(inter-class)相似性和種群間(intra-class)的變化。
  • CVPR 2019:北郵提出新AI模型壓縮算法,顯著降低計算複雜度
    ,保持模型的識別精度無損的前提下,顯著降低模型的計算複雜度,本文帶來技術解讀。人工智慧在眾多計算機視覺領域都取得了很大的成功,然而深度學習(Deep Learning)因其計算複雜度或參數冗餘,在一些場景和設備上限制了相應的模型部署,需要藉助模型壓縮、優化加速、異構計算等方法突破瓶頸。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    機器之心報導參與:一鳴昨日,機器之心報導了 CMU 全新模型 XLNet 在 20 項任務上碾壓 BERT 的研究,引起了極大的關注。而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。
  • 基於seq2seq模型的中文糾錯任務
    深度學習近來在自然語言處理領域獲得了 廣泛運用,seq2seq 模型在諸多自然語言處理任務,如詞性標註、語義依存分析、 機器翻譯等,均取得了顯著的成績。本文首先對中文糾錯任務進行詳細的梳理, 包括錯誤的來源、目前的處理方法、相關的公開競賽、數據源等;第二,由於缺 少大規模公開的數據集,本文涉及顯示人工構造大規模糾錯數據集的算法;第三, 本文將深度學子中的 seq2seq 模型引入,處理中文糾錯任務,在基本的模型基礎 上引入 attention 機制(包括諸多變種)以及多任務學習的理念,嘗試多種組合, 並最終在構造數據集上 GLEU 評分達到了 0.75
  • 資產配置與基金推薦周報:全球股指相關性顯著提升 黃金提供顯著負...
    為此,我們觀察滬深300、中證500、標普500、恒生指數、英國富時100、法國CAC40、德國DAX、日經225、澳大利亞標普200共9個股指當前和17年底的相關係數情況進行對比(相關係數採用6個月日收益率Pearson相關係數),並附上黃金與各股指的相關性:   從矩陣熱力圖中,我們可以明顯感受到紅色部分加深,即全球股指相關性顯著提升,而黃金提供了顯著的負相關性。
  • 上海交大團隊提出基於信號通路的肝癌風險預測模型
    該研究基於發現的13個與肝癌生存顯著相關的信號通路並構建了肝癌風險預測模型,在異質性(heterogeneity)較高的肝癌的多個數據集中取得了較高的預測精度,並且與新近發表的基於深度學習框架的預測模型進行了多方面的比較,表明了基於信號通路水平特徵的模型在預測腫瘤風險方面的優勢。博士生法博濤為論文第一作者,俞章盛教授為通訊作者。
  • 超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...
    港中文團隊提出的 SN(Switchable Normalization)解決了 BN 的不足。SN 在 ImageNet 大規模圖像識別數據集和 Microsoft COCO 大規模物體檢測數據集的準確率,還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN(Group Normalization)。原論文請參考 arXiv:1806.10779 和代碼 Github。
  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。為此,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS,在序列到序列的自然語言生成任務中全面超越BERT和GPT。