谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣

2020-12-15 量子位

蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI

最新消息,谷歌推出了NLP系列「芝麻街」的新成員Big Bird

這個在外界眼中看起來有點可愛的動漫小鳥,搖身一變,解決了BERT模型中的全注意力機制帶來的序列長度二次依賴限制,可以兼顧更長的上下文。

△ 「芝麻街」中的Big Bird

眾所周知,谷歌開發的BERT,曾經被稱為「地表最強」NLP模型。

而BERT,則與美國知名動畫片「芝麻街」(Sesame Street)裡的虛擬人物同名。

此前,谷歌的「芝麻街」系列已經有5個成員(論文連結見傳送門),現在Big Bird的到來,意味著谷歌在NLP的研究上更進一步。

△ 少了一位ELMo

來看看Big Bird實現了什麼。

突破全注意力機制的局限

在NLP模塊表現最好的幾種深度學習模型,例如BERT,都是基於Transformer作為特徵抽取器的模型,但這種模型有它的局限性,核心之一就是全注意力機制

這種機制會帶來序列長度二次依賴限制,主要表現在存儲方面。

為了解決這個問題,團隊提出了一種名為Big Bird的稀疏注意力機制。

作為更長序列上的Transformers,Big Bird採用稀疏注意力機制,將二次依賴降至線性。

下面這張圖片,展示了Big Bird所用的注意力機制模塊構建。

其中,白色的部分代表著注意力的空缺。

圖(a)表示r=2的隨機注意力機制,圖(b)表示w=3的局部注意力機制,圖(c)表示g=2的全局注意力機制,圖(d)則是前三者融合起來的Big Bird模型。

之所以提出這樣的模型,是因為團隊希望能在將二次依賴降至線性的同時,Big Bird的模型還能最大程度上接近並保持BERT模型的各項指標。

從下圖來看,無論是單一採用隨機注意力機制、局部注意力機制,還是二者結合的方式,都沒有將三者進行結合的效果好。

也就是說,隨機+局部+全局的注意力機制融合,最大程度上接近了BERT-base的各項指標。

不僅如此,這種稀疏注意力機制的一部分,還包括了採用O(1)的全局詞例(global token),例如CLS。

這部分使得長程注意力開銷從O(N√N)降至O(N)。

NLP問答和摘要任務中超越了SOTA

模型採用Books、CC-News、Stories和Wikipedia幾種數據集對四類模型進行了訓練,根據留出法評估,BigBird-ETC的損失達到了最低。

從結果來看,Big Bird在問答任務中展示出的精度非常不錯。

下圖是Big Bird與RoBERTa和Longformer對比所展現出來的精度效果,可以看見,在各項數據及上,BigBird的兩個模型都展現出了更高的精度。

而在對模型進行微調後,可以看見,BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

與此同時,Big Bird在NLP的摘要任務中表現也比較亮眼。

摘要,顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章數據集Arxiv、PubMed和BigPatent中測試的效果。

從圖中來看,與其他非常先進的NLP模型相比,BigBird極大地提高了摘要任務的各項精度,性能表現非常優異。

不僅如此,Big Bird被證明是圖靈完備的,這也就意味著,一切可以計算的問題,Big Bird都能計算,理論上,它能夠用來解決任何算法。

此外,Big Bird在基因組數據處理方面也極具潛力。

但雖然如此,也有網友認為,這樣的模型與Longformer在概念上並無本質區別,不能算是一個大突破。

你怎麼看?

作者介紹

論文的兩位共同一作是Manzil Zaheer和Guru Guruganesh,均來自谷歌。

△ Manzil Zaheer

Manzil Zaheer,CMU機器學習博士,3篇論文曾經發表於NIPs上,除此之外,在ACL和EMNLP等頂會上也發表過相應文章。

△ Guru Guruganesh

Guru Guruganesh,CMU機器學習博士,主要在近似算法、拉姆齊定理、半正定規劃等方向有所研究。

傳送門

「芝麻街」系列論文列表:

ELMo:https://arxiv.org/abs/1802.05365

BERT:https://arxiv.org/abs/1810.04805

ERNIE:https://arxiv.org/abs/1904.09223

Grover:https://arxiv.org/abs/1905.12616

KERMIT:https://arxiv.org/abs/1906.01604

Big Bird:https://arxiv.org/abs/2007.14062

相關焦點

  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    機器之心報導機器之心編輯部在前段時間舉辦的「Search On」活動中,谷歌宣布,BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支持。而在去年,這一比例僅為 10%。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    在最近的2020 Search On虛擬搜索大會上,谷歌表示,BERT幾乎成了每一個英語查詢的後端引擎。BERT不會影響網站的排名,BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。下面是谷歌展示的集成BERT之後的一個demo,當查詢「在沒有路緣的山上停車」時,過去這樣的查詢會讓谷歌的系統感到困惑。
  • 性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型
    論文連結:https://www.aclweb.org/anthology/D19-1506.pdf在最新的博客文章中,谷歌的研究者宣布它們改進了 PRADO,並將改進後的模型稱為 pQRNN。新模型以最小的模型尺寸達到了 NLP 任務的新 SOTA。
  • 從ULMFiT、BERT等經典模型看NLP 發展趨勢
    當前,隨著深度學習以及相關技術的發展,NLP領域的研究取得一個又一個突破,研究者設計各種模型和方法,來解決NLP的各類問題。如今,NLP應用已經變得無處不在。我們似乎總是不經意間發現一些網站和應用程式,以這樣的或那樣的形式利用了自然語言處理技術。實際上,在近年來的自然語言處理方向的頂會上,深度學習也往往佔據了大量的篇幅,自然語言處理方向成為模型與計算能力的較量。
  • 2019 年 NLP 領域都發生了哪些大事件?
    另一個相關的工作《DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation》,用到了一種叫做「DialogueGCN」的圖神經網絡方法來檢測對話中的情感。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    就在這幾天網際網路人哭聲中,自己加班加點製造出來的AI,已經逐步有了取代人類的態勢……就連推崇人機共生的馬斯克也曾膽怯地說,「AI是人類的最大威脅」。如果說畫畫寫字都是小兒科,那看看NLP新基準SuperGLUE的刷新榜單,人類已經一再退步到無地自容了。
  • 「芝麻街」與時俱進趕時髦,布局兒童編程區塊鏈
    「芝麻街」是美國公共廣播協會(PBS)製作播出的兒童教育電視節目,該節目於1969年11月10日在全國教育電視臺(PBS的前身)上首次播出。它是迄今為止,獲得艾美獎獎項最多的一個兒童節目(153項,截止2009年)。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    這種方法能提供「字符」-delimited models 的靈活性和「詞」-delimited models 的有效性之間的平衡、能自然地處理罕見詞的翻譯、並能最終提升系統的整體準確度。谷歌的波束搜索技術使用了一個長度規範化過程,並使用了一個覆蓋度懲罰,其可以激勵很可能能覆蓋源句子中所有的詞的輸出句子的生成。
  • 谷歌AI團隊新發布的BERT模型,BERT的創新點在哪裡?
    谷歌AI團隊新發布的BERT模型,BERT的創新點在哪裡? 李倩 發表於 2018-10-21 09:40:22 近日,谷歌AI團隊新發布的BERT模型,在NLP業內引起巨大反響,認為是NLP領域裡程碑式的進步。BERT的創新點在哪裡?新智元專欄作者潘晟鋒對這篇論文進行了深度解讀。
  • 谷歌新款「怪物製造機」,用GAN一鍵生成定製版「哥斯拉」
    【新智元導讀】你想像中的「怪獸」是什麼樣的?長著老虎的身體、恐龍的腦袋?還是有著貓的爪子、鷹的翅膀?谷歌的一個研究團隊推出了一款名為 Chimera Painter 畫圖工具,使你可以將生物的頭、爪、耳朵、爪子等隨意組合,然後一鍵生成一隻屬於你自己的「怪獸」。「亞古獸進化,暴龍獸!」
  • PTMs|2020最新NLP預訓練模型綜述
    指明PTMs未來的研究方向,如:局限、挑戰、建議。由於篇幅原因,本文主要針對前面兩點進行梳理,即「目前主流的預訓練模型」和「預訓練模型的分類體系」。1.「nlp領域的發展比cv領域相對緩慢的原因是什麼呢」?相比於cv領域,「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯),導致深度學習模型容易過擬合,不能很好地泛化。
  • 完勝BERT!NLP預訓練利器:小模型也有高精度,單個GPU就能訓練
    它叫ELECTRA,來自谷歌AI,不僅擁有BERT的優勢,效率還比它高。ELECTRA是一種新預訓練方法,它能夠高效地學習如何將收集來的句子進行準確分詞,也就是我們通常說的token-replacement。有多高效?
  • 谷歌公布2020年度搜索熱榜,「新冠病毒」高居榜首
    【新智元導讀】谷歌更新2020年的搜索熱榜啦!快來看看今年大家都在關心什麼?2020年無疑對全世界人民來講都是最特殊的一年。「新冠病毒」席捲全球,帶走了無數人的生命和無數的工作,無疑是全球搜索量最高的關鍵詞。而今年的其他熱點也都在熱榜中一一反映了出來,如「科比去世」、「美國大選」等。
  • 海賊王劇場版「ONE PIECE FILM GOLD」票房已突破40億日元!
    海賊王劇場版「ONE PIECE FILM GOLD」票房已突破40億日元! 動漫 178ACG ▪ 2016-08-19 08:26:00 「海賊王」最新劇場版「ONE PIECE FILM GOLD」已經於7月23日在日本上映
  • 「九章」問世,超越谷歌「量子霸權」!潘建偉攜90後上Science
    【新智元導讀】實現「量子計算優越性」(即量子霸權),中國科學家取得裡程碑式進展——成功構建了76個光子的量子計算原型機「九章」。根據現有理論,其速度比目前最快的超級計算機快一百萬億倍,比去年穀歌發布的53個超導比特量子計算原型機「懸鈴木」快一百億倍。「量子霸權」再次被實現了嗎?
  • 「助手和搜索截然不同」,這位谷歌前高管能否救Siri於水火?
    賈伯斯所提出的觀點是 Siri 團隊的許多成員都曾流露的:Siri 不僅僅是搜索。但是,負責主管 Siri 業務的卻是前亞馬遜搜索業務專家。Giannandrea 清楚認識到,助手和搜索是截然不同的產品,而且使用起來也不一樣。宏觀方向一致後,或許 Siri 會迎來轉機。畢竟,亞馬遜也是在落後谷歌和微軟一大截(技術上)的基礎上,「逆襲」成功。
  • 官方澄清「新世紀福音戰士新劇場版:終」不會長達6小時
    官方澄清「新世紀福音戰士新劇場版:終」不會長達6小時 動漫 178動漫整編 ▪
  • 「明日方舟」國內200萬DL突破紀念特別版新情報解禁
    「明日方舟」國內200萬DL突破紀念特別版新情報解禁 動漫 178動漫整編 ▪
  • 「紫羅蘭永恆花園」劇場版票房突破20億日元
    「紫羅蘭永恆花園」劇場版票房突破20億日元 動漫 178動漫整編 ▪ 2020
  • 「開箱」IDEAS系列新套裝芝麻街簡評
    很多玩家期待的童年回憶終於登場啦,樂高IDEAS系列全新套裝芝麻街在大家的期盼中正式官宣。套裝信息套裝編號:21324套裝名稱:123 芝麻街發售時間:11月1日顆粒數量:1367成品規格:24cm(高) x 35cm(寬) x 21cm(深)