谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣

2020-12-15 量子位

蕭簫發自凹非寺量子位報導 | 公眾號 QbitAI

最新消息，谷歌推出了NLP系列「芝麻街」的新成員Big Bird。

這個在外界眼中看起來有點可愛的動漫小鳥，搖身一變，解決了BERT模型中的全注意力機制帶來的序列長度二次依賴限制，可以兼顧更長的上下文。

△ 「芝麻街」中的Big Bird

眾所周知，谷歌開發的BERT，曾經被稱為「地表最強」NLP模型。

而BERT，則與美國知名動畫片「芝麻街」（Sesame Street）裡的虛擬人物同名。

此前，谷歌的「芝麻街」系列已經有5個成員（論文連結見傳送門），現在Big Bird的到來，意味著谷歌在NLP的研究上更進一步。

△ 少了一位ELMo

來看看Big Bird實現了什麼。

突破全注意力機制的局限

在NLP模塊表現最好的幾種深度學習模型，例如BERT，都是基於Transformer作為特徵抽取器的模型，但這種模型有它的局限性，核心之一就是全注意力機制。

這種機制會帶來序列長度二次依賴限制，主要表現在存儲方面。

為了解決這個問題，團隊提出了一種名為Big Bird的稀疏注意力機制。

作為更長序列上的Transformers，Big Bird採用稀疏注意力機制，將二次依賴降至線性。

下面這張圖片，展示了Big Bird所用的注意力機制模塊構建。

其中，白色的部分代表著注意力的空缺。

圖（a）表示r=2的隨機注意力機制，圖（b）表示w=3的局部注意力機制，圖（c）表示g=2的全局注意力機制，圖（d）則是前三者融合起來的Big Bird模型。

之所以提出這樣的模型，是因為團隊希望能在將二次依賴降至線性的同時，Big Bird的模型還能最大程度上接近並保持BERT模型的各項指標。

從下圖來看，無論是單一採用隨機注意力機制、局部注意力機制，還是二者結合的方式，都沒有將三者進行結合的效果好。

也就是說，隨機+局部+全局的注意力機制融合，最大程度上接近了BERT-base的各項指標。

不僅如此，這種稀疏注意力機制的一部分，還包括了採用O(1)的全局詞例（global token），例如CLS。

這部分使得長程注意力開銷從O(N√N)降至O(N)。

NLP問答和摘要任務中超越了SOTA

模型採用Books、CC-News、Stories和Wikipedia幾種數據集對四類模型進行了訓練，根據留出法評估，BigBird-ETC的損失達到了最低。

從結果來看，Big Bird在問答任務中展示出的精度非常不錯。

下圖是Big Bird與RoBERTa和Longformer對比所展現出來的精度效果，可以看見，在各項數據及上，BigBird的兩個模型都展現出了更高的精度。

而在對模型進行微調後，可以看見，BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

與此同時，Big Bird在NLP的摘要任務中表現也比較亮眼。

摘要，顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章數據集Arxiv、PubMed和BigPatent中測試的效果。

從圖中來看，與其他非常先進的NLP模型相比，BigBird極大地提高了摘要任務的各項精度，性能表現非常優異。

不僅如此，Big Bird被證明是圖靈完備的，這也就意味著，一切可以計算的問題，Big Bird都能計算，理論上，它能夠用來解決任何算法。

此外，Big Bird在基因組數據處理方面也極具潛力。

但雖然如此，也有網友認為，這樣的模型與Longformer在概念上並無本質區別，不能算是一個大突破。

你怎麼看？

作者介紹

論文的兩位共同一作是Manzil Zaheer和Guru Guruganesh，均來自谷歌。

△ Manzil Zaheer

Manzil Zaheer，CMU機器學習博士，3篇論文曾經發表於NIPs上，除此之外，在ACL和EMNLP等頂會上也發表過相應文章。

△ Guru Guruganesh

Guru Guruganesh，CMU機器學習博士，主要在近似算法、拉姆齊定理、半正定規劃等方向有所研究。

傳送門

「芝麻街」系列論文列表：

ELMo:https://arxiv.org/abs/1802.05365

BERT:https://arxiv.org/abs/1810.04805

ERNIE:https://arxiv.org/abs/1904.09223

Grover:https://arxiv.org/abs/1905.12616

KERMIT:https://arxiv.org/abs/1906.01604

Big Bird:https://arxiv.org/abs/2007.14062

相關焦點

谷歌搜索:幾乎所有的英文搜索都用上BERT了

機器之心報導機器之心編輯部在前段時間舉辦的「Search On」活動中，谷歌宣布，BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支持。而在去年，這一比例僅為 10%。
谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

在最近的2020 Search On虛擬搜索大會上，谷歌表示，BERT幾乎成了每一個英語查詢的後端引擎。BERT不會影響網站的排名，BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。下面是谷歌展示的集成BERT之後的一個demo，當查詢「在沒有路緣的山上停車」時，過去這樣的查詢會讓谷歌的系統感到困惑。
性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型

論文連結：https://www.aclweb.org/anthology/D19-1506.pdf在最新的博客文章中，谷歌的研究者宣布它們改進了 PRADO，並將改進後的模型稱為 pQRNN。新模型以最小的模型尺寸達到了 NLP 任務的新 SOTA。
從ULMFiT、BERT等經典模型看NLP 發展趨勢

當前,隨著深度學習以及相關技術的發展,NLP領域的研究取得一個又一個突破,研究者設計各種模型和方法,來解決NLP的各類問題。如今,NLP應用已經變得無處不在。我們似乎總是不經意間發現一些網站和應用程式,以這樣的或那樣的形式利用了自然語言處理技術。實際上,在近年來的自然語言處理方向的頂會上,深度學習也往往佔據了大量的篇幅,自然語言處理方向成為模型與計算能力的較量。
2019 年 NLP 領域都發生了哪些大事件?

另一個相關的工作《DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation》，用到了一種叫做「DialogueGCN」的圖神經網絡方法來檢測對話中的情感。
微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜

就在這幾天網際網路人哭聲中，自己加班加點製造出來的AI，已經逐步有了取代人類的態勢……就連推崇人機共生的馬斯克也曾膽怯地說，「AI是人類的最大威脅」。如果說畫畫寫字都是小兒科，那看看NLP新基準SuperGLUE的刷新榜單，人類已經一再退步到無地自容了。
「芝麻街」與時俱進趕時髦,布局兒童編程區塊鏈

「芝麻街」是美國公共廣播協會（PBS）製作播出的兒童教育電視節目，該節目於1969年11月10日在全國教育電視臺（PBS的前身）上首次播出。它是迄今為止，獲得艾美獎獎項最多的一個兒童節目（153項，截止2009年）。
將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」

這種方法能提供「字符」-delimited models 的靈活性和「詞」-delimited models 的有效性之間的平衡、能自然地處理罕見詞的翻譯、並能最終提升系統的整體準確度。谷歌的波束搜索技術使用了一個長度規範化過程，並使用了一個覆蓋度懲罰，其可以激勵很可能能覆蓋源句子中所有的詞的輸出句子的生成。
谷歌AI團隊新發布的BERT模型,BERT的創新點在哪裡?

谷歌AI團隊新發布的BERT模型，BERT的創新點在哪裡？李倩發表於 2018-10-21 09:40:22 近日，谷歌AI團隊新發布的BERT模型，在NLP業內引起巨大反響，認為是NLP領域裡程碑式的進步。BERT的創新點在哪裡？新智元專欄作者潘晟鋒對這篇論文進行了深度解讀。
谷歌新款「怪物製造機」,用GAN一鍵生成定製版「哥斯拉」

【新智元導讀】你想像中的「怪獸」是什麼樣的？長著老虎的身體、恐龍的腦袋？還是有著貓的爪子、鷹的翅膀？谷歌的一個研究團隊推出了一款名為 Chimera Painter 畫圖工具，使你可以將生物的頭、爪、耳朵、爪子等隨意組合，然後一鍵生成一隻屬於你自己的「怪獸」。「亞古獸進化，暴龍獸！」
PTMs|2020最新NLP預訓練模型綜述

指明PTMs未來的研究方向，如：局限、挑戰、建議。由於篇幅原因，本文主要針對前面兩點進行梳理，即「目前主流的預訓練模型」和「預訓練模型的分類體系」。1.「nlp領域的發展比cv領域相對緩慢的原因是什麼呢」？相比於cv領域，「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯)，導致深度學習模型容易過擬合，不能很好地泛化。
完勝BERT!NLP預訓練利器:小模型也有高精度,單個GPU就能訓練

它叫ELECTRA，來自谷歌AI，不僅擁有BERT的優勢，效率還比它高。ELECTRA是一種新預訓練方法，它能夠高效地學習如何將收集來的句子進行準確分詞，也就是我們通常說的token-replacement。有多高效？
谷歌公布2020年度搜索熱榜,「新冠病毒」高居榜首

【新智元導讀】谷歌更新2020年的搜索熱榜啦！快來看看今年大家都在關心什麼？2020年無疑對全世界人民來講都是最特殊的一年。「新冠病毒」席捲全球，帶走了無數人的生命和無數的工作，無疑是全球搜索量最高的關鍵詞。而今年的其他熱點也都在熱榜中一一反映了出來，如「科比去世」、「美國大選」等。
海賊王劇場版「ONE PIECE FILM GOLD」票房已突破40億日元!

海賊王劇場版「ONE PIECE FILM GOLD」票房已突破40億日元！動漫 178ACG ▪ 2016-08-19 08:26:00 「海賊王」最新劇場版「ONE PIECE FILM GOLD」已經於7月23日在日本上映
「九章」問世,超越谷歌「量子霸權」!潘建偉攜90後上Science

【新智元導讀】實現「量子計算優越性」（即量子霸權），中國科學家取得裡程碑式進展——成功構建了76個光子的量子計算原型機「九章」。根據現有理論，其速度比目前最快的超級計算機快一百萬億倍，比去年穀歌發布的53個超導比特量子計算原型機「懸鈴木」快一百億倍。「量子霸權」再次被實現了嗎？
「助手和搜索截然不同」,這位谷歌前高管能否救Siri於水火?

賈伯斯所提出的觀點是 Siri 團隊的許多成員都曾流露的：Siri 不僅僅是搜索。但是，負責主管 Siri 業務的卻是前亞馬遜搜索業務專家。Giannandrea 清楚認識到，助手和搜索是截然不同的產品，而且使用起來也不一樣。宏觀方向一致後，或許 Siri 會迎來轉機。畢竟，亞馬遜也是在落後谷歌和微軟一大截（技術上）的基礎上，「逆襲」成功。
官方澄清「新世紀福音戰士新劇場版:終」不會長達6小時

官方澄清「新世紀福音戰士新劇場版：終」不會長達6小時動漫 178動漫整編 ▪
「明日方舟」國內200萬DL突破紀念特別版新情報解禁

「明日方舟」國內200萬DL突破紀念特別版新情報解禁動漫 178動漫整編 ▪
「紫羅蘭永恆花園」劇場版票房突破20億日元

「紫羅蘭永恆花園」劇場版票房突破20億日元動漫 178動漫整編 ▪ 2020
「開箱」IDEAS系列新套裝芝麻街簡評

很多玩家期待的童年回憶終於登場啦，樂高IDEAS系列全新套裝芝麻街在大家的期盼中正式官宣。套裝信息套裝編號：21324套裝名稱：123 芝麻街發售時間：11月1日顆粒數量：1367成品規格：24cm(高) x 35cm(寬) x 21cm(深)

谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣

相關焦點

谷歌搜索:幾乎所有的英文搜索都用上BERT了

谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型

從ULMFiT、BERT等經典模型看NLP 發展趨勢

2019 年 NLP 領域都發生了哪些大事件?

微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜

「芝麻街」與時俱進趕時髦,布局兒童編程區塊鏈

將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」

谷歌AI團隊新發布的BERT模型,BERT的創新點在哪裡?

谷歌新款「怪物製造機」,用GAN一鍵生成定製版「哥斯拉」

PTMs|2020最新NLP預訓練模型綜述

完勝BERT!NLP預訓練利器:小模型也有高精度,單個GPU就能訓練

谷歌公布2020年度搜索熱榜,「新冠病毒」高居榜首

海賊王劇場版「ONE PIECE FILM GOLD」票房已突破40億日元!

「九章」問世,超越谷歌「量子霸權」!潘建偉攜90後上Science

「助手和搜索截然不同」,這位谷歌前高管能否救Siri於水火?

官方澄清「新世紀福音戰士新劇場版:終」不會長達6小時

「明日方舟」國內200萬DL突破紀念特別版新情報解禁

「紫羅蘭永恆花園」劇場版票房突破20億日元

「開箱」IDEAS系列新套裝芝麻街簡評