六項任務、多種數據類型,谷歌、DeepMind提出高效Transformer評估...

2020-12-16 澎湃新聞

機器之心報導

編輯:魔王

自誕生以來, 在不同領域得到了廣泛應用,研究人員也提出了許多高效 Transformer 模型。如何評估這類模型呢?最近,谷歌和 DeepMind 提出了一項系統化的統一基準——Long-Range Arena,重點關注長語境場景下的模型質量評估。

基準項目地址:https://github.com/google-research/long-range-arena

論文地址:https://arxiv.org/pdf/2011.04006.pdf

Transformer 在多個模態(語言、圖像、蛋白質序列)中獲得了 SOTA 結果,但它存在一個缺點:自注意力機制的平方級複雜度限制了其在長序列領域中的應用。目前,研究人員提出大量高效 Transformer 模型(「xformer」),試圖解決該問題。其中很多展示出了媲美原版 Transformer 的性能,同時還能有效降低自注意力機制的內存複雜度。

谷歌和 DeepMind 的研究人員對比了這些論文的評估和實驗設置,得到了以下幾點發現:

首先,高效 Transformer 缺少統一的基準測試,使用的任務類型也多種多樣:每個模型在不同的任務和數據集上進行評估。

其次,評估所用基準通常是隨意選擇的,未充分考慮該任務是否適用於長程建模評估。

第三,很多論文將歸納偏置的效果和預訓練的優點混為一談,這會模糊模型的真正價值:預訓練本身是計算密集型的,將歸納偏置和預訓練分離開來可降低 xformer 研究的門檻。

於是,谷歌和 DeepMind 的研究人員提出了一個新基準 Long-Range Arena (LRA),用來對長語境場景下的序列模型進行基準測試。該基準包括合成任務和現實任務,研究人員在此基準上對比了十個近期提出的高效 Transformer 模型,包括 Sparse Transformers、、Linformer、Longformer、Sinkhorn Transformer、、Synthesizer、Linear Transformer 和 BigBird 模型。

該基準主要關注模型在長語境場景下的能力,不過研究人員對 xformer 架構在不同數據類型和條件下的能力也很感興趣。因此,該基準選擇了具備特定先驗結構的數據集和任務。例如,這些架構可以建模層級結構長序列或包含某種空間結構形式的長序列嗎?這些任務的序列長度從 1K 到 16K token 不等,還包括大量數據類型和模態,如文本、自然圖像、合成圖像,以及需要類似度、結構和視覺 - 空間推理的數學表達式。該基準主要面向高效 Transformer,但也可作為長程序列建模的基準。

除了對比模型質量以外,該研究還進行了大量效率和內存使用分析。研究者認為,並行性能基準測試對於社區是有益且珍貴的,能夠幫助大家深入了解這些方法的實際效率。總之,該研究提出了一個統一框架,既能對高效 Transformer 模型進行簡單的並行對比分析,還能對長程序列模型進行基準測試。該框架使用 JAX/FLAX1 編寫。

高效 Transformer 評估新基準:Long-Range Arena (LRA)

基準需求

在創建 LRA 基準之前,研究者先列舉了一些需求:

1. 通用性:適用於所有高效 Transformer 模型。例如,並非所有 xformer 模型都能執行自回歸解碼,因此該基準中的任務僅需要編碼。

2. 簡潔性:任務設置應簡單,移除所有令模型對比複雜化的因素,這可以鼓勵簡單模型而不是笨重的 pipeline 方法。

3. 挑戰性:任務應該對目前模型有一定難度,以確保未來該方向的研究有足夠的進步空間。

4. 長輸入:輸入序列長度應該足夠長,因為評估不同模型如何捕獲長程依賴是 LRA 基準的核心關注點。

5. 探索不同方面的能力:任務集合應當評估模型的不同能力,如建模關係和層級 / 空間結構、泛化能力等。

6. 非資源密集、方便使用:基準應該是輕量級的,方便不具備工業級計算資源的研究者使用。

任務

LRA 基準包含多項任務,旨在評估高效 Transformer 模型的不同能力。具體而言,這些任務包括:Long ListOps、比特級文本分類、比特級文檔檢索、基於像素序列的圖像分類、Pathfinder(長程空間依賴性)、Pathfinder-X(極端長度下的長程空間依賴性)。

LRA 任務所需的注意力範圍

LRA 基準的主要目標之一是評估高效 Transformer 模型捕獲長程依賴的能力。為了對注意力機制在編碼輸入時需要考慮的空間範圍進行量化估計,該研究提出了「所需注意力範圍」(required attention span)。給出一個注意力模型和輸入 token 序列,注意力模塊的所需注意力範圍是 query token 和 attended token 間的平均距離。

圖 2 總結了 LRA 基準中每項任務的所需注意力範圍,從圖中可以看出每項任務的所需注意力範圍都很高。這表明,Transformer 模型不僅僅涉及局部信息,在很多任務和數據集中,注意力機制通常需要結合鄰近位置的信息。

實驗

量化結果

實驗結果表明,LRA 中的所有任務都具備一定的挑戰性,不同 xformer 模型的性能存在一定程度的差異。具體結果參見下表 1:

效率基準

表 2 展示了 xformer 模型的效率基準測試結果:

從中可以看出,低秩模型和基於核的模型通常速度最快。整體最快的模型是 Performer,在 4k 序列長度上的速度是 Transformer 的 5.7 倍,Linformer 和 Linear Transformer 緊隨其後。最慢的模型是 Reformer,在 4k 序列長度上的速度是 Transformer 的 80%,在 1k 序列長度上的速度是 Transformer 的一半。

此外,研究者還評估了這些模型的內存消耗情況。結果顯示,內存佔用最少的模型是 Linformer,在 4k 序列長度上只使用了 0.99GB per TPU,而原版 Transformer 使用了 9.48GB per TPU,內存佔用減少了約 90%。

整體結果:不存在萬能模型

根據研究人員的分析,在 LRA 所有任務中整體性能最好(LRA 分數最高)的模型是 BigBird。但是,BigBird 在每項任務中的性能均不是最好,它只是在所有任務上都能取得不錯的性能。Performer 和 Linear Transformer 在一些任務中表現搶眼,但其平均分被 ListOps 任務拖累。

下圖 3 展示了模型性能、速度和內存佔用之間的權衡情況。BigBird 性能最好,但速度幾乎與原版 Transformer 相同。而 Local Attention 模型速度很快,但性能較低。在這些模型中,基於核的模型(如 Performer、Linformer 和 Linear Transformer)能夠在速度和性能之間獲得更好的折中效果,同時內存佔用也較為合理。

參考閱讀:

喜歡此內容的人還喜歡

原標題:《六項任務、多種數據類型,谷歌、DeepMind提出高效Transformer評估基準》

閱讀原文

相關焦點

  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    這種新模型將神經網絡與可讀寫的外部存儲器結合,既能像神經網絡那樣通過試錯和樣本訓練進行深度學習,又能像傳統計算機一樣處理數據。即使沒有先驗知識,DNC 也可以解決規劃最佳路線、拼圖任務等小規模問題。德國研究者 Herbert Jaeger 評論稱,這是目前最接近數字計算機的神經計算系統,該成果有望解決神經系統符號處理難題。
  • 模型壓縮95%,MIT韓松等人提出新型Lite Transformer
    在不久之前的 ICLR 2020 論文中,MIT 與上海交大的研究人員提出了一種高效的移動端 NLP 架構 Lite Transformer,向在邊緣設備上部署移動級 NLP 應用邁進了一大步。雖然推出還不到 3 年,Transformer 已成為自然語言處理(NLP)領域裡不可或缺的一環。
  • ICLR 2018 DeepMind論文精華一覽
    作者:James Martens,Jimmy Ba(Vector Institute),Matthew Johnson(谷歌)Kronecker 因子近似曲率 (Martens&Grosse,2015)(K-FAC) 是一種二階優化方法,已被證明可在大規模神經網絡優化任務中提供最先進的性能(Ba et al.,2017)。
  • 谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用...
    谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用世界模型實現高效的行為學習 將門創投 發表於 2020-03-26 11:41:12 近年來隨著強化學習的發展
  • 谷歌研究院出品:高效 Transformer 模型最新綜述
    為了幫助對這一領域感興趣的研究者在繁多的模型中梳理出一條脈絡,谷歌研究院撰寫了最新高效 Transformer 模型研究綜述,介紹了近年來該領域的最新進展。  使用可學習模式的模型旨在以一種數據驅動的方式學習訪問模式。可學習模式的關鍵特質在於,它需要確定詞例相關性的概念,然後將詞例劃分到不同的聚類中。  值得注意的是,Kitaev 等人於 2020 年提出的 「Reformer」 引入了一種基於哈希的相似度度量方法,從而高效地對詞例進行聚類。
  • DeepMind悄咪咪開源三大新框架,深度強化學習落地希望再現
    OpenSpielGitHub:https://github.com/deepmind/open_spiel遊戲在 DRL agent的 訓練中發揮著重要作用。與其他數據集一樣,遊戲本質上基於試驗和獎勵機制,可用於訓練 DRL agent。但是,正如我們所想,遊戲環境的複雜度還遠遠不夠。
  • ...利用基於遷移學習策略的transformer 模型進行Heck反應預測
    作者以經典的小數據-Heck人名反應為代表,證明了遷移學習這一方法在反應預測任務上具有強大性能,同時進一步擴展了transformer這一語言翻譯模型在化學領域的應用,突破性地解決了有限數據預測的難題,為後續的人工智慧輔助化學研發提供了重要的現實依據。1研究背景Transformer模型是谷歌公司於2017年研發的一種語言翻譯模型。
  • |利用基於遷移學習策略的transformer 模型進行Heck...
    作者以經典的小數據-Heck人名反應為代表,證明了遷移學習這一方法在反應預測任務上具有強大性能,同時進一步擴展了transformer這一語言翻譯模型在化學領域的應用,突破性地解決了有限數據預測的難題,為後續的人工智慧輔助化學研發提供了重要的現實依據。
  • DeepMind、谷歌提出圖匹配網絡| ICML最新論文
    因此,可以預先計算和索引大型資料庫中的圖嵌入,從而能夠使用快速的最近鄰搜索數據結構(如k-d trees)或局部敏感哈希算法(locality sensitive hashing)實現高效檢索。我們進一步提出了一種對GNN的擴展,我們稱之為圖匹配網絡(Graph Matching Networks, GMNs),用於相似性學習。
  • DeepMind可微分神經計算機-論文中文解讀
    又是一篇deepmind發表在nature上的文章,還記得前面2篇嗎?一篇是DQN,一篇講AlphaGo。
  • A Survey on Visual Transformer及引文理解
    VideoBERT使用基於CNN的module將圖像轉化為token,然後使用transformer的encoder來為下遊任務學習一個video-text representation。VisualBERT和VL-BERT提出了single-stream unified transformer,用於捕獲視覺元素和圖像-文本關係,用於像視覺問題回答(VQA)和視覺常識推理(VCR)的下遊任務。
  • 深度揭秘 AI 巨頭之谷歌 DeepMind
    像機器學習這樣的技術可以執行管理任務、人臉識別、下棋,甚至翻譯語言。 毫無疑問,人工智慧到來的十年帶來了許多發展。此外,深度學習從非結構化數據中學習來編寫分析報告或執行無人監督的任務。所有這些發展都為不同的公司發揮作用並證明他們的價值奠定了基礎。因此,很多像DeepMind這樣的公司成立了,來繼續發展這一領域。你對其有哪些了解?
  • 視覺+Transformer最新論文出爐,華為聯合北大、雪梨大學發表
    Transformer 的提出最開始用於機器翻譯,下圖展示了原汁原味 Transformer 的結構:用於早期自然語言處理任務的 Transformer 架構圖這裡輸入是一種語言的句子,每個單詞變換為512維的向量嵌入,Transformer 時對其進行多次的編碼和解碼,編碼模塊中每一個編碼器Encoder把上一階段的結果進行編碼,最後一個編碼器將數據經過多個解碼器
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試Xtreme
    谷歌今天發布了一個自然語言處理系統基準測試Xtreme,其中包括對12種語言家族和40種語言進行的9項推理任務。這家科技巨頭的研究人員斷言,它能夠評估人工智慧模型是否能夠學習跨語言的知識,這對于越來越多的自然語言應用程式是有用的。
  • 再創新高:DeepMind一年燒掉6.5億美元,谷歌卻揮手免除15億債務
    機器之心報導編輯:魔王、小舟6.49 億,DeepMind 去年的虧損再創新高,甚至比當年穀歌買下它花的錢還多。但與屢被轉賣的波士頓動力命運不同,谷歌對它的態度是:要多少給多少。不過,DeepMind 的收入主要來源是 Alphabet 的其他子公司(包括谷歌)支付給 DeepMind 的研發費用。DeepMind 在 2014 年被谷歌以 6 億美元的價格收購,目前 DeepMind 依靠其母公司 Alphabet 穩定的資金流。
  • 視覺Transformer上榜!DeepMind科學家:2020年AI領域十大研究進展
    這些工具的應用也促進了主要基於效率評估模型的競賽和基準環境的發展,如EMNLP 2020的SustaiNLP研討會、NeurIPS 2020的高效問答競賽和HULK基準平臺。 為何如此重要?擴大模型規模使我們能夠不斷突破現有模型的極限。然而,為了在真實場景中實現部署和應用,這些模型必須高效。
  • NVIDIA BERT 推理解決方案 Faster Transformer 開源了
    Transformer,將其作為一種通用高效的特徵抽取器。>任務中都有突出表現。我們從矩陣乘法算法選擇,非矩陣乘法操作的參數配置,SoftMax 多版本實現,以及數據結構類型等幾個方面對大 batch 的情況進行了專門的調優。首先針對矩陣乘法,在調用 cuBLAS 的接口時,可以指定性能最優的算法。
  • &Radios|字節跳動全球最大鋼琴MIDI數據集;谷歌新型Performer架構
    在人工智慧領域,鋼琴轉譜被類比於音樂領域的語音識別任務。然而長期以來,在計算機音樂領域一直缺少一個大規模的鋼琴 MIDI 數據集。 近期,字節跳動發布了全球最大的古典鋼琴數據集 GiantMIDI-Piano 。在數據規模上,數據集不同曲目的總時長是谷歌 MAESTRO 數據集的 14 倍。
  • CASP14: DeepMind的AlphaFold 2到底取得了什麼成就? 它對蛋白質摺疊, 生物學和生物信息學意味著什麼?
    你可能從 科學[4] 或 常規媒體[5] , 甚至可能是 DeepMind自己的博客[6] 上聽到過, 谷歌的AlphaFold 2無可爭議地在 第14屆結構預測關鍵評估競賽CASP14[7] 奪冠——該競賽是為計算生物學家預測幾種蛋白質結構的兩年一次的盲測; 這些蛋白質的結構已經通過實驗確定——但尚未公開發布.
  • DeepMind AI 關係推理超越人類:深度神經網絡模塊即插即用
    新智元編譯來源:deepmind.com;arXiv.org譯者:文強   【新智元導讀】DeepMind 今天發表官博介紹了他們的兩篇最新論文,稱其都在理解「關係推理」這一挑戰方面展示出了令人可喜的結果。