"Linformer" 拍了拍 "被吊打 Transformers 的後浪們"

2021-02-25 NewBeeNLP

論文標題:《Linformer: Self-Attention with Linear Complexity》

來源:ACL 2020

連結:https://arxiv.org/abs/2006.04768

1 引言

近年來,大型的 Transformer 模型刷遍了各大 NLP 任務榜單,取得了非凡的成功。但對於長序列、訓練和部署這些,模型的成本卻高得嚇人。因為 Transformer 中用到的自注意力與長度n呈現出

Linformer 與其它 Transformer 變體的算法複雜度一覽

本研究基於自注意力是低秩的觀察,在理論和實踐中都證實了注意力矩陣可以由一個低秩矩陣來近似。我們將原本的尺度化的點積注意力拆解成了多個更小的線性投射的注意力。這剛好是對原注意力去做低秩因式分解。我們在 BookCorpus 和 英文的 Wiki 上用 MLM 的訓練目標預訓練了一個模型,並在 GLUE 的各個任務上,以及 情感分析任務 IMDB reviews 上進行微調。結果顯示,在顯著的速度提升基礎上,我們的模型與原版的 Transformer 相當,甚至還好於原版。

我們先來看一下原版的 Transformer 是怎樣計算的,以及它的問題在哪裡。接著說一說近年來對該問題的解決思路有哪些,各自的局限是什麼。最後提出本論文方法,用理論證明為什麼它比之前的方法都好,並用實驗驗證理論的可靠性。

2 原版 Transformer 的問題

多頭自注意力在不同位置捕獲到的信息


Transformer [1] 基於多頭自注意力 (MHA),能讓模型的不同的位置互相注意到不同子空間的表徵信息。它的計算方式如下:

多頭注意力的架構


其中,

其中,

3 相關工作

混合精度訓練迭代


混合精度 [2]: 針對 MHA 部分的計算複雜度高,一種妥協的方法是用半精度 ( half-precision) 或混合精度 (mixed-precision) 訓練[3]。這種方法又被訓練時對權重量化,用直通估計器 (Straight-Through Estimator) 去近似梯度的偽量化技術進一步提升改進[4,5]。本論文採用了混合精度訓練方法。


知識蒸餾的流程


知識蒸餾 [6]: 知識蒸餾力圖把大模型的老師模型學到的知識教授給輕量的學生模型。最終用學生模型來推斷。但這種方法有些缺點。它並未考慮老師模型訓練過程中也需要加速。而且,學生模型通常要承受表現變差的風險。比如我們要對 12 層的 BERT 對 6 層的 BERT 進行蒸餾,學生模型在各個指標任務上會有大約 2.5% 的表現下降 [7]。


稀疏自注意力的思路


稀疏注意 [8]: 一種流行的做法是讓每個位置的 token 去注意重要的局部(對角線附近),而不是整個序列,從而把稀疏性引入注意力層。或者我們也可以把


局部敏感性哈希

局部敏感性哈希 [10]: 最近提出的 Reformer 使用了局部敏感性哈希 (LSH) 來把自注意力的複雜度降到

提升優化器的效率: 微批量訓練技術[11],即把一個批量的數據分成許多更小的微批量來分別計算梯度,再累加,以便避免大批次撐爆 GPU 內存。梯度檢查點 [12] 通過緩存部分激活層來節省內存。未緩存的激活層會在最近的檢查點反向傳播的時候重新計算。兩種方法都可以節省內存,但增大了計算量。

綜上所述,大部分的方法在同時減少空間複雜度和時間複雜度時存在局限。而我們研究出的 Transformer 變體可以克服這種局限,把時間和空間複雜度都同時降下來。

4 自注意力是低秩的

Figure 1: 左邊兩幅圖分別是自注意力矩陣的奇異值分解 (n=512) 頻譜分析。Y軸為歸一化後的矩陣P的累積奇異值。右圖是其熱圖

首先,我們來說一說為什麼注意力是低秩的。這一點可以從已有的預訓練語言模型 RoBERTa [13] 去分析。首先,我們對上下文映射矩陣P (之前定義的) 進行了頻譜分析。一個是 12 層的 RoBERTa,在 WiKi103 數據集上用 MLM 預訓練,在 IMDB 上分類。我們對模型的不同層、不同注意力頭對應的矩陣 P,都進行了奇異值分解 SVD,並把超過 10k 的句子上的歸一化的累積奇異值做了平均。結果顯示沿著不同層、不同注意力頭和不同的任務,都呈現出一個清晰的長尾分布。這表明,矩陣 P 中的大部分信息都可以由少量最大的奇異值來恢復。如 Figure 1 中的熱圖可見,更高層的 Transformers 中,會比更低層的 Transformers 有更大的偏度。這意味著,在更高層,更多信息集中在少量最大的奇異值中,且 矩陣 P 的秩是更低的。

以下,我們會為以上頻譜結果提供一個理論分析。

定理一:自注意力是低秩的。對於矩陣

證明:

基於上面的式子,我們的

可以用 JL 定律得出,對於矩陣

通俗地說,一個高維空間中的點集,可以被線性地鑲嵌到低維空間中,且其空間結構只遭受較小的形變。JL 定理的證明說明了,如何用隨機投影法來明確求出這個變換,且該算法只需要多項式時間。降維是有代價的。如果要求儘可能地減少形變,被嵌入的低維空間則不能很低。反過來,如果要儘可能地壓縮,則形變會不可避免地增加。最終JL定理給出的結論是,將維數下降到樣本數的對數級,更兼容的變換是線性的,顯式的,且可以被快速計算的。這部分的詳細證明可以見論文附錄。

當矩陣

其中,

5 模型

我們提出了一種新的自注意力機制能讓我們以線性空間和時間複雜度計算矩陣

這樣,我們就用

定理2:線性的自注意力。對於任意

證明:其主要思想是基於 JL 定理。我們先證明矩陣

Linformer 還使用了其它的一些提升表現和效率的技巧。

參數共享 我們實驗了三種層級的參數共享。

Headwise: 所有注意力頭共享 E 和 F 參數。Key-Value: 鍵值參數共享。對於每一層,所有的注意力頭的鍵值映射矩陣共享參數同一參數,Layerwise: 所有層參數共享。對於所有層,都共享投射矩陣 E。

一個12層,12個頭的 Transformers 模型,在分別用上述參數共享後,其參數矩陣的個數分別為 24,12,和 1。

適應性的投影維度 因為注意力矩陣是低秩的,我們可以動態調整k的大小,讓更高層的 Transformers 選用更小的 k。

其它投影方法 除了用兩個矩陣線性近似,還可以用均值/最大池化,或卷積的方式來近似。

6 實驗和結果

模型用的 RoBERTa 的架構,語料用了 BookCorpus 和 英文的維基百科,大約 3300M 單詞的預訓練語料。所有實驗模型的訓練目標都是 MLM,在 64 張 Tesla V100 GPUs 上訓練了 250k 的迭代。

預訓練的實驗目標要驗證三個問題:

要如何選擇 k?k 增加,表現更好。但 k 越大,其計算複雜度和空間複雜度越接近於原版的 Transformer。要如何選擇參數共享策略?參數共享的越多,內存佔用越少,但性能也會隨之下降。我們要參數共享多少?序列長度變化如何影響?如果複雜度是線性的,在 k 值固定的情況下,序列增加,其消耗的時間和空間也應該是線性增長。


我們用模型的困惑度來作為模型表現指標。困惑度越低,則模型訓練得越好。(a) 圖展示出,在其它條件相同下,隨著 k 值變大,模型的困惑度越低,表示其訓練得越好。(b) 圖試圖說明,即便我們把 k 從 256 降低到它的一半 128,其困惑度也不會顯著增加。(c) 圖比較的是不同參數共享下的效果。三者的效果相當,我們可以極端一點採用 Layerwise 參數共享。(d) 圖比較了在固定k的情況下,不同的序列長度對其困惑度的影響。結果顯示隨著長度增加,初始的困惑度長序列會比較大。但最終收斂之後,不同長度序列的困惑度都差不多。這驗證了 Linformer 是線性複雜度

在下遊任務中。我們也可以看到,使用 Linformer 架構訓練的 RoBERTa 與原版 Transformer 架構訓練的 RoBERTa 效果相當。在 k = 128 時,略遜於 RoBERTa,平均的差異小於 0.01%。當增大 k 後,二者的差別幾乎可以忽略不計。我們還可以在增大 k 後,再用參數共享的技巧來減少空間消耗。其性能的損耗幾乎不變。而且實驗結果也表明,Linformer 的表現主要取決於投影維度 k ,而不是 n/k。

左圖為節省的時間,右圖為節省的內存


上表呈現出不同序列長度

7 結論

綜上所述,線性時空複雜度最大的用途就是保護環境從我做起。其次是讓 transformer 在超長文本和圖像上做預訓練變得更兼容。最後是能大大節省自己訓練預訓練語言模型的開銷,將費用變得平民化。

Reference

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pp. 5998–6008, 2017.

[2] Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al. Mixed precision training. arXiv preprint arXiv:1710.03740, 2017.

[3] Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli. fairseq: A fast, extensible toolkit for sequence modeling. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (Demonstrations), pp. 48–53, 2019.

[4] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2704–2713, 2018.

[5] Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval, Herve Jegou, and Armand Joulin. Training with quantization noise for extreme fixed-point compression. arXiv preprint arXiv:2004.07320, 2020.

[6] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.

[7] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.

[8] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019.

[9] Jiezhong Qiu, Hao Ma, Omer Levy, Scott Wen-tau Yih, Sinong Wang, and Jie Tang. Blockwise self-attention for long document understanding. arXiv preprint arXiv:1911.02972, 2019.

[10] Nikita Kitaev, Lukasz Kaiser, and Anselm Levskaya. Reformer: The efficient transformer. In International Conference on Learning Representations, 2020.

[11] Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Dehao Chen, Mia Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V Le, Yonghui Wu, et al. Gpipe: Efficient training of giant neural networks using pipeline parallelism. In Advances in Neural Information Processing Systems, pp. 103–112, 2019.

[12] Tianqi Chen, Bing Xu, Chiyuan Zhang, and Carlos Guestrin. Training deep nets with sublinear memory cost. arXiv preprint arXiv:1604.06174, 2016.

[13] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

[14] W Johnson J Lindenstrauss. Extensions of lipschitz maps into a hilbert space. Contemp. Math, 26: 189–206, 1984.

[15] Carl Eckart and Gale Young. The approximation of one matrix by another of lower rank. Psychome-trika, 1(3):211–218, 1936.

相關焦點

  • 溫哥華公園裡的那麼多"野兔",到底是從哪裡來的?
    「加拿大家園」可快捷關注家園君微信號:canadau  歡迎勾搭!那這些兔子是從哪兒來的呢?溫哥華公園管理局(簡稱VPB)表示,兔子和公園有一段歷史故事。VPB生物學家Nick Page說,這些兔子已經在公園生活了15年之久。
  • 獨領風騷,中國"人造月亮"光明喜人。面對自然規律,是利是弊?
    "的重量,整體還不到4Kg,可由"和平號"太空站太空人操控。然而,由於當時的航空科技能力受限,這個計劃也就"流產"了。作者認為,"人造月球"作為一種設想,它是人類進步的特徵和需要。其目的、其價值、其結果,在於它的獨特性和實用性以及不可替代性。
  • 中國科考馬裡亞納海溝再獲新突破,"海鬥一號"首次完成萬米潛。
    據央視網消息(新聞聯播):"今天(6月8日),我國「探索一號」科考船完成馬裡亞納海溝深淵科考任務後順利返港"。三是"奇":據考證,馬裡亞納海溝是太平洋板塊俯衝地帶。其特點主要是海底地質運動非常活躍,海底火山巖的物質組成以及成因,一直都是海洋地質科學家們很感興趣的問題。
  • ​科學家通過"摘除"魷魚的色素基因,出生後魷魚是透明的
    科學家通過"摘除"魷魚的色素基因,出生後魷魚是透明的科學家歷史上第一次通過摘除一種產生透明生物的色素基因,產生了基因變化的魷魚胚胎。研究小組使用 CRISPR-Cas9來"去除" Doryteuthis pealeii中的基因,從而消除眼睛和皮膚細胞中的顏色。
  • [喜訊] 強烈祝賀藍旗魚品牌創始人"藍狼"成功路亞真正的"藍旗魚」!
    以下是中國國慶當天,"藍狼"發自澳大利亞聖誕島的實戰情報。建議WIFI環境下觀看,土豪隨意,精彩圖文附後,歡迎品讀!經過幾次連續跳躍後,
  • 添了這對雙胞胎女兒,一瞬間張杰的評論開始"炸"了!
    長按下圖二維碼,後"識別圖中二維碼"可直接進入"家園商城",或(點擊文章左下角"閱讀原文"進入搶購區)1、你付了錢拍下的東西我們都會發貨!(別緊張,家園商城都運營了四年了,服務了過萬的購買用戶。騙錢不發貨還能活到現在?)2、我們一般都當天發貨,有的時候物流更新會慢請不要擔心。
  • 中科院2nm晶片研究突破瓶頸獲得成功,"無芯"之痛將為期不遠。
    因為,美國和他的一些所謂"鐵哥們",就是用這把"鹽"來擦抹我們這處已經受傷的傷口,也正因為我們的晶片研發落後,才讓這痛很難癒合。然而,在這種繁華的背後卻難以掩飾國人的無"芯"之痛。既然是「無芯之痛」,痛在哪?痛就痛在在中國核心集成電路國產晶片佔有率上,多項為零。作者這麼說,也許會有人不同意:"華為就是我們自主產權的呀"!是啊,華為的的確確是我們自己的品牌。但是,有一點你必須要弄明白,這就是華為所使用的晶片並非是自己製造的啊,而是臺積電為華為代工的。
  • "北境"就是在加國?《權力的遊戲》中的鐵王座在加拿大小鎮被發現!
    這些鐵王座都隱匿於偏遠地區,劇組提供的唯一線索就是王座所在地區的360度全景視角圖。就在本周二,又有一座鐵王座現身了,這次是在加國!這個王座藏在BC省滕不勒嶺(Tumbler Ridge)的Babcock Creek小鎮,小鎮位於省西北部的落基山脈地區,人口只有2000人。
  • "冰海天使"繁殖過程被拍下 過程十分優美罕見
    "冰海天使"繁殖過程被拍下 過程十分優美罕見時間:2017-09-07 14:59   來源:巴山財經   責任編輯:曉蕊 川北在線核心提示:原標題:"冰海天使"繁殖過程被拍下 畫面罕見來源:巴山財經 據catersnews網站9月6日報導,在俄羅斯北部的北冰洋上的一個群島水域,海洋生物學家AlexanderSemenov
  • 嫦娥四號在探索"秘境中的秘境"時,在月球的背面究竟看到什麼?
    嫦娥四號探測器在經歷了26天的太空飛行後,順利降落在月球背面的馮、卡門撞擊坑內預定的著陸區。這對更全面地收集這個區域巖石數據,幫助科學家們更好地理解月球的組成,具有極高的科學研究價值。另外,根據嫦娥四號拍攝傳回的圖像資料我們看見:1、月球的背面與月球正面的地形有著很大區別與不同。
  • 海底真的拍到了外星飛船! 60米長巨型金屬怪物, 專家: 太先進了
    這艘外星飛船是在2011年被一位喜歡深潛的探險家發現的,他看到了以後非常的驚訝,拍到了照片帶回岸上,照片登報以後引起了科學家的強烈興趣,將其命名為"波羅的海異形"(Baltic Sea Anomaly),並派遣了無數的潛水員科學家去考察,第一個發現它的瑞典探險家彼得‧林德伯格(Peter Lindberg)說:"我曾經是一個最大的懷疑論者,我向來認為發現的只能是石頭。
  • 海底真的拍到了外星飛船!60米長巨型金屬怪物,專家:太先進了
    這艘外星飛船是在2011年被一位喜歡深潛的探險家發現的,他看到了以後非常的驚訝,拍到了照片帶回岸上,照片登報以後引起了科學家的強烈興趣,將其命名為"波羅的海異形"(Baltic Sea Anomaly),並派遣了無數的潛水員科學家去考察,第一個發現它的瑞典探險家彼得林德伯格(Peter Lindberg)說:"我曾經是一個最大的懷疑論者,我向來認為發現的只能是石頭。
  • 【日本衛星拍下"無修正"照片 真正的地球素顏照曝光!】
    表震驚、表害羞~水藍色的地球其實是美國太空總署利用色彩校正處理過的照片,和向日葵8號拍下的灰色地球有很大的不同。日本衛星拍下地球真正的樣貌(圖/翻攝自日本氣象廳)最近,日本氣象衛星向日葵8號拍下地球細部影像,更是第一張呈現「素顏」地球最真實顏色的照片。 臺灣東森新聞網12月24日援引英國《每日郵報》報導稱,氣象衛星向日葵8號在10月7日升空,近日在距離地球35790公裡處拍下影像,超高解析度細膩呈現了雲朵、海洋、沙漠等細節,更是第一張未經任何顏色修飾前,地球最原始樣貌的照片。