受啟於做夢,DeepMind 提出壓縮 Transformer,並開源書本級數據集PG...

2020-12-22 雷鋒網

雷鋒網AI科技評論按:DeepMind最近提出一種新的長程記憶模型——Compressive Transformer(壓縮Transformer),這種模型基於Transformer模型做了調整,通過增添壓縮記憶模塊,有效增加了模型的記憶長度。

而另一方面,為了提升對基於長程記憶的推理問題的研究,DeepMind的研究人員也開發了一個書籍級別的語言數據集PG-19。這個新的基準是目前已有的長時記憶基準的兩倍還多,包含的上下文文本是長程語言模型基準測試WikiText-103的10倍以上。

論文連結:https://arxiv.org/pdf/1911.05507.pdf

PG-19開源連結:https://github.com/deepmind/pg19

在過去二十年的時間裡,人工神經網絡在記憶這一方面有了長足的進展。

被稱為長短時記憶(Long Short-Term-Memory,LSTM)的遞歸神經網絡(RNN)是目前最早、應用最為廣泛的記憶結構之一。LSTM以數字向量的形式維護一個緊湊的內存,通過門控讀、寫和遺忘操作來訪問和修改這個內存。它最初是在一套綜合任務上開發的,包括學習一串bit的邏輯操作。不過現在它已經被廣泛應用在所有的序列數據模型當中了。

LSTM,以及許多現在所使用的RNNs,存在一個巨大的缺點,就是容量問題。最初設計這些結構的目的是為了,使每個單元的內存都可以影響其他單元,並且具有科學系的權重。但這導致系統的計算效率非常低下,模型中可學習參數的數量會隨內存大小的增加呈平方地增加,例如內存64KB的LSTM,會產生8GB的參數。

如何繞過這一記憶容量瓶頸,成為一個嚴峻的問題。

DeepMind的研究人員曾提出過一種新的架構,可微分神經計算機(DNC),它用更大的內存矩陣來擴充LSTM,以此來解決這些缺陷。

在我們看東西時,我們的眼睛會聚焦於視覺場景中的相關物體。例如,你可能會花更多的時間注意朋友的面部表情,而不是注意他們的鞋子。

DNC採用了類似的方法,使用一個「注意力操作」從這個內存矩陣中讀取數據。

在DNC中,內存模型可以處理過去的特定事件/數據。這種注意力操作需要固定數量的參數,而與內存大小無關,因此可以顯著提高模型的內存容量。

隨著 DNC的開發,帶有附加注意力機制的遞歸神經網絡在翻譯和問題回答領域顯示出了巨大的潛力。這些模型能夠使用兩種內存結構進行推理,一種是小型且緊湊的LSTM內存,一種是大型的外部內存。

不過,最近谷歌Google Brain 的研究人員提出了一種Transformer模型,它可以去除掉 LSTM,只利用注意力來傳輸信息。

Transformer 最初是應用在機器翻譯任務上,性能明顯優於遞歸神經網絡。

隨後Transformer被廣泛應用到NLP的的其他任務當中,例如問答、文本摘要、情感分析等。過去一年,因為Transformer,這些方面取得了巨大的進步。

但這些模型仍然存在一個缺點,即它們會把所有的信息都存儲起來,這樣在每一個時間步上所消耗的計算成本和存儲成本都非常大。

我們的大腦顯然不是這樣做的,我們不會像攝像機那樣,把我們一生當中接收到的所有信息存儲起來。而是會根據相關性、驚喜度、危險性、重複次數等因素來選擇、過濾、整合所有的輸入刺激。換句話說,我們會把一生的經歷壓縮成一組亮點記憶,幫助我們來理解過去,以及更好地預測未來。

這就是如何壓縮的問題。

之前有一些工作通過稀疏訪問機制來嘗試壓縮注意力中的計算消耗。但稀疏注意力方法並不能解決存儲問題,而且通常需要定製的稀疏核才能有效地實現。

1、壓縮Transformer

據雷鋒網(公眾號:雷鋒網)AI科技評論了解,DeepMind為此提出了 Compressive Transformer模型(壓縮 Transformer)。

簡單來說,這是Transformer的一個簡單變種,將過去隱藏激活(past hidden activations ,記憶)映射到一個更小的壓縮表示集(壓縮記憶)中。在記憶和壓縮記憶上,壓縮Transformer會使用相同的注意力機制,來學習查詢它的短期顆粒記憶和長期粗記憶。

壓縮Transformer保持對過去激活的細粒度記憶,然後將其壓縮為更粗的壓縮記憶。上面的模型有三層,一個序列長度ns = 3,記憶大小nm = 6,壓縮記憶大小ncm = 6。高亮顯示的記憶被壓縮,每層使用壓縮函數fc將其壓縮到單個壓縮記憶中,而不是在下一個序列中丟棄。在本例中,壓縮率c = 3。

據作者 Jack Rae介紹,這個模型的靈感來源是,睡眠能夠鞏固我們的情景記憶。眾所周知,睡眠有助於記憶,原因是人們在睡覺過程中能夠將醒時的記憶進行壓縮和鞏固,從而提高記憶力。


我們知道谷歌提出的TransformerXL模型,為了進行長時推理,會對過去激活記憶進行保持。但是當過去激活足夠「老」(由內存大小決定)時,TranformerXL就會將這些記憶給丟棄掉。


與之不同的是壓縮Transformer並不將它們丟棄,而是通過一個壓縮函數進行壓縮,並存儲在一個額外的壓縮記憶(壓縮內存)中。這個壓縮函數能夠學習並過濾掉不相關的記憶,使一些較為重要的信息保留更長一段時間。這種方式,相比於TransformerXL模型,顯然能夠保留更長時間的記憶,對長時推理任務將大有裨益。

據作者介紹,這個模型具有較大的普適性,不僅可以用於語言序列,還能夠用於建模高頻語音波形,也可以充當增強學習agent、IMPALA等的記憶組件(顯然可以壓縮和利用過去的觀察加過)。

2、PG-19

為了進一步驗證壓縮Transformer在長時推理方面的強大功能,作者基於從古騰堡計劃的文本,提出了一個新的書籍級語言建模基準PG-19,來進一步促進長上下文序列建模(long-context sequence modelling)的研究。值得一提的是,這個新的基準是目前已有的長時記憶基準的兩倍還多,包含的上下文文本是長程語言模型基準測試WikiText-103的10倍以上。


書籍為長期記憶模型的發展提供了豐富的背景。作者從大約28,000本古騰堡計劃中1919年以前(也即100年前,避免版權問題)出版的書中選擇了一個子集。與以前的語言建模數據集不同,作者很少對文本應用預處理。舉例來說,他們不會限制數據的詞彙量或審查數字,以避免過濾有用的信息。

數據集包含了28752本書,共約 11GB。

其中,28602本用作訓練集,50本作為有效集,100本作為測試集:

DeepMind隨後將壓縮Transformer與TransformerXL在最新的PG-19書籍數據集上進行了基準測試,具體設置可以參看論文原文。結果如下圖所示:

 

可以看到,壓縮Transformer的測試困惑度為33.6,TransformerXL的為36.3。儘管數據集很大,但顯然這仍然是一個具有挑戰性的領域,而這個測試結果可以作為這個長程語言建模基準的第一個基線。

3、最後

如果想要創建一個操作時間超過幾天、幾周甚至幾年的agent,在每個步驟中對所有原始輸入數據都進行計算顯然是不切實際的。

即使在當前計算能力持續增長的情況下,我們仍然需要開發壓縮和稀疏的記憶架構來構建操作的表示和推理。

可以期待的是,能夠捕捉到以日、月、年為單位的相關性的模型,即將問世。而這需要我們有相應的任務和數據集來評判長時任務。PG-19顯然是朝向這個方向邁進的一步,因為「一整本書」已經是人類通常使用的最長文本形式。

而選擇性注意力,和其他更有效的壓縮機制,顯然也將極大地促進更加強大的推理研究。

雷鋒網報導。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • DeepMind 提出壓縮 Transformer,並開源書本級數據集PG-19
    論文連結:https://arxiv.org/pdf/1911.05507.pdfPG-19開源連結:https://github.com/deepmind/pg19在過去二十年的時間裡,人工神經網絡在記憶這一方面有了長足的進展。
  • 模型壓縮95%,MIT韓松等人提出新型Lite Transformer
    這樣的專門化配置使得模型在三個語言任務上都比原版 transformer 有所提升,這三個任務分別是機器翻譯、文本摘要和語言建模。在資源有限的情況下(500M/100M MACs),Lite Transformer 在 WMT』14 英法數據集上的 BLEU 值比分別比 transformer 高 1.2/1.7。
  • DeepMind開源薛丁格方程求解程序:從量子力學原理出發,TensorFlow...
    近日,DeepMind開源了一個「費米網絡」(FermiNet),用來求解分子的電子行為,在30個電子的有機分子上也達到了很高的精度。文章結果發表在期刊Physical Review Research上。為什麼叫費米網絡在量子力學中,電子沒有精確的位置,我們只能從波函數預測電子在空間中出現的概率,也就是電子云。
  • DeepMind解讀,最新長程記憶模型和建基模型
    去年底,為了讓計算機有更長程的記憶和推理,Deepmind發布了一個新的模型和數據集。近日,DeepMind官方博客發表了最新的文章,對此進一步解讀。文章既回顧了計算機處理「記憶「的歷史,也解讀了新的模型和數據集獲得的進展。
  • DeepMind讓AI組隊踢足球學會「合作」,並開源訓練環境
    大數據文摘編輯部出品從足球競技到戰爭,團隊合作一直被認為是人類社會進步的基石。基於長遠的共同目標,弱化甚至犧牲個人利益,促成了人類作為共同體的最大利益。DeepMind也正嘗試讓人工智慧學會這一點,並且選擇了最有可能顯示團隊合作的考核方式——足球比賽。
  • 贈書| 新手指南——如何通過HuggingFace Transformer整合表格數據
    根據卡內基梅隆大學(Carnegie Mellon University)MultiComp實驗室提出的分類方法,我們要處理的問題屬於多模態融合(Multimodal Fusion)問題——如何將兩種或兩種以上的模態信息結合起來進行預測。 由於文本數據是我們的主模態,因此我們將重點關注以文本作為主要模態的文獻,並介紹利用transformer架構的模型。
  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    機器之心發布機器之心編輯部大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。在這篇 ICLR 2020 論文中,麻省理工、DeepMind 的研究者提出了一種針對時間和因果推理問題的數據集,包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案,從互補的角度研究了視頻中的時間和因果推理問題。
  • 數據定義軟體的時代是否已經到來?初創公司格物鈦想用開源數據集...
    數據定義軟體時代到來回顧網際網路發展歷史,過去30年是開源軟體生產數據的時代,這個時代誕生了Google、Facebook、阿里、騰訊和字節跳動這樣的網際網路巨頭,他們都在用軟體生產海量的數據。格物鈦公開數據集平臺以開源數據集平臺賦能AI基礎設施建設隨著行業參與者們對數據的態度越來越開放,很多公開數據集應運而生。但是由於缺乏統一的行業規範與標準,用戶搜索下載和使用這些公開數據集存在諸多困難。格物鈦看到這一行業痛點後隨即發起了「尋集令」項目的號召,希望發揮自己在數據管理上的技術優勢,建立AI公開數據集平臺。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    把道路劃片處理道路網(road network),指的是在一定區域內,由各種道路組成的相互聯絡、交織成網狀分布的道路系統,類似下圖這樣:但這樣的數據太龐大了,於是,谷歌地圖將道路網劃分為幾個「超級路段」。
  • |利用基於遷移學習策略的transformer 模型進行Heck...
    但是受限於化學數據的規模較小,對於小數據反應transformer模型的預測效果並不顯著。該文研究者創新性地提出使用遷移學習(transfer learning)來突破這個困局,使小數據的高精度預測能夠成為現實。值得注意的是,該文所使用的遷移學習,是一類經典的機器學習優化手段。該方法通過將化學領域的基礎知識轉移到特定的小數據預測,可以有效地提高模型對於小數據集的知識理解和性能預測。
  • DeepMind、哈佛造出 AI「小白鼠」,窺探神經網絡的奧秘
    他們提出的是一種小鼠的 3D 模型,這一模型可在模擬環境中接受神經網絡的控制。同時,他們用神經科學技術來分析小鼠的大腦生物活動,由此來理解神經網絡如何控制小鼠的行為。該論文目前已被 ICLR 2020 大會接收為 Spotlight 論文。
  • MIND:高質量的新聞推薦數據集
    目前,許多有關新聞推薦的研究是在私有數據集上開展的,而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。因此,微軟亞洲研究院聯合微軟新聞產品團隊在 ACL 2020上發布了一個大規模的英文新聞推薦數據集 MIcrosoft News Dataset (MIND[1]),並於2020年7月-9月在condalab平臺舉辦了MIND新聞推薦比賽。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    △圖源:Deepmind兩年前,上一版本的AlphaFold便已經取得了裡程碑的突破,但是,仍然沒有完全解決蛋白質摺疊問題。而這次AlphaFold 2,則更進一步。這一巨大的突破,直接引爆了全網,Nature、Science紛紛報導,生物屆和AI大牛們也紛紛祝賀。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    「符號回歸」(Symbolic regression)正是用於此類符號模型的機器學習算法,這種監督方法可以聚集多個解析函數來建模數據集。如下圖 4 所示,研究者採用的數據集包含不同交互作用定律下的二維和三維多體粒子模擬。模擬本身包含 4 或 8 個粒子的質量和電荷,並以位置、速度和加速度作為時間函數的參數。在當前系統狀態下,研究者訓練模型來預測每個粒子的瞬時加速度。
  • ACL2020|模型壓縮25倍,MIT韓松組提出高效適配不同硬體的HAT模型
    為了解決 Transformer 的低效問題,來自 MIT 的研究人員提出了 HAT: Hardware-Aware Transformers,針對不同的硬體設備的特性,為每個硬體搜索出一個高效的 Transformer 模型,從而在保持精確度的前提下大幅降低內存消耗。在同樣的精度下,相比於基線 Transformer, HAT 可以獲得 3 倍加速,3.7 倍模型壓縮。
  • 深2.5至4倍,參數和計算量卻更少,DeLighT Transformer是怎麼做到的?
    模型壓縮:為了進一步提高序列模型的性能,該研究引入了逐塊縮放,允許每個塊有不同的尺寸,以及更高效地進行參數分配。改進序列模型:與 DeLighT 最接近的工作是 DeFINE 單元,它使用擴展 - 縮減策略學習模型表示。
  • 普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...
    此外,相比 GNN 本身,使用該方法從 GNN 提取的符號表達式能夠更好地泛化至分布外(out-of-distribution)數據。該方法為解釋神經網絡,以及基於神經網絡學得的表示發現新的物理學原理提供了新的方向。接下來,我們來看研究人員提出該方法的動機,以及具體方法和實驗細節。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer
    此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。Kaplan 等人(2020)已經對擴展的效益進行了詳盡的研究,揭示了隨模型、數據集大小以及計算預算變化的冪定律縮放。重要的是,該研究提倡在相對較少數據上訓練大型模型,將其作為計算最優方法。基於這些,研究者在增加參數量的同時保持每個示例的 FLOP 不變。他們假設參數量與執行的總計算量無關,是可以單獨縮放的重要組件。
  • 全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括格靈深瞳等機構開源的全球最大人臉數據集,以及類 Transformer 模型跨界在視覺任務上取得了新 SOTA。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    Kaplan 等人(2020)已經對擴展的效益進行了詳盡的研究,揭示了隨模型、數據集大小以及計算預算變化的冪定律縮放。重要的是,該研究提倡在相對較少數據上訓練大型模型,將其作為計算最優方法。基於這些,研究者在增加參數量的同時保持每個示例的 FLOP 不變。他們假設參數量與執行的總計算量無關,是可以單獨縮放的重要組件。