哈佛大學提出變分注意力:用VAE重建注意力機制

2020-12-04 機器之心Pro

注意力 (attention) 模型在神經網絡中被廣泛應用,不過注意力機制一般是決定性的而非隨機變量。來自哈佛大學的研究人員提出了將注意力建模成隱變量,應用變分自編碼器(Variational Auto-Encoder,VAE)和梯度策略來訓練模型,在不使用 kl annealing 等訓練技巧的情況下進行訓練,目前在 IWSLT German-English 上取得了非常不錯的成果。

論文連結:https://arxiv.org/abs/1807.03756v1相關代碼:https://github.com/harvardnlp/var-attn

一、背景

近年來很多論文將 VAE 應用到文本生成上,通過引入隱變量對不確定性進行建模。不過這會導致一個常見的 KL collapsing 問題,導致的現象就是直接訓練的 VAE 得到的 KL 接近於 0,也就意味著近似後驗和先驗一樣,隱變量被模型所忽略。

為了解決這個問題,在哈佛研究人員的工作中,注意力被建模成隱變量,由於解碼器 (decoder) 和解碼器 (encoder) 之間的主要信息傳輸通道是通過注意力來傳輸的,如果忽略了這個隱變量,就會因無法得到源文本的信息而得到很大的懲罰 (penalty)(這相比之前的許多工作中直接把隱變量加入到每個解碼步驟不同,因為那樣即使解碼器忽略了隱變量,也可以達到很好的模型表現)。因此通過直接優化目標函數才能使得這個隱變量也不易被忽略,研究人員的實驗完全驗證了這一點。

值得注意的是,研究人員將注意力建模成隱變量並不是單純為了應用 VAE 這個工具,而是因為研究人員認為將注意力建模成隱變量可以為解碼器提供更乾淨 (clean) 的特徵,從而在不增加模型參數的情況下提高模型的表現能力。

二、實驗效果

與傳統的注意力機制進行對比,傳統的注意力機制僅能通過之前生成的單詞確定當前即將生成單詞的注意力(上圖藍色部分,僅能觀測到已經預測的單詞,由於存在多種翻譯方式,因此會注意到和實際翻譯的單詞並不對應的位置),研究人員通過全部的源文本和目標文本去得到更準確的後驗注意力(上圖紅色部分,通過全部信息得到後驗,因此注意力和實際翻譯應該與注意 (attend) 的源單詞對應),並把更好的後驗注意力提供給解碼器,從而使解碼器拿到更為乾淨的特徵,藉此希望得到更好的模型。

三、核心思想

方法:假定 x 是源文本,y 是目標文本,z 是注意力,根據標準的 VAE 方法,研究人員引入推理網絡 (inference network) q(z | x, y) 去近似後驗,那麼 ELBO 可以表達為(為了方便,只考慮目標文本只有一個單詞的情況):

上面不等式的右側是 ELBO,其中第一項是從 q(z | x, y) 中採樣出注意力,使用採樣出的注意力作為解碼器的輸入計算交叉熵損失,第二項是確保後驗分布接近於先驗分布(注意到此處的先驗和一般的 VAE 不同,這裡的先驗是和模型一起學習的)。此時的 p(z | x) 和 q(z | x, y) 都是分類分布的,因此我們使用梯度策略去優化上面的目標函數。

由於此時的後驗 q 能看到全部的 x 和 y,因此後驗中採樣的注意力可以比先驗 p(z | x) 好,比如以下的例子:

這裡需要把德語(縱向)翻譯成英語(橫向),紅色代表先驗(即只觀測到 x 而不觀測到 y 的 p(z | x)),藍色代表後驗(即觀測到全部信息的 q(z | x, y))。注意到在第二個單詞「actually」處,紅色的先驗試圖注意到「nun」後面的逗號「,」,從而試圖生成一個「well,」的翻譯結果,然而實際的英語翻譯中並沒有逗號,而是直接是」well actually」,由於後驗 q(z | x, y) 可以看到實際的翻譯,因此藍色的後驗正確地注意到了「tatsachlich」上。注意到訓練目標 ELBO 中我們從後驗 q 中採樣注意力給解碼器,因此通過使用 VAE 的方法,解碼器得到了更準確的注意力信號,從而提高了模型的表達能力。

四、展望

注意力方法是自然語言處理等領域普遍存在的工具,但它們很難用作隱變量模型。這項工作通過具有良好實驗結果的變分注意力機制來探索潛在對齊的替代方法。研究人員同時也表示未來的工作將實驗規模較大的任務和更複雜的模型,如多跳注意力模型 (multi-hop attention models),變壓器模型 (transformer models) 和結構化模型 (structured models),以及利用這些潛在變量的可解釋性作為一種方式去將先驗知識進行結合。

相關焦點

  • 谷歌聯手DeepMind提出Performer:用新方式重新思考注意力機制
    【新智元導讀】谷歌、 DeepMind、艾倫圖靈研究院和劍橋大學的科學家們提出了「Performer」,一種線性擴展的人工智慧模型架構,並在蛋白質序列建模等任務中表現良好。它有潛力影響生物序列分析的研究,降低計算成本和計算複雜性,同時減少能源消耗和碳排放。Transformer 模型在很多不同的領域都取得了SOTA,包括自然語言,對話,圖像,甚至音樂。
  • 加性注意力機制 - CSDN
    提出的問題只和段落中一兩個句子有關,其餘部分都是無關的,那麼只需要把相關的片段挑出來讓神經網絡進行處理,而不需要把所有文章內容都輸入到神經網絡中。(一)普通模式用數學語言來表達這個思想就是:用表示N個輸入信息,為了節省計算資源,不需要讓神經網絡處理這N個輸入信息,而只需要從X中選擇一些與任務相關的信息輸進行計算。
  • 注意力機制Attention
    注意力機制(attention mechanism)Attention實質上是一種分配機制,其核心思想是突出對象的某些重要特徵。根據Attention對象的重要程度,重新分配資源,即權重,實現核心思想是基於原有的數據找到其之間的關聯性,然後突出其某些重要特徵。注意力可以被描述為將一個查詢和一組鍵值對映射到一個輸出,其中查詢、鍵、值和輸出都是向量。
  • 簡單有效的注意力機制
    但是我們的人腦可以在這些外界的信息轟炸中還能有條不紊地工作,是因為人腦可以有意或無意地從這些大量輸入信息中選擇小部分的有用信息來重點處理,並忽略其他信息。這種能力就叫做注意力。 ------ 摘自《百度百科》想解決什麼問題?
  • 一文解讀NLP中的注意力機制
    新智元推薦 來源:AI小白入門作者:yuquanle 整理編輯:三石【新智元導讀】注意力機制越發頻繁的出現在文獻中,因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機製做了較為全面的綜述。
  • 華為諾亞方舟加拿大實驗室提出BANet,雙向視覺注意力機制用於單目...
    作者 | SFXiang  編輯 | 陳彩嫻  論文地址:https://arxiv.org/abs/2009.00743  這是一篇將雙向注意力機制用於彈幕深度估計的工作。主要的創新點在視覺注意力機制的基礎上引入了前向和後向注意力模塊,這些模塊可以有效地整合局部和全局信息,以此來消除歧義。
  • 無需標註數據集,自監督注意力機制就能搞定目標跟蹤
    視頻著色源任務訓練的指針機制(pointer mechanism)。跟蹤自監督學習的目標是學習適合於匹配視頻幀序列的特徵嵌入。利用幀序列的自然時空連貫性(spatial-temporal coherence)來學習對應流。對應流可以理解為連續幀之間存在的特徵相似流。簡單地說,該方法學習了一種指針機制,該機制可以通過從一組參考幀中複製像素信息來重建目標圖像。
  • 哈希算法、愛因斯坦求和約定,這是2020年的注意力機制
    藉助注意力機制,神經機器翻譯、預訓練語言模型等任務獲得了前所未有的提升。但與此同時,注意力機制也面臨著重重問題,首先就是參數量太大,這有點類似於全連接層,注意力機制需要考慮兩兩之間的所有連接。我們可以看到,完全用注意力機制的模型,參數量輕輕鬆鬆破個億,而卷積這類參數共享的運算,參數量一般也就幾百萬。
  • 注意力機制想要覺醒AI,總共分幾步?
    這必須從Bengio視為機器學習殺手的注意力機制開始。將意識注入機器:注意力機制增加了另一項任務腦極體的高級讀者應該熟悉注意力機制。在機器學習任務中,例如圖像處理,語音識別和自然語言處理,過去兩年中引入了注意力模型。在行業中如此受歡迎,其特點自然是突出的:一種是讓神經網絡學習僅專注於特定部分,從而大大提高任務的有效性和效率。
  • 深度| 從各種注意力機制窺探深度學習在NLP中的神威
    由於很多基礎知識讀者可能已經比較熟悉了,因此本文只重點介紹該綜述文章討論的注意力機制。為了減少這種問題,Luong et al. [20] 提出了一種僅關注固定窗口大小 2D+1 的局部注意力機制:D 是開發者指定的超參數,位置 p_t 為窗口的中心,它可以設置為 t(單調性校準)或者由可微分機制確定(預測性校準)
  • 將注意力機制引入RNN,解決5大應用領域的序列預測問題
    注意力機制用於關注與輸出序列中的每一個詞相關的局部圖像「我們提出了一個基於注意力機制的方法,該方法在三個基準數據集上都達到了最先進的性能表現……我們還展示了如何使用學得的注意力機制為模型生成過程提供更多可解釋性,演示了學得的對齊與人類直覺一致性很高。」
  • 注意力機制不能提高模型可解釋性?不,你這篇論文搞錯了
    選自arXiv作者:Sarah Wiegreffe、Yuval Pinter機器之心編譯參與:魔王、張倩最近,很多研究人員對注意力機制能否解釋模型預測提出了疑問,比如今年 2 月份的論文《Attention is not Explanation》。
  • 詹姆斯·馬奇:「注意力」是成敗關鍵
    馬奇強調:「當然是由企業和品牌的注意力決定的。」注意力其實是不斷改變,同時也最稀缺的資源。因為注意力就是成功與否的風口,你是否有正確適當的注意力,決定你的市場戰略是否能真正打中紅心。當然,必須承認的是,注意力是不斷變化的,這也促使馬奇提出了著名的「垃圾桶理論」,即我們應該將企業的組織運行過程和決策流程看作在垃圾桶中淘金,根據不同的注意力方向和決策需求,隨時隨地去尋找最適合的決策——而不是像以往一樣,早就準備好一套既定的解決方案和模版應對所有的問題,在混亂中和失控中尋找真正的可能性,才能讓決策真正具有生命力量。
  • 教程 | 將注意力機制引入RNN,解決5大應用領域的序列預測問題
    「我們提出了一個基於注意力機制的方法,該方法在三個基準數據集上都達到了最先進的性能表現……我們還展示了如何使用學得的注意力機制為模型生成過程提供更多可解釋性,演示了學得的對齊與人類直覺一致性很高。」語義蘊涵中的注意力機制給定一個前提場景,並且用英文給出關於該場景的假設,輸出內容是前提和假設是否矛盾、二者是否相互關聯,或者前提是否蘊涵假設。例如:注意力機制用於將假設中的每一個詞與前提中的詞關聯起來,反之亦然。
  • 每日一讀:基於情感融合和多維自注意力機制的微博文本情感分析
    從今天開始,我會將每天的閱讀筆記上傳至公眾號,因本人水平有限,如存在錯誤之處,還請批評指正3.基於情感融合和多維自注意力機制的微博文本情感分析3.1論文信息中國民航大學電子信息與自動化學院,韓萍,孫佳慧,方 澄,賈雲飛計算機應用,2019年歸檔:WPS
  • 百度AAAI 2018錄用論文:基於注意力機制的多通道機器翻譯模型
    摘要:文章提出一種多通道的基於注意力機制(Attention-based)的編碼器(MCE,Multi-channel Encoder)。基於注意力的神經翻譯系統目前,很多研究工作者提出了許多基於注意力的神經翻譯系統(NMT,Neural Machine Translation)的改進方法,其中效果最優的是基於注意力架構的編解碼系統。圖 1. 提供了基於注意力 NMT 模型的結構原理,共包括三個部分:編碼、解碼層,及中間級聯的引入注意力機制的結構。
  • 微軟亞研:對深度神經網絡中空間注意力機制的經驗性研究
    空間注意力(Spatial Attention)機制最近在深度神經網絡中取得了很大的成功和廣泛的應用,但是對空間注意力機制本身的理解和分析匱乏。(Spatial Attention)機制最近在深度神經網絡中取得了很大的成功和廣泛的應用,但是對空間注意力機制本身的理解和分析匱乏。
  • 金字塔注意力網絡:一種利用底層像素與高級特徵的語義分割網絡
    選自arXiv機器之心編譯參與:機器之心編輯部目前很多語義分割方法在細節方面做得都不好,近日北京理工、曠視科技、北京大學機器感知重點實驗室的研究者提出金字塔形注意力網絡,它結合注意力機制和空間金字塔去提取精準的密集特徵而用於像素級標註任務,這種方法不再使用複雜化的擴張卷積和人工設計的解碼網絡。
  • 不一樣的「注意力」:人機互動注意力的測量指標與利用
    該系統包括頭部檢測與跟蹤、態勢識別、身體跟蹤、人臉檢測、眨眼、搖攝裝置控制單元、VFOA 檢測和轉移 / 集中注意力檢測模塊。圖 5. 靜態機器人實驗平臺參與者被要求注意自己的任務,並戴上帶有音樂的耳機,以避免被機器人做出動作時所產生的聲音幹擾。本文用兩個攝像機捕捉所有的互動。圖 6(a)為實驗環境。
  • 學界| 雙重注意力網絡:中科院自動化所提出新的自然場景圖像分割...
    本文提出了一個新的自然場景圖像分割框架,稱為雙重注意力網絡(DANet),引入了一種自注意力機制來分別捕捉空間維度和通道維度上的視覺特徵關聯。在處理複雜多樣的場景時,本文提出的方法比以往的方法更為靈活、有效,在三個具有挑戰性的場景分割數據集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當前最佳分割性能。