注意力模型深度綜述:注意力類型和網絡架構都有什麼

2021-02-15 機器之心

選自arXiv

者:Sneha Chaudhari 等

機器之心編譯

參與:王淑婷、杜偉

注意力模型已成為神經網絡中的一種重要概念,並在很多應用領域展開了研究。本文提出了一種分類方法,對這些研究進行了全面有序地綜述,並對注意力模型在一些應用領域產生的重大影響進行了討論。

注意力背後的直覺可以用人類的生物系統來進行最好的解釋。例如,我們的視覺處理系統往往會選擇性地聚焦於圖像的某些部分上,而忽略其它不相關的信息,從而有助於我們感知。類似地,在涉及語言、語音或視覺的一些問題中,輸入的某些部分相比其它部分可能更相關。通過讓模型僅動態地關注有助於有效執行手頭任務的部分輸入,注意力模型引入了這種相關性概念。

圖 1 顯示了使用注意力模型對 Yelp 評論進行情感分類的例子 [Yang et al., 2016]。在這個例子中,注意力模型知道了在五個句子中,第一句和第三句更相關。

圖 1:用注意力建模對 Yelp 評論進行分類的例子。

此外,在這些句子中,單詞 delicious 和 amazing 在決定評論的情感方面更有意義。

神經網絡中建模注意力的快速發展主要源於三個方面。首先,這些模型對多個任務(如機器翻譯、問答、情感分析、詞性標註、句法解析和對話系統)來說是當前最佳的模型;其次,除了提高主要任務的性能,它們還有一些其它優勢。它們還被廣泛用於提高神經網絡的可解釋性,無法解釋的神經網絡被視為黑箱模型;第三,它們還有助於克服循環神經網絡的一些挑戰,如隨著輸入長度的增加而導致的性能下降,以及輸入的序列處理所帶來的計算效率低下。因此,本文旨在對注意力模型進行簡短而又全面的綜述。

論文:An Attentive Survey of Attention Models


論文地址:https://arxiv.org/abs/1904.02874

注意力模型已成為神經網絡中的一種重要概念,並在各種應用領域進行了研究。本次綜述全面有序地概述了建模注意力方面的發展。研究者特別提出了一種分類法,該方法將現有技術歸併到連貫類別中。研究者對各種引入了注意力的神經架構進行了回顧,還展示了注意力如何提高神經模型的可解釋性。最後,研究者討論了建模注意力起到重大影響的一些應用。希望本次綜述可以簡明扼要地介紹注意力模型,為從業者提供指導,同時為其應用開發可行的方法。

注意力模型

注意力模型意在通過讓解碼器訪問完整的編碼輸入序列 {h_1, h_2, ..., h_T } 來減輕這些挑戰。中心思想是在輸入序列中引入注意力權重α,來對具有相關信息的位置集合進行優先級排序,以生成下一個輸出 token。

圖 2:編碼器-解碼器架構:(a) 為傳統結構,(b) 為帶注意力機制的結構。

具有注意力的相應編碼器-解碼器架構如圖 2(b) 所示。架構中的注意力模塊負責自動學習注意力權重α_ij,該權重會捕獲 h_i(編碼器隱狀態,被稱之為候選狀態)和 s_j(解碼器隱狀態,被稱之為查詢狀態)之間的相關性。這些注意力權重之後會被用於構建語境向量 c,而該向量被作為輸入傳遞給解碼器。

研究者將注意力分為四大類,並闡明了每一大類中不同類型的注意力,如下表所示(表 1)。

表 1:各大類別中的注意力類型。

為了理解這一概念,研究者提供了一系列重要的技術論文,並在表 2 中詳細說明了本文方法所用到的多種注意力類型。

表 2:有關注意力模型技術方法的重要論文。『-』表示「不適用」。

注意力網絡架構

在這一部分,研究者描述了與注意力相關的三種顯著的神經架構:(1)編碼器-解碼器框架;(2)將注意力擴展至單個輸入序列之外的記憶網絡;(3)利用注意力規避循環模型序列處理組件的架構。

編碼器-解碼器

注意力最早用作基於 RNN 的編碼器-解碼器框架的一部分,以編碼較長的輸入語句。一個有趣的事實是,注意力模型可以接受任何輸入表徵,並將其減少為固定長度的單個語境向量,該向量可用於解碼步驟。因此,研究者可以從輸出中解耦輸入表徵。

記憶網絡

像問答和聊天機器人這樣的應用需要具備根據事實資料庫中的信息進行學習的能力。端到端的記憶網絡通過使用記憶模塊陣列來存儲事實資料庫,並使用注意力來建模記憶中每個事實的相關性來回答問題,從而實現了這一點。

不帶 RNN 的網絡

Transformer 架構中,編碼器和解碼器由一堆相同的層組成,這些層則皆由兩個子層組成:對應位置的前饋神經網絡(FNN)層和多頭自注意力層。Transformer 架構實現了重要的並行處理、更短的訓練時間和更高的翻譯準確率,而無需任何重複的組件。

用於可解釋性的注意力

由於模型的性能以及透明性和公平性,人們對 AI 模型的可解釋性產生了巨大的興趣。從可解釋性的角度來看,建模注意力尤其有趣,因為它讓我們可以直接觀察深度學習架構的內部工作機制。

如圖 4(a) 所示,Bahdanau 等人可視化了注意力權重,這些權重清楚地展示了法語和英語句子的自動對齊,儘管這兩種語言中動詞和名詞的位置不同。

圖 4:注意力權重的可視化例子。

圖 4(b) 顯示,注意力權重有助於識別用戶的興趣。用戶 1 似乎偏好「卡通」視頻,而用戶 2 偏好關於「動物」的視頻。

最後,Xu 等人提供了相關圖像區域(即具有高注意力權重的區域)的大量可視化列表,這些區域對圖像字幕任務(圖 4(c))中生成的文本具有重大的影響。

雖然注意力機制有助於提高模型可解釋性的這種觀點比較普遍,但有研究者經過實驗證明,標準的注意力模塊在解釋模型方面基本沒什麼用。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

相關焦點

  • 7大類深度CNN架構創新綜述
    深度 CNN 架構在挑戰性基準任務比賽中實現的高性能表明,創新的架構理念以及參數優化可以提高 CNN 在各種視覺相關任務上的性能。本綜述將最近的 CNN 架構創新分為七個不同的類別,分別基於空間利用、深度、多路徑、寬度、特徵圖利用、通道提升和注意力。
  • 圖神經網絡綜述:模型與應用
    近年來,圖神經網絡的研究成為深度學習領域的熱點。近日,清華大學孫茂松組在 arXiv 上發布預印版綜述文章 Graph Neural Networks: A Review of Methods and Applications。
  • 清華大學圖神經網絡綜述:模型與應用
    機器之心專欄作者:PaperWeekly近年來,圖神經網絡的研究成為深度學習領域的熱點,機器之心曾介紹過清華大學朱文武等人綜述的圖網絡。近日,清華大學孫茂松組在 arXiv 上發布預印版綜述文章 Graph Neural Networks: A Review of Methods and Applications。
  • 深度學習時代的圖模型,清華發文綜述圖網絡
    這通常被稱為幾何深度學習問題 [7]。多變的結構和任務:圖具備多樣化的結構,因此比較複雜。例如,圖可以是同質的也可以是異質的,可以是加權的也可以不加權,可以是有符號的也可以是無符號的。此外,圖任務也有很多種,從節點問題(如節點分類和連接預測)到圖問題(如圖分類和圖生成)不一而足。多變的結構和任務需要不同的模型架構來解決特定的問題。
  • 注意力機制原理及其模型發展和應用
    面對上面這樣的一張圖,如果你只是從整體來看,只看到了很多人頭,但是你拉近一個一個仔細看就了不得了,都是天才科學家。圖中除了人臉之外的信息其實都是無用的,也做不了什麼任務,Attention機制便是要找到這些最有用的信息,可以想見最簡單的場景就是從照片中檢測人臉了。
  • 今日Paper | 空間注意力網絡;深度信念網絡;GhostNet;位置預測等
    用單個深度學習模型代替移動相機ISP基於深度信念網絡來識別阿爾茲海默症的蛋白質組危險標誌物分層時空LSTM在位置預測中的應用GhostNet:廉價運營帶來的更多功能  VSGNet:基於圖卷積的人體物體交互檢測的空間注意力網絡
  • 深度學習筆記 | 第15講:seq2seq與注意力機制模型
    又到了每周一狗熊會的深度學習時間了。在上一講中,小編給大家演示了如何利用 TensorFlow 根據原始文本訓練一個詞向量模型,以及如何根據給定的詞向量模型做一些簡單的自然語言分析。本節將繼續介紹自然語言處理中其他的一些模型,今天要介紹的模型就是一款經典的 RNN 模型——seq2seq,以及著名的注意力模型,最後小編會在這些理論的基礎上給出一個基於seq2seq和注意力模型的機器翻譯實例。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    本文對 NNLM 進行了綜述,首先描述了經典的 NNLM 的結構,然後介紹並分析了一些主要的改進方法。研究者總結並對比了 NNLM 的一些語料庫和工具包。此外,本文還討論了 NNLM 的一些研究方向。什麼是語言模型語言模型(LM)是很多自然語言處理(NLP)任務的基礎。早期的 NLP 系統主要是基於手動編寫的規則構建的,既費時又費力,而且並不能涵蓋多種語言學現象。
  • 深度殘差收縮網絡:注意力機制下的閾值設置
    對於基於深度學習的分類算法,其關鍵不僅在於提取與標籤相關的目標信息,剔除無關的信息也是非常重要的,所以要在深度神經網絡中引入軟閾值化。閾值的自動設置,是深度殘差收縮網絡的核心貢獻。需要注意的是,軟閾值化中的閾值,需要滿足一定的條件。這篇文章中的閾值設置,事實上,是在注意力機制下進行的。下面分別介紹閾值需要滿足的條件、注意力機制以及具體的閾值設置方法。
  • CVPR 2019 神經網絡架構搜索進展綜述
    原標題:Neural Architecture Search at CVPR 2019作者 | Vladimir Nekrasov編譯 | 林肯二百一十三(西安交通大學)我相信,每個深度學習研究者和從業者都多多少少地考慮過在他們處理的具體問題上應該使用什麼樣的神經網絡架構。很多人都殫精竭慮地嘗試提出像AlexNet、VGG以及ResNet那樣的有效架構。
  • 專欄| 神經網絡架構搜索(NAS)綜述(附AutoML資料推薦)
    三個方面對架構搜索的工作進行了綜述,幾乎涵蓋了所有近幾年的優秀工作。,但調參對於深度模型來說是一項非常苦難的事情,眾多的超參數和網絡結構參數會產生爆炸性的組合,常規的 random search 和 grid search 效率非常低,因此最近幾年神經網絡的架構搜索和超參數優化成為一個研究熱點。
  • 【綜述】神經網絡中不同類型的卷積層
    同時研究人員也提出了各種新的卷積或者卷積組合來進行改進,其中有的改進是針對速度、有的是為了加深模型、有的是為了對速度和準確率的trade-off。本文將簡單梳理一下卷積神經網絡中用到的各種卷積核以及改進版本。文章主要是進行一個梳理,著重講其思路以及作用。
  • 深度學習模型壓縮與加速綜述
    因此,如何在不影響深度學習模型性能的情況下進行模型壓縮與加速,成為了學術界和工業界的研究熱點。1、簡介深度學習模型壓縮與加速是指利用神經網絡參數和結構的冗餘性精簡模型,在不影響任務完成度的情況下,得到參數量更少、結構更精簡的模型。被壓縮後的模型對計算資源和內存的需求更小,相比原始模型能滿足更廣泛的應用需求。
  • 魚水讀論文:深度學習與CTR模型綜述 #IJCAI2021#
    在CTR訓練過程損失函數可以使用交叉熵:CTR模型的發展可以分為特徵工程和模型兩個部分,在早期CTR模型主要依賴人工特徵工程,然後隨著深度學習的發展逐步依賴複雜的網絡模型設計。此外 Gradient Boosting FM (GBFM)、Higher-Order FM (HOFM)和Field-weighted FM (FwFM)都是FM的分支,視圖希望完成自動特徵工程。Deep Learning通過深度學習強大的建模能力,數值特徵和類別特徵可以在網絡中完成高階的特徵交叉。
  • 綜述論文:當前深度神經網絡模型壓縮和加速方法速覽
    典型的例子是 ResNet-50[5],它有 50 層卷積網絡、超過 95MB 的儲存需求和計算每一張圖片所需要的浮點數乘法時間。如果剪枝一些冗餘的權重後,其大概能節約 75% 的參數和 50% 的計算時間。對於只有兆字節資源的手機和 FPGA 等設備,如何使用這些方法壓縮模型就很重要了。
  • 【序列推薦】RecSys2020|FISSA---融合物品相似度模型和自注意力網絡的推薦
    前言文章發表在2020年的頂會RecSys,提出了一個融合物品相似度和自注意力機制的序列推薦模型FISSA。FISSA融入了SASRec模型,將其看作是提取用戶行為的局部表示(local representation,短期興趣),又加入了對全局偏好(global preferences,長期興趣)的提取。
  • 深度學習模型的中毒攻擊與防禦綜述
    深度學習是當前機器學習和人工智慧興起的核心。隨著深度學習在自動駕駛、門禁安檢、人臉支付等嚴苛的安全領域中廣泛應用,深度學習模型的安全問題逐漸成為新的研究熱點。深度模型的攻擊根據攻擊階段可分為中毒攻擊和對抗攻擊,其區別在於前者的攻擊發生在訓練階段,後者的攻擊發生在測試階段。
  • 綜述 | 深度學習模型壓縮與加速
    近年來,深度學習模型在CV、NLP等領域實現了廣泛應用。然而,龐大的參數規模帶來的計算開銷、內存需求,使得其在計算能力受限平臺的部署中遇到了巨大的困難與挑戰。因此,如何在不影響深度學習模型性能的情況下進行模型壓縮與加速,成為了學術界和工業界的研究熱點。
  • 什麼是神經網絡架構搜索?
    深度學習提供了這樣一種承諾:它可以繞過手動特徵工程的流程,通過端對端的方式聯合學習中間表徵與統計模型。 然而,神經網絡架構本身通常由專家以艱苦的、一事一議的方式臨時設計出來。 神經網絡架構搜索(NAS)被譽為一條減輕痛苦之路,它可以自動識別哪些網絡優於手工設計的網絡。
  • 一種基於能量模型的神經網絡架構受限玻爾茲曼機
    一種基於能量模型的神經網絡架構受限玻爾茲曼機 李倩 發表於 2018-07-26 10:09:24 受限玻爾茲曼機是一種基於能量模型的神經網絡架構,雖然不像通常的卷積神經網絡一樣被人熟知