CVPR 2020丨碼隆科技提出 SiamAttn,將孿生網絡跟蹤器的性能提至最...

2020-12-13 AI 科技評論

本文介紹的是 CVPR 2020 論文《Deformable Siamese Attention Networks for Visual Object Tracking》,作者來自碼隆科技。本篇論文解讀首發於「碼隆播報」公眾號。

作者 | 碼隆科技

編輯 | 叢 末

論文地址:https://arxiv.org/abs/2004.06711

本篇論文中,碼隆科技提出了可變形孿生注意力網絡(Deformable Siamese Attention Networks,縮寫為 SiamAttn),以此來提升孿生網絡跟蹤器的特徵學習能力。這種注意力機制為跟蹤器提供了一種自適應地隱式更新模板特徵的方法。實驗表明,SiamAttn 明顯超越了現有最新算法,達到了目前的最優水平。

1

背景和動機

基於孿生網絡的目標跟蹤器在視覺目標跟蹤任務上取得了非常出色的表現。然而,在以往大多數孿生網絡跟蹤器中,它們的目標模板特徵在跟蹤過程中都是不會進行更新的;並且目標與搜索區域的特徵在計算過程中相互獨立,這是現有孿生網絡跟蹤的性能瓶頸所在。

不同於以往的方法,在本文中,我們提出了可變形孿生注意力網絡(Deformable Siamese Attention Networks,縮寫為 SiamAttn),以此來提升孿生網絡跟蹤器的特徵學習能力。為此,我們設計一個新的孿生注意力機制,其中包括可變形的自注意力機制和互注意力機制。自注意力機制通過空間注意力和通道注意力可學習到強大的上下文信息和選擇性地增強通道特徵之間的相互依賴;而互注意力機制則可以有效地聚合與溝通模板和搜索區域之間豐富的信息;可變形卷積層的加入使得該模塊能更靈活地根據目標外觀對卷積區域進行採樣。這種注意力機制為跟蹤器提供了一種自適應地隱式更新模板特徵的方法。

此外,我們還設計了一個區域修正模塊來對預測結果進行修正,該模塊進一步預測目標更準確的包圍框和目標的掩膜,最終得到更準確的跟蹤結果。

下方的 gif 展示了部分 SiamAttn 在 VOT2018 數據集上的測試結果,我們在六個標準的跟蹤性能測試集上測試了 SiamAttn,和另外四個高水準的跟蹤器結果對比可見,SiamAttn 的跟蹤結果要更加準確,並且對於目標的外觀變化、複雜背景、遮擋以及鄰近物體的幹擾更加魯棒。因此實驗表明 SiamAttn 明顯超越了現有最新算法,達到了目前的最優水平。

2

概要

視覺目標跟蹤的目標是對一段視頻裡面的目標物體進行準確的跟蹤。該任務在自動駕駛、人機互動、機器感知等領域均有非常廣泛的應用,但由於目標的變形、運動、遮擋、複雜背景等原因,建立一個快速和魯棒的跟蹤器具有很大的挑戰性。

近些年由於深度學習技術的快速發展,目標跟蹤任務也得益於深度學習技術所提供的強大的特徵表達能力。如 SiamFC、SiamRPN、DaSiamRPN、SiamRPN++、SiamMask 等基於孿生網絡結構的跟蹤器,均獲得了很好的跟蹤效果。

但是,因為孿生網絡跟蹤器完全是在線下通過大量從視頻中提取出來的成對的幀進行訓練,因此通常在跟蹤過程中,模板特徵並不會進行更新。這導致了它們對於外觀具有很大變化、變形、遮擋的目標的跟蹤過程中,很容易導致跟蹤漂移。一方面它們在目標的卷積特徵計算過程中,模板和搜索區域的特徵提取通常是相互獨立並沒有進行交互,另一方面也會丟棄掉很大部分的背景信息,而這些背景信息對於區分目標和鄰居的幹擾物十分重要。

受到計算機領域裡注意力機制的成功應用的啟發,我們提出了一個可變形孿生注意力網絡來解決目標跟蹤問題。我們將會描述一種新的可變形注意力機制,該機制可提高網絡對於目標特徵的表達能力、使得特徵對於目標外觀的變化擁有更強的魯棒性,對目標和鄰近幹擾物或複雜背景有更好的區分能力。

本文的主要貢獻總結如下:

我們設計了一種新的孿生注意力機制,該注意力機制計算了可變形的自注意力特徵和互注意力特徵。自注意力特徵在空間域上學習到豐富的圖像上下文信息,在通道域上選擇性地增強通道特徵之間的相互依賴;互注意力特徵聚合與溝通模板和搜索區域之間豐富的信息,提高了特徵的區分能力。我們設計了一個區域修正模塊,在經注意力的特徵的基礎上,來對預測結果進行進一步的修正,同時生成跟蹤目標的包圍框和掩膜。該模塊可使跟蹤的結果更加準確。為了檢驗 SiamAttn 的性能,我們在六個標準的跟蹤性能測試集上測試了 SiamAttn,實驗表明 SiamAttn 明顯超越了現有最新算法,達到了目前的最優水平,同時在使用 ResNet-50 作為骨架網絡的基礎上,保持了實時的速度。3

SiamAttn

在視頻的第一幀給出需要跟蹤的目標的位置,我們的目標是在視頻序列接下來的每一幀中都給出該目標準確的位置。通常基於孿生網絡結構的跟蹤器的做法是將第一幀給定的目標模板和接下來的待搜索區域同時輸入到孿生網絡當中提取出特徵,然後對這兩個特徵進行互相關操作,得到的響應圖就代表模板在搜索區域不同位置的得到響應的響應值大小,然後對該響應圖再進行進一步的回歸得到最終目標的位置。

如圖 2 所示,我們提出的 SiamAttn 包含四個部分:輸入、可變形孿生注意力模塊、孿生 RPN 模塊還有區域修正模塊。

圖 2 SiamAttn 的總體結構圖,它包含四個部分:輸入、可變形孿生注意力模塊、孿生 RPN 模塊還有區域修正模塊。我們使用 ResNet-50 作為骨幹網絡來提取輸入圖片的特徵,並將 S3、S4、S5 的特徵輸入到 DSA 模塊進行注意力增強;然後將經過增強的特徵輸入到 Siamese RPN,產生一個最佳的 proposal;最後由區域修正模塊對該 proposal 進行最後的修正。

1、可變形孿生注意力模塊

可變形孿生注意力(Deformable Siamese Attention, DSA)模塊將模板和搜索區域的特徵作為輸入,然後對其應用孿生注意力機制,最終輸出經過增強的特徵。如圖 3 所示,DSA 模塊又包含兩個子模塊:自注意力子模塊和互注意力子模塊。

圖 3 可變形孿生注意力模塊總體結構圖

自注意力子模塊兼顧通道和空間位置兩個方面。不同於分類任務和檢測任務,它們的目標類別都是預先設定的,而目標跟蹤則是類別無關的任務,事先並不知道需要跟蹤目標的類別,而是在視頻的第一幀給出,並在整個跟蹤過程中固定。而在卷積神經網絡中,每一個通道的響應通常反應了某種特定類別的響應,也就是說大部分通道的響應類別與跟蹤目標不同,因此,同等地對待每一個通道的響應會限制網絡特徵的表達能力。另一方面,受感受野的限制,網絡特徵中的每一個空間位置都只能捕捉到附近的局部信息,因此,學習到全局上下文信息對於特徵表達能力也非常重要。自注意力模塊通過計算出通道的注意力特徵圖來自適應地對每一個通道的響應進行加權,將不相關通道的響應的影響降低;通過計算出空間位置的注意力特徵圖來捕捉空間每一個位置的信息,使得每一個位置的特徵都能捕捉到圖像全局的信息。

互注意力子模塊則致力於改變孿生網絡兩個分支在計算特徵的過程中缺乏溝通的現狀。通常來說,模板分支和搜索分支的特徵直到進行互相關操作的時候,才會進行交互,而在此之前,相互獨立。然而,在提取特徵的過程中,對每一個分支來說,另外一個分支的信息至關重要。尤其對於目標跟蹤任務,很常見的一種情況就是多個類似的目標同時出現在相互的附近,甚至相互進行遮擋。如果孿生網絡兩個分支在計算特徵的過程中就進行有效的信息交互,則有助於各自捕捉到更有用的信息。而互注意力子模塊首先根據每個分支自己的信息計算出注意力特徵圖,然後將這個特徵圖傳送到另外一個分支,接收到特徵圖的分支則根據這個特徵圖來增強自己提取到的特徵,最終實現更有效的特徵提取。

在每個分支的最後,我們還加入了可變形卷積以替代常規的卷積,使網絡的感受野更加靈活。目標跟蹤過程中通常伴隨著大量的變形、遮擋、角度變換等情況,常規卷積正方形的採樣方式限制了網絡感受野的靈活性,而可變形卷積的靈活性則十分適用於解決目標跟蹤的問題。因此,在平衡計算效率和精度的情況後,我們在孿生網絡每個分支的最後加入了 3*3 的可變形卷積層。

圖 4 顯示了經過 DSA 模塊和不經過 DSA 模塊的特徵響應對比圖,可以看出,使用了 DSA 模塊的特徵響應要更加準確,能對周圍幹擾物和背景進行更有效的區分。

圖 4 目標響應的可視化結果示例。第一列為搜索區域圖,第二列為不經過 DSA 模塊網絡對目標得到的響應圖,第三列為經過 DSA 模塊網絡對目標得到的響應圖。

2、區域修正模塊

我們使用 Siamese RPN 來進行 proposal 的提取,然後對於 Siamese RPN 提取出來的最佳 proposal(得分最高),我們提出一個區域修正模塊來對其進行進一步的修正,其中包括更準確的包圍框的預測以及對應目標掩膜的預測。

我們首先根據 proposal 的位置,使用可變形 RoI Pooling 提取出對應區域的特徵。而後使用兩個輕量的卷積 head 來作進一步的預測:其中一個回歸它的包圍框,而另一個則對目標的掩膜進行預測。

在 ATOM 和 SiamMask 等跟蹤器中,它們對包圍框或者掩膜的預測都是進行密集地預測,而在 SiamAttn 中,則是使用單獨的卷積 head 進行預測,因此它的計算效率非常高而且能得到更準確的預測結果。

3、損失函數

SiamAttn 的整個訓練過程是端到端的,而訓練損失函數為各個模塊的損失函數的加權和。損失函數計算公式如下:

其中

分別對應的是 Siamese RPN 階段的 anchor 分類損失和回歸損失;類似地,

則分別對應區域修正階段對於包圍框和掩膜的預測損失;這幾個損失由 3 個加權因子來進行平衡,在我們的實驗中,

分別設置為 0.2、0.2 和 0.1。

4

實驗

1、公共數據集評估結果

我們在 OTB2015、UAV123、VOT2016、VOT2018、LaSOT 和 TrackingNet 這六個標準的跟蹤性能測試集上驗證了 SiamAttn 的有效性。從表中可以看出我們的方法達到了非常好的效果,尤其是對於 VOT 這種需要帶旋轉的包圍框來更好地定位目標的數據集,SiamAttn 有更為明顯的提升。

圖 5 OTB-2015 實驗結果圖

圖 6 VOT 實驗結果圖

圖 7 UAV123 實驗結果圖

圖 8 LaSOT 實驗結果圖

圖 9 TrackingNet 實驗結果圖

2、消融實驗

在 Ablation study 中,我們也進一步驗證了各個子模塊對於模型整體性能的貢獻。詳細的分析見 paper 和 supplementary。

圖 10 SiamAttn 各個子模塊對於模型整體性能的貢獻

圖 11 可變形卷積和池化對模型性能的影響

圖 12 不同訓練集對模型性能的影響

5

總結

我們提出一個解決目標跟蹤任務的新型跟蹤器:SiamAttn。在該跟蹤器中引入了效果顯著的孿生注意力機制,其中包括自注意力和互注意力,以幫助模型獲得更好的目標區分能力。與以往的跟蹤器不同的是,該注意力機制提供了一種自適應地隱式更新模板特徵的方法,並且引入了可變形卷積層和可變形池化層增大與靈活化了每個點的感受野,以確保提取到目標更有效的特徵。並且設計了一個輕量的區域修正模塊來進一步提升目標跟蹤的準確性。在保持實時的情況下,多個數據集上的大量實驗都證明了我們的方法的有效性。

6

補充

上方圖片為 SiamAttn 在 VOT2018 數據集上的測試結果。它表明 SiamAttn 有能力跟蹤與分割大多數包含不同尺寸、不同動作、發生形變以及擁有複雜背景的目標。

招 聘

AI 科技評論希望能夠招聘 科技編輯/記者 一名

辦公地點:北京/深圳

職務:以參與學術頂會報導、人物專訪為主

工作內容:

1、參加各種人工智慧學術會議,並做會議內容報導;

2、採訪人工智慧領域學者或研發人員;

3、關注學術領域熱點事件,並及時跟蹤報導。

要求:

1、熱愛人工智慧學術研究內容,擅長與學者或企業工程人員打交道;

2、有一定的理工科背景,對人工智慧技術有所了解者更佳;

3、英語能力強(工作內容涉及大量英文資料);

4、學習能力強,對人工智慧前沿技術有一定的了解,並能夠逐漸形成自己的觀點。

感興趣者,可將簡歷發送到郵箱:cenfeng@leiphone.com

相關焦點

  • 為損失函數定個框架,碼隆CVPR 2019提出圖像檢索新範式
    作為今年大會的黃金贊助商,碼隆科技在 CVPR 2019 上不僅發表了優秀的研究工作,同時還與 Google Research 等合辦了 FGVC6 Workshop,主辦了細粒度商品識別挑戰賽。本文將對碼隆科技的 CVPR 2019 論文進行解讀,介紹碼隆是如何為圖像搜索任務提出一個通用的損失函數框架,並將該領域近十年的損失函數都統一在該框架下。
  • 碼隆科技升級亮相CVPR 2018——贊學術·新提升·超會玩
    作為碼隆科技參與CVPR的第二個年頭,新提升·超會玩·贊學術,可以說是此行的關鍵詞。黃偉林博士分享了碼隆科技作為專注商品識別的創業公司,在技術落地過程中探索出的學術進展。今年,是碼隆科技與Google Research第一次合作辦賽,期待明年雙方還有更多學界、業界共同碰撞的火花。關於iMaterialist挑戰賽的更多技術細節分享,隨後將在機器之心報導中深度解析,敬請關注!
  • 碼隆科技CurriculumNet:提高噪聲數據價值方法
    專注於人工智慧技術創新的科技周報Import AI,長期關注並報導科技領域的重要事件。在最近一期周報中,碼隆科技自研的CurriculumNet算法在計算機視覺技術創新領域的應用獲得了Import AI的關注。作為數萬名業內專家的重要讀物,Import AI一直專注於人工智慧技術創新領域。
  • 2020最佳博士論文;南開等提出新型自校準卷積
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括 SIGGRAPH 2020 最佳博士論文,以及南開大學等提出的自校準卷積和相應網絡。
  • 碼隆科技亮相矽谷英偉達GTC,發布ProductAI國際版平臺丨GTC2017
    作為全球最權威的 GPU 開發者大會,本次會議將聚焦人工智慧、自動駕駛、VR等前沿科技領域。碼隆科技作為Inception Program精英創業計劃的一員,受邀參加此次技術盛會,並亮相Start-Up Pavilion展區。此次活動起,碼隆科技將正式開始提供ProductAI人工智慧視覺應用平臺海外版服務,正式走向國際市場。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。  2、向心偏移相對於關聯嵌入向量的優勢  為了比較向心偏移和關聯嵌入向量的性能,我們使用特徵提取網絡為Hourglass-52的CornerNet作為基準模型,然後將關聯嵌入向量直接替換為向心偏移進行比較
  • 碼隆科技攜論文亮相 ECCV 2018,科研成果受學術頂會肯定
    本次 ECCV 會議共接收論文 779 篇,錄取率約為 24%,基於對計算機視覺領域商品識別問題的聚焦研究,碼隆科技算法團隊於本次 ECCV 公布了最新的科研成果。其中一篇論文《CurriculumNet:基於大批量網絡圖像的弱監督學習算法(CurriculumNet: Weakly Supervised Learning from Large-Scale Web Images)》分享了碼隆科技最新的弱監督學習算法 CurriculumNet。
  • 埃森哲入股碼隆科技並達成AI戰略合作,碼隆海外零售商業化輪廓已成
    對於埃森哲而言,此次和碼隆科技的合作使得埃森哲戰略性躋身中國的AI 市場,同時也是中國區域增長戰略的重要一環。根據雙方的合作協議,碼隆科技將指定埃森哲為其首選系統集成商和諮詢合作夥伴,為埃森哲持續提升計算機視覺技術能力提供技術支持。未來,雙方將面向所有需要以高清、顯微級別或是X光級別準確識別物體的行業,提供所需的服務與解決方案。
  • 對話碼隆科技 CTO 碼特:應對商品識別獨有挑戰,技術研發實力是根本
    零售是最優先落地商品識別技術的行業作為一家注重商品識別技術研發和商業化並駕齊驅的公司,碼隆在技術產品化方面也是不遺餘力地投入。自創立以來,碼隆科技打造了一系列 AI 商品識別產品,其中就包括其最早大眾化的產品——商品識別基礎技術平臺 ProductAI®️。
  • 中國人工智慧有多牛 碼隆科技重磅亮相Discovery探索頻道
    Discovery記錄了數家深圳的中國創業企業代表,在眾多企業中,中國首個提出人工智慧商品識別概念的AI公司——碼隆科技佔據了最長的篇幅,與比亞迪、大疆無人機等共同作為重點案例,向觀眾展現了中國科技創新高速發展的原動力。
  • 比CNN更強有力,港中文賈佳亞團隊提出兩類新型自注意力網絡|CVPR2020
    paper:https://hszhao.github.io/papers/cvpr20_san.pdfcode:https://github.com/hszhao/SAN該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。
  • 比 CNN 更強有力,港中文賈佳亞團隊提出兩類新型自注意力網絡|CVPR2020
    paper:https://hszhao.github.io/papers/cvpr20_san.pdfcode:https://github.com/hszhao/SAN該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。
  • 碼隆科技榮登畢馬威中國領先消費科技50企業榜單
    2020年8月11-12日,由中國連鎖經營協會(CCFA)主辦的「2020中國國際零售創新大會」在上海國際會議中心順利舉行。會議第二天,畢馬威(KPMG)中國正式發布了《中國領先消費科技50企業報告》,旨在發掘中國消費科技領域裡致力於推進數位化、智能化、一體化的高成長企業。憑藉突出的技術研發優勢及落地成果,碼隆科技榮耀登榜。
  • 獲得軟銀中國2.2億人民幣B輪投資的碼隆科技,是怎樣的公司?獨家
    作為軟銀中國在中國人工智慧領域投下的第一家公司,碼隆科技的技術產品究竟如何?未來將把這筆融資應用在何處?黃鼎隆給出了答案。此前,碼隆科技曾在 2015 年 3 月獲得 1200 萬天輪投資,於 2016 年 10 月完成 6200 萬人民幣 A 輪融資。
  • 碼隆科技成功入駐東京都新科技加速營,積極開拓日本市場
    東京政府通過從企業市場潛力、產品研發實力、商業模式創新以及團隊組成等方面進行嚴格的調研與篩選,最終選出來自人工智慧、IoT、大數據領域的8家外國創新企業入駐加速器,碼隆科技是唯一一家成功入駐NTBCT加速器的中國企業。
  • 用孿生網絡、對比損失和三重損失進行人臉識別的單樣本學習
    從歷史上來看,嵌入是通過使用孿生網絡(Siamese network)來解決單樣本學習問題的。通過對具有對比損失(Comparative Loss)函數的孿生網絡進行訓練,獲得了更好的性能,後來導致了 Google 在 FaceNet 系統中使用三重損失(Triplet Loss)函數,這個函數在基準人臉識別任務取得了當時最先進的結果。
  • 單目標跟蹤論文綜述:SiamFC、Siam系列和GradNet
    這一切都源於2016年siamFC的提出,siamfc實際上就是將跟蹤當做匹配問題,下面具體介紹siamfc。Siam系列SiamRPN是CASIA在2018提出來的網絡,它將siam與檢測領域的RPN進行結合。關於RPN(faster RCNN)可以參看faster RCNN,這篇帖子寫得非常好。在檢測領域RPN本意是用作檢測,它將feature map上的各個點當做錨點,並映射到映射到輸入圖片上,再在每個錨點周圍取9個尺度不同的錨框,對每個錨框進行檢測是否有物體以及位置回歸。
  • 碼隆科技視覺識別智能貨櫃解決方案:改變消費形態 解決消費痛點
    碼隆科技視覺識別智能貨櫃解決方案:改變消費形態 解決消費痛點 2016 年 10 月,馬雲首次提出「新零售」概念,這一舉動不僅引發了行業變革,也對消費者產生了巨大影響。