Facebook AI的DETR:一種基於Transformer的目標檢測方法

2021-02-21 深度學習與計算機視覺

介紹

機器學習框架或庫有時會更改該領域的格局。前不久,Facebook開源了一個這樣的框架,DETR(DEtection TRansformer)


在本文中,我們將快速了解目標檢測的概念,然後研究DETR及其帶來的好處。

目標檢測

在計算機視覺中,目標檢測是一項將對象與背景區分開,並預測圖像中存在的對象的位置和類別的任務。當前的深度學習方法試圖將其作為分類問題或回歸問題或綜合兩者的目標檢測任務來解決。

例如,在RCNN算法中,從輸入圖像中識別出幾個感興趣的區域,然後將這些區域分類為對象或背景,最後使用回歸模型為所標識的對象生成邊界框。

另一方面,YOLO框架(只看一次)以不同的方式處理目標檢測,它在單個實例中獲取整個圖像,並預測這些框的邊界框坐標和類概率。

要了解有關目標檢測的更多信息,請參閱以下文章:

基本目標檢測算法的分步介紹

https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach

使用流行的YOLO框架進行目標檢測的實用指南

https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach

Facebook AI引入DETR

如上一節所述,當前的深度學習算法以多步方式執行目標檢測,這些算法幾乎都會遇到誤報問題。為簡化起見,Facebook AI的研究人員提出了DETR,這是一種解決物體檢測問題的創新高效方法。

論文:https://arxiv.org/pdf/2005.12872.pdf

開放原始碼:https://github.com/facebookresearch/detr

Colab Notebook:https://colab.research.google.com/github/facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb

這個新模型非常簡單,你無需安裝任何庫即可使用它。DETR藉助基於Transformer的編碼器-解碼器體系結構將目標檢測問題視為集合預測問題,所謂集合,是指邊界框的集合。Transformer是在NLP領域中表現出色的新型深度學習模型。

本文作者對比了Faster R-CNN,並且在最流行的物體檢測數據集之一COCO上評估了DETR 

結果,DETR取得了可比的性能,更準確地說,DETR在大型物體上表現出明顯更好的性能,但是它在小型物體上的效果不佳。我相信研究人員很快就會解決這個問題。

DETR的體系結構

實際上,整個DETR架構很容易理解。它包含三個主要組件:

CNN骨幹網

編碼器-解碼器transformer

一個簡單的前饋網絡

目標檢測變壓器

首先,CNN骨幹網將輸入圖像生成特徵圖。

然後,將CNN骨幹網的輸出轉換為一維特徵圖,並將其作為輸入傳遞到Transformer編碼器,該編碼器的輸出是N個固定長度的嵌入(向量),其中N是模型假設的圖像中的對象數。

Transformer解碼器藉助自身和編碼器-解碼器注意機制將這些嵌入解碼為邊界框坐標。

最後,前饋神經網絡預測邊界框的標準化中心坐標,高度和寬度,而線性層使用softmax函數預測類別標籤。

想法

對於所有深度學習和計算機視覺愛好者來說,這是一個非常令人興奮的框架。非常感謝Facebook與社區分享其方法。

原文連結:https://www.analyticsvidhya.com/blog/2020/05/facebook-detection-transformer-detr-a-transformer-based-object-detection-approach/

感謝大家的走心留言,每一條小編都認真閱讀了,會繼續努力噠。

這次沒被抽中的朋友不要氣餒~ 我們會堅持不定期推出留言送書活動,多多留言會增加中獎概率的。恭喜下面留言的這位讀者,獲贈書籍《Python數據分析與可視化從入門到精通》一本。請聯繫小編:mthler

如果看到這裡,說明你喜歡這篇文章,請轉發、點讚。微信搜索「uncle_pn」,歡迎添加小編微信「 mthler」,每日朋友圈更新一篇高質量博文(無廣告)。

相關焦點

  • DETR:基於 Transformers 的目標檢測
    編輯:我是小將前言最近可以說是隨著 ViT 的大火,幾乎可以說是一天就能看到一篇基於 Transformers 的 CV 論文,今天給大家介紹的是另一篇由Facebook 在 ECCV2020 上發表的一篇基於 Transformers 的目標檢測論文,這篇論文也是後續相當多的 Transformers 檢測/分割的 baseline,透過這篇論文我們來了解其套路
  • NLP攜手Transformer跨界計算機視覺,DETR:目標檢測新範式
    其實,它還可以用來進行目標檢測。Facebook AI 的研究者首先推出了 Transformer 視覺版本——Detection Transformer(DETR),填補了 Transformer 用於目標檢測的空白,對標超越 Faster RCNN。基於 DETR,研究者們提出了多種優化版本進行目標檢測任務,效果還不錯。
  • 實操教程|如何使用Transformer來做物體檢測?DETR模型完整指南
    這留給我們的是C個二維特徵,由於我們將把這些特徵傳遞給一個transformer,每個特徵必須允許編碼器將每個特徵處理為一個序列的方式重新格式化。這是通過將特徵矩陣扁平化為H⋅W向量,然後將每個向量連接起來來實現的。
  • 模型的跨界:我拿Transformer去做目標檢測,結果發現效果不錯
    最近,Facebook AI 的研究者就進行了這方面的嘗試,把 Transformer 用到了目標檢測任務中,還取得了可以媲美 Faster R-CNN 的效果。近年來,Transformer 成為了深度學習領域非常受歡迎的一種架構,它依賴於一種簡單但卻十分強大的機制——注意力機制,使得 AI 模型有選擇地聚焦於輸入的某些部分,因此推理更加高效。
  • 計算機視覺中的transformer模型創新思路總結
    該分析對相對位置編碼有了全面的理解,並為新方法的設計提供了經驗指導。2.提出了一種高效的相對編碼實現方法,計算成本從原始O()降低到O(nkd)(其中k<<n),適用於高解析度輸入圖像,如目標檢測、語義分割等Tokens數可能非常大的場合。
  • 【綜述專欄】3W字長文帶你輕鬆入門視覺transformer
    由於其出色性能以及對下遊任務的友好性或者說下遊任務僅僅微調即可得到不錯效果,在計算機視覺領域不斷有人嘗試將transformer引入,近期也出現了一些效果不錯的嘗試,典型的如目標檢測領域的detr和可變形detr,分類領域的vision transformer等等。
  • 如何評價Sparse R-CNN,目標檢測未來會如何發展?
    其實能想到現在檢測幾個令人頭疼的問題是出在dense的anchor已經很不容易了,之後detr可能啟發了sparse 能做work,最近幾年dynamics 的生成運算參數的工作(condinst之類)為sparse的work奠定了基礎,感覺真的是一個剛剛好的時候。真的太強了,相比一些想出來感覺不快點做就會被別人做的東西,這個就是那種根本想不到的東西。
  • 【源頭活水】基於視覺的在線地圖:一種Transformer網絡方法
    「問渠那得清如許,為有源頭活水來」,通過前沿領域知識的學習,從其他研究領域得到啟發,對研究問題的本質有更清晰的認識和理解,是自我提高的不竭源泉。為此,我們特別精假設圖像的垂直掃描線與俯視圖中穿過相機位置的射線之間存在 1-1 對應關係,這樣將圖像的地圖生成定義為一組序列到序列轉換。將問題視為轉換,可允許網絡在解釋每個像素作用時採用圖像的上下文,得到的是一個限制的transformer網絡,只在水平方向做卷積。
  • 嵌入式快訊:M1808 AI 核心板和基於Transformer的車道線檢測網絡
    嵌入式快訊:M1808 AI 核心板和基於Transformer的車道線檢測網絡 RTThread物聯網操作 發表於 2020-12-21 11:06:11 導讀:
  • Facebook開源多款AI工具,支持遊戲、翻譯
    1)視覺(Vision)DetectronDetectron 是一個用於目標檢測的高性能代碼庫,可以輸出邊界框和目標實例分割的結果。GitHub地址:https://facebook.ai/developers/tools/densepose
  • 視覺Transformer綜述
    ViT將一個純粹的transformer直接用於圖像塊序列,並在多個圖像識別基準上獲得SOTA性能。除了基本的圖像分類,transformer還用於解決更多計算機視覺問題,例如目標檢測,語義分割,圖像處理和視頻理解。由於其出色的性能,提出了越來越多基於transformer的模型來改善各種視覺任務。
  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    與之前的目標檢測系統相比,DETR 的架構有了根本上的改變,也是第一個將 Transformer 成功整合為檢測 pipeline 中心構建塊的目標檢測框架。基於 Transformer 的端到端目標檢測,沒有 NMS 後處理步驟、真正的沒有 anchor,且對標超越 Faster RCNN。
  • 首個基於Transformer的目標檢測模型上線,大目標檢測超越Faster R...
    研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。   Facebook AI Research的六名成員研究了近期非常流行的Transformer神經網絡架構,創建了一個端到端的目標檢測AI。研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。
  • Facebook挑戰賽:利用AI檢測惡意圖文,還有很長的路要走
    惡意圖文(Meme,又譯迷因或模因),是一種基於宗教或種族等特徵的、用於貶低他人的文字和圖像組合。Facebook認為,惡意圖文對於機器學習程序而言是一個有趣的挑戰,機器學習在短時間內還找不到完美的解決方法。而Facebook最新研究表明——深度學習的人工智慧形式在「檢測」惡意模因的能力方面遠遠落後於人類。
  • AI攢論文指日可待?Transformer生成論文摘要方法已出
    Element AI 的研究者們提出了一種新的模型,使用 Transformer 架構,自動地生成論文的摘要。AI 攢論文的進程又往前走了一步。在開始正文前,請讀者們先讀下面一段摘要:譯文:「我們提出了一種通過神經摘要為超過數千詞的長文本生成抽象摘要的方法。
  • 旋轉目標(遙感/文字)檢測方法整理(2017-2019)
    relate work部分,趁機把近幾年遙感(主要關注)、場景文字旋轉目標檢測論文方法和code整理一下,時間倉促有疏漏之處望多多指出。DOTA旋轉目標賽道實時排名(2019年12-22)以下方法介紹按照論文提交時間順序1.RRPN(兩階段文字檢測 復旦大學等)時間:3 Mar 2017題目:《Arbitrary-Oriented Scene
  • 基於深度學習的目標檢測算法綜述
    本文針對目前主流的目標檢測方法進行簡單的介紹,文章分為兩個部分:第一部分介紹R Girshick提出的以R-CNN為代表的結合region proposal和CNN分類的目標檢測框架(R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN); 第二部分介紹以YOLO為代表的將目標檢測轉換為回歸問題的目標檢測框架(YOLO, SSD); 第三部分介紹一些最新的目標檢測算法的進展
  • 提供基於transformer的pipeline、準確率達SOTA
    spcCy 3.0 更新文檔地址:https://github.com/explosion/spaCy/releases/tag/v3.0.0具有新的基於 transformer 的 pipeline,這使得 spaCy 的準確率達到了當前的 SOTA 水平;提供了新的 workflow 系統,幫助用戶將原型變為產品;pipeline 配置更加簡單,訓練
  • Transformer在CV領域有可能替代CNN嗎?
    首先我們應該了解為什麼CNN會在圖像領域被大規模應用,我們可以從三個主要點說起,比如基於傳統的方法,基於模式識別的方法,基於深度學習的方法。  1. 傳統方法在視覺任務上的應用絕大多數都依賴於在某個領域具有豐富經驗的專家,去針對具體的任務設計出一組最具有代表性的數據表示來作為輸入特徵進行處理,使得特徵之間具備可區分性,典型的有SIFT。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    官方定義是每一種信息的來源或形式,都可以成為一種模態。比如,人有觸覺,聽覺,視覺,嗅覺,以上都是一種模態。那麼,對於Twitter發帖來說,文字、圖片、視頻分別代表了三種模態。研究人員發現,現有的多模態諷刺檢測方法通常是簡單地將多模態特徵連接起來,或者以設計的方式融合多模態信息,而忽略了多模態之間和模態內的不一致性。