Facebook AI的DETR,一種基於Transformer的目標檢測方法

2020-12-03 人工智慧遇見磐創

介紹

機器學習框架或庫有時會更改該領域的格局。今天,Facebook開源了一個這樣的框架,DETR(DEtection TRansformer)

在本文中,我們將快速了解目標檢測的概念,然後直接研究DETR及其帶來的好處。

目標檢測

在計算機視覺中,目標檢測是一項任務,我們希望我們的模型將對象與背景區分開,並預測圖像中存在的對象的位置和類別。當前的深度學習方法試圖解決作為分類問題或回歸問題或綜合兩者的目標檢測任務。

例如,在RCNN算法中,從輸入圖像中識別出幾個感興趣的區域。然後將這些區域分類為對象或背景,最後,使用回歸模型為所標識的對象生成邊界框。

另一方面,YOLO框架(只看一次)以不同的方式處理目標檢測。它在單個實例中獲取整個圖像,並預測這些框的邊界框坐標和類概率。

要了解有關目標檢測的更多信息,請參閱以下文章:

基本目標檢測算法的分步介紹https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach使用流行的YOLO框架進行目標檢測的實用指南https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approachFacebook AI引入DETR

如上一節所述,當前的深度學習算法以多步方式執行目標檢測。他們還遭受了幾乎重複的問題,即誤報。為簡化起見,Facebook AI的研究人員提出了DETR,這是一種解決物體檢測問題的創新高效方法。

論文:https://arxiv.org/pdf/2005.12872.pdf

開放原始碼:https://github.com/facebookresearch/detr

Colab Notebook:https://colab.research.google.com/github/facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb

這個新模型非常簡單,你無需安裝任何庫即可使用它。DETR藉助基於Transformer的編碼器-解碼器體系結構將目標檢測問題視為集合預測問題。所謂集合,是指邊界框的集合。Transformer是在NLP領域中表現出色的新型深度學習模型。

本文的作者已經對比了Faster R-CNN,並且在最流行的物體檢測數據集之一COCO上評估了DETR 。

結果,DETR取得了可比的性能。更準確地說,DETR在大型物體上表現出明顯更好的性能。但是,它在小型物體上的效果不佳。我相信研究人員很快就會解決這個問題。

DETR的體系結構

實際上,整個DETR架構很容易理解。它包含三個主要組件:

CNN骨幹網編碼器-解碼器transformer一個簡單的前饋網絡

首先,CNN骨幹網從輸入圖像生成特徵圖。

然後,將CNN骨幹網的輸出轉換為一維特徵圖,並將其作為輸入傳遞到Transformer編碼器。該編碼器的輸出是N個固定長度的嵌入(向量),其中N是模型假設的圖像中的對象數。

Transformer解碼器藉助自身和編碼器-解碼器注意機制將這些嵌入解碼為邊界框坐標。

最後,前饋神經網絡預測邊界框的標準化中心坐標,高度和寬度,而線性層使用softmax函數預測類別標籤。

想法

對於所有深度學習和計算機視覺愛好者來說,這是一個非常令人興奮的框架。非常感謝Facebook與社區分享其方法。

相關焦點

  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    雷鋒網 AI 開發者按:Detectron 是 FAIR 在 2018 年初公開的目標檢測平臺,包含了大量業內最具代表性的目標檢測、圖像分割、關鍵點檢測算法,該框架主要基於 python 和 caffe2 實現,開源項目已獲得了超 2.2w 的星標數。
  • 速度、準確率與泛化性能媲美SOTA CNN,Facebook開源高效圖像...
    論文地址:https://arxiv.org/pdf/2012.12877.pdfGitHub 地址:https://github.com/facebookresearch/deit方法圖像分類是理解一張圖像主要內容的任務,對於人類而言很簡單,但對機器來說卻很困難。
  • 熱門的模型跨界,Transformer、GPT做CV任務一文大盤點
    與之前的目標檢測系統相比,DETR 的架構有了根本上的改變,也是第一個將 Transformer 成功整合為檢測 pipeline 中心構建塊的目標檢測框架。基於 Transformer 的端到端目標檢測,沒有 NMS 後處理步驟、真正的沒有 anchor,且對標超越 Faster RCNN。
  • AI攢論文指日可待?Transformer生成論文摘要方法已出
    Element AI 的研究者們提出了一種新的模型,使用 Transformer 架構,自動地生成論文的摘要。AI 攢論文的進程又往前走了一步。在開始正文前,請讀者們先讀下面一段摘要:譯文:「我們提出了一種通過神經摘要為超過數千詞的長文本生成抽象摘要的方法。
  • Facebook AI 正在升維突破:教AI像人類一樣理解三維世界
    ,研究人員不僅開發了新的算法,還整合了多個最新研究成果,包括用來預測 3D 形狀的 Mesh R-CNN 神經網絡框架,用來提取和重建 3D 不規則模型的 C3DPO 方法,用來檢測物體和生成 3D 點雲的 VoteNet 技術以及配套的新型優化算法等等。
  • Transformer在CV領域有可能替代CNN嗎?
    首先我們應該了解為什麼CNN會在圖像領域被大規模應用,我們可以從三個主要點說起,比如基於傳統的方法,基於模式識別的方法,基於深度學習的方法。 1.傳統方法在視覺任務上的應用絕大多數都依賴於在某個領域具有豐富經驗的專家,去針對具體的任務設計出一組最具有代表性的數據表示來作為輸入特徵進行處理,使得特徵之間具備可區分性,典型的有SIFT。 其次,一些特徵提取的方法也需要人為的參與,手工設計出一些特徵提取算子,比如一些經典的邊緣檢測算子,水平檢測,垂直檢測等。
  • 基於RCNN的多層次結構顯著性目標檢測方法
    前向車輛碰撞預警系統是一種有效降低主動事故發生率的技術,其廣泛採用車輛定位的方法實現,可以利用車輛自身的圖像特徵,如陰影、對稱性、邊緣等,例如常用的底部陰影以及車輛的兩個縱向邊緣構成的 U 型特徵等,快速定位車輛感興趣的區域,再利用多目標跟蹤算法對檢測的車輛進行跟蹤。 2.3 行人檢測及防碰撞系統 以「行人保護」為目的的行人檢測及防碰撞系統也成為自動駕駛領域的研究熱點。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    目前這項研究成果代表了AI多模式諷刺檢測的最高水準,並且已在計算機語言協會(ACL)、自然語言處理實證方法協會(EMNLP)等多個NLP頂會上發表。據了解,「多模式檢測(MultiModal Detection)」已成為一種主要的『諷刺』檢測模式,此前密西根大學和新加坡大學的研究人員也曾使用語言模型和計算機視覺來檢測電視節目中的諷刺,相關研究也發表在了ACL上。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    目前這項研究成果代表了AI多模式諷刺檢測的最高水準,並且已在計算機語言協會(ACL)、自然語言處理實證方法協會(EMNLP)等多個NLP頂會上發表。據了解,「多模式檢測(MultiModal Detection)」已成為一種主要的『諷刺』檢測模式,此前密西根大學和新加坡大學的研究人員也曾使用語言模型和計算機視覺來檢測電視節目中的諷刺,相關研究也發表在了ACL上。
  • MMDetection新版本V2.7發布,支持DETR,還有YOLOV4在路上!
    最近CV界最大的新聞就是transformer的應用,這其中最火的就是Facebook提出的基於transformer的目標檢測模型DETR(https
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    醫學圖像分析中目標檢測任務的普遍性,使得開發目標檢測集成框架顯得必要。近日,在雷鋒網 AI 研習社公開課上,深圳市宜遠智能科技有限公司負責人吳博剖析了目標檢測已有的框架,重點分享如何對目標檢測框架進行改造,以便在醫學圖像分析中產生更好的效果。公開課回放視頻網址:http://www.mooc.ai/open/course/559?
  • Transformer在CV領域有可能替代CNN嗎?|卷積|神經網絡|算子|上下文...
    首先我們應該了解為什麼CNN會在圖像領域被大規模應用,我們可以從三個主要點說起,比如基於傳統的方法,基於模式識別的方法,基於深度學習的方法。  1. 傳統方法在視覺任務上的應用絕大多數都依賴於在某個領域具有豐富經驗的專家,去針對具體的任務設計出一組最具有代表性的數據表示來作為輸入特徵進行處理,使得特徵之間具備可區分性,典型的有SIFT。
  • 整合全部頂尖目標檢測算法:FAIR開源Detectron
    昨天,Facebook AI 研究院(FAIR)開源了 Detectron,業內最佳水平的目標檢測平臺。該系統是基於 Python 和深度學習框架 Caffe 2 而構建的。該方法能夠有效地檢測圖像中的目標,同時還能為每個實例生成一個高質量的分割掩碼。而在 RetinaNet 中,研究者提出了全新的 Focal Loss 方法,併集中於稀疏、困難樣本中的訓練,避免了訓練過程中可能出現的大量負面因素。該論文的研究者表示,當使用 Focal Loss 進行訓練時,RetinaNet 可以達到此前一步檢測器的速度,同時準確性高於業內最佳的兩步檢測器。
  • ECCV 2020 目標檢測論文大盤點(49篇論文)
    2D 目標檢測旋轉目標檢測視頻目標檢測弱監督目標檢測域自適應目標檢測Few-Shot 目標檢測水下目標檢測目標檢測對抗攻擊其他2D目標檢測ECCV 2020 目標檢測論文大盤點2D 目標檢測End-to-End Object Detection with TransformersDETR:基於Transformers的端到端目標檢測論文:https://arxiv.org/abs/2005.12872代碼:https://github.com
  • 基於卷積神經網絡的目標檢測算法簡介
    要實現目標檢測,傳統的方法主要分為預處理、窗口華東、特徵提取、特徵選擇、特徵分類和後處理六個步驟。基於卷積神經網絡實現的目標檢測算法怎麼分類?根據卷積神經網絡的使用方式,可以將基於卷積神經網絡的目標檢測分為兩大類:基於分類的卷積神經網絡目標檢測和基於回歸的卷積神經網絡目標檢測。
  • Facebook 今年被 CVPR 收錄的論文都說了啥?
    近年來,為了改進圖像標註模型,研究者們探索了基於強化和對抗學習的方法,但這兩種方法都存在著許多問題,例如 RL 存在的可讀性差、冗餘度高問題,以及GANs 存在的穩定性問題。在本文中,我們建議在推理過程中應用對抗性技術,設計一種有助於更好地生成多語句視頻描述的鑑別器。此外,我們發現多鑑別器採用的「混合」設計(即每個鑑別器針對視頻描述的某一方面)能夠實現更好的效果。
  • 學界| Facebook新論文介紹相似性搜索新突破:在GPU上實現十億規模
    儘管 GPU 擅長數據並行任務,但之前的方法會在並行性不高的算法(如 k-min selection)上遇到瓶頸或不能有效利用內存的層次結構。我們提出了一種用於 k-selection 的設計,其可以以高達理論峰值性能 55% 的速度進行運算,從而實現了比之前最佳的 GPU 方法快 8.5 倍的最近鄰搜索。
  • 前沿丨水中目標新型被動檢測理論及方法
    此外,由於傳統的信號處理方法是基於信號和噪聲是線性平穩性的高斯隨機過程這一假設的,隨著艦艇等目標減振降噪性能的提高和噪聲的降低,這些傳統信號處理方法很難準確地提取水下目標輻射噪聲的特徵,因此必須將新型的被動檢測理論及方法應用到實際中,以提高水下航行器目標檢測系統對複雜環境的適應性能。
  • 目標檢測必須要OpenCV?10行Python代碼也能實現,親測好用!
    無人超市、人臉識別、無人駕駛,眾多的使用場景及案例,使得【目標檢測】正成為計算機視覺最有前景的方向。聽起來似乎是個很難實現的技術,需要大量訓練數據和算法才能完成。事實上,本文作者開發了一個基於Python的函數庫,可以用十行代碼高效實現目標檢測。還不熟悉的讀者,我們先來看看,目標檢測到底是什麼,以及軟體開發人員面臨的挑戰。