如何評價Sparse R-CNN,目標檢測未來會如何發展?

2021-02-08 深度學習與計算機視覺

連結:https://www.zhihu.com/question/431890092

編輯:深度學習與計算機視覺

聲明:僅做學術分享,侵刪

作者:信息門下添狗
https://www.zhihu.com/question/431890092/answer/1593944329

detr最近的進展我都不是很熟,跟做ocr的小夥伴聊了下,他說paper的幾個點在這條線上上看會比較順,我完全不懂,期待有大佬給一些新的視角解讀吧。

昨晚看完直接失眠了,躺在床上捋清楚了幾個細節,比如學出來的anchor為啥不會很相似,為什麼這樣能去掉nms之類,越想越覺得太秒了

由於dense的anchor設計加上cnn feature map的平滑性質,導致我們在正負樣本劃分不得不使用一對多的形式以及使用nms這樣的後處理,這兩個東西很蛋疼,從而從去年開始導致了一系列做正負樣本劃分以及設計loss適應nms的工作。

我之前跟mentor討論,他堅信cnn上也能像detr一樣去掉nms,但是我就勸他說不用position encoding 這樣的東西,cnn這個平滑性好像必須有這麼個設計,之後的嘗試也完全走偏了,這個認知在dense anchor的基礎上也是對的,但是之後就往怎麼增加feature map高頻上做了,完全沒意識到dense anchor有什麼問題,當然也承認,認識到我也一點不敢想能做成sparse的形式。

其實能想到現在檢測幾個令人頭疼的問題是出在dense的anchor已經很不容易了,之後detr可能啟發了sparse 能做work,最近幾年dynamics 的生成運算參數的工作(condinst之類)為sparse的work奠定了基礎,感覺真的是一個剛剛好的時候。

真的太強了,相比一些想出來感覺不快點做就會被別人做的東西,這個就是那種根本想不到的東西。作者:yanwan
https://www.zhihu.com/question/431890092/answer/1594767413
將 two stage anchor detector 升級為了 two stage set prediction detector.1、Learnable proposal box 可以看作 RPN,然後用ROIAlign提取ROI feature。2、Learnable proposal feature 可以看作是Detr中的object query,相當於anchor。3、ROI feature 和 Learnable proposal feature 用 optimal bipartite matching做匹配,而不是沿用IOU做匹配。4、Detr中使用了 transformer讓每個object query都和全局的特徵圖交互,而Sparse R-CNN 通過Learnable proposal box生成了sparse candidates和sparse feature,這樣就避免了和全局特徵的交互。5、從工業部署角度看,對於端側,sparse detector並不是很友好,dense detecor更直接而且網絡也能夠輕量。

最後,Set Prediction detector也開始分為兩類了:

看起來set prediction挺香的,只不過,set prediction的檢測器,同等測試條件下還是anchor/anchor-free的檢測器在精度上差一點,和Sparse R-CNN作者也討論了下,set prediction還有優化的空間。

set prediction的檢測器很簡潔,部署也很方便,如果把精度和速度肝上去了,就可以造福工業界了。

作者:深度眸
https://www.zhihu.com/question/431890092/answer/1594349380
特意把論文和代碼都看了,結合對relation和relation++、detr的了解,說下粗略的感受吧。Sparse R-CNN確實做的很好,等的就是這樣的工作!極致簡單,不需要複雜anchor先驗設置、不需要nms、不需要RPN,將整個faster rcnn的pipeline變得非常簡潔。

論文核心思想應該是借鑑了上述三篇論文做法,簡單來說是核心組件是:

上述兩個組件中最重要的是可學習proposal feature,而可學習proposal boxes只是為了提出roi而已,不然RCNN咋弄?而可學習proposal feature和detr的object query作用非常類似,都是提供全局注意力或者說提供實例級別的統計信息,由於維度比較高,其可以嵌入的信息很多,例如物體姿態或者shape。強烈建議作者在預測時候進行可視化proposal feature,應該可以看出很多東西

對應到relation論文,那麼proposal boxes就是常說的幾何特徵,而proposal feature就是外觀特徵。我覺得沒啥本質區別,因為都是自發學的,學到最後其實可視化看看都一樣應該。

至於roi特徵和proposal feature的交互過程非常重要,雖然論文說具體細節不重要,這個交叉注意力計算過程和transformer裡面的做法類似,作者成為動態head,確實有動態的意味。

最後的loss,也是參考了detr裡面的先雙邊匹配,然後再計算loss的做法,使得最後輸出的預測結果不需要nms。

其他的迭代refine思想應該是為了提點而已,和cascade rcnn做法類似。

以上就是全部核心知識點了。可以發現極其簡單,只要你熟悉了上述所提的3篇論文就能夠理解了。

至於未來嘛,transformer思想還是很值得期待的,雖然本文好像沒有引入(但是我覺得思想還是引入了)。如果哪天將CNN徹底拋棄,僅僅依靠transformer或者類似注意力思想統治了CV領域,那也不用奇怪!

作者:小磊
https://www.zhihu.com/question/431890092/answer/1594696884
由於 Sparse RCNN 有受到 DETR 啟發, 所以先分析 DETR.

我覺得 DETR 的成功有兩個關鍵點:

Self-attention 帶來的 proposal 之間的強關聯性, 使得整個輸出結果更加整體

同時, DETR 有個大的缺點, 就是對 local feature 利用不足. 這會導致一個問題: bbox 邊界回歸不準. 表現為小物體的 mAP 非常低(如下表)。

DETR 的 APs 比 Sparse RCNN 低了6個點!

但 mAP_small 低有可能有兩個原因:

為了找到 mAP_small 低的具體原因, 我們對比了一下 DETR 和 MaskRCNN 的 bbox mAP_small 曲線:

縱坐標:mAP_small. 橫坐標: IoU閾值[0.5:1:0.05]. 藍色 DETR, 橙色 MaskRCNN

發現 DETR(藍色) 在 IoU 閾值為 0.5 時候, mAP_small 比 MaskRCNN還高, 所以 DETR 感知到小物體的能力還挺強的, "邊界回歸不準"才是 mAP_small 低的主要原因.

再回到主角 Sparse RCNN, Sparse RCNN 完全繼承了 DETR 的兩個關鍵優點:

Proposal 之間的強關聯性(iteration+dynamic 機制類比於 self-attention)

同時, 由於 Sparse RCNN 是全卷積的, 具有 CNN local feature 強的優點. 所以在邊界回歸的準確度上會優於 DETR.

綜上, Sparse RCNN 集成了 DETR 的兩個優點, 並摒棄了 transformer 帶來的缺點, 並在結果上超過了 DETR. 但老實說, Sparse RCNN 只高了0.3 的 mmAP, 而 mAP50 和 AP_large  上都低了不少, 說明 Sparse RCNN 還有挺多進步空間的.

補充:
其實可以換一種方式來解決 DETR 對 local feature 利用不足的缺點, 就是直接學 RCNN, 做 two-stage 的回歸。

具體的, 在第二個 stage 找出 small object 的 bbox, padding 一點點, 在高清一點的 CNN feature 上 crop 一個 RoI 出來。給 RoI 加上 spatial positional encoding 和 object 的 query 一起丟給 transformer 的 decoder, 輸出一個 refine 後的 bbox。

作者:匿名用戶
https://www.zhihu.com/question/431890092/answer/1594953510
之前的方法是 大量初始proposal +1-2  refine stage。用過飽和的proposal保證預測質量,最後用NMS濾除。

這篇是少量的初始proposal+多輪 refine stage。proposal box 和 proposal feature可以與輸入圖像無關 就證明了 不靠譜的初始proposal是可以考多輪 refine修正回來的。還是挺神奇的。

我很想看看每輪refine前後 box的變化,到底圖片無關的proposal box是怎麼和Object對應的,有什麼規律。

作者:雲中君
https://www.zhihu.com/question/431890092/answer/1594679377
首先:這個 「sparse」的 novelty,highlight sparse 太多不太合適,因為sparse 不是這篇論文首創吧,更多是detr這種開山鼻祖可以強調這點?這個sparse更多體現在proposal的sparse,但是似乎文章描述的不多。

其次:後續的Dynamic instance interactive head 是論文的重點,但是堆了很多料,比較tricky,整個story似乎是沒講好。

然後:仔細看了一遍代碼,發現的proposal bbox 最後是固化的一個統計值,靠後續的proposal feature 和 dynamic head 來救,這樣可能會存在如果測試集和訓練集gap比較大,掉點可能會比較嚴重,同時這種方式,拿掉了費電的rpn,但是引入一個相對比較低效的方法,光靠後面的兩到工序可能救不動,所以會存在很明顯的一些object沒被召回的情況,如果proposal也是圖像卷出來的,可能還能再提升,搞個2.0版本?

最後:當然效果好,收斂速度快,實驗足,工業界還是香的。作者:摘掉眼鏡睡覺
https://www.zhihu.com/question/431890092/answer/1603178806
大佬們的手速也太快了叭,上兩周做了rethinking DETR的實驗,Rethinking Transformer-based Set Prediction for Object Detection 21號就出來了,緊接著這篇Sparse R-CNN也出來了。

周末仔細讀了這篇Sparse R-CNN, 感覺Learnable proposal boxes和Learnable proposal feature並不是很難想,DETR的出現已經證明了learnable query embedding是work的,所以稀疏的learnable proposal feature也應該可以work,但是我覺得這個learnable proposal可以比較好的解釋DETR中query object的物理含義。

之前沒有接觸過meta learning,所以這個dynamic head中把proposal feature當成params和roi feature進行卷積(就是矩陣乘法)在我看來還是挺有想法的。然後使用Iterative architecture,和Cascade的思想一樣,從可視化結果來看,這裡也很好的訓練出NMS的作用。最後還是類似DETR,使用了Hungarian Algorithm loss,不過它這裡對分類loss使用了focal loss,這是處理proposal中正負樣本不平衡的一個好方法,在DETR裡也可以用這個來改進。

我其實挺想弄懂Hungarian Algorithm到底有沒有作用,能不能解決NMS的drawback

作者:匿名用戶

https://www.zhihu.com/question/431890092/answer/1594425702其實,對於目標檢測,還能有什麼新方法呢?不外乎就是如何更有效的提取特徵以及如何組合特徵,通過特徵更高效更可靠的計算出概率,現在的網絡結構,也都是包括 特徵提取和組合特徵上下文關係 這兩部分,大的方向定了,剩下的其實就是如何玩提高效率和可靠性的trick了,不會有什麼思想上的突破了。


如果看到這裡,說明你喜歡這篇文章,請轉發、點讚。微信搜索「uncle_pn」,歡迎添加小編微信「 mthler」,每日朋友圈更新一篇高質量博文。

相關焦點

  • 港大同濟伯克利推出目標檢測新範式:Sparse R-CNN
    機器之心轉載作者:孫培澤全新的目標檢測範式Sparse R-CNN。目標檢測領域看似已經飽和,然而 dense 屬性的一些固有局限總讓人難以滿意:NMS 後處理many-to-one 正負樣本分配prior candidates 的設計所以,一個很自然的思考方向就是:能不能設計一種徹底的 sparse 框架?
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    機器視覺領域的核心問題之一就是目標檢測(object detection),它的任務是找出圖像當中所有感興趣的目標(物體),確定其位置和大小。作為經典的目標檢測框架Faster R-CNN,雖然是2015年的論文,但是它至今仍然是許多目標檢測算法的基礎,這在飛速發展的深度學習領域十分難得。
  • 代碼詳解:用Mask R-CNN賦予自動駕駛汽車「火眼金睛」
    左圖五個對象均為人,因此語義分割會將這五個對象視為一個整體。而右圖同樣也有五個對象(亦均為人),但同一類別的不同對象在此被視為不同的實例,這就是實例分割。2. 剖析Mask-CNNMask R-CNN可算作是Faster R-CNN的升級版。Faster R-CNN廣泛用於對象檢測。對於給定圖像,它會給圖中每個對象加上類別標籤與邊界框坐標。
  • CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡
    本文將介紹一篇CVPR 2020 Oral 論文,作者來自廈門大學、深度賦智和西安電子科技大,其提出的單階段協同學習網絡在目標檢測和目標分割任務中均實現了新的SOTA性能。(Referring Expression Comprehension)和指向性目標分割(Referring Expression Segmentation)兩個任務,而且在性能超越了 SOTAs 的條件下,達到了實時檢測和協同檢測的目的。
  • 欒叔塔羅牌佔卜:跟複合的戀人未來感情發展會是如何?
    欒叔塔羅牌佔卜:跟複合的對象未來在感情上的發展會是如何? 明年三月 四、想問的問題: 跟複合的對象未來在感情上的發展會是如何?
  • 如何將深度學習應用於無人機圖像的目標檢測
    https://medium.com/nanonets/how-we-flew-a-drone-to-monitor-construction-projects-in-africa-using-deep-learning-b792f5c9c471如何將深度學習應用於無人機圖像的目標檢測
  • CVPR2020夜間行人檢測挑戰賽兩冠一亞:DeepBlueAI獲勝方案解讀
    當然這種方法也會導致計算量的增加。在平衡速度和準確率的情況下,該團隊最終選擇了 3 個殘差 2 個 Non-local 共 5 個模塊。2. CBNet [10]合併功能更強大的 backbone 可提高目標檢測器的性能。
  • 工業時代之下,電機行業的未來將如何發展
    打開APP 工業時代之下,電機行業的未來將如何發展 超聲波電機徐生 發表於 2020-12-16 10:37:53 隨著工業的快速發展,電機作為機械運動的核心部件,更顯得尤為重要了。
  • 首個基於Transformer的目標檢測模型上線,大目標檢測超越Faster R...
    研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。   Facebook AI Research的六名成員研究了近期非常流行的Transformer神經網絡架構,創建了一個端到端的目標檢測AI。研究員聲稱這種方法簡化了目標檢測模型的創建,並減少了對手工組件的需求。
  • Mask R-CNN官方實現「又」來了!基於PyTorch,訓練速度是原來2倍
    安裝小貼士使用Mask R-CNN Benchmark需要安裝以下組件:PyTorch 1.0orchvisioncocoapiyacsmatplotlibOpenCV(可選)R-CNN發展歷史R-CNN是卷積神經網絡(CNN)在圖像識別領域的應用,Facebook AI研究團隊在這條到道路上做出了頗多貢獻,其中不得不提一位大神:Ross Girshick
  • BBAVectors:一種Anchor Free的旋轉目標檢測方法(已開源)
    當前的有方向物體檢測往往是兩階段的基於anchor的檢測方法,但是這種方法會有正負anchor的不平衡的問題。這篇文章將基於水平關鍵點的物體檢測的方法擴展了一下,用於有方向的物體檢測。我們首先進行物體的中心點的檢測,然後回歸一個包圍框的邊緣感知向量(BBAVectors)來得到有方向的包圍框。為了讓這個向量的學習變得簡單,我們還進一步將有方向的包圍框分成了水平框和選擇框兩類。1.
  • 如何理解絕對評價與相對評價
    如何理解絕對評價與相對評價絕對評價與相對評價在歷年教師招聘考試中,考察形式多樣,大家首先需要掌握兩種評價方式的實質,其次需要掌握兩種評價方式的舉例,儘量在理解的基礎上記憶。絕對評價也稱目標參照評價,是指以事先確定的目標為基準,其評價標準是評價對象所在群體之外的客觀指標。
  • 未來發展如何呢?
    因此,在買房的時候,仍然有很多的朋友充滿著疑惑,他們常常會問重慶的巴南區怎麼樣?今天我們就一起來聊一聊,巴南區的房價表現如何?有哪些具體的配套?未來發展如何?一,重慶巴南區的房價表現如何?在2019年11月份的時候,龍州灣隧道工程正式通車運行,實現的內環外環快速連接,加速了巴南區「二環時代」的發展步伐。當然,還有後期的軌道交通5A線,南泉立交,燕尾山隧道等,這些交通設施也將陸續展開,未來巴南區會發生翻天覆地的變化。第三,房企配套。
  • 健身教練的未來發展?要求?如何做?
    近年來,選擇從事健身教練職業的人越來越多,這是因為隨著健身行業的發展越來越迅速,不少人都是看到了這個行業的待遇越來越高,於是為了獲得一份高收入的工作,大家都選擇投入這個行業。但是對於一些不太了解健身行業的小夥伴來說的話,仍然是有一些疑慮,不清楚健身教練的未來發展如何,今天就跟大家一起來了解一下。第一健身教練的未來發展怎麼樣?
  • 數據科學工具包:手把手用YOLO做目標檢測
    其中,目標檢測是計算機視覺領域常見的問題之一,如何平衡檢測的質量和算法的速度很重要。對於這個問題,計算機視覺工程師、VirtusLab 創始人 Piotr Skalski 發表了自己的心得,分享了關於他最喜歡的計算機視覺算法 YOLO 的實踐資料。以下便是他的全文。
  • 馬亮|政績考核評價體系如何匹配高質量發展需要
    政績考核不僅是檢驗、衡量黨政領導幹部施政績效的主要手段,也是激勵黨政領導幹部的關鍵「抓手」,更是決定高質量發展能否貫徹落實的重要「指揮棒」。如何將高質量發展的相關要求納入政績考核體系,使之充分發揮政績考核的「導向器」和「指揮棒」作用?
  • 如何檢測教室吊扇中的杜絕
    事實上不僅僅是吊扇,遊樂園的雲霄飛車和路上的人行橫道……許多本該給大家帶來方便和幸福,如果調查不嚴謹、不細緻,也會有坍塌、墜落的隱患,可能威脅到群眾的安全。小編將藉此機會談談如何利用無損檢測對杜絕這樣的事件。事實上對於大多數人來說,無損檢測這個詞並不陌生,但是如果你真的想提到這個約束的應用,你可能認識的人並不多。
  • PP-YOLO超越YOLOv4-目標檢測的進步
    PP-YOLO評估指標比現有最先進的對象檢測模型YOLOv4表現出更好的性能。然而,百度的作者寫道:本文不打算介紹一種新型的目標檢測器。它更像是一個食譜,告訴你如何逐步建立一個更好的探測器。讓我們一起看看。
  • 如何評價「多元交互式」課堂教學
    「多元交互式」課堂教學評價是指,包括學生在內的觀察者與執教者,依據標準與教學觀察,對教與學的過程及成效進行交互共建的結構化價值判斷系統。其中,「多元」指評價主體、目標、內容、方式是多樣的;「交互」指評價者與評價對象、過程與結果、教與學之間的互動交往。其核心觀點是「教—學—評」一體化,認為評價是鑲嵌於教學體系中不可分割的部分,是多元主體之間相互學習、彼此促進、共同建構的過程。
  • 未來大學教育如何應對工業4.0的發展?陳金樑教授談未來大學之道
    科技發展日新月異,數位化技術給學習和教育帶來不少的幫助,人工智慧的應用也會越來越廣泛,未來大學教育除了傳授知識,應該如何應對各種教育和學習模式的變化以及工業4.0的發展?講座現場陳教授從大學所需要的學科教育和全人培養的目標之間的平衡,跨學科教育等角度闡述了高等教育和大學學習面對新時代的發展策略,並帶領大家重溫了「大學」這一概念的兩重含義。