近幾年來,目標檢測算法發展迅速,許多新出現的目標檢測範式有著很強的相同之處,如Anchor-Free的方法中不依賴於Anchor的目標檢測範式:CenterNet兼有結構簡單和高的準確率;FCOS創新性目標檢測思路。
這些算法潮超越了傳統的Anchor思維,其中最具代表性的就是這篇論文《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》提出的SparseRCNN避免了大量關於先驗框的設計以及先驗框與真實框多對一的映射。
不僅實現Anchor free,而且後處理不需要NMS可直接得到目標框!SparseRCNN精度高,速度快!下面看看SparseRCNN是如果實現「少即是多」
論文的傳送門:https://arxiv.org/pdf/2011.12450.pdf
1. 大量先驗框為什麼不好?
目前目標檢測的算法都是基於大量的先驗信息但密集的先驗存在很多問題:會檢測出相似的結果導致需要過濾步驟,即後處理(比如NMS)。存在預測和標籤多對一關係先驗信息對檢測結果影響大,其中包括anchors的數量和大小,參照點的數量、proposal生成的數量由於每個 目標查詢與圖像全局信息的相互影響,訓練時收斂速度慢,整體流程也比較複雜。2.SparseRCNN
文章中希望提出的是sparse方法,獲取 learned proposals。
Learnable porposal box是物體潛在位置的統計概率,訓練的時候可以更新參數;Learnable proposal feature表示更多的物體信息。Sparse R-CNN 總體結構
SparseRCNN由骨幹網絡、動態檢測頭和兩個預測層組成。整體模型有三個輸入:圖像,一組建議區域和建議特徵。後兩者是可學習的,可以通過網絡中的其他參數優化。Dynamic instance interactive head
通過 proposal boxes以及ROI方法獲取每個物體的特徵,然後與 proposal feature 結合得到最終預測結果。Head的數量與learnable box的數量相同,即head/learnable proposal box/learnable proposal feature一一對應。3.方法效果
SparseRCNN使用一組固定的稀疏建議框代替經典的區域生成網絡R P N,後續使用動態檢測頭直接分類和回歸每個建議區域,且不需要非極大值抑制等後處理。文中比較新穎的觀點是係數建議框的生成以及建議框同稀疏特徵的一一對應,避免了大量冗餘的操作。作者試圖做到目標檢測不在於多,而在於少又精,實驗結果顯示有時「少即是多」!