1 You Only Look Once (YOLO)
YOLO是在2015年R.Joseph提出的,在深度學習時期,它是第一個單階段檢測器。YOLO是很快的:YOLO的快速版本可以在VOC07上以mAP=52.7%的準確度跑到155fps,其加強版可以在VOC07以mAP=63.4%和VOC12以mAP=57.9%的準確率跑到45fps。
YOLO是YouOnlyLookOnce的縮寫,從它的名字可以看出,作者作者已經完全捨棄了之前的檢測範式:提議檢測+驗證。然而,它遵循了一個完全不同的哲學,即將一個單神經網絡應用到整張圖像上。這個網絡將圖像劃分不同成不同的區域,然後同時對每個區域的boundingbox和可能性作出預測。R.Joseph基於YOLO作出了一些列的改進,已經提出的v2和v3版本在保持很高的檢測速度的情況下,更進一步提高了檢測的準確度。
儘管檢測速度的很大提高,但是相比於兩階段檢測器,其定位的準確性有一定的下降,尤其是對於一些小目標。YOLO隨後的版本和後邊提出的SSD開始聚焦這個問題。
2 Single Shot MultiBox Dector(SSD)
SSD是在2015年提出來的,它是第二個在深度學習時期的單階段檢測器。SSD的主要貢獻是多參考和多解析度檢測技術的引進,其能夠很大的提高單階段檢測器的檢測準確度,尤其對於小目標(VOC07mAP=76.8%,VOC12mAP=74.9%,COCOmAP@.5=46.5%,mAP@[.5,.95]=26.8%,快速版本可以跑到59fps)。
SSD與之前檢測器最大的不同是,SSD在網絡中不同層上檢測不同尺度的目標,而後者則是僅僅在頂層進行檢測。
3 RetinaNet
儘管單階段檢測器的高速度和簡單性,但是其準確性在幾年內都不及兩階段檢測器。後來,T.-Y.Lin等發現了其背後的原因,並在2017年提出了RetinaNet。他們聲稱,在密集檢測器訓練中碰到的前景-背景類及其不平衡是最主要的原因。
為了解決這個問題,通過對標準交叉熵的改進,一個命名為「focalloss」的新損失函數在RetinaNet中被引進,所以檢測器在訓練中將更多的關注那些難分和錯誤分類的樣本,進而實現兩階段檢測器相當的準確度,同時也保持比較高的檢測速度(COCOmAP@.5=59.1%,mAP@[.5,.95]=39.1%)。