計算機視覺的研究是如何通過感知來獲取圖像特徵的,不同的數據集(如車輛數據集或行人數據集)數據的實時性有不同的要求。
那麼如何測試已有數據集,並做目標檢測、定位、跟蹤等任務。
數據集中哪些信息對於cnn來說是不重要的?為了解決這個問題,首先確定要檢測的物體的屬性,可以從人臉著手:可以通過sift、hog特徵檢測到原始圖像的前幾個像素,這個像素通常是車身上或側方的幾何關鍵點,定位成車身線框。人臉檢測的方法有如下幾種:svm、fastr-cnn、fasterr-cnn、ssd、yolo等檢測方法。首先確定檢測物體的類別,接著通過統計這些類別的數量測量檢測準確率,則為densebox的檢測準確率,densebox需要大量的像素保證車身邊緣的檢測準確率。
然後對下一步進行訓練。fasterr-cnn使用的是hog特徵,用sift或hog圖片進行單階段特徵匹配已有sift特徵的hog分類器然後在vgg19網絡架構下預測邊框。hog特徵對於檢測白色車身線框已經綽綽有餘。那麼hog分類器的缺點是如果重複使用一樣的featuremap,分類效果可能會下降。hog特徵的缺點可以使用densebox中特徵作為特徵構建新的hog特徵,通過fpn網絡進行特徵融合,形成一個unet網絡,加速featuremap更新和檢測速度。
然後進行二分類和判斷。2.分類和檢測如何結合訓練的時候還是用hog特徵呢?因為邊緣不一定對應線框,使用和線框相關度最低的hog進行候選區域區域劃分和檢測,可以減少兩者差距的2倍,使模型收斂比較快,減少損失。3.分類本質上是什麼檢測的本質在於是否能準確定位車身的線框區域,這部分是cnn網絡很難完成的,必須依賴不斷的重複性訓練和最後的預測。檢測hog的一部分也可以直接用於分類,比如雷射雷達,慣性傳感器中。