基於卷積神經網絡的遙感圖像目標檢測與識別

2021-02-08 paper大講堂

基於卷積神經網絡的

遙感圖像目標檢測與識別

Remote Sensing Image Object Detection and Recognition Based on Convolutional Neural Network

中國科學技術大學 碩士學位論文 趙旭江

摘要

    遙感圖像目標檢測是指在遙感圖像中找到關注的目標並給出具體位置,遙感圖像目標識別則是對某個目標的進一步分類,它們是遙感圖像處理領域長期以來關注的問題。卷積神經網絡CNN(Convolutional Neural Network)憑藉其包含的深層語義特徵在計算機視覺領域取得了巨大的成功,近年來也越來越多的被應用到遙感圖像目標檢測與識別任務中。

    然而,現有的基於卷積祌經網絡的遙感圖像目標檢測方法依賴大量bounding box數據(位置信息數據)進行訓練,需要耗費大量人工標註成本,同時由於遙感圖像的目標樣本數量有限,不足以支撐大規模訓練;另外現有的基於卷積神經網絡的遙感圖像目標識別方法僅考慮網絡的深層語義特徵,導致識別性能達到瓶頸。為解決上述問題,本文基於卷積神經網絡對遙感圖像目標檢測與識別算法進行研究。

    針對遙感圖像目標檢測任務,提出了一種新的基於深度特徵的遙感圖像目標檢測方法,利用CNN提取的深度特徵提取感興趣區域,並通過多個尺度的CNN對感興趣區域進行目標確認,該方法無需bounding box數據進行訓練,並且提高了檢測準確率,降低了漏警率。在遙感圖像目標識別任務中,設計了一個更加適合遙感圖像目標識別任務的卷積神經網絡,並提出了卷積特徵融合方法,充分利用網絡淺層特徵和高層特徵來提高識別正確率。

關鍵詞

遙感圖像 目標檢測與識別 卷積神經網絡 深度特徵卷積 特徵融合

研究內容

    本文首先針對現有深度學習方法依賴大量訓練數據以及遙感圖像目標樣本不足的問題,提出了一種基於深度特徵的遙感圖像目標檢測方法,利用卷積神經網絡提取的深度特徵進行目標檢測,並且其訓練過程無需bounding box數據。然後,針對卷積神經網絡忽略淺層卷積特徵的問題以及遙感圖像目標細微差異的特性,設計了一個更加適合遙感圖像目標識別的卷積神經網絡,進而提出了一種基於卷積特徵融合的目標識別方法,利用卷積淺層特徵和卷積深層特徵的融合來提升網絡的目標識別性能。


主要講解第三章和第四章的算法思想,實驗部分略。

第三章

基於深度特徵的遙感圖像目標檢測方法

    該方法的核心思想是使用高解析度遙感數據集來訓練卷積神經網絡,然後利用該網絡提取到的深度特徵在低解析度的遙感圖像中進行目標檢測。

    首先,使用512x512的高解析度遙感數據集來訓練卷積神經網絡,通過訓練好的卷積神經網絡從輸入圖像中提取深度特徵,該深度特徵包含大量高級語義信息,並將深度特徵轉化為RGB彩色圖,然後選擇其中一個通道對應的灰度圖產生連通區域,這些連通區域也就是感興趣區域(Regions of interest,ROI),最後,所有ROI通過卷積神經網絡進行目標確認。對於不同大小的ROI,則輸入到不同尺度的卷積神經網絡,包括256x256和128x128兩種輸入大小。

1. 分類網絡

    本章基於AlexNet網絡W重新設計了一個卷積神經網絡,取名AlexNet-DF(AlexNet-Deep Feature)。

    AlexNet-DF卷積神經網絡在最後一個池化層採用全局平均池化層來代替傳統卷積神經神經網絡中的全連接層。相對於傳統的全連接層,全局平均池化層(GAP)的一個顯著的優點是能夠減少80%的網絡參數,從而大大避免了過擬合併且使得卷積神經網絡訓練效率更佳;另一個優點則是全局平均池化層(GAP)對feature map做平均池化操作,從而保留大量特徵位置信息。

2. 深度特徵

    特徵可視化方法,對AlexNet-DF網絡最後一層卷積層進行特徵提取,即將每一個feature map與其對應的softmax的權重相乘併線性疊加。

    為了使得提取到的深度特徵能夠更加準確的響應目標所在的位置,提出的目標檢測算法採用了如下策略。首先使用高解析度的遙感圖像去訓練AlexNet-DF網絡,然後讓完成訓練的AlexNet-DF網絡應用於低解析度的遙感圖像,在低解析度遙感圖像上進行目標檢測。

對比特徵可視圖

3. RGB通道分離

    為了更好的分析深度特徵矩陣,首先將又數值歸一化並轉化為灰度圖,再將索引圖轉化為RGB色彩圖,色彩範圍在0-255之間。

    發現深度特徵的色彩圖能更好的表示各個區域的響應程度,因此我們選擇深度特徵色彩圖來提取感興趣區域。

4. 連通區域

    首先將得到的G通道特徵圖並通過閾值設定將其轉化為二值圖像(實驗中,閾值通常設為80),然後對二值圖像進行連通區域標記。

5.目標確認

    在獲得的各連通區域的基礎上,求出該區域橫縱坐標的最小最大值,得到該區域的包圍矩形框,然後映射回原圖得到其相應的矩形切片圖,ROI(感興趣區域)送入已經訓練好的卷積神經網絡進行類別確認。

第四章

基於卷積特徵融合的遙感圖像目標識別方法

    本文首先設計一個更加適合遙感圖像目標識別的卷積神經網絡GoogLeNet-RS,然後提出了卷積特徵融合方法:在GoogLeNet-RS網絡的基礎設計了一個端到端的卷積特徵融合網絡GoogLeNet-RSF,通過全局平均池化方法提取該卷積神經網絡不同深度的特徵,並將其特徵線性融合,最後將融合後的特徵送入softmax進行分類,並且該卷積特徵融合網絡可以進行端到端網絡訓練。

1. 網絡設計

    GoogLeNet-RS網絡結構的深度共19層(不包含pooling層),包含18個卷積層和1個全連接層,並且含有7個Inception架構。

    GoogLeNet-RS網絡針對遙感圖像目標識別任務設計,其網絡深度相比於GoogLeNet網絡較淺,其梯度回傳消失現象不明顯,因此網絡設計時僅採用一個softmax層和一個損失函數,從而減少網絡複雜性,並提升其計算性能。

    遙感圖像目標識別任務不需要更加抽象的特徵去描述其特徵差異,因此GoogLeNet-RS網絡設計最後的卷積層feature map尺度為14x14。

2. 卷積特徵融合網絡

    GoogLeNet-RSF網絡結構與GoogLeNet-RS網絡結構基本類似,其主要差異是GoogLeNet-RSF網絡對多層卷積特徵進行全局平均池化並將其特徵融合,而不僅僅只針對最後一層卷積層。另外為了防止融合特徵的維度過大導致過擬合的現象,可以讓卷積層特徵先經過1x1的卷積層減少feature map的通道,從而降低其特徵維度。

我的評價:

    1. 作者基本目標檢測的概念略有混淆,在我的理解,目標檢測就是指多目標圖像上的分類和定位,而目標識別是一個統稱,包括:分類,檢測,分割等;作者的檢測和識別的概念好像並不是這樣的,他把檢測單純的理解為定位,而識別成為了在檢測後的一步具體某一類目標的細分類;需要指出的是,先流行的算法中,定位和分類是同步進行的;可能是我以前的理解有問題?

    2. 對於該論文提出的「無需bounding box數據進行訓練」表示懷疑。

    3. 而且這篇論文有很多內容是重複的,一字不落的那種。

    4. 第三章、第四章的主要內容還是寫的很不錯的。

相關焦點

  • 基於端到端邊緣增強GAN和目標探測網絡的遙感圖像小目標檢測 | MDPI Remote Sensing
    遙感圖像目標檢測在環境監管、監視、軍事、國家安全、交通、林業、油氣活動監測等領域具有廣泛的應用前景,然而,目前的目標檢測技術對於包含噪聲和低解析度的遙感圖像而言,尤其是對於圖像中的小目標,其檢測效果並不理想,即使在高解析度圖像上,對小目標的檢測性能也遠低於對大目標的檢測性能。
  • 遙感影像中常用目標檢測數據集
    VEDAI是一個用於航空圖像車輛檢測的數據集,可作為基準測試無約束環境下自動目標識別算法的工具。資料庫中包含的車輛,除了體積小,還表現出不同的變化,如多方向、燈光/陰影變化、反射或閉塞。此外,每幅圖像都有幾個光譜波段和解析度。同時給出了一套精確的實驗方案,保證了不同人的實驗結果能夠得到正確的再現和比較。
  • 超快速3D目標檢測網絡開源了!SFA3D:基於LiDAR的實時、準確的3D目標檢測模型
    重磅乾貨,第一時間送達Amusi 發現了一個超快速3D目標檢測網絡SFA3D:基於LiDAR的實時、準確的3D目標檢測模型,在GTX 1080 Ti上速度高達95 FPS!代碼現已開源!主要特性:1. 快速訓練和推理;2. Anchor-free的方法;3. 無NMS;4.
  • 用於深度學習SAR圖像艦船目標檢測的數據集SSDD和SSDD+
    作者近年來也重點對基於深度學習的SAR圖像艦船目標檢測技術進行了研究,本文重點介紹了用於訓練和測試檢測算法的數據集SSDD和SSDD+的構造過程及目標尺寸和長寬比分布情況,並對未來需要重點研究的內容進行了簡單地總結。要想利用深度學習目標檢測算法進行SAR圖像艦船目標檢測,必須有相應的數據集,但是目前本領域尚不存在此類數據集,因此建立了數據集SSDD[1]。
  • 【目標檢測系列】CNN中的目標多尺度處理方法
    視覺任務中處理目標多尺度主要分為兩大類:圖像金字塔:經典的基於簡單矩形特徵(Haar)+級聯Adaboost與Hog特徵+SVM的DPM目標識別框架,均使用圖像金字塔的方式處理多尺度目標,早期的CNN目標識別框架同樣採用該方式,在image pyramid中,我們直接對圖像進行不同尺度的縮放,然後將這些圖像直接輸入到detector中去進行檢測。雖然這樣的方法十分簡單,但其效果仍然是最佳。
  • 計算機視覺進階指南:從CV基礎到目標檢測實戰
    可以看到地鐵站、寫字樓等入口處都會有「AI目標檢測設備」助力強化防疫措施,可快速識別人類是否正確佩戴口罩、鎖定人臉以供傳感器測試人類體溫等功能。目標檢測(Object Detection)的任務是找出圖像中所有感興趣的目標(物體),確定它們的類別和位置,是計算機視覺領域的核心問題之一。
  • Halcon OCR--字符識別(CNN卷積神經網絡)
    在HALCON中,OCR常被用來分割區域及讀取識別圖像中的字符含義。HALCON中提供了一組預先訓練好的字體(在安裝目錄下的ocr文件夾中),這些字體來源於各個領域的大量訓練數據,可識別文檔、製藥、工業產品或點列印,甚至手寫數字文本。此外,HALCON還包括用於OCR-A和OCR-N的預訓練字體,以及基於卷積神經網絡(CNN)的通用字體。
  • 基於孿生神經網絡的人臉識別(1)——人臉檢測
    基於pytorch1.2+python3.6.
  • 模板識別:使用OpenCV實現基於特徵的圖像對齊
    我們將使用的技術通常被稱為「基於特徵圖像對齊」,因為在該技術中,在一個圖像中檢測稀疏的特徵集並且在另一圖像中進行特徵匹配。然後基於這些匹配特徵將原圖像映射到另一個圖像,實現圖像對齊。例如,為了實現面部識別系統,我們首先需要一個面部檢測器,其輸出面部所在矩形的坐標。檢測器不知道或不關心該人是誰。唯一的工作就是找到一張臉。系統的第二部分是識別算法。原始圖像被裁剪為檢測到的面部矩形,並且該裁剪的圖像反饋送到最終識別該人的面部識別算法。特徵檢測器的定位器就像面部檢測器。描述子類似識別器。只有當我們知道兩個圖像中的對應特徵時,才能計算出與兩個圖像相關的單應性。
  • 用於目標檢測的拼圖式主幹網絡預訓練方法
    Jigsaw pre-training以拼圖的方式從檢測數據集中生成用於主幹網絡預訓練的數據集,而不需要額外的預訓練數據集,如ImageNet。另外為了讓網絡更好的適應拼圖數據,論文提出ERF-adaptive密集分類方法,能夠很好地擴大預訓練主幹網絡的有效感受域。
  • 輕鬆學Pytorch-使用卷積神經網絡實現圖像分類
    定義卷積神經網絡的結構這裡,將定義一個CNN的結構。將包括以下內容:卷積層:可以認為是利用圖像的多個濾波器(經常被稱為卷積操作)進行濾波,得到圖像的特徵。由於最大池化更適合發現圖像邊緣等重要特徵,適合圖像分類任務。最大池化層通常位於卷積層之後,用於縮小輸入的 x-y 維度 。通常的「線性+dropout」層可避免過擬合,並產生輸出10類別。下圖中,可以看到這是一個具有2個卷積層的神經網絡。
  • 圖像超解析度重建算法,讓模糊圖像變清晰(附數據和代碼)
    2014年,Dong等人首次將深度學習應用到圖像超解析度重建領域,他們使用一個三層的卷積神經網絡學習低解析度圖像與高解析度圖像之間映射關係,自此,在超解析度重建率領域掀起了深度學習的浪潮,他們的設計的網絡模型命名為SRCNN(Super-Resolution Convolutional Neural Network)。
  • Keras教程 | 基於遷移學習實現花卉圖像分類
    Application模塊Keras中的Application模塊中有一系列基於ImageNet的預訓練好的圖像分類模型,這些模型如下:XceptionVGG16VGG19ResNet50InceptionV3InceptionResNetV2MobileNet
  • ECCV 2020 | 港中文等提出DDBNet:目標檢測中的Box優化
    因此,為了進行可靠的網絡訓練,在基於ground truth和最優box以及相應的更好邊界得分估算的IoU損失的監督下來優化每個邊界。最終的回歸損失包括兩個部分:2、Semantic Consistency Module由於D&R模塊的性能在一定程度上取決於目標實例中密集的box預測,因此需要一種自適應濾波方法來幫助網絡學習將注意力集中在正樣本的像素上,而排除負樣本。也就是說,期望目標實例內像素的標籤空間與其語義相一致。本文的網絡在訓練階段無需額外的空間假設就可以學習準確的標記空間。
  • 進擊的YOLOv3,目標檢測網絡的巔峰之作 | 內附實景大片
    原因如論文中所說,它在測試時觀察整張圖像,預測會由圖像中的全局上下文(global context)引導。它還通過單一網絡評估做出預測,而不像 R-CNN 這種系統,一張圖就需要成千上萬次預測。用了哪些黑科技? 1.
  • 學界 | 最大規模數據集、最優圖像識別準確率!Facebook利用hashtag解決訓練數據難題
    Facebook 正在多達五千萬張圖像的數據集上訓練模型,即使是在提供所有監督的情況下,數十億張圖像的訓練也是不可行的。Facebook 研究人員和工程師通過在帶有標籤(hashtag)的公共圖像數據集上訓練圖像識別網絡解決了該問題,其中最大的數據集包含 35 億張圖像和 17000 個 hashtag。
  • 【深度學習系列3】 Mariana CNN 並行框架與圖像識別
    將深度卷積神經網絡(Convolutional Neural Networks, 簡稱CNNs)用於圖像識別在研究領域吸引著越來越多目光。由於卷積神經網絡結構非常適合模型並行的訓練,因此以模型並行+數據並行的方式來加速Deep CNNs訓練,可預期取得較大收穫。
  • 商業遙感衛星星座的軍事化應用分析
    2020年3月9日,Iceye在YouTube上發布了有關Iceye合成孔徑雷達(SAR)視頻的演示視頻顯示,SAR圖像由單個衛星凝視模式生成,凝視時間為20秒或更長時間,經過數據處理之後,以視頻流的形式顯示目標位置的移動變化。對於場景中的運動目標的檢測對於檢測目標的活動情況具有重大的意義,Iceye公司所提供的SAR視頻圖像可用於跟蹤卡車、火車、輪船甚至飛機某個去的地點的運動情況。
  • 基於Halcon的太陽能矽片缺陷檢測
    2) 簡述太陽能矽片檢測系統組成機構和介紹了一些基於 Halcon 圖像處理的基本算法流程(如圖 2所示)。3)採用本文的檢測方法可以降低勞動強度、降低生產成本,降低產品檢測過程的人為因素,實現產品生產的高度自動化,提高產品檢測質量,能夠產生很好的社會和經濟效益。1.
  • 本周優秀開源項目分享:基於yolov3的輕量級人臉檢測、增值稅發票OCR識別 等8大項目
    yolo-face-with-landmark 使用pytroch實現的基於yolov3的輕量級人臉檢測