基於卷積神經網絡的
遙感圖像目標檢測與識別
Remote Sensing Image Object Detection and Recognition Based on Convolutional Neural Network
中國科學技術大學 碩士學位論文 趙旭江
摘要
遙感圖像目標檢測是指在遙感圖像中找到關注的目標並給出具體位置,遙感圖像目標識別則是對某個目標的進一步分類,它們是遙感圖像處理領域長期以來關注的問題。卷積神經網絡CNN(Convolutional Neural Network)憑藉其包含的深層語義特徵在計算機視覺領域取得了巨大的成功,近年來也越來越多的被應用到遙感圖像目標檢測與識別任務中。
然而,現有的基於卷積祌經網絡的遙感圖像目標檢測方法依賴大量bounding box數據(位置信息數據)進行訓練,需要耗費大量人工標註成本,同時由於遙感圖像的目標樣本數量有限,不足以支撐大規模訓練;另外現有的基於卷積神經網絡的遙感圖像目標識別方法僅考慮網絡的深層語義特徵,導致識別性能達到瓶頸。為解決上述問題,本文基於卷積神經網絡對遙感圖像目標檢測與識別算法進行研究。
針對遙感圖像目標檢測任務,提出了一種新的基於深度特徵的遙感圖像目標檢測方法,利用CNN提取的深度特徵提取感興趣區域,並通過多個尺度的CNN對感興趣區域進行目標確認,該方法無需bounding box數據進行訓練,並且提高了檢測準確率,降低了漏警率。在遙感圖像目標識別任務中,設計了一個更加適合遙感圖像目標識別任務的卷積神經網絡,並提出了卷積特徵融合方法,充分利用網絡淺層特徵和高層特徵來提高識別正確率。
關鍵詞
遙感圖像 目標檢測與識別 卷積神經網絡 深度特徵卷積 特徵融合
研究內容
本文首先針對現有深度學習方法依賴大量訓練數據以及遙感圖像目標樣本不足的問題,提出了一種基於深度特徵的遙感圖像目標檢測方法,利用卷積神經網絡提取的深度特徵進行目標檢測,並且其訓練過程無需bounding box數據。然後,針對卷積神經網絡忽略淺層卷積特徵的問題以及遙感圖像目標細微差異的特性,設計了一個更加適合遙感圖像目標識別的卷積神經網絡,進而提出了一種基於卷積特徵融合的目標識別方法,利用卷積淺層特徵和卷積深層特徵的融合來提升網絡的目標識別性能。
主要講解第三章和第四章的算法思想,實驗部分略。
第三章
基於深度特徵的遙感圖像目標檢測方法
該方法的核心思想是使用高解析度遙感數據集來訓練卷積神經網絡,然後利用該網絡提取到的深度特徵在低解析度的遙感圖像中進行目標檢測。
首先,使用512x512的高解析度遙感數據集來訓練卷積神經網絡,通過訓練好的卷積神經網絡從輸入圖像中提取深度特徵,該深度特徵包含大量高級語義信息,並將深度特徵轉化為RGB彩色圖,然後選擇其中一個通道對應的灰度圖產生連通區域,這些連通區域也就是感興趣區域(Regions of interest,ROI),最後,所有ROI通過卷積神經網絡進行目標確認。對於不同大小的ROI,則輸入到不同尺度的卷積神經網絡,包括256x256和128x128兩種輸入大小。
1. 分類網絡
本章基於AlexNet網絡W重新設計了一個卷積神經網絡,取名AlexNet-DF(AlexNet-Deep Feature)。
AlexNet-DF卷積神經網絡在最後一個池化層採用全局平均池化層來代替傳統卷積神經神經網絡中的全連接層。相對於傳統的全連接層,全局平均池化層(GAP)的一個顯著的優點是能夠減少80%的網絡參數,從而大大避免了過擬合併且使得卷積神經網絡訓練效率更佳;另一個優點則是全局平均池化層(GAP)對feature map做平均池化操作,從而保留大量特徵位置信息。
2. 深度特徵
特徵可視化方法,對AlexNet-DF網絡最後一層卷積層進行特徵提取,即將每一個feature map與其對應的softmax的權重相乘併線性疊加。
為了使得提取到的深度特徵能夠更加準確的響應目標所在的位置,提出的目標檢測算法採用了如下策略。首先使用高解析度的遙感圖像去訓練AlexNet-DF網絡,然後讓完成訓練的AlexNet-DF網絡應用於低解析度的遙感圖像,在低解析度遙感圖像上進行目標檢測。
對比特徵可視圖
3. RGB通道分離
為了更好的分析深度特徵矩陣,首先將又數值歸一化並轉化為灰度圖,再將索引圖轉化為RGB色彩圖,色彩範圍在0-255之間。
發現深度特徵的色彩圖能更好的表示各個區域的響應程度,因此我們選擇深度特徵色彩圖來提取感興趣區域。
4. 連通區域
首先將得到的G通道特徵圖並通過閾值設定將其轉化為二值圖像(實驗中,閾值通常設為80),然後對二值圖像進行連通區域標記。
5.目標確認
在獲得的各連通區域的基礎上,求出該區域橫縱坐標的最小最大值,得到該區域的包圍矩形框,然後映射回原圖得到其相應的矩形切片圖,ROI(感興趣區域)送入已經訓練好的卷積神經網絡進行類別確認。
第四章
基於卷積特徵融合的遙感圖像目標識別方法
本文首先設計一個更加適合遙感圖像目標識別的卷積神經網絡GoogLeNet-RS,然後提出了卷積特徵融合方法:在GoogLeNet-RS網絡的基礎設計了一個端到端的卷積特徵融合網絡GoogLeNet-RSF,通過全局平均池化方法提取該卷積神經網絡不同深度的特徵,並將其特徵線性融合,最後將融合後的特徵送入softmax進行分類,並且該卷積特徵融合網絡可以進行端到端網絡訓練。
1. 網絡設計
GoogLeNet-RS網絡結構的深度共19層(不包含pooling層),包含18個卷積層和1個全連接層,並且含有7個Inception架構。
GoogLeNet-RS網絡針對遙感圖像目標識別任務設計,其網絡深度相比於GoogLeNet網絡較淺,其梯度回傳消失現象不明顯,因此網絡設計時僅採用一個softmax層和一個損失函數,從而減少網絡複雜性,並提升其計算性能。
遙感圖像目標識別任務不需要更加抽象的特徵去描述其特徵差異,因此GoogLeNet-RS網絡設計最後的卷積層feature map尺度為14x14。
2. 卷積特徵融合網絡
GoogLeNet-RSF網絡結構與GoogLeNet-RS網絡結構基本類似,其主要差異是GoogLeNet-RSF網絡對多層卷積特徵進行全局平均池化並將其特徵融合,而不僅僅只針對最後一層卷積層。另外為了防止融合特徵的維度過大導致過擬合的現象,可以讓卷積層特徵先經過1x1的卷積層減少feature map的通道,從而降低其特徵維度。
我的評價:
1. 作者基本目標檢測的概念略有混淆,在我的理解,目標檢測就是指多目標圖像上的分類和定位,而目標識別是一個統稱,包括:分類,檢測,分割等;作者的檢測和識別的概念好像並不是這樣的,他把檢測單純的理解為定位,而識別成為了在檢測後的一步具體某一類目標的細分類;需要指出的是,先流行的算法中,定位和分類是同步進行的;可能是我以前的理解有問題?
2. 對於該論文提出的「無需bounding box數據進行訓練」表示懷疑。
3. 而且這篇論文有很多內容是重複的,一字不落的那種。
4. 第三章、第四章的主要內容還是寫的很不錯的。