在1957年以前,地球上只有一顆天然衛星:月球。1957年10月4日,蘇聯發射了世界上第一顆人造衛星。從那時起,來自40多個國家大約有8900顆衛星發射升空。
這些衛星幫助我們進行監視、通信、導航等等。這些國家還利用衛星監視另一個國家的土地及其動向,估計其經濟和實力。然而,所有的國家都互相隱瞞他們的信息。
同樣,全球石油市場也並非完全透明。幾乎所有的產油國都努力隱藏自己的總產量、消費量和儲存量。各國這樣做是為了間接地向外界隱瞞其實際經濟,並增強其國防系統的能力。這種做法可能會對其他國家造成威脅。
出於這個原因,許多初創公司,如Planet和Orbital Insight,都通過衛星圖像來關注各國的此類活動。Thye收集儲油罐的衛星圖像並估算儲量。
但問題是,如何僅憑衛星圖像來估計儲油罐的體積?好吧,只有當儲油罐存在浮頂油罐時才有可能。這種特殊類型的油罐是專門為儲存大量石油產品而設計的,如原油或凝析油。它由頂蓋組成,它直接位於油的頂部,隨著油箱中油量的增加或下降,並在其周圍形成兩個陰影。如下圖所示,陰影位於北側
(外部陰影)是指儲罐的總高度,而儲罐內的陰影(內部陰影)表示浮頂的深度。體積估計為1-(內部陰影區域/外部陰影區域)。
在本博客中,我們將使用Tensorflow2.x框架,在衛星圖像的幫助下,使用python從零開始實現一個完整的模型來估計儲油罐的佔用量。
GitHub倉庫
本文的所有內容和整個代碼都可以在這個github存儲庫中找到
https://github.com/mdmub0587/Oil-Storage-Tank-s-Volume-Occupancy
以下是本博客目錄。我們會逐一探索。
浮頂油罐的檢測和儲油量的估算。然後將圖像塊重新組合成具有儲油量估計的全圖像。
數據集連結:https://www.kaggle.com/towardsentropy/oil-storage-tanks
該數據集包含一個帶注釋的邊界框,衛星圖像是從谷歌地球(google earth)拍攝的,它包含有世界各地的工業區。數據集中有2個文件夾和3個文件。讓我們逐一看看。
對於儲油罐的檢測,我們將使用每種儲油罐的平均精度(Average Precision,AP)和各種儲油罐的mAP(Mean Average Precision,平均精度)。浮頂罐的估計容積沒有度量標準。
mAP 是目標檢測模型的標準評估指標。mAP 的詳細說明可以在下面的youtube播放列表中找到
https://www.youtube.com/watch?list=PL1GQaVhO4f_jE5pnXU_Q4MSrIQx4wpFLM&v=e4G9H18VYmA
Karl Keyer [1]在他的存儲庫中使用RetinaNet來完成儲油罐探測任務。他從頭開始創建模型,並將生成的錨框應用於該數據集。這使得浮頂罐的平均精度(AP)達到76.3%。然後他應用陰影增強和像素閾值法來計算它的體積。
據我所知,這是網際網路上唯一可用的方法。
這篇文章提出了一種基於衛星圖像的油罐容量/容積估算方法。為了計算一個儲油罐的總容積,他們需要儲油罐的高度和半徑。為了計算高度,他們使用了與投影陰影長度的幾何關係。但是計算陰影的長度並不容易。為了突出陰影使用HSV(即色調飽和度值)顏色空間,因為通常陰影在HSV顏色空間中具有高飽和度。然後採用基於亞像素細分定位(sub-pixel subdivision positioning)的中值法計算陰影長度。最後利用Hough變換算法得到油罐半徑。
在本文的相關工作中,提出了基於衛星圖像的建築物高度計算方法。
本博客作者為TankerTracker.com。其中一項服務是利用衛星圖像跟蹤幾個感興趣的地理位置關注點的原油儲存情況。
在這篇博客中,他們詳細描述了儲油罐的外部和內部陰影如何幫助我們估計其中的石油含量。還比較了衛星在特定時間和一個月後拍攝的圖像,顯示了一個月來儲油罐的變化。這個博客給了我們一個直觀的知識,即如何估計量。
本文介紹了對象檢測初學者頭腦中出現的最令人困惑的概念。首先,描述了目標分類、目標定位、目標識別和目標檢測之間的區別。然後討論了一些最新的深度學習算法來展開目標識別任務。
對象分類是指將標籤分配給包含單個對象的圖像。而對象定位是指在圖像中的一個或多個對象周圍繪製一個邊界框。目標檢測任務結合了目標分類和定位。這意味著這是一個更具挑戰性/複雜的任務,首先通過本地化技術在感興趣對象(OI)周圍繪製一個邊界框,然後藉助分類為每個OI分配一個標籤。目標識別只是上述所有任務的集合(即分類、定位和檢測)。
最後,討論了兩種主要的目標檢測算法/模型:Region-Based Convolutional Neural Networks (R-CNN)和You Only Look Once (YOLO)。
在目標檢測任務中,最關鍵的部分是目標定位,因為目標分類是在此基礎上進行的。該分類依賴於定位所提出的感興趣區域(簡稱區域建議)。更完美的定位將導致更完美的目標檢測。選擇性搜索是一種新興的算法,在一些物體識別模型中被用於物體定位,如R-CNN和Fast-R-CNN。
該算法首先使用高效的基於圖的圖像分割方法生成輸入圖像的子段,然後使用貪婪算法將較小的相似區域合併為較大的相似區域。分段相似性基於顏色、紋理、大小和填充四個屬性。
RPN(Region-proposition Network)由於其比傳統的選擇性搜索算法更快而被廣泛地應用於目標定位。它從特徵地圖中學習目標的最佳位置,就像CNN從特徵圖中學習分類一樣。
它負責三個主要任務,首先生成錨定框(每個特徵映射點生成9個不同形狀的錨定框),然後將每個錨定框分類為前景或背景(即是否包含對象),最後學習錨定框的形狀偏移量以使其適合對象。
Faster R-CNN模型解決了前兩個相關模型(R-CNN和Fast R-CNN)的所有問題,並使用RPN作為區域建議生成器。它的架構與Fast R-CNN完全相同,只是它使用了RPN而不是選擇性搜索,這使得它比Fast R-CNN快34倍。
在介紹Yolo系列模型之前,讓我們先看一下它的首席研究員約瑟夫·雷德曼在Ted演講上的演講。
https://youtu.be/Cgxsv1riJhI
這個模型在對象檢測模型列表中佔據首位的原因有很多。然而,最主要的原因是它的牢固性。它的推理時間非常短,這就是為什麼它很容易匹配視頻的正常速度(即25fps)並應用於實時數據的原因。
與其他對象檢測模型不同,Yolo模型具有以下特性。
是什麼讓YoloV3比Yolov2更好。
我們的問題陳述包括兩個任務,第一個是浮頂罐的檢測,另一個是陰影的提取和已識別罐容積的估計。第一個任務是基於目標檢測,第二個任務是基於計算機視覺技術。讓我們描述一下解決每個任務的方法。
我們的目標是估算浮頂罐的容積。我們可以為一個類建立目標檢測模型,但是為了減少一個模型與另一種儲油罐(即其他類型儲油罐)的混淆,並使其具有魯棒性,我們提出了三個類別的目標檢測模型。使用帶有轉移學習的YoloV3進行目標檢測是因為它更容易在機器上訓練。此外,為了提高度量分值,還採用了數據增強的方法。
陰影提取涉及許多計算機視覺技術。由於RGB顏色方案對陰影不敏感,必須先將其轉換成HSV和LAB顏色空間。我們使用(l1+l3)/(V+1) (其中l1是LAB顏色空間的第一個通道值)的比值圖像來增強陰影部分。
然後,通過閾值0.5×t1+0.4×t2(其中t1是最小像素值,t2是平均值)來過濾增強圖像。然後對閾值圖像進行形態學處理(即去除噪聲、清晰輪廓等)。
最後,提取出兩個儲油罐的陰影輪廓,然後根據上述公式估算出所佔用的體積。這些想法摘自以下Notebook。
https://www.kaggle.com/towardsentropy/oil-tank-volume-estimation
遵循整個流程來解決這個案例研究如下所示。
讓我們從數據集的探索性數據分析EDA開始!!
json_labels = json.load(open(os.path.join('data','labels.json')))print('Number of Images: ',len(json_labels))json_labels[25:30]
所有的標籤都存儲在字典列表中。總共有10萬張圖片。不包含任何儲罐的圖像將標記為Skip,而包含儲罐的圖像將標記為tank、tank Cluster或Floating Head tank。每個tank對象都有字典格式的四個角點的邊界框坐標。
在10K個圖像中,8187個圖像沒有標籤(即它們不包含任何儲油罐對象)。此外,有81個圖像包含至少一個儲油罐簇對象,1595個圖像包含至少一個浮頂儲油罐。
在條形圖中,可以觀察到,在包含圖像的1595個浮頂罐中,26.45%的圖像僅包含一個浮頂罐對象。單個圖像中浮頂儲罐對象的最高數量為34。
json_labels_coco = json.load(open(os.path.join('data','labels_coco.json')))print('Number of Floating tanks: ',len(json_labels_coco['annotations']))no_unique_img_id = set()for ann in json_labels_coco['annotations']: no_unique_img_id.add(ann['image_id'])print('Number of Images that contains Floating head tank: ', len(no_unique_img_id))json_labels_coco['annotations'][:8]
此文件僅包含浮頂罐的邊界框及其在字典格式列表中的image_id
儲油罐有三種:
Tank(T 油罐)
Tank Cluster(TC 油罐組),
Floating Head Tank(FHT,浮頂罐)
在EDA中,人們觀察到10000幅圖像中有8171幅是無用的,因為它們不包含任何對象。此外,1595個圖像包含至少一個浮頂罐對象。眾所周知,所有的深度學習模型都需要大量的數據,沒有足夠的數據會導致性能的下降。
因此,我們先進行數據擴充,然後將獲得的擴充數據擬合到Yolov3目標檢測模型中。
觀察到對象的注釋以Jason格式給出,其中有4個角點。首先,從這些角點提取左上角點和右下角點。接下來,屬於單個圖像的所有注釋及其對應的標籤都保存在CSV文件的一行列表中。
從角點提取左上角點和右下角點的代碼
def conv_bbox(box_dict): """ input: box_dict-> 字典中有4個角點 Function: 獲取左上方和右下方的點 output: tuple(ymin, xmin, ymax, xmax) """ xs = np.array(list(set([i['x'] for i in box_dict]))) ys = np.array(list(set([i['y'] for i in box_dict]))) x_min = xs.min() x_max = xs.max() y_min = ys.min() y_max = ys.max() return y_min, x_min, y_max, x_max
CSV文件將如下所示
為了評估模型,我們將保留10%的圖像作為測試集。
# 訓練和測試劃分df_train, df_test= model_selection.train_test_split( df, #CSV文件注釋 test_size=0.1, random_state=42, shuffle=True,)df_train.shape, df_test.shape
我們知道目標檢測需要大量的數據,但是我們只有1645幅圖像用於訓練,這是非常少的。為了增加數據,我們必須執行數據擴充。在此過程中,通過翻轉和旋轉原始圖像生成新圖像。我們轉到下面的GitHub存儲庫,從中提取代碼進行擴充
https://blog.paperspace.com/data-augmentation-for-bounding-boxes/
通過執行以下操作從單個原始圖像生成7個新圖像:
示例如下所示
TFRecords是TensorFlow自己的二進位存儲格式。當數據集太大時,它通常很有用。它以二進位格式存儲數據,並對訓練模型的性能產生顯著影響。二進位數據複製所需的時間更少,而且由於在訓練時只加載了一個batch數據,所以佔用的空間也更少。你可以在下面的博客中找到它的詳細描述。
https://medium.com/mostly-ai/tensorflow-records-what-they-are-and-how-to-use-them-c46bc4bbb564
也可以查看下面的Tensorflow文檔。
https://www.tensorflow.org/tutorials/load_data/tfrecord
我們的數據集已轉換成RFRecords格式。沒有必要執行此任務,因為我們的數據集不是很大。然而,這是為了知識的目的。如果你感興趣,可以在我的GitHub存儲庫中找到代碼。
為了訓練yolov3模型,採用了遷移學習。第一步包括加載DarkNet網絡的權重,並在訓練期間凍結它以保持權重不變。
def create_model(): tf.keras.backend.clear_session() pret_model = YoloV3(size, channels, classes=80) load_darknet_weights(pret_model, 'Pretrained_Model/yolov3.weights') print('\nPretrained Weight Loaded') model = YoloV3(size, channels, classes=3) model.get_layer('yolo_darknet').set_weights( pret_model.get_layer('yolo_darknet').get_weights()) print('Yolo DarkNet weight loaded') freeze_all(model.get_layer('yolo_darknet')) print('Frozen DarkNet layers') return modelmodel = create_model()model.summary()
我們使用adam優化器(初始學習率=0.001)來訓練我們的模型,並根據epoch應用餘弦衰減來降低學習速率。在訓練過程中使用模型檢查點保存最佳權重,訓練結束後保存最後一個權重。
tf.keras.backend.clear_session() epochs = 100learning_rate=1e-3optimizer = get_optimizer( optim_type = 'adam', learning_rate=1e-3, decay_type='cosine', decay_steps=10*600 )loss = [YoloLoss(yolo_anchors[mask], classes=3) for mask in yolo_anchor_masks]model = create_model()model.compile(optimizer=optimizer, loss=loss)# Tensorbaord! rm -rf ./logs/ logdir = os.path.join("logs", datetime.datetime.now().strftime("%Y%m%d-%H%M%S"))%tensorboard --logdir $logdirtensorboard_callback = tf.keras.callbacks.TensorBoard(logdir, histogram_freq=1)callbacks = [ EarlyStopping(monitor='val_loss', min_delta=0, patience=15, verbose=1), ModelCheckpoint('Weights/Best_weight.hdf5', verbose=1, save_best_only=True), tensorboard_callback,]history = model.fit(train_dataset, epochs=epochs, callbacks=callbacks, validation_data=valid_dataset)model.save('Weights/Last_weight.hdf5')
損失函數:
Yolov3模型訓練中所用的損失函數相當複雜。Yolo在三個不同的尺度上計算三個不同的損失,並對反向傳播進行總結(正如你在上面的代碼單元中看到的,最終損失是三個不同損失的列表)。每個loss都通過4個子函數計算定位損失和分類損失。
讓我們看看Yolov2中使用的損失公式
Yolov2中的最後三項是平方誤差,而在Yolov3中,它們被交叉熵誤差項所取代。換句話說,Yolov3中的對象置信度和類預測現在通過logistic回歸進行預測。
看看Yolov3損失函數的實現
def YoloLoss(anchors, classes=3, ignore_thresh=0.5): def yolo_loss(y_true, y_pred): # 1. 轉換所有預測輸出 # y_pred: (batch_size, grid, grid, anchors, (x, y, w, h, obj, ...cls)) pred_box, pred_obj, pred_class, pred_xywh = yolo_boxes( y_pred, anchors, classes) # predicted (tx, ty, tw, th) pred_xy = pred_xywh[..., 0:2] #x,y of last channel pred_wh = pred_xywh[..., 2:4] #w,h of last channel # 2. 轉換所有真實輸出 # y_true: (batch_size, grid, grid, anchors, (x1, y1, x2, y2, obj, cls)) true_box, true_obj, true_class_idx = tf.split( y_true, (4, 1, 1), axis=-1) #轉換 x1, y1, x2, y2 to x, y, w, h # x,y = (x2 - x1)/2, (y2-y1)/2 # w, h = (x2- x1), (y2 - y1) true_xy = (true_box[..., 0:2] + true_box[..., 2:4]) / 2 true_wh = true_box[..., 2:4] - true_box[..., 0:2] # 小盒子要更高權重 #shape-> (batch_size, grid, grid, anchors) box_loss_scale = 2 - true_wh[..., 0] * true_wh[..., 1] # 3. 對pred box方程反向 # 把 (bx, by, bw, bh) 變為 (tx, ty, tw, th) grid_size = tf.shape(y_true)[1] grid = tf.meshgrid(tf.range(grid_size), tf.range(grid_size)) grid = tf.expand_dims(tf.stack(grid, axis=-1), axis=2) true_xy = true_xy * tf.cast(grid_size, tf.float32) - tf.cast(grid, tf.float32) true_wh = tf.math.log(true_wh / anchors) # 可能有些格的true_wh是0, 用錨點劃分可能導致inf或nan true_wh = tf.where(tf.logical_or(tf.math.is_inf(true_wh), tf.math.is_nan(true_wh)), tf.zeros_like(true_wh), true_wh) # 4. 計算所有掩碼 #從張量的形狀中去除尺寸為1的維度。 #obj_mask: (batch_size, grid, grid, anchors) obj_mask = tf.squeeze(true_obj, -1) #當iou超過臨界值時,忽略假正例 #best_iou: (batch_size, grid, grid, anchors) best_iou = tf.map_fn( lambda x: tf.reduce_max(broadcast_iou(x[0], tf.boolean_mask( x[1], tf.cast(x[2], tf.bool))), axis=-1), (pred_box, true_box, obj_mask), tf.float32) ignore_mask = tf.cast(best_iou < ignore_thresh, tf.float32) # 5.計算所有損失 xy_loss = obj_mask * box_loss_scale * \ tf.reduce_sum(tf.square(true_xy - pred_xy), axis=-1) wh_loss = obj_mask * box_loss_scale * \ tf.reduce_sum(tf.square(true_wh - pred_wh), axis=-1) obj_loss = binary_crossentropy(true_obj, pred_obj) obj_loss = obj_mask * obj_loss + \ (1 - obj_mask) * ignore_mask * obj_loss #TODO:使用binary_crossentropy代替 class_loss = obj_mask * sparse_categorical_crossentropy( true_class_idx, pred_class) # 6. 在(batch, gridx, gridy, anchors)求和得到 => (batch, 1) xy_loss = tf.reduce_sum(xy_loss, axis=(1, 2, 3)) wh_loss = tf.reduce_sum(wh_loss, axis=(1, 2, 3)) obj_loss = tf.reduce_sum(obj_loss, axis=(1, 2, 3)) class_loss = tf.reduce_sum(class_loss, axis=(1, 2, 3)) return xy_loss + wh_loss + obj_loss + class_loss return yolo_loss
分數:
為了評估我們的模型,我們使用了AP和mAP評估訓練和測試數據
測試集分數
get_mAP(model, 'data/test.csv')
訓練集分數
get_mAP(model, 'data/train.csv')
推理:
讓我們看看這個模型是如何執行的
體積估算是本案例研究的最終結果。沒有評估估計容積的標準。然而,我們試圖找到圖像的最佳閾值像素值,以便能夠在很大程度上檢測陰影區域(通過計算像素數)。
我們將使用衛星拍攝到的4800X4800形狀的大圖像,並將其分割成100個512x512的子圖,兩個軸上的子圖之間重疊37像素。圖像修補程序在id_row_column.jpg命名。
每個生成的子圖的預測都將存儲在一個CSV文件中。接下來,估計每個浮頂儲油罐的體積(代碼和解釋以Notebook格式在我的GitHub存儲庫中提供)。
最後,將所有的圖像塊和邊界框與標籤合併,輸出估計的體積,形成一個大的圖像。你可以看看下面的例子:
測試集上浮頂罐的AP分數為0.874,訓練集上的AP分數為0.942。
[1] Oil-Tank-Volume-Estimation, by Karl Heyer, Nov 2019. (https://github.com/kheyer/Oil-Tank-Volume-Estimation)
[2] Estimating the Volume of Oil Tanks Based on High-Resolution Remote Sensing Images by Tong Wang, Ying Li, Shengtao Yu, and Yu Liu, April 2019.(https://www.researchgate.net/publication/332193936_Estimating_the_Volume_of_Oil_Tanks_Based_on_High-Resolution_Remote_Sensing_Images)
[3] A Beginner’s Guide To Calculating Oil Storage Tank Occupancy With Help Of Satellite Imagery by TankerTrackers.com, Sep 2017.(https://medium.com/planet-stories/a-beginners-guide-to-calculating-oil-storage-tank-occupancy-with-help-of-satellite-imagery-e8f387200178)
[4] A Gentle Introduction to Object Recognition With Deep Learning by https://machinelearningmastery.com/, May 2019.(https://machinelearningmastery.com/object-recognition-with-deep-learning/)
[5] Selective Search for Object Recognition by J.R.R. Uijlings at el. 2012(http://www.huppelen.nl/publications/selectiveSearchDraft.pdf)
[6] Region Proposal Network — A detailed view by Sambasivarao. K, Dec 2019(https://towardsdatascience.com/region-proposal-network-a-detailed-view-1305c7875853)
[7] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks by Ross Girshick et al. Jan 2016.(https://arxiv.org/abs/1506.01497)
[8] Real-time Object Detection with YOLO, YOLOv2 and now YOLOv3 by Joseph Redmon, 2015–2018 (https://arxiv.org/abs/1506.02640,https://arxiv.org/abs/1612.08242,https://arxiv.org/abs/1804.02767)