深度學習黑客競賽神器:基於PyTorch圖像特徵工程的深度學習圖像增強

2021-02-21 磐創AI

當我們沒有足夠的數據時，圖像增強是一個非常有效的方法

我們可以在任何場合使用圖像增強進行深度學習——黑客競賽、工業項目等等

我們還將使用PyTorch建立一個圖像分類模型，以了解圖像增強是如何形成圖片的

在深度學習黑客競賽中表現出色的技巧（或者坦率地說，是任何數據科學黑客競賽）通常歸結為特徵工程。當您獲得的數據不足以建立一個成功的深度學習模型時，你能發揮多少創造力？

我是根據自己參加多次深度學習黑客競賽的經驗而談的，在這次深度黑客競賽中，我們獲得了包含數百張圖像的數據集——根本不足以贏得甚至完成排行榜的頂級排名。那我們怎麼處理這個問題呢？

答案？好吧，那要看數據科學家的技能了！這就是我們的好奇心和創造力脫穎而出的地方。這就是特徵工程背後的理念——在現有特徵的情況下，我們能多好地提出新特徵。當我們處理圖像數據時，同樣的想法也適用。

這就是圖像增強的主要作用。這一概念不僅僅局限於黑客競賽——我們在工業和現實世界中深度學習模型項目中都使用了它！

image_augmentation
圖像增強功能幫助我擴充現有數據集，而無需費時費力。而且我相信您會發現這項技術對您自己的項目非常有幫助。

因此，在本文中，我們將了解圖像增強的概念，為何有用以及哪些不同的圖像增強技術。我們還將實現這些圖像增強技術，以使用PyTorch構建圖像分類模型。

這是我的PyTorch初學者系列文章的第五篇。您可以在此處訪問以前的文章：

A Beginner-Friendly Guide to PyTorch and How it Works from Scratch

文章地址：https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=image-augmentation-deep-learning-pytorch

Build an Image Classification Model using Convolutional Neural Networks in PyTorch

文章地址：https://www.analyticsvidhya.com/blog/2019/10/building-image-classification-models-cnn-pytorch/?utm_source=blog&utm_medium=image-augmentation-deep-learning-pytorch

Deep Learning for Everyone: Master the Powerful Art of Transfer Learning using PyTorch

文章地址：https://www.analyticsvidhya.com/blog/2019/10/how-to-master-transfer-learning-using-pytorch/?utm_source=blog&utm_medium=image-augmentation-deep-learning-pytorch

4 Proven Tricks to Improve your Deep Learning Model’s Performance

文章地址：https://www.analyticsvidhya.com/blog/2019/11/4-tricks-improve-deep-learning-model-performance/?utm_source=blog&utm_medium=image-augmentation-deep-learning-pytorch

為什麼需要圖像增強？

不同的圖像增強技術

選擇正確的增強技術的基本準則

案例研究：使用圖像增強解決圖像分類問題

為什麼需要圖像增強？

深度學習模型通常需要大量的數據來進行訓練。通常，數據越多，模型的性能越好。但是獲取海量數據面臨著自身的挑戰。不是每個人都有大公司的雄厚財力。

缺少數據使得我們的[深度學習模型](https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2?utm_source=blog&utm_medium=image-augmentation-deep -learning-pytorch)可能無法從數據中學習模式或功能，因此在未見過的數據上可能無法提供良好的性能。

那麼在那種情況下我們該怎麼辦？我們可以使用圖像增強技術，而無需花費幾天的時間手動收集數據。

圖像增強是生成新圖像以訓練我們的深度學習模型的過程。這些新圖像是使用現有的訓練圖像生成的，因此我們不必手動收集它們。

Image-Augmentation
有多種圖像增強技術，我們將在下一節討論一些常見的和使用最廣泛的技術。不同的圖像增強技術圖像旋轉

圖像旋轉是最常用的增強技術之一。它可以幫助我們的模型對對象方向的變化變得健壯。即使我們旋轉圖像，圖像的信息也保持不變。汽車就是一輛汽車，即使我們從不同的角度看它：

Screenshot-from-2019-11-26-13-05-26

因此，我們可以使用此技術，通過從原始圖像創建旋轉圖像來增加數據量。讓我們看看如何旋轉圖像：

# 導入所有必需的庫
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import skimage.io as io
from skimage.transform import rotate, AffineTransform, warp
from skimage.util import random_noise
from skimage.filters import gaussian
import matplotlib.pyplot as plt
% matplotlib inline

我將使用此圖像（https://drive.google.com/file/d/1Ld4gDh-XjEZiCmQjvFV1WFBgC6LyvNB0/view?usp=sharing）演示不同的圖像增強技術。你也可以根據自己的要求嘗試其他圖片。

我們先導入圖像並將其可視化：

# reading the image using its path
image = io.imread('emergency_vs_non-emergency_dataset/images/0.jpg')

# shape of the image
print(image.shape)

# displaying the image
io.imshow(image)

Screenshot-from-2019-11-26-13-09-10

這是原始圖像。現在讓我們看看如何旋轉它。我將使用skimage 庫的旋轉功能來旋轉圖像：

print('Rotated Image')
#rotating the image by 45 degrees
rotated = rotate(image, angle=45, mode = 'wrap')
#plot the rotated image
io.imshow(rotated)

Screenshot-from-2019-11-26-13-10-26

很好！將模式設置為「wrap」，用圖像的剩餘像素填充輸入邊界之外的點。

平移圖像

可能會出現圖像中的對象沒有完全居中對齊的情況。在這些情況下，可以使用圖像平移為圖像添加平移不變性。

通過移動圖像，我們可以更改對象在圖像中的位置，從而使模型更具多樣性。最終將生成更通用的模型。

圖像平移是一種幾何變換，它將圖像中每個對象的位置映射到最終輸出圖像中的新位置。

在移位操作之後，輸入圖像中的位置（x，y）處的對象被移位到新位置（X，Y）：

其中，dx和dy分別是沿不同維度的位移。讓我們看看如何將shift應用於圖像：

# 應用平移操作
transform = AffineTransform(translation=(25,25))
wrapShift = warp(image,transform,mode='wrap')
plt.imshow(wrapShift)
plt.title('Wrap Shift')

Screenshot-from-2019-11-26-13-17-05

translation超參數定義圖像應移動的像素數。這裡，我把圖像移了（25，25）個像素。您可以隨意設置此超參數的值。

我再次使用「wrap」模式，它用圖像的剩餘像素填充輸入邊界之外的點。在上面的輸出中，您可以看到圖像的高度和寬度都移動了25像素。

翻轉圖像

翻轉是旋轉的延伸。它使我們可以在左右以及上下方向上翻轉圖像。讓我們看看如何實現翻轉：

#flip image left-to-right
flipLR = np.fliplr(image)

plt.imshow(flipLR)
plt.title('Left to Right Flipped')

Screenshot-from-2019-11-26-13-23-12

在這裡，我使用了NumPy的fliplr 函數從左向右翻轉圖像。它翻轉每一行的像素值，並且輸出確認相同。類似地，我們可以沿上下方向翻轉圖像：

# 上下翻轉圖像
flipUD = np.flipud(image)

plt.imshow(flipUD)
plt.title('Up Down Flipped')

Screenshot-from-2019-11-26-13-24-51

這就是我們可以翻轉圖像並製作更通用的模型的方法，該模型將學習到原始圖像以及翻轉後的圖像。向圖像添加隨機噪聲也是圖像增強技術。讓我們通過一個例子來理解它。

給圖像添加噪點

圖像噪聲是一個重要的增強步驟，使我們的模型能夠學習如何分離圖像中的信號和噪聲。這也使得模型對輸入的變化更加健壯。

我們將使用「skipage」庫的「random_noise」函數為原始圖像添加一些隨機噪聲

我將噪聲的標準差取為0.155（您也可以更改此值）。請記住，增加此值將為圖像添加更多噪聲，反之亦然：

# 要添加到圖像中的噪聲的標準差
sigma=0.155
# 向圖像添加隨機噪聲
noisyRandom = random_noise(image,var=sigma**2)

plt.imshow(noisyRandom)
plt.title('Random Noise')

Screenshot-from-2019-11-26-13-31-00

我們可以看到隨機噪聲已添加到原始圖像中。試一下不同的標準偏差的值，看看得到的不同結果。

模糊圖像

所有攝影愛好者都會立即理解這個想法。

圖像有不同的來源。因此，每個來源的圖像質量都將不同。有些圖像的質量可能很高，而另一些則可能很差勁。

在這種情況下，我們可以使圖像模糊。那將有什麼幫助？好吧，這有助於使我們的深度學習模型更強大。

讓我們看看我們如何做到這一點。我們將使用高斯濾波器來模糊圖像：

# 模糊圖像
blurred = gaussian(image,sigma=1,multichannel=True)

plt.imshow(blurred)
plt.title('Blurred Image')

Screenshot-from-2019-11-26-13-34-39

Sigma是高斯濾波器的標準差。我將其視為1。sigma值越高，模糊效果越強。將* Multichannel *設置為true可確保分別過濾圖像的每個通道。

同樣，您可以嘗試使用不同的sigma值來更改模糊度。

這些是一些圖像增強技術，有助於使我們的深度學習模型健壯且可推廣。這也有助於增加訓練集的大小。

我們即將完成本教程的實現部分。在此之前，讓我們看看一些基本的準則，以決定正確的圖像增強技術。

選擇正確的增強技術的基本準則

我認為在根據您試圖解決的問題來決定增強技術時，有一些準則是很重要的。以下是這些準則的簡要概述：

任何模型構建過程的第一步都是確保輸入的大小與模型所期望的大小相匹配。我們還必須確保所有圖像的大小應該相似。為此，我們可以調整我們的圖像到適當的大小。

假設您正在處理一個分類問題，並且樣本數據量相對較少。在這種情況下，可以使用不同的增強技術，如圖像旋轉、圖像噪聲、翻轉、移位等。請記住，所有這些操作都適用於對圖像中對象位置無關緊要的分類問題。

如果您正在處理一個對象檢測任務，其中對象的位置是我們要檢測的，這些技術可能不合適。

圖像像素值的標準化是保證模型更好更快收斂的一個很好的策略。如果模型有特定的要求，我們必須根據模型的要求對圖像進行預處理。

現在，不用再等了，讓我們繼續到模型構建部分。我們將應用本文討論的增強技術生成圖像，然後使用這些圖像來訓練模型。

我們將研究緊急車輛與非緊急車輛的分類問題。如果你看過我以前的PyTorch文章（https://www.analyticsvidhya.com/blog/author/pulkits/?utm_source=blog&utm_medium=image-augmentation-deep-learning-pytorch），你應該熟悉問題的描述。

該項目的目標是將車輛圖像分為緊急和非緊急兩類。你猜對了，這是一個圖像分類問題。

https://drive.google.com/file/d/1EbVifjP0FQkyB1axb7KQ26yPtWmneApJ/view

下載數據集。

加載數據集

我們開始吧！我們先把數據裝入notebook。然後，我們將應用圖像增強技術，最後，建立一個卷積神經網絡(CNN)模型。

卷積神經網絡參考地址：https://www.analyticsvidhya.com/blog/2018/12/guide-convolutional-neural-network-cnn/?utm_source=blog&utm_medium=image-augmentation-deep-learning-pytorch

讓我們導入所需的庫：

# 導入庫
from torchsummary import summary
import pandas as pd
import numpy as np
from skimage.io import imread, imsave
from tqdm import tqdm
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

from skimage.transform import rotate
from skimage.util import random_noise
from skimage.filters import gaussian
from scipy import ndimage

現在，我們將讀取包含圖像名稱及其相應標籤的CSV文件：

# 加載數據集
data = pd.read_csv('emergency_vs_non-emergency_dataset/emergency_train.csv')
data.head()

Screenshot-from-2019-11-27-13-04-48

0表示該車為非緊急車輛，1表示該車為緊急車輛。現在讓我們從數據集中加載所有圖像：

# 加載圖像
train_img = []
for img_name in tqdm(data['image_names']):
    image_path = 'emergency_vs_non-emergency_dataset/images/' + img_name
    img = imread(image_path)
    img = img/255
    train_img.append(img)

train_x = np.array(train_img)
train_y = data['emergency_or_not'].values
train_x.shape, train_y.shape

Screenshot-from-2019-11-27-13-06-04

數據集中共有1646幅圖像。讓我們把這些數據分成訓練和驗證集。我們將使用驗證集來評估模型在未見過的數據上的性能：

train_x, val_x, train_y, val_y = train_test_split(train_x, train_y, test_size = 0.1, random_state = 13, stratify=train_y)
(train_x.shape, train_y.shape), (val_x.shape, val_y.shape)

Screenshot-from-2019-11-27-14-00-22

我將「test_size」保持為0.1，因此10%的數據將隨機選擇作為驗證集，剩下的90%將用於訓練模型。訓練集有1481個圖像，這對於訓練深度學習模型來說是相當少的。

因此，接下來，我們將增加這些訓練圖像，以增加訓練集，並可能提高模型的性能。

增強圖像

我們將使用前面討論過的圖像增強技術：

final_train_data = []
final_target_train = []
for i in tqdm(range(train_x.shape[0])):
    final_train_data.append(train_x[i])
    final_train_data.append(rotate(train_x[i], angle=45, mode = 'wrap'))
    final_train_data.append(np.fliplr(train_x[i]))
    final_train_data.append(np.flipud(train_x[i]))
    final_train_data.append(random_noise(train_x[i],var=0.2**2))
    for j in range(5):
        final_target_train.append(train_y[i])

Screenshot-from-2019-11-27-14-03-14

我們為訓練集中的1481張圖像中的每一張生成了4張增強圖像。讓我們以數組的形式轉換圖像並驗證數據集的大小：

len(final_target_train), len(final_train_data)
final_train = np.array(final_train_data)
final_target_train = np.array(final_target_train)

Screenshot-from-2019-11-27-14-05-39

這證實了我們已經增強了圖像並增加了訓練集的大小。讓我們將這些增強圖像進行可視化：

fig,ax = plt.subplots(nrows=1,ncols=5,figsize=(20,20))
for i in range(5):
ax[i].imshow(final_train[i+30])
ax[i].axis('off')

Screenshot-from-2019-11-27-14-06-46

這裡的第一個圖像是來自數據集的原始圖像。其餘四幅圖像分別使用不同的圖像增強技術（旋轉、從左向右翻轉、上下翻轉和添加隨機噪聲）生成的。

我們的數據集現在已經準備好了。是時候定義我們的深度學習模型的結構，然後在增強過的訓練集上對其進行訓練了。我們先從PyTorch中導入所有函數：

# PyTorch 庫和模塊
import torch
from torch.autograd import Variable
from torch.nn import Linear, ReLU, CrossEntropyLoss, Sequential, Conv2d, MaxPool2d, Module, Softmax, BatchNorm2d, Dropout
from torch.optim import Adam, SGD

我們必須將訓練集和驗證集轉換為PyTorch格式：

# 將訓練圖像轉換為torch格式
final_train = final_train.reshape(7405, 3, 224, 224)
final_train = torch.from_numpy(final_train)
final_train = final_train.float()

# 將target轉換為torch格式
final_target_train = final_target_train.astype(int)
final_target_train = torch.from_numpy(final_target_train)

同樣，我們將轉換驗證集：

# 將驗證圖像轉換為torch格式
val_x = val_x.reshape(165, 3, 224, 224)
val_x = torch.from_numpy(val_x)
val_x = val_x.float()

# 將target轉換為torch格式
val_y = val_y.astype(int)
val_y = torch.from_numpy(val_y)

模型結構

接下來，我們將定義模型的結構。這有點複雜，因為模型結構包含4個卷積塊，然後是4個全連接層：

torch.manual_seed(0)

class Net(Module):
    def __init__(self):
        super(Net, self).__init__()

        self.cnn_layers = Sequential(
            # 定義2D convolution層
            Conv2d(3, 32, kernel_size=3, stride=1, padding=1),
            ReLU(inplace=True),
            # 添加batch normalization層
            BatchNorm2d(32),
            MaxPool2d(kernel_size=2, stride=2),
            # 添加 dropout
            Dropout(p=0.25),
            # 定義另一個2D convolution層
            Conv2d(32, 64, kernel_size=3, stride=1, padding=1),
            ReLU(inplace=True),
            # 添加batch normalization層
            BatchNorm2d(64),
            MaxPool2d(kernel_size=2, stride=2),
            # 添加 dropout
            Dropout(p=0.25),
            # 定義另一個2D convolution層
            Conv2d(64, 128, kernel_size=3, stride=1, padding=1),
            ReLU(inplace=True),
            # 添加batch normalization層
            BatchNorm2d(128),
            MaxPool2d(kernel_size=2, stride=2),
            # 添加 dropout
            Dropout(p=0.25),
            # 定義另一個2D convolution層
            Conv2d(128, 128, kernel_size=3, stride=1, padding=1),
            ReLU(inplace=True),
            # 添加batch normalization層
            BatchNorm2d(128),
            MaxPool2d(kernel_size=2, stride=2),
            # 添加 dropout
            Dropout(p=0.25),
        )

        self.linear_layers = Sequential(
            Linear(128 * 14 * 14, 512),
            ReLU(inplace=True),
            Dropout(),
            Linear(512, 256),
            ReLU(inplace=True),
            Dropout(),
            Linear(256,10),
            ReLU(inplace=True),
            Dropout(),
            Linear(10,2)
        )

    # 定義前向過程
    def forward(self, x):
        x = self.cnn_layers(x)
        x = x.view(x.size(0), -1)
        x = self.linear_layers(x)
        return x

讓我們定義模型的其他超參數，包括優化器、學習率和損失函數：

# defining the model
model = Net()
# defining the optimizer
optimizer = Adam(model.parameters(), lr=0.000075)
# defining the loss function
criterion = CrossEntropyLoss()
# checking if GPU is available
if torch.cuda.is_available():
model = model.cuda()
criterion = criterion.cuda()

print(model)

Screenshot-from-2019-11-27-14-24-41訓練模型

為我們的深度學習模型訓練20個epoch：

torch.manual_seed(0)

# 模型的batch size
batch_size = 64

# 訓練模型的epoch數
n_epochs = 20

for epoch in range(1, n_epochs+1):

    train_loss = 0.0

    permutation = torch.randperm(final_train.size()[0])

    training_loss = []
    for i in tqdm(range(0,final_train.size()[0], batch_size)):

        indices = permutation[i:i+batch_size]
        batch_x, batch_y = final_train[indices], final_target_train[indices]

        if torch.cuda.is_available():
            batch_x, batch_y = batch_x.cuda(), batch_y.cuda()

        optimizer.zero_grad()
        outputs = model(batch_x)
        loss = criterion(outputs,batch_y)

        training_loss.append(loss.item())
        loss.backward()
        optimizer.step()

    training_loss = np.average(training_loss)
    print('epoch: \t', epoch, '\t training loss: \t', training_loss)

Screenshot-from-2019-11-27-14-26-37

這是訓練階段的summary。你會注意到，隨著epoch的增加，訓練loss會減少。讓我們保存已訓練的模型的權重，以便將來在不重新訓練模型的情況下使用它們：

torch.save(model, 'model.pt')

如果您不想在您的終端訓練模型，您可以使用此連結：https://drive.google.com/open?id=14r5joYfivbX49TvyfLGUFYYYTZsv8OmJ下載已訓練了20個epoch的模型的權重。

接下來，讓我們加載這個模型：

the_model = torch.load('model.pt')

測試我們模型的性能

最後，讓我們對訓練集和驗證集進行預測，並檢查各自的準確度：

torch.manual_seed(0)
# 預測訓練集
prediction = []
target = []
permutation = torch.randperm(final_train.size()[0])
for i in tqdm(range(0,final_train.size()[0], batch_size)):
    indices = permutation[i:i+batch_size]
    batch_x, batch_y = final_train[indices], final_target_train[indices]

    if torch.cuda.is_available():
        batch_x, batch_y = batch_x.cuda(), batch_y.cuda()

    with torch.no_grad():
        output = model(batch_x.cuda())

    softmax = torch.exp(output).cpu()
    prob = list(softmax.numpy())
    predictions = np.argmax(prob, axis=1)
    prediction.append(predictions)
    target.append(batch_y)

# 訓練準確度
accuracy = []
for i in range(len(prediction)):
    accuracy.append(accuracy_score(target[i].cpu(),prediction[i]))

print('training accuracy: \t', np.average(accuracy))

Screenshot-from-2019-11-27-14-31-21

訓練集的準確率超過91%！很有希望。但是，讓我們拭目以待吧。我們需要對驗證集進行相同的檢查：

# 預測驗證集
torch.manual_seed(0)
output = model(val_x.cuda())
softmax = torch.exp(output).cpu()
prob = list(softmax.detach().numpy())
predictions = np.argmax(prob, axis=1)
accuracy_score(val_y, predictions)

Screenshot-from-2019-11-27-14-32-41
驗證準確性約為78％。很好！

當我們開始獲得的訓練數據較少時，我們可以使用圖像增強技術。

在本文中，我們介紹了大多數常用的圖像增強技術。我們學習了如何旋轉，移動和翻轉圖像。我們還學習了如何為圖像添加隨機噪聲或使其模糊。然後，我們討論了選擇正確的增強技術的基本準則。

您可以在任何圖像分類問題上嘗試使用這些圖像增強技術，然後比較使用增強和不使用增強的性能。隨時在下面的評論部分中分享您的結果。

而且，如果您不熟悉深度學習，計算機視覺和圖像數據，那麼建議您完成以下課程：

原文連結：https://www.analyticsvidhya.com/blog/2019/12/image-augmentation-deep-learning-pytorch/

深度學習黑客競賽神器:基於PyTorch圖像特徵工程的深度學習圖像增強

相關焦點

基於深度學習的圖像識別進展

總結 | 基於深度學習的低光照圖像增強方法

基於深度學習的AFM圖像解析度增強方法

pytorch+Unet圖像分割:將圖片中的鹽體找出來

基於深度學習的超解析度圖像技術一覽

深度學習與圖像識別

基於深度學習的圖像超解析度技術

深度重建:基於深度學習的圖像重建

深度學習角度 | 圖像識別將何去何從?

基於深度學習方法的圖像分割

【深度】從經典深度學習模型探討圖像識別新方向

深度學習在圖像取證領域中的進展

圖像識別中的深度學習:挑戰、現狀和未來

【學術論文】基於深度學習的圖像分類搜索系統

圖像配準:從SIFT到深度學習

圖像配準的前世今生:從人工設計特徵到深度學習

讀書總結|深度學習圖像識別技術

分享《深度學習入門:基於Python的理論與實現》高清中文版PDF+原始碼

深度學習中的圖像分割:方法和應用

圖像分類:一個更魯棒的場景分類模型