卷積神經網絡(Convolutional Neural Network,CNN) 是一種具有局部連接、權重共享等特徵的深層前饋神經網絡。
我們先來看一下比較直觀的了解一下,對卷積神經網絡有個感性的認識:
我們首先先對我們輸入的圖片進行一次卷積,而後加入Relu激活函數,再做一次卷積,再加入Relu激活函數,而後對其處理結果進行匯聚(此處為Pool,也可以稱為池化),再後來就是不斷地重複前邊的步驟,最後會得到一個屬於某一類圖片的概率。這時概率最大的那個就是我們需要的判別結果了。
以訓練這個 小貓圖片為例,如果輸入圖像為100* 100 *3(即圖像長度為100,寬度為100,3個顏色通道:RGB),如果我們的輸入圖像為灰色的話,其顏色通道數為1,我們也稱為圖片的高度。
過濾器不斷的在圖像中收集小批小批的像素塊,收集完所有的信息後,輸出的值為一個比之前的高度更高,長和寬更小的圖片,這個圖片中包含了一些邊緣信息。
然後再以同樣的步驟再進行多次卷積,將圖片的長寬再次壓縮,高度再次增加,就會有了對輸入圖片更深的理解。
然後將壓縮,增高的信息嵌入普通的分類神經層上,我們就能對這個圖片進行分類了。
下面我將會以一個手寫字母識別的例子來入門CNN吧。MNIST 數據集來自美國國家標準與技術研究所。訓練集 (training set) 由來自 250 個不同人手寫的數字構成, 其中 50% 是高中學生, 50% 來自人口普查局 (the Census Bureau) 的工作人員. 測試集(test set) 也是同樣比例的手寫數字數據.其圖片形式如下所示:
# @Time : 2020/6/6 13:23
# @Author : kingback
# @File : cnn_test.py
# @Software: PyCharm
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.utils.data as Data
import torchvision
import matplotlib.pyplot as plt
#Hyper prameters
EPOCH=1
BATCH_SIZE=50
LR=0.001
DOWNLOAD_MNIST=False
train_data=torchvision.datasets.MNIST(
root='./mnist',
train=True,
transform=torchvision.transforms.ToTensor(), #將下載的文件轉換成pytorch認識的tensor類型,且將圖片的數值大小從(0-255)歸一化到(0-1)
download=DOWNLOAD_MNIST
)
#畫一個圖片顯示出來
# print(train_data.data.size())
# print(train_data.targets.size())
# plt.imshow(train_data.data[0].numpy(),cmap='gray')
# plt.title('%i'%train_data.targets[0])
# plt.show()
train_loader=Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
test_data=torchvision.datasets.MNIST(
root='./mnist',
train=False,
)
with torch.no_grad():
test_x=Variable(torch.unsqueeze(test_data.data, dim=1)).type(torch.FloatTensor)[:2000]/255 #只取前兩千個數據吧,差不多已經夠用了,然後將其歸一化。
test_y=test_data.targets[:2000]
'''開始建立CNN網絡'''
class CNN(nn.Module):
def __init__(self):
super(CNN,self).__init__()
'''
一般來說,卷積網絡包括以下內容:
1.卷積層
2.神經網絡
3.池化層
'''
self.conv1=nn.Sequential(
nn.Conv2d( #--> (1,28,28)
in_channels=1, #傳入的圖片是幾層的,灰色為1層,RGB為三層
out_channels=16, #輸出的圖片是幾層
kernel_size=5, #代表掃描的區域點為5*5
stride=1, #就是每隔多少步跳一下
padding=2, #邊框補全,其計算公式=(kernel_size-1)/2=(5-1)/2=2
), # 2d代表二維卷積 --> (16,28,28)
nn.ReLU(), #非線性激活層
nn.MaxPool2d(kernel_size=2), #設定這裡的掃描區域為2*2,且取出該2*2中的最大值 --> (16,14,14)
)
self.conv2=nn.Sequential(
nn.Conv2d( # --> (16,14,14)
in_channels=16, #這裡的輸入是上層的輸出為16層
out_channels=32, #在這裡我們需要將其輸出為32層
kernel_size=5, #代表掃描的區域點為5*5
stride=1, #就是每隔多少步跳一下
padding=2, #邊框補全,其計算公式=(kernel_size-1)/2=(5-1)/2=
), # --> (32,14,14)
nn.ReLU(),
nn.MaxPool2d(kernel_size=2), #設定這裡的掃描區域為2*2,且取出該2*2中的最大值 --> (32,7,7),這裡是三維數據
)
self.out=nn.Linear(32*7*7,10) #注意一下這裡的數據是二維的數據
def forward(self,x):
x=self.conv1(x)
x=self.conv2(x) #(batch,32,7,7)
#然後接下來進行一下擴展展平的操作,將三維數據轉為二維的數據
x=x.view(x.size(0),-1) #(batch ,32 * 7 * 7)
output=self.out(x)
return output
cnn=CNN()
# print(cnn)
# 添加優化方法
optimizer=torch.optim.Adam(cnn.parameters(),lr=LR)
# 指定損失函數使用交叉信息熵
loss_fn=nn.CrossEntropyLoss()
'''
開始訓練我們的模型哦
'''
step=0
for epoch in range(EPOCH):
#加載訓練數據
for step,data in enumerate(train_loader):
x,y=data
#分別得到訓練數據的x和y的取值
b_x=Variable(x)
b_y=Variable(y)
output=cnn(b_x) #調用模型預測
loss=loss_fn(output,b_y)#計算損失值
optimizer.zero_grad() #每一次循環之前,將梯度清零
loss.backward() #反向傳播
optimizer.step() #梯度下降
#每執行50次,輸出一下當前epoch、loss、accuracy
if (step%50==0):
#計算一下模型預測正確率
test_output=cnn(test_x)
y_pred=torch.max(test_output,1)[1].data.squeeze()
accuracy=sum(y_pred==test_y).item()/test_y.size(0)
print('now epoch : ', epoch, ' | loss : %.4f ' % loss.item(), ' | accuracy : ' , accuracy)
'''
列印十個測試集的結果
'''
test_output=cnn(test_x[:10])
y_pred=torch.max(test_output,1)[1].data.squeeze() #選取最大可能的數值所在的位置
print(y_pred.tolist(),'predecton Result')
print(test_y[:10].tolist(),'Real Result')
模型訓練完畢之後,我又隨機取了十個圖片帶入模型,然後將其結果與正確的結果比對,有如下結果: