13個算法工程師必須掌握的PyTorch Tricks

2021-02-21 深度學習這件小事


   目錄

1、指定GPU編號

2、查看模型每層輸出詳情

3、梯度裁剪

4、擴展單張圖片維度

5、one hot編碼

6、防止驗證模型時爆顯存

7、學習率衰減

8、凍結某些層的參數

9、對不同層使用不同學習率

10、模型相關操作

11、Pytorch內置one hot函數

12、網絡參數初始化

13、加載內置預訓練模型


   1、指定GPU編號

設置當前使用的GPU設備僅為0號設備,設備名稱為 /gpu:0:os.environ["CUDA_VISIBLE_DEVICES"] = "0"

設置當前使用的GPU設備為0,1號兩個設備,名稱依次為 /gpu:0、/gpu:1:os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" ,根據順序表示優先使用0號設備,然後使用1號設備。

指定GPU的命令需要放在和神經網絡相關的一系列操作的前面。
   2、查看模型每層輸出詳情Keras有一個簡潔的API來查看模型的每一層輸出尺寸,這在調試網絡時非常有用。現在在PyTorch中也可以實現這個功能。
from torchsummary import summarysummary(your_model, input_size=(channels, H, W))

input_size 是根據你自己的網絡模型的輸入尺寸進行設置。
   3、梯度裁剪(Gradient Clipping)
import torch.nn as nn
outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

nn.utils.clip_grad_norm_ 的參數:parameters – 一個基於變量的迭代器,會進行梯度歸一化norm_type – 規定範數的類型,默認為L2@不橢的橢圓 提出:梯度裁剪在某些任務上會額外消耗大量的計算時間,可移步評論區查看詳情。
   4、擴展單張圖片維度因為在訓練時的數據維度一般都是 (batch_size, c, h, w),而在測試時只輸入一張圖片,所以需要擴展維度,擴展維度有多個方法:
import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.view(1, *image.size())print(img.size())
# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

import cv2import numpy as np
image = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)
# output:# (h, w, c)# (1, h, w, c)

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.unsqueeze(dim=0) print(img.size())
img = img.squeeze(dim=0)print(img.size())
# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])

tensor.unsqueeze(dim):擴展維度,dim指定擴展哪個維度。tensor.squeeze(dim):去除dim指定的且size為1的維度,維度大於1時,squeeze()不起作用,不指定dim時,去除所有size為1的維度。
   5、獨熱編碼在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot,所以不用手動轉化,而使用MSE需要手動轉化成onehot編碼。
import torchclass_num = 8batch_size = 4
def one_hot(label): """ 將一維列錶轉換為獨熱編碼 """ label = label.resize_(batch_size, 1) m_zeros = torch.zeros(batch_size, class_num) # 從 value 中取值,然後根據 dim 和 index 給相應位置賦值 onehot = m_zeros.scatter_(1, label, 1) # (dim,index,value)
return onehot.numpy() # Tensor -> Numpy
label = torch.LongTensor(batch_size).random_() % class_num # 對隨機數取餘print(one_hot(label))
# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]


   6、防止驗證模型時爆顯存驗證模型時不需要求導,即不需要梯度計算,關閉autograd,可以提高速度,節約內存。如果不關閉可能會爆顯存。
with torch.no_grad():    # 使用model進行預測的代碼    pass

感謝@zhaz 的提醒,我把 torch.cuda.empty_cache() 的使用原因更新一下。Pytorch 訓練時無用的臨時變量可能會越來越多,導致 out of memory ,可以使用下面語句來清理這些不需要的變量。Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi. torch.cuda.empty_cache()意思就是PyTorch的緩存分配器會事先分配一些固定的顯存,即使實際上tensors並沒有使用完這些顯存,這些顯存也不能被其他應用使用。這個分配過程由第一次CUDA內存訪問觸發的。而 torch.cuda.empty_cache() 的作用就是釋放緩存分配器當前持有的且未佔用的緩存顯存,以便這些顯存可以被其他GPU應用程式中使用,並且通過 nvidia-smi命令可見。注意使用此命令不會釋放tensors佔用的顯存。對於不用的數據變量,Pytorch 可以自動進行回收從而釋放相應的顯存。更詳細的優化可以查看 優化顯存使用 和 顯存利用問題。
   7、學習率衰減
import torch.optim as optimfrom torch.optim import lr_scheduler
# 訓練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1) # # 每過10個epoch,學習率乘以0.1
# 訓練過程中for n in n_epoch: scheduler.step() ...

可以隨時查看學習率的值:optimizer.param_groups[0]['lr']。scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda epoch:1/(epoch+1))lr_scheduler.ReduceLROnPlateau()提供了基於訓練中某些測量值使學習率動態下降的方法,它的參數說明到處都可以查到。
提醒一點就是參數 mode='min' 還是'max',取決於優化的的損失還是準確率,即使用 scheduler.step(loss)還是scheduler.step(acc) 。

   8、凍結某些層的參數

參考:https://www.zhihu.com/question/311095447/answer/589307812在加載預訓練模型的時候,我們有時想凍結前面幾層,使其參數在訓練過程中不發生變化。
net = Network()  # 獲取自定義網絡結構for name, value in net.named_parameters():    print('name: {0},\t grad: {1}'.format(name, value.requires_grad))

name: cnn.VGG_16.convolution1_1.weight, grad: Truename: cnn.VGG_16.convolution1_1.bias, grad: Truename: cnn.VGG_16.convolution1_2.weight, grad: Truename: cnn.VGG_16.convolution1_2.bias, grad: Truename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True

後面的True表示該層的參數可訓練,然後我們定義一個要凍結的層的列表:
no_grad = [    'cnn.VGG_16.convolution1_1.weight',    'cnn.VGG_16.convolution1_1.bias',    'cnn.VGG_16.convolution1_2.weight',    'cnn.VGG_16.convolution1_2.bias']

net = Net.CTPN()  # 獲取網絡結構for name, value in net.named_parameters():    if name in no_grad:        value.requires_grad = False    else:        value.requires_grad = True

name: cnn.VGG_16.convolution1_1.weight, grad: Falsename: cnn.VGG_16.convolution1_1.bias, grad: Falsename: cnn.VGG_16.convolution1_2.weight, grad: Falsename: cnn.VGG_16.convolution1_2.bias, grad: Falsename: cnn.VGG_16.convolution2_1.weight, grad: Truename: cnn.VGG_16.convolution2_1.bias, grad: Truename: cnn.VGG_16.convolution2_2.weight, grad: Truename: cnn.VGG_16.convolution2_2.bias, grad: True

可以看到前兩層的weight和bias的requires_grad都為False,表示它們不可訓練。最後在定義優化器時,只對requires_grad為True的層的參數進行更新。
optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

   9、對不同層使用不同學習率

net = Network()  # 獲取自定義網絡結構for name, value in net.named_parameters():    print('name: {}'.format(name))
# 輸出:# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

對 convolution1 和 convolution2 設置不同的學習率,首先將它們分開,即放到不同的列表裡:
conv1_params = []conv2_params = []
for name, parms in net.named_parameters(): if "convolution1" in name: conv1_params += [parms] else: conv2_params += [parms]
# 然後在優化器中進行如下操作:optimizer = optim.Adam( [ {"params": conv1_params, 'lr': 0.01}, {"params": conv2_params, 'lr': 0.001}, ], weight_decay=1e-3,)

我們將模型劃分為兩部分,存放到一個列表裡,每部分就對應上面的一個字典,在字典裡設置不同的學習率。當這兩部分有相同的其他參數時,就將該參數放到列表外面作為全局參數,如上面的`weight_decay`。也可以在列表外設置一個全局學習率,當各部分字典裡設置了局部學習率時,就使用該學習率,否則就使用列表外的全局學習率。

   10、模型相關操作

這個內容比較多,我寫成了一篇文章:https://zhuanlan.zhihu.com/p/73893187

   11、Pytorch內置one_hot函數

感謝@yangyangyang 補充:Pytorch 1.1後,one_hot可以直接用torch.nn.functional.one_hot。然後我將Pytorch升級到1.2版本,試用了下 one_hot 函數,確實很方便。
import torch.nn.functional as Fimport torch
tensor = torch.arange(0, 5) % 3 # tensor([0, 1, 2, 0, 1])one_hot = F.one_hot(tensor)
# 輸出:# tensor([[1, 0, 0],# [0, 1, 0],# [0, 0, 1],# [1, 0, 0],# [0, 1, 0]])

F.one_hot會自己檢測不同類別個數,生成對應獨熱編碼。我們也可以自己指定類別數:
tensor =  torch.arange(0, 5) % 3  # tensor([0, 1, 2, 0, 1])one_hot = F.one_hot(tensor, num_classes=5)
# 輸出:# tensor([[1, 0, 0, 0, 0],# [0, 1, 0, 0, 0],# [0, 0, 1, 0, 0],# [1, 0, 0, 0, 0],# [0, 1, 0, 0, 0]])

升級 Pytorch (cpu版本)的命令:conda install pytorch torchvision \-c pytorch神經網絡的初始化是訓練流程的重要基礎環節,會對模型的性能、收斂性、收斂速度等產生重要的影響。(1) 使用pytorch內置的torch.nn.init方法。常用的初始化操作,例如正態分布、均勻分布、xavier初始化、kaiming初始化等都已經實現,可以直接使用。具體詳見PyTorch 中 torch.nn.init 中文文檔。
init.xavier_uniform(net1[0].weight)

(2) 對於一些更加靈活的初始化方法,可以藉助numpy。對於自定義的初始化方法,有時tensor的功能不如numpy強大靈活,故可以藉助numpy實現初始化方法,再轉換到tensor上使用。
for layer in net1.modules():    if isinstance(layer, nn.Linear): # 判斷是否是線性層        param_shape = layer.weight.shape        layer.weight.data = torch.from_numpy(np.random.normal(0, 0.5, size=param_shape))         # 定義為均值為 0,方差為 0.5 的正態分布

    13、加載內置預訓練模型torchvision.models模塊的子模塊中包含以下模型:
import torchvision.models as modelsresnet18 = models.resnet18()alexnet = models.alexnet()vgg16 = models.vgg16()

有一個很重要的參數為pretrained,默認為False,表示只導入模型的結構,其中的權重是隨機初始化的。如果pretrained 為 True,表示導入的是在ImageNet數據集上預訓練的模型。
import torchvision.models as modelsresnet18 = models.resnet18(pretrained=True)alexnet = models.alexnet(pretrained=True)vgg16 = models.vgg16(pretrained=True)

更多的模型可以查看:https://pytorch-cn.readthedocs.io/zh/latest/torchvision/torchvision-models/

相關焦點

  • YOLOv4pytorch實現代碼
    大家好,我是Ray,今天給大家推薦一份YOLOv4的pytorch實現代碼。隨著深度學習的發展,目前已經出現了很多算法(或者tricks)來提升神經網絡的準確率。在實際測試中評價一個算法的好壞優劣主要看兩點,一是能否在大規模的數據集中起作用(work),二是是否有理論依據。一些算法僅能在某些特定的模型上或者某類特定的問題上運行,亦或是適用於一些小規模的數據集。
  • 算法工程師的核心競爭力
    )https://zhuanlan.zhihu.com/p/90132545本文已由作者授權,未經允許,不得二次轉載工作以來一直在思考算法工程師這個崗位的核心競爭力,自己的心路歷程分為三個階段。第一階段這一階段我認為算法工程師的核心競爭力是對模型的理解,對於模型不僅知其然,還得知其所以然。
  • 一份電源工程師必須掌握的開關電源知識指南
    先說說做開關電源需要具備的理論基礎:我們做電源的工程師,分兩類,一類是搞研究的,一類是搞工程的。所謂搞研究的,就是研究各種新的技術、新材料、新工藝、新的拓撲結構等等。這些人需要很高的理論底子,當然必須是高學歷,數學、電磁學、電子學、自動控制等等,各種專業,各種牛逼。有一種就是我們最常見的電源工程師,就是在公司開發部做項目的電子工程師。
  • 十項DevOps工程師必須掌握的技能
    DevOps工程師正迅速成為領先企業的關鍵和多面性角色。在沒有明確晉升職位的道路上,IT部門必須確定經驗豐富的DevOps工程師技能的正確組合。企業需要高層領導才能成功整合開發,測試,部署和正在進行的操作,並將其作為持續集成,持續部署或DevOps計劃的一部分。
  • 算法小白的pytorch筆記(2)
    (indics & slices)張量的索引和python原生數據結構的索引相同,都是從0開始;也可以通過傳入負數從後往前取值通過索引我們可以取出張量內對應的元素,由於上一章對向量,矩陣以及高維張量分別進行了討論,這裡也按照這個思路對不同維度的張量進行討論,首先先說說向量的索引1.3.1 向量的索引和切片pytorch
  • 資源│機器學習、深度學習、算法工程師等 AI 相關崗位面試需要知識
    https://github.com/pytorch/pytorchOffical pytorch exampleshttps://github.com/pytorch/examplesOffical pytorch tutorialshttps://github.com/pytorch/tutorialsstanford-cs
  • 13個你必須知道的JS數組技巧
    英文 | https://dev.to/duomly/13-useful-javascript-array-tips-and-tricks-you-should-know
  • PyTorch 算法加速指南
    來 源 | AI開發者翻譯 | 天字一號    審校 | 鳶尾、唐裡  引言在本文中,我將展示如何使用torch和pycuda檢查、初始化GPU設備,以及如何使算法更快考慮到您有3個cuda兼容設備,可以將張量初始化並分配給特定設備,如下所示:在這些Tensor上執行任何操作時,無論選擇哪個設備,都可以執行該操作,結果將與Tensor保存在同一設備上。
  • onnx實現對pytorch模型推理加速
    對於硬體供應商來說,也可以簡化神經網絡計算的複雜度,實現優化算法。自然語言處理》英、中文版PDF+源碼《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼《深度學習之pytorch》pdf+附書源碼PyTorch深度學習快速實戰入門《pytorch-handbook》【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow
  • NLP算法工程師的日常以及核心競爭力
    經常有人問我算法工程師的日常,發一個之前寫的文章給大家;先簡單自我介紹一下,我是DASOU,任職在一家社交公司,做NLP算法工程師,主要做文本分類,序列標註,問答匹配方向的工作,也做過搜索/推薦方向的需求。
  • 算法工程師常見面試問題及相關資料匯總(附簡歷模板)
    阿里巴巴計算機視覺算法實習生視頻面試 website面試經驗AI算法工程師(面試官角度) website從零基礎到BAT算法崗SP——秋招準備攻略 website螞蟻金服/曠視/虹軟/騰訊優圖暑期實習offer面經 website我在美團的這兩年(附校招筆試/面試/面經分享) website1000 面試題,BAT
  • 讓 PyTorch 訓練速度更快,你需要掌握這 17 種方法
    編輯 | 陳萍掌握這然後,這個周期的長度應該略小於總的 epochs 數,並且,在訓練的最後階段,我們應該允許學習率比最小值小几個數量級。與傳統的學習率 schedule 相比,在最好的情況下,該 schedule 實現了巨大的加速(Smith 稱之為超級收斂)。例如,使用 1Cycle 策略在 ImageNet 數據集上訓練 ResNet-56,訓練迭代次數減少為原來的 1/10,但模型性能仍能比肩原論文中的水平。
  • 讓PyTorch訓練速度更快,你需要掌握這17種方法
    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。近日,Reddit 上一個帖子熱度爆表。主題內容是關於怎樣加速 PyTorch 訓練。原文作者是來自蘇黎世聯邦理工學院的計算機科學碩士生 LORENZ KUHN,文章向我們介紹了在使用 PyTorch 訓練深度模型時最省力、最有效的 17 種方法。
  • Pytorch的19個Loss Function(上)
    作為一名調包算法工程師,在調包的同時根據特定任務改改loss function是非常重要的,所以小老弟今天就基於Pytorch內置的函數,對損失函數做一個小總結
  • 算法與算法工程師,技術與技術人員
    (註:標題裡的算法,指機器學習算法,或者說「算法工程師」這個職位名稱裡的「算法」,不是「算法與數據結構」裡的那個算法。誰能告訴我有沒有什麼更好的名字來區別這它們,或許是「機器學習算法」與「傳統算法」?)算法與算法工程師先來一段我在知乎裡回答「做算法工程師是一種怎樣的體驗?」
  • Java常用排序算法/程式設計師必須掌握的8大排序算法
    Java常用排序算法/程式設計師必須掌握的8大排序算法
  • Python工程師與人工智慧算法工程師有什麼區別??
    Python工程師並不等同於人工智慧工程師。Python工程師與人工智慧工程師最根本的區別是什麼?Python和JAVA、C語言一樣,是一種程式語言,所以從事Python開發的人員也只能算是程式設計師。而人工智慧工程師是從事算法研究的,所以被稱作算法工程師。一個是程式設計師,一個是算法工程師。這兩者有本質的區別。
  • IC工程師和FPGA工程師必須掌握的技能—ARM權威專家帶你玩轉AMBA
    目前晶片行業急需技術型人才現在學校裡大多數都是授以理論知識並未進行實際項目實操但公司裡往往需要的是具有項目經驗的人所以今天蛙妹為大家帶來了可以讓你把理論知識和實踐相結合的課程~先來看一下IC工程師和FPGA工程師必須掌握的技能:本課程通過結合ARM架構,讓您深入理解
  • 最新數據:84%的NLP算法工程師不滿足企業的實際需求....
    基於業務需要,最近2個月,和小夥伴一起通過Boss直聘、工程師問卷和訪談的形式,調研了國內260多位一二線的NLP算法工程師,並對2021年熱招的140