TensorFlow、Keras、CNTK...到底哪種深度學習框架更好用?

2021-03-06 AI前線

作者 | 微軟 Cortana AI 和 ML 團隊 AI 前線導讀：社區裡流行的深度學習框架不少，但是 TensorFlow、Julia、CNTK... 到底哪種使用起來既方便又高效呢？微軟的 CortanaAI 和 ML 團隊對幾種主流的深度學習框架進行了比較，並在 GitHub 上開放了測試結果。那麼，測試的結果如何呢？

更多乾貨內容請關注微信公眾號「AI 前線」，（ID：ai-front）

https://github.com/ilkarman/DeepLearningFrameworks

我們認為深度學習框架就像語言一樣：當然，英語被很多人使用，但每種語言都有各自的用處。我們為幾種不同的框架創建了通用的代碼，並在許多不同的框架中使用這些語言。我們的想法，是創建一類似外語學習軟體 Rosetta Stone 的深度學習框架，讓人們自如地使用不同框架。當關於一種全新的框架代碼或語言論文發表時，就會出現問題，與其在你最喜歡的框架中從頭開始編寫模型，倒不如使用「外來」語言來得更容易。

在此，我們感謝 CNTK、Pytorch、Chainer、Caffe2 和 Knet 團隊，以及來自開源社區的所有朋友在過去幾個月為這個 repo 做出的貢獻。

總之，我們發布這個 repo 的目的在於創建：

一個深度學習框架的「Rosetta Stone」，它可以讓數據科學家輕鬆地將他們的專業知識應用到不同的框架中。

一套使用最新的最高級 API 優化過的 GPU 代碼。

一個對不同 GPU 進行比較的常見設置（可能為 CUDA 版本和精度）。

對不同語言進行比較的常用設置（Python、Julia、R）。

驗證自己所用框架的預期性能的可能。

不同開源社區之間的合作。

在下面的章節中，我們將回顧一下每種 CNN 模型的訓練時間，經過預訓練的 ResNet50 模型的特徵提取，以及每種 RNN 模型的訓練時間測試結果。我們的實驗在使用 K80 和更新的 P100 的 Azure 深度學習虛擬機上進行。

訓練時間（單位為秒）：用 CIFAR-10 訓練 CNN（VGG 式，32 位）——圖像識別

該模型的輸入是包含 5 萬個訓練圖像和 1 萬個測試圖像的標準 CIFAR-10 數據集，被均勻地分成 10 個類。每張 32×32 圖像被設為張量（3,32,32），像素強度從 0-255 重新定為 0-1。

Caffe2：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/Caffe2_Inference.ipynb

Chainer：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/Chainer_Inference.ipynb

CNTK：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/CNTK_Inference.ipynb

Keras(CNTK)：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/Keras_CNTK_Inference.ipynb

Keras(TF)：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/Keras_TF_Inference.ipynb

Tensorflow：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/Tensorflow_Inference.ipynb

MXNet：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/MXNet_Inference.ipynb

PyTorch ：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/PyTorch_Inference.ipynb

Julia –Knet：https://github.com/ilkarman/DeepLearningFrameworks/blob/master/notebooks/Knet_Inference.ipynb

1000 張圖像的平均測試時間（單位為秒）：ResNet-50——特徵提取

當 avg 池化在（7,7）結束之後加載並截斷一個預先訓練好的 ResNet50 模型，輸出一個 2048D 維向量。在這裡可以插入 softmax 層或其他分類器（如提升樹）以進行遷移學習。考慮到熱啟動的因素，這個僅向前傳遞給 avg_pool 層的時間是定時的。

注意：批量大小保持不變，但是在 GPU 上填充 RAM 會進一步提高性能（優於具有更多內存的 GPU）。

訓練時間（單位為秒）：IMDB 上的 RNN（GRU） ——情感分析

該模型的輸入是標準的 IMDB 電影評論數據集，其中包含 25000 個訓練評論和 25000 個測試評論，統一分為 2 個類別（正例 / 負例）。使用 Keras 的方法，其中起始字符被設置為 1，詞彙外（使用 30k 的詞彙大小）被表示為 2，詞索引從 3 開始。每個評論零填充 / 截斷到 150 字。

* 表示未進行實驗。

使用自動調整（auto-tune）：大多數框架使用 cuDNN cudnnFindConvolutionForwardAlgorithm() 進行窮舉搜索，並優化用於固定尺寸圖像上卷積正向傳播的算法，通常這個選項是默認啟用的，但是一些框架可能需要手動標記，如 torch.backends.cudnn.benchmark=True 等標識。

儘可能多使用 cuDNN：對於 vanilla RNNs（例如 GRU/LSTM）通常可以調用 cuDNN wrapper（https://devblogs.nvidia.com/optimizing-recurrent-neural-networks-cudnn-5/）提高速度，例如，cudnn_rnn.CudnnGRU() 而不是 rnn.GRUCell()。但是這種方法的缺點是這會讓後期在 CPU 上進行推理變得更難。

Match shapes：在 cuDNN 上運行時，匹配 NCHW 的 CNNs 和 TNC 的 RNNs 通道順序會縮短調整時間，且用戶可以直接進行矩陣乘法。

本地生成器（Native generators）：使用框架的本地生成器，通過線性進行異步增強甚至預處理（例如混排，shuffling），從而提高速度。

在推理階段，請確保在可能保存不必要梯度計算的地方做標記，並確保 batch-norm 和 dropout 層得到正確應用。

最初，我們創建此 repo 時必須使用許多小技巧和竅門來確保在框架之間使用的是一樣的模型，並且是以最優方式完成的。然而，過去幾個月內，這些框架以令人難以置信的速度發展，很多都已經更新了，因此我們許多在 2017 年得出的優化方法現如今已經過時。

例如，帶有 TF 後端的 Keras 通道排序硬編碼為 channels-last（對於 cuDNN 非最佳），因此指定優先通道意味著它會在每批次（硬編碼值）處理後重新進行調整，從而大大減緩訓練速度。現在，支持 TF 的 Keras 已經允許本地通道優先。我們可以通過指定一個標誌使用 Winograd 算法進行卷積來加速 Tensorflow，但這樣的方法已經不起作用了。有興趣的話可以查看我們早期的 repo 得出的結論。

通過在不同框架中完成端到端解決方案，可以用多種方式對不同框架進行比較。由於每個框架都使用相同的模型體系結構和數據，因此所有框架的準確性相差無幾（實際上，這是我們測試代碼的一種方式，以確保不同框架使用相同的模型！）另外，notebook 的開發方式讓我們可以輕鬆地對不同框架進行比較，而不一定在速度方面。

當然，雖然我們很容易從速度、推理時間等維度對不同的框架進行比較，但結果並不意味著框架的整體性能有任何問題，因為這種方法省略了重要維度之間的比較，例如：幫助和支持、預先訓練模型的可用性、自定義圖層和架構、數據加載器、調試、支持的不同平臺、分布式訓練等！這種方法僅展示了如何在不同的框架中創建相同的網絡，以及示例中框架的性能。

在社區中有很多流行的深度學習框架，它們幫助 AI 開發人員和數據科學家在各種情況下使用不同的深度學習框架解決問題。其中，開源的 Open Neural Network Exchange (ONNX，https://github.com/onnx/onnx）成為在不同框架之間應用深度學習模型互操作性的標準。例如，當你使用某一個框架進行模型開發，卻需要在另一個框架中評估這個模型時，ONNX 就會很有用。同樣，MMdnn （https://github.com/Microsoft/MMdnn）作為一組工具，可幫助用戶直接在不同框架之間進行轉換，並對模型體系結構進行可視化處理。

ONNX 和 MMdnn 等深度學習框架的「旅伴」就像一臺自動機器翻譯機。相比之下，我們今天發布的完整 1.0 版 repo 就像一個深度學習框架的 Rosetta Stone，展示了在不同框架之間構建模型的全過程。眾人拾柴火焰高，所有人的努力結合起來，就能使所有深度學習開發者能夠在多語言環境中更好地」暢遊「。

原文連結：

https://blogs.technet.microsoft.com/machinelearning/2018/03/14/comparing-deep-learning-frameworks-a-rosetta-stone-approach/

想看更多這類文章，請給我們點個讚吧！

TensorFlow、Keras、CNTK...到底哪種深度學習框架更好用?

相關焦點

Python安裝TensorFlow 2、tf.keras和深度學習模型的定義

深度學習環境配置指南:Pytorch、TensorFlow、Keras

評測| CNTK在Keras上表現如何?能實現比TensorFlow更好的深度學習嗎?

RTX 3090 的深度學習環境配置指南:Pytorch、TensorFlow、Keras

Keras和TensorFlow究竟哪個會更好?

《概率深度學習:使用Python,Keras和TensorFlow概率》附下載

TensorFlow 1.9 新增 tf.keras 官方入門教程(Keras與TF的深度集成)

TensorFlow 2.0正式版官宣!深度集成Keras

基於RTX2060構建TensorFlow-gpu(keras)學習平臺

從Fashion-Mnist開始,入門Tensorflow與深度學習

MIT 深度學習基礎教程:七個基本框架TensorFlow代碼實戰

在Windows中安裝Tensorflow和Kears深度學習框架

圖像分類任務中,Tensorflow 與 Keras 到底哪個更厲害?

Python 深度學習,你的 Keras 準備好了嗎?

Keras TensorFlow教程:如何從零開發一個複雜深度學習模型

掌握深度學習,為什麼要用 PyTorch、TensorFlow 框架?

TensorFlow和Caffe、CNTK、MXNet等其他7種深度學習框架的對比

TensorFlow vs PyTorch:哪個是深度學習網絡編程的最佳框架呢?

從TensorFlow到Theano:橫向對比七大深度學習框架

深度學習筆記7:Tensorflow入門