TensorFlow和Caffe、CNTK、MXNet等其他7種深度學習框架的對比

2021-03-02 CSDN

TensorFlow 在 2015 年年底一出現就受到了極大的關注，在一個月內獲得了 GitHub上超過一萬顆星的關注，目前在所有的機器學習、深度學習項目中排名第一，甚至在所有的 Python 項目中也排名第一。本文節選自《TensorFlow實戰》第二章。

TensorFlow 的開源對整個學術界及工業界都產生了巨大的影響，可以比做機器學習的 Hadoop。

注意啦，文尾有送書福利！

深度學習研究的熱潮持續高漲，各種開源深度學習框架也層出不窮，其中包括TensorFlow、Caffe8、Keras9、CNTK10、Torch711、MXNet12、Leaf13、Theano14、DeepLearning415、Lasagne16、Neon17，等等。然而TensorFlow卻殺出重圍，在關注度和用戶數上都佔據絕對優勢，大有一統江湖之勢。表2-1所示為各個開源框架在GitHub上的數據統計（數據統計於2017年1月3日），可以看到TensorFlow在star數量、fork數量、contributor數量這三個數據上都完勝其他對手。

究其原因，主要是Google在業界的號召力確實強大，之前也有許多成功的開源項目，以及Google強大的人工智慧研發水平，都讓大家對Google的深度學習框架充滿信心，以至於TensorFlow在2015年11月剛開源的第一個月就積累了10000+的star。其次，TensorFlow確實在很多方面擁有優異的表現，比如設計神經網絡結構的代碼的簡潔度，分布式深度學習算法的執行效率，還有部署的便利性，都是其得以勝出的亮點。

如果一直關注著TensorFlow的開發進度，就會發現基本上每星期TensorFlow都會有1萬行以上的代碼更新，多則數萬行。產品本身優異的質量、快速的迭代更新、活躍的社區和積極的反饋，形成了良性循環，可以想見TensorFlow未來將繼續在各種深度學習框架中獨佔鰲頭。

觀察表2-1還可以發現，Google、Microsoft、Facebook等巨頭都參與了這場深度學習框架大戰，此外，還有畢業於伯克利大學的賈揚清主導開發的Caffe，蒙特婁大學Lisa Lab團隊開發的Theano，以及其他個人或商業組織貢獻的框架。另外，可以看到各大主流框架基本都支持Python，目前Python在科學計算和數據挖掘領域可以說是獨領風騷。雖然有來自R、Julia等語言的競爭壓力，但是Python的各種庫實在是太完善了，Web開發、數據可視化、數據預處理、資料庫連接、爬蟲等無所不能，有一個完美的生態環境。僅在數據挖據工具鏈上，Python就有NumPy、SciPy、Pandas、Scikit-learn、XGBoost等組件，做數據採集和預處理都非常方便，並且之後的模型訓練階段可以和TensorFlow等基於Python的深度學習框架完美銜接。

表2-2和圖2-1所示為對主流的深度學習框架TensorFlow、Caffe、CNTK、Theano、Torch在各個維度的評分，本書2.2節會對各個深度學習框架進行比較詳細的介紹。

圖2-1 主流深度學習框架對比圖

在本節，我們先來看看目前各流行框架的異同，以及各自的特點和優勢。

TensorFlow是相對高階的機器學習庫，用戶可以方便地用它設計神經網絡結構，而不必為了追求高效率的實現親自寫C++或CUDA18代碼。它和Theano一樣都支持自動求導，用戶不需要再通過反向傳播求解梯度。其核心代碼和Caffe一樣是用C++編寫的，使用C++簡化了線上部署的複雜度，並讓手機這種內存和CPU資源都緊張的設備可以運行複雜模型（Python則會比較消耗資源，並且執行效率不高）。

除了核心代碼的C++接口，TensorFlow還有官方的Python、Go和Java接口，是通過SWIG（Simplified Wrapper and Interface Generator）實現的，這樣用戶就可以在一個硬體配置較好的機器中用Python進行實驗，並在資源比較緊張的嵌入式環境或需要低延遲的環境中用C++部署模型。SWIG支持給C/C++代碼提供各種語言的接口，因此其他腳本語言的接口未來也可以通過SWIG方便地添加。

不過使用Python時有一個影響效率的問題是，每一個mini-batch要從Python中feed到網絡中，這個過程在mini-batch的數據量很小或者運算時間很短時，可能會帶來影響比較大的延遲。現在TensorFlow還有非官方的Julia、Node.js、R的接口支持，地址如下。

Julia：github.com/malmaud/TensorFlow.jl

Node.js：github.com/node-tensorflow/node-tensorflow

R：github.com/rstudio/tensorflow

TensorFlow也有內置的TF.Learn和TF.Slim等上層組件可以幫助快速地設計新網絡，並且兼容Scikit-learn estimator接口，可以方便地實現evaluate、grid search、cross validation等功能。同時TensorFlow不只局限於神經網絡，其數據流式圖支持非常自由的算法表達，當然也可以輕鬆實現深度學習以外的機器學習算法。事實上，只要可以將計算表示成計算圖的形式，就可以使用TensorFlow。用戶可以寫內層循環代碼控制計算圖分支的計算，TensorFlow會自動將相關的分支轉為子圖並執行迭代運算。TensorFlow也可以將計算圖中的各個節點分配到不同的設備執行，充分利用硬體資源。定義新的節點只需要寫一個Python函數，如果沒有對應的底層運算核，那麼可能需要寫C++或者CUDA代碼實現運算操作。

在數據並行模式上，TensorFlow和Parameter Server很像，但TensorFlow有獨立的Variable node，不像其他框架有一個全局統一的參數伺服器，因此參數同步更自由。TensorFlow和Spark的核心都是一個數據計算的流式圖，Spark面向的是大規模的數據，支持SQL等操作，而TensorFlow主要面向內存足以裝載模型參數的環境，這樣可以最大化計算效率。

TensorFlow的另外一個重要特點是它靈活的移植性，可以將同一份代碼幾乎不經過修改就輕鬆地部署到有任意數量CPU或GPU的PC、伺服器或者行動裝置上。相比於Theano，TensorFlow還有一個優勢就是它極快的編譯速度，在定義新網絡結構時，Theano通常需要長時間的編譯，因此嘗試新模型需要比較大的代價，而TensorFlow完全沒有這個問題。TensorFlow還有功能強大的可視化組件TensorBoard，能可視化網絡結構和訓練過程，對於觀察複雜的網絡結構和監控長時間、大規模的訓練很有幫助。TensorFlow針對生產環境高度優化，它產品級的高質量代碼和設計都可以保證在生產環境中穩定運行，同時一旦TensorFlow廣泛地被工業界使用，將產生良性循環，成為深度學習領域的事實標準。

除了支持常見的網絡結構[卷積神經網絡（Convolutional Neural Network，CNN）、循環神經網絡（Recurent Neural Network，RNN）]外，TensorFlow還支持深度強化學習乃至其他計算密集的科學計算（如偏微分方程求解等）。TensorFlow此前不支持symbolic loop，需要使用Python循環而無法進行圖編譯優化，但最近新加入的XLA已經開始支持JIT和AOT，另外它使用bucketing trick也可以比較高效地實現循環神經網絡。TensorFlow的一個薄弱地方可能在於計算圖必須構建為靜態圖，這讓很多計算變得難以實現，尤其是序列預測中經常使用的beam search。

TensorFlow的用戶能夠將訓練好的模型方便地部署到多種硬體、作業系統平臺上，支持Intel和AMD的CPU，通過CUDA支持NVIDIA的GPU（最近也開始通過OpenCL支持AMD的GPU，但沒有CUDA成熟），支持Linux和Mac，最近在0.12版本中也開始嘗試支持Windows。在工業生產環境中，硬體設備有些是最新款的，有些是用了幾年的老機型，來源可能比較複雜，TensorFlow的異構性讓它能夠全面地支持各種硬體和作業系統。同時，其在CPU上的矩陣運算庫使用了Eigen而不是BLAS庫，能夠基於ARM架構編譯和優化，因此在行動裝置（Android和iOS）上表現得很好。

TensorFlow在最開始發布時只支持單機，而且只支持CUDA 6.5和cuDNN v2，並且沒有官方和其他深度學習框架的對比結果。在2015年年底，許多其他框架做了各種性能對比評測，每次TensorFlow都會作為較差的對照組出現。那個時期的TensorFlow真的不快，性能上僅和普遍認為很慢的Theano比肩，在各個框架中可以算是墊底。但是憑藉Google強大的開發實力，很快支持了新版的cuDNN（目前支持cuDNN v5.1），在單GPU上的性能追上了其他框架。表2-3所示為https://github.com/soumith/convnet-benchmarks給出的各個框架在AlexNet上單GPU的性能評測。

目前在單GPU的條件下，絕大多數深度學習框架都依賴於cuDNN，因此只要硬體計算能力或者內存分配差異不大，最終訓練速度不會相差太大。但是對於大規模深度學習來說，巨大的數據量使得單機很難在有限的時間完成訓練。這時需要分布式計算使GPU集群乃至TPU集群並行計算，共同訓練出一個模型，所以框架的分布式性能是至關重要的。TensorFlow在2016年4月開源了分布式版本，使用16塊GPU可達單GPU的15倍提速，在50塊GPU時可達到40倍提速，分布式的效率很高。目前原生支持的分布式深度學習框架不多，只有TensorFlow、CNTK、DeepLearning4J、MXNet等。不過目前TensorFlow的設計對不同設備間的通信優化得不是很好，其單機的reduction只能用CPU處理，分布式的通信使用基於socket的RPC，而不是速度更快的RDMA，所以其分布式性能可能還沒有達到最優。

Google 在2016年2月開源了TensorFlow Serving19，這個組件可以將TensorFlow訓練好的模型導出，並部署成可以對外提供預測服務的RESTful接口，如圖2-2所示。有了這個組件，TensorFlow就可以實現應用機器學習的全流程：從訓練模型、調試參數，到打包模型，最後部署服務，名副其實是一個從研究到生產整條流水線都齊備的框架。這裡引用TensorFlow內部開發人員的描述：「TensorFlow Serving是一個為生產環境而設計的高性能的機器學習服務系統。它可以同時運行多個大規模深度學習模型，支持模型生命周期管理、算法實驗，並可以高效地利用GPU資源，讓TensorFlow訓練好的模型更快捷方便地投入到實際生產環境」。除了TensorFlow以外的其他框架都缺少為生產環境部署的考慮，而Google作為廣泛在實際產品中應用深度學習的巨頭可能也意識到了這個機會，因此開發了這個部署服務的平臺。TensorFlow Serving可以說是一副王牌，將會幫TensorFlow成為行業標準做出巨大貢獻。

圖2-2 TensorFlow Serving架構

TensorBoard是TensorFlow的一組Web應用，用來監控TensorFlow運行過程，或可視化Computation Graph。TensorBoard目前支持5種可視化：標量（scalars）、圖片（images）、音頻（audio）、直方圖（histograms）和計算圖（Computation Graph）。TensorBoard的Events Dashboard可以用來持續地監控運行時的關鍵指標，比如loss、學習速率（learning rate）或是驗證集上的準確率（accuracy）；Image Dashboard則可以展示訓練過程中用戶設定保存的圖片，比如某個訓練中間結果用Matplotlib等繪製（plot）出來的圖片；Graph Explorer則可以完全展示一個TensorFlow的計算圖，並且支持縮放拖曳和查看節點屬性。TensorBoard的可視化效果如圖2-3和圖2-4所示。

圖2-3 TensorBoard的loss標量的可視化

圖2-4 TensorBoard的模型結構可視化

TensorFlow擁有產品級的高質量代碼，有Google強大的開發、維護能力的加持，整體架構設計也非常優秀。相比於同樣基於Python的老牌對手Theano，TensorFlow更成熟、更完善，同時Theano的很多主要開發者都去了Google開發TensorFlow（例如書籍Deep Learning的作者Ian Goodfellow，他後來去了OpenAI）。Google作為巨頭公司有比高校或者個人開發者多得多的資源投入到TensorFlow的研發，可以預見，TensorFlow未來的發展將會是飛速的，可能會把大學或者個人維護的深度學習框架遠遠甩在身後。

官方網址：caffe.berkeleyvision.org/

GitHub：github.com/BVLC/caffe

Caffe全稱為Convolutional Architecture for Fast Feature Embedding，是一個被廣泛使用的開源深度學習框架（在TensorFlow出現之前一直是深度學習領域GitHub star最多的項目），目前由伯克利視覺學中心（Berkeley Vision and Learning Center，BVLC）進行維護。Caffe的創始人是加州大學伯克利的Ph.D.賈揚清，他同時也是TensorFlow的作者之一，曾工作於MSRA、NEC和Google Brain，目前就職於Facebook FAIR實驗室。Caffe的主要優勢包括如下幾點。

容易上手，網絡結構都是以配置文件形式定義，不需要用代碼設計網絡。

訓練速度快，能夠訓練state-of-the-art的模型與大規模的數據。

組件模塊化，可以方便地拓展到新的模型和學習任務上。

Caffe的核心概念是Layer，每一個神經網絡的模塊都是一個Layer。Layer接收輸入數據，同時經過內部計算產生輸出數據。設計網絡結構時，只需要把各個Layer拼接在一起構成完整的網絡（通過寫protobuf配置文件定義）。比如卷積的Layer，它的輸入就是圖片的全部像素點，內部進行的操作是各種像素值與Layer參數的convolution操作，最後輸出的是所有卷積核filter的結果。每一個Layer需要定義兩種運算，一種是正向（forward）的運算，即從輸入數據計算輸出結果，也就是模型的預測過程；另一種是反向（backward）的運算，從輸出端的gradient求解相對於輸入的gradient，即反向傳播算法，這部分也就是模型的訓練過程。實現新Layer時，需要將正向和反向兩種計算過程的函數都實現，這部分計算需要用戶自己寫C++或者CUDA（當需要運行在GPU時）代碼，對普通用戶來說還是非常難上手的。

正如它的名字Convolutional Architecture for Fast Feature Embedding所描述的，Caffe最開始設計時的目標只針對於圖像，沒有考慮文本、語音或者時間序列的數據，因此Caffe對卷積神經網絡的支持非常好，但對時間序列RNN、LSTM等支持得不是特別充分。同時，基於Layer的模式也對RNN不是非常友好，定義RNN結構時比較麻煩。在模型結構非常複雜時，可能需要寫非常冗長的配置文件才能設計好網絡，而且閱讀時也比較費力。

Caffe的一大優勢是擁有大量的訓練好的經典模型（AlexNet、VGG、Inception）乃至其他state-of-the-art（ResNet等）的模型，收藏在它的Model Zoo（github.com/BVLC/ caffe/wiki/Model-Zoo）。因為知名度較高，Caffe被廣泛地應用於前沿的工業界和學術界，許多提供源碼的深度學習的論文都是使用Caffe來實現其模型的。在計算機視覺領域Caffe應用尤其多，可以用來做人臉識別、圖片分類、位置檢測、目標追蹤等。

雖然Caffe主要是面向學術圈和研究者的，但它的程序運行非常穩定，代碼質量比較高，所以也很適合對穩定性要求嚴格的生產環境，可以算是第一個主流的工業級深度學習框架。因為Caffe的底層是基於C++的，因此可以在各種硬體環境編譯並具有良好的移植性，支持Linux、Mac和Windows系統，也可以編譯部署到行動裝置系統如Android和iOS上。和其他主流深度學習庫類似，Caffe也提供了Python語言接口pycaffe，在接觸新任務，設計新網絡時可以使用其Python接口簡化操作。

不過，通常用戶還是使用Protobuf配置文件定義神經網絡結構，再使用command line進行訓練或者預測。Caffe的配置文件是一個JSON類型的.prototxt文件，其中使用許多順序連接的Layer來描述神經網絡結構。Caffe的二進位可執行程序會提取這些.prototxt文件並按其定義來訓練神經網絡。理論上，Caffe的用戶可以完全不寫代碼，只是定義網絡結構就可以完成模型訓練了。

Caffe完成訓練之後，用戶可以把模型文件打包製作成簡單易用的接口，比如可以封裝成Python或MATLAB的API。不過在.prototxt文件內部設計網絡節構可能會比較受限，沒有像TensorFlow或者Keras那樣在Python中設計網絡結構方便、自由。更重要的是，Caffe的配置文件不能用編程的方式調整超參數，也沒有提供像Scikit-learn那樣好用的estimator可以方便地進行交叉驗證、超參數的Grid Search等操作。Caffe在GPU上訓練的性能很好（使用單塊GTX 1080訓練AlexNet時一天可以訓練上百萬張圖片），但是目前僅支持單機多GPU的訓練，沒有原生支持分布式的訓練。慶幸的是，現在有很多第三方的支持，比如雅虎開源的CaffeOnSpark，可以藉助Spark的分布式框架實現Caffe的大規模分布式訓練。

官方網址：http://www.deeplearning.net/software/theano/

GitHub：github.com/Theano/Theano

Theano誕生於2008年，由蒙特婁大學Lisa Lab團隊開發並維護，是一個高性能的符號計算及深度學習庫。因其出現時間早，可以算是這類庫的始祖之一，也一度被認為是深度學習研究和應用的重要標準之一。Theano的核心是一個數學表達式的編譯器，專門為處理大規模神經網絡訓練的計算而設計。它可以將用戶定義的各種計算編譯為高效的底層代碼，並連結各種可以加速的庫，比如BLAS、CUDA等。Theano允許用戶定義、優化和評估包含多維數組的數學表達式，它支持將計算裝載到GPU（Theano在GPU上性能不錯，但是CPU上較差）。與Scikit-learn一樣，Theano也很好地整合了NumPy，對GPU的透明讓Theano可以較為方便地進行神經網絡設計，而不必直接寫CUDA代碼。Theano的主要優勢如下。

集成NumPy，可以直接使用NumPy的ndarray，API接口學習成本低。

計算穩定性好，比如可以精準地計算輸出值很小的函數（像log(1+x)）。

動態地生成C或者CUDA代碼，用以編譯成高效的機器代碼。

因為Theano非常流行，有許多人為它編寫了高質量的文檔和教程，用戶可以方便地查找Theano的各種FAQ，比如如何保存模型、如何運行模型等。不過Theano更多地被當作一個研究工具，而不是當作產品來使用。雖然Theano支持Linux、Mac和Windows，但是沒有底層C++的接口，因此模型的部署非常不方便，依賴於各種Python庫，並且不支持各種行動裝置，所以幾乎沒有在工業生產環境的應用。

Theano在調試時輸出的錯誤信息非常難以看懂，因此DEBUG時非常痛苦。同時，Theano在生產環境使用訓練好的模型進行預測時性能比較差，因為預測通常使用伺服器CPU（生產環境伺服器一般沒有GPU，而且GPU預測單條樣本延遲高反而不如CPU），但是Theano在CPU上的執行性能比較差。

Theano在單GPU上執行效率不錯，性能和其他框架類似。但是運算時需要將用戶的Python代碼轉換成CUDA代碼，再編譯為二進位可執行文件，編譯複雜模型的時間非常久。此外，Theano在導入時也比較慢，而且一旦設定了選擇某塊GPU，就無法切換到其他設備。目前，Theano在CUDA和cuDNN上不支持多GPU，只在OpenCL和Theano自己的gpuarray庫上支持多GPU訓練，速度暫時還比不上CUDA的版本，並且Theano目前還沒有分布式的實現。不過，Theano在訓練簡單網絡（比如很淺的MLP）時性能可能比TensorFlow好，因為全部代碼都是運行時編譯，不需要像TensorFlow那樣每次feed mini-batch數據時都得通過低效的Python循環來實現。

Theano是一個完全基於Python（C++/CUDA代碼也是打包為Python字符串）的符號計算庫。用戶定義的各種運算，Theano可以自動求導，省去了完全手工寫神經網絡反向傳播算法的麻煩，也不需要像Caffe一樣為Layer寫C++或CUDA代碼。Theano對卷積神經網絡的支持很好，同時它的符號計算API支持循環控制（內部名scan），讓RNN的實現非常簡單並且高性能，其全面的功能也讓Theano可以支持大部分state-of-the-art的網絡。

Theano派生出了大量基於它的深度學習庫，包括一系列的上層封裝，其中有大名鼎鼎的Keras，Keras對神經網絡抽象得非常合適，以至於可以隨意切換執行計算的後端（目前同時支持Theano和TensorFlow）。Keras比較適合在探索階段快速地嘗試各種網絡結構，組件都是可插拔的模塊，只需要將一個個組件（比如卷積層、激活函數等）連接起來，但是設計新模塊或者新的Layer就不太方便了。除Keras外，還有學術界非常喜愛的Lasagne，同樣也是Theano的上層封裝，它對神經內網絡的每一層的定義都非常嚴謹。

另外，還有scikit-neuralnetwork、nolearn這兩個基於Lasagne的上層封裝，它們將神經網絡抽象為兼容Scikit-learn接口的classifier和regressor，這樣就可以方便地使用Scikit-learn中經典的fit、transform、score等操作。除此之外，Theano的上層封裝庫還有blocks、deepy、pylearn2和Scikit-theano，可謂是一個龐大的家族。如果沒有Theano，可能根本不會出現這麼多好用的Python深度學習庫。同樣，如果沒有Python科學計算的基石NumPy，就不會有SciPy、Scikit-learn和 Scikit-image，可以說Theano就是深度學習界的NumPy，是其他各類Python深度學習庫的基石。

雖然Theano非常重要，但是直接使用Theano設計大型的神經網絡還是太煩瑣了，用 Theano實現Google Inception就像用NumPy實現一個支持向量機（SVM）。且不說很多用戶做不到用Theano實現一個Inception網絡，即使能做到但是否有必要花這個時間呢？畢竟不是所有人都是基礎科學工作者，大部分使用場景還是在工業應用中。所以簡單易用是一個很重要的特性，這也就是其他上層封裝庫的價值所在：不需要總是從最基礎的tensor粒度開始設計網絡，而是從更上層的Layer粒度設計網絡。

官方網址：http://torch.ch/

GitHub：github.com/torch/torch7

Torch給自己的定位是LuaJIT上的一個高效的科學計算庫，支持大量的機器學習算法，同時以GPU上的計算優先。Torch的歷史非常悠久，但真正得到發揚光大是在Facebook開源了其深度學習的組件之後，此後包括Google、Twitter、NYU、IDIAP、Purdue等組織都大量使用Torch。Torch的目標是讓設計科學計算算法變得便捷，它包含了大量的機器學習、計算機視覺、信號處理、並行運算、圖像、視頻、音頻、網絡處理的庫，同時和Caffe類似，Torch擁有大量的訓練好的深度學習模型。它可以支持設計非常複雜的神經網絡的拓撲圖結構，再並行化到CPU和GPU上，在Torch上設計新的Layer是相對簡單的。

它和TensorFlow一樣使用了底層C++加上層腳本語言調用的方式，只不過Torch使用的是Lua。Lua的性能是非常優秀的（該語言經常被用來開發遊戲），常見的代碼可以通過透明的JIT優化達到C的性能的80%；在便利性上，Lua的語法也非常簡單易讀，擁有漂亮和統一的結構，易於掌握，比寫C/C++簡潔很多；同時，Lua擁有一個非常直接的調用C程序的接口，可以簡便地使用大量基於C的庫，因為底層核心是C寫的，因此也可以方便地移植到各種環境。Lua支持Linux、Mac，還支持各種嵌入式系統（iOS、Android、FPGA等），只不過運行時還是必須有LuaJIT的環境，所以工業生產環境的使用相對較少，沒有Caffe和TensorFlow那麼多。

為什麼不簡單地使用Python而是使用LuaJIT呢？官方給出了以下幾點理由。

LuaJIT的通用計算性能遠勝於Python，而且可以直接在LuaJIT中操作C的pointers。

Torch的框架，包含Lua是自洽的，而完全基於Python的程序對不同平臺、系統移植性較差，依賴的外部庫較多。

LuaJIT的FFI拓展接口非常易學，可以方便地連結其他庫到Torch中。Torch中還專門設計了N-Dimension array type的對象Tensor，Torch中的Tensor是一塊內存的視圖，同時一塊內存可能有許多視圖（Tensor）指向它，這樣的設計同時兼顧了性能（直接面向內存）和便利性。同時，Torch還提供了不少相關的庫，包括線性代數、卷積、傅立葉變換、繪圖和統計等，如圖2-5所示。

圖2-5 Torch提供的各種數據處理的庫

Torch的nn庫支持神經網絡、自編碼器、線性回歸、卷積網絡、循環神經網絡等，同時支持定製的損失函數及梯度計算。Torch因為使用了LuaJIT，因此用戶在Lua中做數據預處理等操作可以隨意使用循環等操作，而不必像在Python中那樣擔心性能問題，也不需要學習Python中各種加速運算的庫。不過，Lua相比Python還不是那麼主流，對大多數用戶有學習成本。Torch在CPU上的計算會使用OpenMP、SSE進行優化，GPU上使用CUDA、cutorch、cunn、cuDNN進行優化，同時還有cuda-convnet的wrapper。

Torch有很多第三方的擴展可以支持RNN，使得Torch基本支持所有主流的網絡。和Caffe類似的是，Torch也是主要基於Layer的連接來定義網絡的。Torch中新的Layer依然需要用戶自己實現，不過定義新Layer和定義網絡的方式很相似，非常簡便，不像Caffe那麼麻煩，用戶需要使用C++或者CUDA定義新Layer。同時，Torch屬於命令式編程模式，不像Theano、TensorFlow屬於聲明性編程（計算圖是預定義的靜態的結構），所以用它實現某些複雜操作（比如beam search）比Theano和TensorFlow方便很多。

官方網址：keras.io

GitHub：github.com/fchollet/keras

Keras是一個崇尚極簡、高度模塊化的神經網絡庫，使用Python實現，並可以同時運行在TensorFlow和Theano上。它旨在讓用戶進行最快速的原型實驗，讓想法變為結果的這個過程最短。Theano和TensorFlow的計算圖支持更通用的計算，而Keras則專精於深度學習。Theano和TensorFlow更像是深度學習領域的NumPy，而Keras則是這個領域的Scikit-learn。它提供了目前為止最方便的API，用戶只需要將高級的模塊拼在一起，就可以設計神經網絡，它大大降低了編程開銷（code overhead）和閱讀別人代碼時的理解開銷（cognitive overhead）。

它同時支持卷積網絡和循環網絡，支持級聯的模型或任意的圖結構的模型（可以讓某些數據跳過某些Layer和後面的Layer對接，使得創建Inception等複雜網絡變得容易），從CPU上計算切換到GPU加速無須任何代碼的改動。因為底層使用Theano或TensorFlow，用Keras訓練模型相比於前兩者基本沒有什麼性能損耗（還可以享受前兩者持續開發帶來的性能提升），只是簡化了編程的複雜度，節約了嘗試新網絡結構的時間。可以說模型越複雜，使用Keras的收益就越大，尤其是在高度依賴權值共享、多模型組合、多任務學習等模型上，Keras表現得非常突出。

Keras所有的模塊都是簡潔、易懂、完全可配置、可隨意插拔的，並且基本上沒有任何使用限制，神經網絡、損失函數、優化器、初始化方法、激活函數和正則化等模塊都是可以自由組合的。Keras也包括絕大部分state-of-the-art的Trick，包括Adam、RMSProp、Batch Normalization、PReLU、ELU、LeakyReLU等。同時，新的模塊也很容易添加，這讓Keras非常適合最前沿的研究。Keras中的模型也都是在Python中定義的，不像Caffe、CNTK等需要額外的文件來定義模型，這樣就可以通過編程的方式調試模型結構和各種超參數。

在Keras中，只需要幾行代碼就能實現一個MLP，或者十幾行代碼實現一個AlexNet，這在其他深度學習框架中基本是不可能完成的任務。Keras最大的問題可能是目前無法直接使用多GPU，所以對大規模的數據處理速度沒有其他支持多GPU和分布式的框架快。Keras的編程模型設計和Torch很像，但是相比Torch，Keras構建在Python上，有一套完整的科學計算工具鏈，而Torch的程式語言Lua並沒有這樣一條科學計算工具鏈。無論從社區人數，還是活躍度來看，Keras目前的增長速度都已經遠遠超過了Torch。

官網網址：mxnet.io

GitHub：github.com/dmlc/mxnet

MXNet是DMLC（Distributed Machine Learning Community）開發的一款開源的、輕量級、可移植的、靈活的深度學習庫，它讓用戶可以混合使用符號編程模式和指令式編程模式來最大化效率和靈活性，目前已經是AWS官方推薦的深度學習框架。

MXNet的很多作者都是中國人，其最大的貢獻組織為百度，同時很多作者來自cxxnet、minerva和purine2等深度學習項目，可謂博採眾家之長。它是各個框架中率先支持多GPU和分布式的，同時其分布式性能也非常高。MXNet的核心是一個動態的依賴調度器，支持自動將計算任務並行化到多個GPU或分布式集群（支持AWS、Azure、Yarn等）。

它上層的計算圖優化算法可以讓符號計算執行得非常快，而且節約內存，開啟mirror模式會更加省內存，甚至可以在某些小內存GPU上訓練其他框架因顯存不夠而訓練不了的深度學習模型，也可以在行動裝置（Android、iOS）上運行基於深度學習的圖像識別等任務。

此外，MXNet的一個很大的優點是支持非常多的語言封裝，比如C++、Python、R、Julia、Scala、Go、MATLAB和JavaScript等，可謂非常全面，基本主流的腳本語言全部都支持了。在MXNet中構建一個網絡需要的時間可能比Keras、Torch這類高度封裝的框架要長，但是比直接用Theano等要快。MXNet的各級系統架構（下面為硬體及作業系統底層，逐層向上為越來越抽象的接口）如圖2-6所示。

圖2-6 MXNet系統架構

官方網址：cntk.ai

GitHub：github.com/Microsoft/CNTK

CNTK（Computational Network Toolkit）是微軟研究院（MSR）開源的深度學習框架。它最早由start the deep learning craze的演講人創建，目前已經發展成一個通用的、跨平臺的深度學習系統，在語音識別領域的使用尤其廣泛。CNTK通過一個有向圖將神經網絡描述為一系列的運算操作，這個有向圖中子節點代表輸入或網絡參數，其他節點代表各種矩陣運算。CNTK支持各種前饋網絡，包括MLP、CNN、RNN、LSTM、Sequence-to-Sequence模型等，也支持自動求解梯度。CNTK有豐富的細粒度的神經網絡組件，使得用戶不需要寫底層的C++或CUDA，就能通過組合這些組件設計新的複雜的Layer。CNTK擁有產品級的代碼質量，支持多機、多GPU的分布式訓練。

CNTK設計是性能導向的，在CPU、單GPU、多GPU，以及GPU集群上都有非常優異的表現。同時微軟最近推出的1-bit compression技術大大降低了通信代價，讓大規模並行訓練擁有了很高的效率。CNTK同時宣稱擁有很高的靈活度，它和Caffe一樣通過配置文件定義網絡結構，再通過命令行程序執行訓練，支持構建任意的計算圖，支持AdaGrad、RmsProp等優化方法。它的另一個重要特性就是拓展性，CNTK除了內置的大量運算核，還允許用戶定義他們自己的計算節點，支持高度的定製化。

CNTK在2016年9月發布了對強化學習的支持，同時，除了通過寫配置文件的方式定義網絡結構，CNTK還將支持其他語言的綁定，包括Python、C++和C#，這樣用戶就可以用編程的方式設計網絡結構。CNTK與Caffe一樣也基於C++並且跨平臺，大部分情況下，它的部署非常簡單。PC上支持Linux、Mac和Windows，但是它目前不支持ARM架構，限制了其在行動裝置上的發揮。圖2-7所示為CNTK目前的總體架構圖。

圖2-7 CNTK的總體架構圖

CNTK原生支持多GPU和分布式，從官網公布的對比評測來看，性能非常不錯。在多GPU方面，CNTK相對於其他的深度學習庫表現得更突出，它實現了1-bit SGD和自適應的mini-batching。圖2-8所示為CNTK官網公布的在2015年12月的各個框架的性能對比。在當時，CNTK是唯一支持單機8塊GPU的框架，並且在分布式系統中可以超越8塊GPU的性能。

圖2-8 CNTK與各個框架的性能對比

官方網址：http://deeplearning4j.org/

GitHub: github.com/deeplearning4j/deeplearning4j

Deeplearning4J（簡稱DL4J）是一個基於Java和Scala的開源的分布式深度學習庫，由Skymind於2014年6月發布，其核心目標是創建一個即插即用的解決方案原型。埃森哲、雪弗蘭、博斯諮詢和IBM等都是DL4J的客戶。DL4J擁有一個多用途的n-dimensional array的類，可以方便地對數據進行各種操作；擁有多種後端計算核心，用以支持CPU及GPU加速，在圖像識別等訓練任務上的性能與Caffe相當；可以與Hadoop及Spark自動整合，同時可以方便地在現有集群（包括但不限於AWS，Azure等）上進行擴展，同時DL4J的並行化是根據集群的節點和連接自動優化，不像其他深度學習庫那樣可能需要用戶手動調整。

DL4J選擇Java作為其主要語言的原因是，目前基於Java的分布式計算、雲計算、大數據的生態非常龐大。用戶可能擁有大量的基於Hadoop和Spark的集群，因此在這類集群上搭建深度學習平臺的需求便很容易被DL4J滿足。同時JVM的生態圈內還有數不勝數的Library的支持，而DL4J也創建了ND4J，可以說是JVM中的NumPy，支持大規模的矩陣運算。此外，DL4J還有商業版的支持，付費用戶在出現問題時可以通過電話諮詢尋求支持。

作者介紹

黃文堅，PPmoney大數據算法總監，負責集團的風控、理財、網際網路證券等業務的數據挖掘工作。Google TensorFlow Contributor。前明略數據技術合伙人，領導了對諸多大型銀行、保險公司、基金的數據挖掘項目，包括建立金融風控模型、新聞輿情分析、保險復購預測等。曾就職於阿里巴巴搜尋引擎算法團隊，負責天貓個性化搜索系統。曾參加阿里巴巴大數據推薦算法大賽，於7000多支隊伍中獲得前10名。本科、研究生就讀於香港科技大學，曾在頂級會議和期刊SIGMOBILE MobiCom、IEEE Transactions on Image Processing發表論文，研究成果獲美國計算機協會移動計算大會（MobiCom）最佳移動應用技術冠軍，並獲得兩項美國專利和一項中國專利。

唐源，目前在芝加哥的Uptake公司帶領團隊建立用於多個物聯網領域的數據科學引擎進行條件和健康監控，也建立了公司的預測模型引擎，現在被用於航空、能源等大型機械領域。一直活躍在開源軟體社區，是TensorFlow和DMLC的成員，是TensorFlow、XGBoost、MXNet等軟體的committer，TF.Learn、ggfortify等軟體的作者，以及caret、pandas等軟體的貢獻者。曾獲得谷歌Open Source Peer Bonus，以及多項高校和企業編程競賽的獎項。在美國賓州州立大學獲得榮譽數學學位，曾在本科學習期間成為創業公司DataNovo的核心創始成員，研究專利數據挖掘、無關鍵字現有技術搜索、策略推薦等。

福利！福利！我們將給大數據雜談的粉絲送出《TensorFlow實戰》紙質書籍15本！評論區留言前15名可得！留言給出你想這本書的理由，2月20日早上10點前有效！另付京東購買地址，戳「閱讀原文」！

今日薦文

點擊下方圖片即可閱讀

TensorFlow和Caffe、CNTK、MXNet等其他7種深度學習框架的對比

相關焦點

TensorFlow和Caffe、MXNet、Keras等其他深度學習框架的對比

對比深度學習十大框架:TensorFlow 並非最好?

深度對比深度學習十大框架:TensorFlow最流行但並不是最好

深度| 對比深度學習十大框架:TensorFlow最流行但並不是最好

資源 | 如何利用VGG-16等模型在CPU上測評各深度學習框架

對比深度學習十大框架:TensorFlow最流行但並不是最好

基於TensorFlow的深度學習實戰

從TensorFlow到Theano:橫向對比七大深度學習框架

從TensorFlow到PyTorch:九大深度學習框架哪款最適合你?

資源 | 從TensorFlow到PyTorch:九大深度學習框架哪款最適合你?

從三大神經網絡,測試對比TensorFlow、MXNet、CNTK、Theano四個框架

深度學習筆記7:Tensorflow入門

TensorFlow、Keras、CNTK...到底哪種深度學習框架更好用?

基準評測 TensorFlow、Caffe、CNTK、MXNet、Torch 在三類流行深度神經網絡上的表現(論文)

從系統和代碼實現角度解析TensorFlow的內部實現原理 | 深度

從系統和代碼實現角度解析TensorFlow的內部實現原理|深度

擺好正確姿勢看 Google 神級深度學習框架 TensorFlow 的實踐思路

TensorFlow與PyTorch之爭,哪個框架最適合深度學習

16個GitHub值得收藏的深度學習框架

斯坦福深度學習課程第六彈:一起來學Tensorflow part1

TensorFlow和Caffe、CNTK、MXNet等其他7種深度學習框架的對比

相關焦點

TensorFlow和Caffe、MXNet、Keras等其他深度學習框架的對比

對比深度學習十大框架:TensorFlow 並非最好?

深度 對比深度學習十大框架:TensorFlow最流行但並不是最好

深度| 對比深度學習十大框架:TensorFlow最流行但並不是最好

資源 | 如何利用VGG-16等模型在CPU上測評各深度學習框架

對比深度學習十大框架:TensorFlow最流行但並不是最好

基於TensorFlow的深度學習實戰

從TensorFlow到Theano:橫向對比七大深度學習框架

從TensorFlow到PyTorch:九大深度學習框架哪款最適合你?

資源 | 從TensorFlow到PyTorch:九大深度學習框架哪款最適合你?

從三大神經網絡,測試對比TensorFlow、MXNet、CNTK、Theano四個框架

深度學習筆記7:Tensorflow入門

TensorFlow、Keras、CNTK...到底哪種深度學習框架更好用?

基準評測 TensorFlow、Caffe、CNTK、MXNet、Torch 在三類流行深度神經網絡上的表現(論文)

從系統和代碼實現角度解析TensorFlow的內部實現原理 | 深度

從系統和代碼實現角度解析TensorFlow的內部實現原理|深度

擺好正確姿勢 看 Google 神級深度學習框架 TensorFlow 的實踐思路

TensorFlow與PyTorch之爭,哪個框架最適合深度學習

16個GitHub值得收藏的深度學習框架

斯坦福深度學習課程第六彈:一起來學Tensorflow part1

深度對比深度學習十大框架:TensorFlow最流行但並不是最好

擺好正確姿勢看 Google 神級深度學習框架 TensorFlow 的實踐思路