青雲QingCloud 推出容器版深度學習平臺,並聯合 Intel 發布 CPU 優化版深度學習框架

2021-02-20 青雲QingCloud

平臺性能測試


為了讓用戶快速了解深度學習平臺的性能指標以便於選擇,我們使用 TensorFlow 性能測試代碼中的 CNN Benchmark ,對常用硬體配置組合進行了測試。 我們選擇 ResNet-50 模型,調用 Python 3.6 + TensorFlow 1.7.0 環境,使用合成數據進行測試。

青雲深度學習平臺組件版本對照表

模型和數據

為了方便用戶使用,我們收集了深度學習常用的數據集,以及一些常用模型的預訓練權重,放在對象存儲中,用戶可直接使用這些數據開始自己的工作,節省下載數據的時間,提高工作效率。


下載地址:https://docs.qingcloud.com/product/ai/deeplearning/#%E6%A8%A1%E5%9E%8B%E5%92%8C%E6%95%B0%E6%8D%AE

訓練與推理實踐

為了方便用戶的學習和實踐,我們還提供了包含圖像分類、目標檢測、人臉識別及自然語言處理的示例,以下簡單舉例說明。

更多案例:https://docs.qingcloud.com/product/ai/deeplearning/#%E8%AE%AD%E7%BB%83%E5%92%8C%E6%8E%A8%E7%90%86

目標檢測

FasterRCNN 目標檢測

原始碼來自 https://github.com/tensorpack/tensorpack, 修改部分代碼以使用 COCO 2017 數據集進行訓練,並使用  ImageNet-R50 Backbone 網絡和 COCO 2017 數據集訓練了 300000 iterations,保存對應的 checkpoint ,增加 jupyter notebook 版測試程序,顯示初步訓練的結果,代碼在對象存儲下載。基於 Python 3.6.5,需要安裝 opencv-contrib-python 、 tensorpack 、 pycocotools 包。

FasterRCNN 訓練

激活 Python 3.6.5 環境,下載文件後解壓,然後在 tensorpack/coco 目錄下,下載 COCO 2017 數據集文件並解壓(這裡已經包含了 annotations 和 val2017 ,僅需下載 train2017 和 test2017 )。

# 下載並解壓

source /home/ubuntu/workspaces/py3/bin/activate

cd /data 

wget https://appcenter-deeplearning.sh1a.qingstor.com/models/tensorpack.tar 

tar xvf tensorpack.tar

# 下載 COCO 2017 數據集(數據集將佔用27GB空間,請確保硬碟空間充足)

cd tensorpack/coco 

wget https://appcenter-deeplearning.sh1a.qingstor.com/dataset/coco/train2017.zip 

wget https://appcenter-deeplearning.sh1a.qingstor.com/dataset/coco/test2017.zip 

tar xvf train2017.zip 

tar xvf test2017.zip

# 從頭開始訓練

cd /data/tensorpack/examples/FasterRCNN 

python train.py --config MODE_MASK=False MODE_FPN=True BACKBONE.WEIGHTS=/data/tensorpack/modelzoo/FasterRCNN/ImageNet-R50-AlignPadding.npz DATA.BASEDIR=/data/tensorpack/coco/

# 從保存的 checkpoint 開始訓練(注意代碼在開始訓練時將清空train_log/maskrcnn文件夾,請在開始訓練前將需要保存的數據轉移到其他文件夾,示例中轉移到了train_log/bak文件夾)

python train.py --load=/data/tensorpack/examples/FasterRCNN/train_log/bak/model-10000.index --config MODE_MASK=False MODE_FPN=True BACKBONE.WEIGHTS=/data/tensorpack/modelzoo/FasterRCNN/ImageNet-R50-AlignPadding.npz DATA.BASEDIR=/data/tensorpack/coco/

訓練開始後,將顯示訓練進度並在每個 epoch 完成後保存一次 checkpoint(每次保存佔用約 500MB 空間,長時間訓練請關注硬碟空間),如下圖所示

FasterRCNN 推理

激活 Python 3.6.5 環境,下載文件後解壓,然後在 tensorpack/examples/FasterRCNN 目錄下,運行 jupyter notebook。

# 下載並解壓

source /home/ubuntu/workspaces/py3/bin/activate

cd /data 

wget https://appcenter-deeplearning.sh1a.qingstor.com/models/tensorpack.tar 

tar xvf tensorpack.tar

# 運行 jupyter notebook

cd tensorpack/examples/FasterRCNN 

jupyter notebook --ip=`ifconfig eth0 2>/dev/null|awk '/inet addr:/ {print $2}'|sed 's/addr://'`

在瀏覽器中打開 jupyter notebook 的頁面,打開 test.ipynb 並運行,將顯示初步訓練的權重對測試圖片的目標檢測結果。如下圖所示

人臉識別:FaceNet 人臉相似度計算

原始碼來自 https://github.com/davidsandberg/facenet,將預訓練權重一起打包,增加 jupyter notebook 版測試程序,用來演示基本的 jupyter notebook 運行、交互和圖像顯示等功能。基於 Python 3.6.5,需要安裝 opencv-contrib-python 包。

激活 Python 3.6.5 環境,下載文件後解壓,然後在 facenet/src 目錄下,運行 jupyter notebook。

# 下載並解壓

source /home/ubuntu/workspaces/py3/bin/activate

cd /home/ubuntu/ 

wget https://appcenter-deeplearning.sh1a.qingstor.com/models/facenet.tar 

tar xvf facenet.tar

# 運行 jupyter notebook

cd facenet/src 

jupyter notebook --ip=`ifconfig eth0 2>/dev/null|awk '/inet addr:/ {print $2}'|sed 's/addr://'`

在瀏覽器中打開 jupyter notebook 的頁面,將看到如下內容:

打開 facecomp.ipynb 並運行,在提示輸入 model file path 時,輸入預訓練權重路徑 20180408-102900 ;提示輸入需要計算的照片時,輸入 a1.jpg a2.jpg b1.jpg b2.jpg c1.jpg c2.jpg 。(這裡隨機選擇了 VGGFace2 數據集中 3 個人 6 張照片作為示例)

將計算並顯示 6 張人臉照片相互之間的距離,同一個人的照片,距離較近。如下圖所示:

用戶可以使用對象存儲中的 VGGFace2 或者自己的數據集,來訓練FaceNet,獲得適用於自己業務的模型。

手把手教你部署 Deep learning 服務

第 1 步:

進入 AppCenter,選擇 Deep Learning on QingCloud 服務。

第 2 步:

部署 Deep Learning 應用

第 3 步:

選擇 GPU 可用區,紅色框所示的區域表示 GPU 可用區,若您需要使用 GPU,只能從這三個區域中選擇,所有區域均支持 CPU 訓練。

第 4 步:

基本設置,填寫服務名稱和描述,選擇版本。

第 5 步:

計算節點設置,填寫節點 CPU、GPU、內存、節點類型、節點個數、數據盤大小等配置信息。

第 6 步:

網絡設置,出於安全考慮,所有的集群都需要部署在私有網絡中,選擇自己創建的已連接路由器的私有網絡中。

第 7 步:

環境設置,Deep Learning app 與 QingStor™ 對象存儲命令行工具集成,配置 QingStor™ 對象存儲相關參數,可以方便的從 QingStor™ 對象存儲拉取數據。如果 QingStor™ 對象存儲選用 false,access_key 和 secret_key 則無需填寫。

第 8 步:

查看 GPU 監控信息,集群啟動 5 分鐘後,依次進入 QingCloud 控制臺->AppCenter->管理,便可以看到主機的運行狀態和 GPU 監控信息。

更多使用問題可查閱用戶指南:

https://docs.qingcloud.com/product/ai/deeplearning/

還在想什麼?快來點擊閱讀原文試用體驗吧!

相關焦點

  • 青雲QingCloud發布端到端場景化解決方案,激活萬物喚醒智能
    【城宇互聯】報導,騰訊新聞推薦企業級混合雲服務商青雲QingCloud(qingcloud.com)日前宣布,正式發布物聯網平臺、EdgeWize邊緣計算,並面向智慧數據中心、智慧建築和智慧交通等新基建核心場景,發布圍繞雲網邊端一體化架構構建的端到端場景化解決方案(qingcloud.com
  • 深度學習框架搭建之PyTorch
    深度學習框架搭建之PyTorchPyTorch 簡介PyTorch 是由 Facebook 推出,目前一款發展與流行勢頭非常強勁的深度學習框架。PyTorch 與 NumPy 非常相似,可以說是它的替代者,支持 GPU 加速運算,用來搭建和訓練深度神經網絡。如果學習過 NumPy 以及常見的深度學習概念(如卷積層,循環層等),非常容易上手PyTorch。目前主流的深度學習框架主要有 TensorFlow,PyTorch,mxnet,caffe和Keras 等。
  • 小米雲深度學習平臺的架構設計與實現
    除了Google、微軟,國內的百度也開源了PaddlePaddle分布式計算框架,並且官方集成了Kubernetes等容器調度系統,用戶可以基於PaddlePaddle框架實現神經網絡模型,同時利用容器的隔離性和Kubernetes的資源共享、自動調度、故障恢復等特性,但平臺不能支持更多深度學習框架接口。
  • 用 Intel MKL-DNN 加速 CPU 上的深度學習
    Intel最近發布了開源的深度學習軟體包 MKL-DNN,來替換之前的 MKLML。MKL-DNN 專門優化了一系列深度學習裡的操作符。
  • 「芯痛」過後 為何政府必須支持本土深度學習框架?
    而中國IT產業要贏得屬於自己的星空,就請先從支持本土深度學習框架開始。  因為,今天,在中美之間正在發生的深度學習框架之爭,也許正在定義明天的晶片標準。  一場對晶片舊帝國的革命正在形成  就在幾天前,Facebook在公司網站上發布了職位招聘廣告,希望招聘人才在公司裡建立一個「終端到終端」的晶片研發機構。
  • 百度CTO王海峰:深度學習的核心東西是深度學習框架
    王海峰指出,深度學習已經廣泛應用,它的核心的東西是深度學習框架,可以說深度學習框架是智能時代的作業系統,它向下會對接晶片,晶片會針對深度學習框架裡面的這些運算來進行優化,向上是支撐各種應用,核心的部分有訓練框架,有了很多數據,跟應用相關的數據,然後進行訓練,訓練得到模型。然後預測框架會基於已經訓練好的模型,針對應用與應用相結合,最後實現真正的應用。
  • 深度學習框架 fast.ai 2.0 正式發布
    經歷了長久的等待之後,深度學習框架 fast.ai 2.0 版本終於正式發布了。fast.ai 課程,是為了踐行 Jeremy Howard 「讓深度學習不再酷」的承諾。這話的意思是也消除掉門檻,讓更多沒有高等數學和統計專業基礎的人,都有機會來了解和應用深度學習。關於這個事兒,我在《如何從零基礎學最前沿的 Python 深度學習?》一文中,給你介紹過。
  • 【深度學習】深度學習之Pytorch基礎教程!
    ,深度學習框架開始大量的出現。尤其是近兩年,Google、Facebook、Microsoft等巨頭都圍繞深度學習重點投資了一系列新興項目,他們也一直在支持一些開源的深度學習框架。目前研究人員正在使用的深度學習框架不盡相同,有 TensorFlow 、Pytorch、Caffe、Theano、Keras等。這其中,TensorFlow和Pytorch佔據了深度學習的半壁江山。
  • 2016深度學習統治人工智慧?深度學習十大框架
    那麼,2016 年是否能看作深度學習正式統治人工智慧的一年?如果是這樣,我們又能為此做好什麼準備?新智元整理了業內人士關於 2016 年的深度學習技術展望,以及 2015 年深度學習最流行的 10 大框架。
  • 深度學習框架比較,我該選擇哪一個?
    基於簡單,靈活的設計,Pytorch快速成為了學術界的主流深度學習框架。 Pytorch的缺點則是前期缺乏對移動端的支持,因此在商用領域的普及度不及 TensorFlow 。在 2019 年,Facebook 推出 PyTorch Mobile 框架,彌補了 PyTorch 在移動端的不足,使得其在商用領域的發展有望趕超 TensorFlow 。
  • 16個GitHub值得收藏的深度學習框架
    在本文中文小編將為大家詳細介紹16種GitHub中最受歡迎的深度學習開源平臺和開源庫,除此之外,還有些比較不錯的平臺和框架雖然沒有進入榜單,文小編也列了出來,供大家參考。 GitHub收藏和貢獻率最高的16個開源深度學習框架,圓圈的顏色越偏綠色表示框架越新,顏色越偏藍色表明框架的時間越早。
  • 通過對比深度學習各大框架的優缺點尋找最優
    開源的深度學習神經網絡正步入成熟,而現在有許多框架具備為個性化方案提供先進的機器學習和人工智慧的能力。那麼如何決定哪個開源框架最適合你呢?本文試圖通過對比深度學習各大框架的優缺點,從而為各位讀者提供一個參考。你最看好哪個深度學習框架呢?
  • 深度學習環境搭建
    如果要學習如何在Linux作業系統中下載和安裝CUDA9.0、cudnn7.3、tensorflow_gpu1.10,請瀏覽本文作者的另外一篇文章《在谷歌雲伺服器上搭建深度學習平臺》,連結:https://www.jianshu.com/p/893d622d1b5a《在谷歌雲伺服器上搭建深度學習平臺》這篇文章中有部分內容是如何建立和連接雲虛擬機,這部分內容對於擁有Linux主機的讀者是無用的
  • 百度數據可視化實驗室正式成立,發布深度學習可視化平臺 Visual DL
    企業:百度
  • 百度發布《深度學習中文教程》!
    這次由多位百度大佬共同開發的——《深度學習中文教程》發布了,神器高層API會貫穿全程,分分鐘讓你技術提高好幾個level。同時開放了7天學習實踐活動,在7天中,你將直接跳過冗長的理論、懵bi~的調試,讓你掌握深度學習任務的通用套路,能夠獨立完成模型搭建、訓練及部署,能解決面試中最常被問到的深度學習任務,理論實戰雙豐收。
  • 微軟發布基於FPGA的深度學習平臺Brainwave
    打開APP 微軟發布基於FPGA的深度學習平臺Brainwave 發表於 2019-08-19 17:51:01 因此,這套深度學習加速平臺應運而生。 微軟在官方博客上公布了Brainwave的三個層面:高性能分布式系統架構,集成至FPGA上的深度神經網絡(DNN)引擎,可低摩擦部署訓練模型的編譯器和runtime。Brainwave利用了大量微軟在過去幾年裡部署的FPGA架構。通過將高性能FPGA連結到數據中心網絡,微軟讓DNN支持硬體微服務。
  • 青雲推出AppCenter2.0以應用為中心的全新雲服務體系
    )日前宣布推出AppCenter 2.0,向企業級用戶、應用提供商及開發者提供一整套高效完整的應用交付與運營管理平臺。青雲QingCloud CTO 甘泉 青雲QingCloud於2015年5月開創性地推出了企業級應用交付平臺
  • 深度學習適合什麼筆記本電腦?
    深度學習,對於算法能力和編程系統掌握,IT領域中一個新的研究方向,既然是推薦筆記本配置,我們首先知道將來會安裝什麼軟體和系統及配置環境;學這個的女生,很不容易.....主流的軟體大概有,主攻框架:Theano :python編寫的深度學習軟體包,實現的深度學習的常用算法,優點:集成了GPU開發環境,以及CUDA工具包;缺點:開發時間比較早,代碼靈活性差,模塊化功能不強Pylearn2:基於Theano的學習庫,進行了模塊化;scikit-neuralnetwork:scikit-learn下面的軟體包,支持深度學習,集成了neuralnetworkCaffe
  • 青雲QingCloud與浪潮信息聯合發布新一代微型雲數據中心
    7月25日,由青雲QingCloud主辦的Cloud Insight Conference(CIC)2019雲計算峰會在北京舉行,會上青雲QingCloud與浪潮信息聯合發布了新一代微型雲數據中心——青立方Qing3 Rack易捷版,為企業提供雲+數據中心基礎設施的一站式交付與運維管理,降低企業數位化轉型的門檻,全面適用於軟體定義數據中心、桌面雲、混合雲、IoT邊緣計算等場景
  • 如果AI框架工具被禁用,中國深度學習框架能崛起麼?
    2021年,發展深度學習技術,需要十分重視的就是深度學習框架。 01深度學習框架受到高度重視 隨著技術的不斷前進和應用的大規模增長,產業開發者們面臨的挑戰,也是日漸地突出。02合適的深度學習框架十分重要 深度學習的研究方式和過去傳統的研究方式大不相同。在深度學習領域,已經有很多的科研機構和世界一流的院校開發了多種深度學習工具,這些學習工具或者說深度學習庫在許多領域大顯身手。