業界| 英特爾推出用於Apache Spark的深度學習庫

2021-01-11 機器之心Pro

選自Intel參與:黃小天、朱思穎

英特爾今天宣布推出開源 BigDL,一個用於 Apache Spark 開源集群計算框架的分布式深度學習庫。

深度學習庫是英特爾公司在行業中實現最先進的人工智慧戰略的一部分。在去年 11 月宣布的公司戰略,詳細介紹了英特爾所做的工作——通過旗下的人工智慧學院(Intel Nervana)使人工智慧訓練和工具被更廣泛的開發人員所獲取。

BigDL 具有基於 Spark 架構的高效大規模分布式深度學習庫,使大數據用戶和數據科學家更容易獲得深度學習。BigDL 使得 AI 專家能夠像在數百個領域的數千個應用程式中工作的數據科學家一樣研究數據。

BigDL 還可以作為用於數據存儲、處理和挖掘、特徵工程以及機器和深度學習工作量等的統一數據分析平臺(Hadoop / Spark)。它允許開發人員將深度學習應用程式編寫為在現有 Spark 或 Hadoop 集群之上運行的標準 Spark 程序,以使深度學習工作量與他們使用的數據更直接地接觸。BigDL 已經在 Databricks Spark 平臺上運行。

英特爾軟體與服務部高級副總裁兼總經理 Doug Fisher 說:「BigDL 是一個開源項目,我們鼓勵所有開發人員在 BigDL Github 上與我們聯繫,採樣代碼並為項目做出貢獻。」

BigDL:在 Apache Spark 上的分布式深度學習

BigDL 是一個為 Apache Spark 而建的分布式深度學習庫;通過 BigDL,用戶能夠以標準的 Spark 程序編寫深度學習應用,並能直接在現有的 Spark 或 Hadoop 集群上運行。

豐富的深度學習支持。BigDL 是在 Torch 之後搭建的模型,為深度學習提供全面支持,包括經由 Tensor 的數字計算和高級神經網絡;此外,用戶還可以通過使用 BigDL 把 Caffe 或 Torch 裡預訓練的模型加載到 Spark 程序中。

極其完美的運行表現。為了獲取非常好的運行表現,在每個 Spark 任務中 BigDL 使用因特爾 MKL 和多線編程。因此,在單個節點的至強(Xeon,與主流 GPU 比較)處理器上的處理比即用部署的開源框架 Caffe、Torch 以及 TensorFlow 有量級上的提升。

高效的橫向擴展性能。BigDL 能高效的進行橫向擴展從而實現大數據的數據分析,通過發布 Apache Spark(快如閃電般的分布式數據處理框架),以及 Spark 上有效實施的同步 SGD 和全局歸約交流機制。

為什麼是 BigDL?

你也許想用 BigDL 寫一些深度學習程序如果:

你想要在存儲數據(例如 HDFS,HBase,Hive 等)的相同大數據(Hadoop / Spark)集群上分析大量數據。你想要為你的大數據(Spark)程序和/或工作流程添加深度學習功能(訓練或預測)。你想要利用現有的 Hadoop / Spark 集群來運行深度學習應用程式,然後可以與其他工作量(例如 ETL、數據倉庫、特性工程、經典機器學習、圖形分析等)動態共享。

怎樣使用 BigDL?

想學習如何安裝和搭建 BigDL(Linux 和 macOS 上的安裝),你可以查閱構建文檔(Build Page)。連結:https://github.com/intel-analytics/BigDL/wiki/Build-Page想學習如何運行 BigDL 程序(運行一個局部 Java 程序或者 Spark 程序),你可以查閱開始指導頁面(Getting Started Page)。連結:https://github.com/intel-analytics/BigDL/wiki/Getting-Started想在 EC2 上嘗試使用 BigDL,你可以查閱在 EC2 上運行的頁面(Running on EC2 Pages)。連結:https://github.com/intel-analytics/BigDL/wiki/Running-on-EC2想在幾分鐘內學到如何通過 BigDL 創建實用的神經網絡,你可以查閱教程頁面(Tutorial Page)。連結:https://github.com/intel-analytics/BigDL/wiki/Tutorials更多細節內容,可以在說明文檔中查閱(Documents Page),說明文檔包含教程、範例、編程指南等內容。連結:https://github.com/intel-analytics/BigDL/wiki/Documents

支持

你可以加入 BigDL 谷歌網上論壇(https://groups.google.com/forum/#!forum/bigdl-user-group)(或訂閱郵件列表:bigdl-user-group+subscribe@googlegroups.com)以獲得更多關於 BigDL 的問題和討論。你可以在問題頁面上發布錯誤報告和功能請求。

相關焦點

  • Spark運行模式——Local模式
    首先需要下載Spark1.官網地址 http://spark.apache.org/2.文檔查看地址 https://spark.apache.org/docs/2.1.1/3.下載地址 https://archive.apache.org/dist/spark/Local
  • 許鵬:從零開始學習,Apache Spark源碼走讀(三)
    /bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077worker啟動之後,會做兩件事情 將自己註冊到Master、RegisterWorker 定期發送心跳消息給Master
  • 適合小白入門Spark的全面教程
    因此,Apache Spark是業界大數據處理的首選工具。3.什麼是sparkApache Spark是一個用於實時處理的開源集群計算框架。 它擁有蓬勃發展的開源社區,是目前最活躍的Apache項目。 Spark提供了完整編程的接口,具有數據並行性和容錯性。
  • 新手入門:Spark 部署實戰入門
    創建Object WordCount和SimpleCount,用來作為Spark的兩個簡單示例Spark Sample   SimpleCount.scala   package com.spark.sample       import org.apache.spark.SparkConf   import org.apache.spark.SparkContext
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D,也可用於二維場景
    不過傳統渲染引擎無法進行微分,因此它們不能被合併至深度學習工作管道中。PyTorch3D 內置模塊化的可微分渲染器,能用來處理可微分的 3D 數據。Facebook 近日開源了將 PyTorch 用於 3D 深度學習的函數庫 PyTorch3D,這是一個高度模塊化且經過優化的庫,具備獨有的功能,旨在通過 PyTorch 簡化 3D 深度學習。
  • 關於Apache Spark存在遠程代碼執行高危漏洞的預警通報
    附件:參考連結:https://github.com/apache/spark/releases
  • SparkSQL與Hive metastore Parquet轉換
    該行為可以通過配置參數spark.sql.hive.convertMetastoreParquet進行控制,默認true。Job aborted due to stage failure: Task 0 in stage 4.0 failed 1 times, most recent failure: Lost task 0.0 in stage 4.0 (TID 4, localhost, executor driver): java.lang.NullPointerException at org.apache.spark.sql.hive.HiveShim
  • 大數據分析工程師入門9-Spark SQL
    要創建一個 SparkSession使用SparkSession.builder():import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic example") .config
  • 攜oneAPI Gold版本和伺服器GPU 英特爾領先業界進入XPU時代
    同時,我們還推出了基於Xe-LP微架構的首款數據中心GPU,以滿足快速增長的雲遊戲和流媒體市場需求。」  重要性:隨著世界進入到數十億智能設備的時代,數據呈指數級增長,需要將重心從單獨的CPU轉移到跨CPU、GPU、FPGA和其他加速器的混合架構,英特爾將其稱為「XPU」願景。英特爾?伺服器GPU的推出是英特爾在XPU時代擴展產品組合的最新一步。
  • 如何快速學習spark
    為什麼要學習spark呢?spark的知識板塊學習spark的步驟:第一步:首先你要去Scala語言,spark主要是用Scala語言來編寫的,當然了Java也可以寫,但是Scala比Java編寫起來就更加輕質而優雅啦。
  • 英特爾正式發布其全新伺服器GPU 率先定義XPU時代
    同時,英特爾還宣布將於12月正式交付相應的軟體堆棧oneAPI Gold工具。英特爾此次同時推出了全新伺服器GPU和oneAPI軟體,意味著英特爾開始釋放XPU的強大實力。對於這一問題,英特爾早已給出了答案。2015年,英特爾就開始斥資167億美元收購當時全球第二大FPGA廠商Altera,此後,又接連收購主攻深度學習方向的Nervana Systems、計算視覺公司Movidius、自動駕駛視覺處理公司Mobileye和雲端AI推理晶片已經商用的Habana Labs。
  • Spark:安裝及環境配置指南!
    1、Apache spark下載在瀏覽器輸入網址https://spark.apache.org/downloads.html進入spark的下載頁面,如下圖所示:下載時需要注意的是在第1步選擇完spark版本之後的第2步「choose a package
  • OpenVINO幫助ISS提供先進的視覺深度學習神經網絡
    Intel Vision產品組合由矽、軟體工具、深度學習框架和庫組成,這些都是為下一代人工智慧所獨有的。Intel Vision產品幫助您將數據從邊緣應用到雲端,因此您可以實時採取行動,更快地做出決策,並實施新的運營戰略,以實現立竿見影的效果。
  • Spark項目案例實戰和分布式部署
    import org.apache.hadoop.hbase.client.{Result, Get, HConnectionManager}import org.apache.hadoop.hbase.util.{ArrayUtils, Bytes}import org.apache.spark.
  • 20個超棒的Python 庫集合分享
    它是一個用於可視化和調試機器學習模型並逐步跟蹤算法工作的軟體包,為 scikit-learn、XGBoost、LightGBM、lightning 和 sklearn-crfsuite 庫提供支持,並為每個庫執行不同的任務。 深度學習 13.
  • 英特爾推出面部識別技術RealSense ID 使用該公司深度感應攝像頭
    英特爾昨天發布了RealSense ID,這是一種基於RealSense深度感應技術(通過Gizmodo)的面部識別解決方案。RealSense最初是用於非接觸式交互的Kinect風格相機,但RealSense ID似乎是英特爾試圖將其相機業務重新定位為安全的設備上面部識別的嘗試,同時也有可能使該公司陷入爭議。   RealSense ID以英特爾的深度感應技術為基礎,具有用於識別人臉的神經網絡,專用的片上系統以及可加密和處理用戶數據的安全元件。
  • 英特爾加速實現XPU願景:發布oneAPI Gold版本和英特爾伺服器GPU
    同時,我們還推出了基於Xe-LP微架構的首款數據中心GPU,以滿足快速增長的雲遊戲和流媒體市場需求。」  重要性:隨著世界進入到數十億智能設備的時代,數據呈指數級增長,需要將重心從單獨的CPU轉移到跨CPU、GPU、FPGA和其他加速器的混合架構,英特爾將其稱為「XPU」願景。英特爾伺服器GPU的推出是英特爾在XPU時代擴展產品組合的最新一步。
  • 深度分析英特爾Xe GPU戰略
    比如,高並行的GPU能為人工智慧、深度學習(DL)/機器學習( ML)應用程式提供支持,但往往需要在傳統的遊戲和ProViz數據格式之外,獲取額外的數據格式支持。雲端遊戲顯卡和伺服器端圖形渲染應用專為遊戲打造,但是這類顯卡並非數據中心的最佳選擇。若想成為顯卡領跑者,英特爾必須開發全系列的顯卡,涵蓋傳統用途、HPC和新興應用場景。而這項任務的艱巨性無需多言。
  • 英特爾為 XPU 軟體開發推出 oneAPI 工具包正式版本
    IT之家12月11日消息 英特爾於 12 月 9 日發布了 oneAPI 工具包正式版,即 11 月宣布將推出的英特爾 oneAPI Gold 版本,將用於為英特爾 CPU、GPU 和 FPGA 等(統稱為 XPU)開發跨架構應用程式。
  • 數據分析工程師面試集錦5——Spark面試指南
    Spark可以用於批處理、交互式查詢(Spark SQL)、實時流處理(Spark Streaming)、機器學習(Spark MLlib)和圖計算(GraphX)。這些不同類型的處理都可以在同一個應用中無縫使用。這對於企業應用來說,就可使用一個平臺來進行不同的工程實現,減少了人力開發和平臺部署成本。4.兼容性。Spark能夠跟很多開源工程兼容使用。