Apache Spark 1.6.1 發布,集群計算環境

2020-12-14 開源中國

Apache Spark 1.6.1 發布了，Apache Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程式框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分布式數據集。

儘管創建 Spark 是為了支持分布式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoo 文件系統中並行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程式。

新特性

[SPARK-10359] - Enumerate Spark's dependencies in a file and diff against it for new pull requests

Bug 修復

[SPARK-7615] - MLLIB Word2Vec wordVectors divided by Euclidean Norm equals to zero
[SPARK-9844] - File appender race condition during SparkWorker shutdown
[SPARK-10524] - Decision tree binary classification with ordered categorical features: incorrect centroid
[SPARK-10847] - Pyspark - DataFrame - Optional Metadata with `None` triggers cryptic failure
[SPARK-11394] - PostgreDialect cannot handle BYTE types
[SPARK-11624] - Spark SQL CLI will set sessionstate twice
[SPARK-11972] - [Spark SQL] the value of 'hiveconf' parameter in CLI can't be got after enter spark-sql session
[SPARK-12006] - GaussianMixture.train crashes if an initial model is not None
[SPARK-12010] - Spark JDBC requires support for column-name-free INSERT syntax
[SPARK-12016] - word2vec load model can't use findSynonyms to get words
[SPARK-12026] - ChiSqTest gets slower and slower over time when number of features is large
[SPARK-12268] - pyspark shell uses execfile which breaks python3 compatibility
[SPARK-12300] - Fix schema inferance on local collections
[SPARK-12316] - Stack overflow with endless call of `Delegation token thread` when application end.
[SPARK-12327] - lint-r checks fail with commented code

詳情請看：https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12334009&styleName=Html&projectId=12315420&Create=Create&atl_token=A5KQ-2QAV-T4JA-FDED|a0202c18e71ce446af35a0775298cc3f2be9d54f|lin

下載地址：http://spark.apache.org/downloads.html

相關焦點

Spark 1.6.0 新手快速入門

下面的例子是通過加載Spark目錄下的README.md文件生成 RDD的例子： scala> val textFile = sc.textFile("README.md") textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3 RDDs有兩種操作： actions：返回計算值
一、Spark概述

官方網址：http://spark.apache.orghttps://databricks.com/spark/aboutSpark 四大特點1、速度快（比mapreduce在內存中快100倍，在磁碟中快10倍）spark中的job中間結果可以不落地
Apache Spark大數據分析入門(一)

關於全部摘要和提綱部分，請登錄我們的網站 http://www.mammatustech.com/apache-spark-course-quick-start-real-time-data-analytics進行訪問。
手把手教你基於python的Spark環境搭建(Standalone Deploy Mode)

安裝spark集群（local模式）參照http://blog.jobbole.com/86232/下載spark安裝包，本文使用最新的2.0.2版本下載地址http://spark.apache.org/downloads.html解壓Spark,並移動目錄tar -xzf spark
Apache Spark 1.6 正式發布,性能大幅度提升

Apache Spark 1.6 正式發布，Spark 1.6 包含 1000+ 分支，主要是三個大方面的改進：性能提升，新的 Dataset API 和數據科學功能的擴展。
Spark入門介紹

在大家急需一種新的計算引擎出現的情況下，Spark應運而生，不過Spark真正與Hadoop產生聯繫，還需要Yarn幫忙。在2013年10月發布Hadoop2.X之前，Hadoop1.x是沒有Yarn存在的，存儲和計算緊密耦合，並且負責調度任務和資源的JobTracker苦不堪言，所有工作都堆在了它身上。
如何將 MapReduce 轉化為 Spark

大數據處理勢必需要依賴集群環境，而集群環境有三大挑戰，分別是並行化、單點失敗處理、資源共享，分別可以採用以並行化的方式重寫應用程式、對單點失敗的處理方式、動態地進行計算資源的分配等解決方案來面對挑戰。針對集群環境出現了大量的大數據編程框架，首先是 Google 的 MapReduce，它給我們展示了一個簡單通用和自動容錯的批處理計算模型。
經典用例,精彩教程之Spark MLlib - Apache Spark的機器學習庫

從人工智慧中的模式識別和計算學習理論的研究出發，機器學習探索了可以從數據中學習和預測數據的算法的研究和構建 - 這樣的算法通過進行數據驅動的預測或決策克服了嚴格的靜態程序指令通過從樣本輸入建立模型。圖：機器學習工具機器學習與計算統計密切相關，計算統計也側重於通過使用計算機進行預測。它與數學優化有著密切的聯繫，為實地提供了方法，理論和應用領域。
Spark入門必讀:核心概念介紹及常用RDD操作

基於這些特性，RDD在分布式環境下能夠被高效地並行處理。（1）計算類型在Spark中RDD提供Transformation和Action兩種計算類型。 : org.apache.spark.storage.StorageLevel val MEMORY_ONLY_SER_2 : org.apache.spark.storage.StorageLevel val MEMORY_AND_DISK : org.apache.spark.storage.StorageLevel val MEMORY_AND_DISK
Spark Operator 初體驗

隨著業務的發展，支持作業運行所需要的計算資源（CPU、內存、網絡帶寬）的需求量也會不斷增長，就可能出現Hadoop集群的計算資源不足的情況，在目前的架構下我們只能通過擴容集群伺服器的方式來解決，然而這種方式的步驟較為繁瑣，且無法實現計算資源的彈性伸縮，時效性和靈活性較差。
最簡大數據Spark-2.1.0

2.0 怎麼學習首先看官網的教程http://spark.apache.org/docs/latest/programming-guide.html看官網的教程基本給出了Scala，Java，Python三種代碼的例子，也就是說，你只要會其中一種就可以玩了。但是考慮到Spark源碼是Scala寫的，從學習源碼的角度來看，用Scala是比較靠譜的。
YARN & Mesos,論集群資源管理所面臨的挑戰

Talking Data最初引入Spark是2013年，當時主要的考慮是提高機器學習效率，於是在Spark 0.8.1的時候就引入了Spark，那個時候的環境是Hadoop CDH 4.3版本。最初用Spark就是跑一些基礎的數據挖掘任務，其他任務還都是用MR+HIVE來完成。
Apache Ignite vs Apache Spark

jerryscott 2015/05/25 20:50 1.
用Spark計算引擎執行FATE聯邦學習任務

eggroll 本身是一個相對獨立的集群，它對外提供一個統一的入口以及一組API，外部應用可以通過 RPC 調用的方式把任務發送到 eggroll 集群上執行，而 eggroll 本身是支持橫向擴展的因此用戶可以根據實際場景調整集群的規模。FATE 在 v1.5 中徹底重構了 Apache Spark 作為計算引擎部分，並提供正式支持。
【譯】Using .NET for Apache Spark to Analyze Log Data

這可能包括刪除不完整的條目以避免以後計算中出現錯誤，或者刪除不相關的輸入以提高性能。在我們的示例中，我們應該首先確保所有條目都是完整的日誌。我們可以通過將每個日誌條目與一個正則表達式進行匹配來實現這一點。
Apache Pulsar 2.6.1 版本正式發布:功能增強,新增 OAuth2 支持

2.6.1 版本正式發布！在 2.6.1 版本中，我們加入了相應的 check 機制，來避免出現 hash range 衝突的問題。更多詳情查看 PR-7231：https://github.com/apache/pul...。
Apache Spark 統一內存管理模型詳解

Executor 端的堆內內存區域大致可以分為以下四大塊：Execution 內存：主要用於存放 Shuffle、Join、Sort、Aggregation 等計算過程中的臨時數據Storage 內存：主要用於存儲 spark 的 cache 數據，例如RDD的緩存、unroll數據；用戶內存（User Memory
『 Spark 』2. spark 基本概念解析

寫這樣一個系列僅僅是為了梳理個人學習spark的筆記記錄，並非為了做什麼教程，所以一切以個人理解梳理為主，沒有必要的細節就不會記錄了。若想深入了解，最好閱讀參考文章和官方文檔。其次，本系列是基於目前最新的 spark 1.6.0 系列開始的，spark 目前的更新速度很快，記錄一下版本好還是必要的。1.
Apache Beam實戰指南 | 手把手教你玩轉大數據存儲HdfsIO

其他 SDK 和 Runner 也在不斷更新中，Beam 每 6 周發布一個小版本，及時完善了一些一次性未集成完善的功能。在 HdfsConfiguration 類中支持很多配置，最主要的「fs.default.name』」是配置我們 Hadoop 集群。
Apache Gora 0.8 發布,NoSQL 的 ORM 框架

Apache Gora 0.8 已發布，Gora 是一個應用於 NoSQL 資料庫的 ORM 框架。

Apache Spark 1.6.1 發布,集群計算環境

相關焦點

Spark 1.6.0 新手快速入門

一、Spark概述

Apache Spark大數據分析入門(一)

手把手教你基於python的Spark環境搭建(Standalone Deploy Mode)

Apache Spark 1.6 正式發布,性能大幅度提升

Spark入門介紹

如何將 MapReduce 轉化為 Spark

經典用例,精彩教程之Spark MLlib - Apache Spark的機器學習庫

Spark入門必讀:核心概念介紹及常用RDD操作

Spark Operator 初體驗

最簡大數據Spark-2.1.0

YARN & Mesos,論集群資源管理所面臨的挑戰

Apache Ignite vs Apache Spark

用Spark計算引擎執行FATE聯邦學習任務

【譯】Using .NET for Apache Spark to Analyze Log Data

Apache Pulsar 2.6.1 版本正式發布:功能增強,新增 OAuth2 支持

Apache Spark 統一內存管理模型詳解

『 Spark 』2. spark 基本概念解析

Apache Beam實戰指南 | 手把手教你玩轉大數據存儲HdfsIO

Apache Gora 0.8 發布,NoSQL 的 ORM 框架