Spark「變形記」——雲海大數據一體機讓數據處理更輕鬆

2020-12-17 環球網

ZD至頂網伺服器頻道 09月08日 :說起Spark,熟悉大數據架構的人一定不會陌生,它已是繼Hadoop之後最活躍的開源項目之一。作為發源於美國加州大學伯克利分校AMPLab的集群計算平臺,Spark立足於內存計算,並以多迭代批量處理出發,兼收並蓄數據倉庫、流處理和圖計算等多種計算形式得到了行業的肯定。作為國內IT行業領軍廠商,浪潮早在2012年就推出了採用Hadoop+Spark架構的大數據一體機,如今這款產品已經應用於金融、電信、公安、交通、衛生等各個行業領域,成為用戶大數據分析處理平臺的理想之選。

Hadoop+Spark的數據架構模式

據了解,雲海大數據一體機就是採用了業內主流的Hadoop+Spark的架構形式,搭建了國內外領先的大數據分析平臺CloudCanyon,通過Spark計算框架消除了傳統Map/Reduce計算框架的弊病,實現了高效的內存計算。Hadoop經過多年的發展,大家對其性能已經是耳熟能詳;但是對於Spark,許許多人還覺得有些陌生。

其實在架構上Spark的優勢更為明顯——Spark是一個靈活的計算框架,適合做批處理、工作流、交互式分析、迭代式機器學習、流處理等不同類型的應用,因此Spark可以成為一個用途廣泛的計算引擎,並在未來取代Map/Reduce的地位。與此同時,Spark還可以與Hadoop生態系統的很多組件互操作,可以運作在新一代資源管理框架YARN上,它還可以讀取已有的存放在Hadoop上的數據,這是個非常大的優勢。

經過複雜的系統調優和的改進,浪潮雲海大數據一體機具有高性能、穩定性好、功能豐富、易管理等特徵,採用不同的數據處理的架構來提供對不同行業應用的支撐。通過新型的數據處理架構,實現了計算隨數據分布的數據本地化,保證了業務的連續性,即使三到四千個計算單元重載節點情況下,還能夠實現相對比較好的擴展性。

浪潮雲海大數據一體機的性能優勢

Spark優化後性能可比原生快數倍

從技術角度來說,浪潮雲海大數據一體機支持高性能Apache Spark作為預設執行引擎,可比原生的Hadoop Map/Reduce快;其次,通過建立獨立與Spark的分布式列存緩存層,可以有效防止GC的影響,消除Spark的性能波動,同時在列式緩存上實現索引機制,進一步提高了執行性能;再次,在SQL執行計劃優化方面,實現了基於代價的優化器(Cost based optimizer)以及多種優化策略,性能可比原生Spark快數倍;最後通過全新的方法解決數據傾斜或者數據量過大的問題,使得處理超大數據量時也遊刃有餘。

3大語法實現SQL支持

浪潮雲海大數據一體機支持SQL 99語法及PL/SQL過程語言擴展,並且可以自動識別HiveQL、SQL99和PL/SQL語法,在保持跟Hive兼容的同時提供更強大的SQL支持。由於現有的數據倉庫大都基於SQL99,而且國內客戶大量使用PL/SQL,因此浪潮雲海大數據一體機可以支持複雜的數據倉庫類的分析應用,也使得原有資料庫系統遷移到Hadoop更為容易。

基於R的數據挖掘和機器學習

浪潮雲海大數據一體機包含了專業用於數據挖掘的R語言執行引擎,並且擴展了R語言,支持多種分布式數據挖掘算法,包括統計算法和機器學習算法;也支持在R中調用SQL語句,通過Spark訪問分布式內存數據。這些功能使得用戶可以真正的在全量數據上進行機器學習或數據挖掘,而再也不用使用採樣的方法,精準度得到很大提高。

數據處理性價比提升10倍

浪潮雲海大數據一體機支持混合存儲體系(內存/快閃記憶體/磁碟),分布式列存儲可以存放在速度較快的快閃記憶體SSD上或者更快的內存中。經過實際測試發現,大數據一體機中採用SSD替代大容量昂貴的內存作為緩存,性能沒有明顯的下降,因此可以用同樣的價格買到容量大10倍的SSD作為緩存,提供了極高的數據處理性價比。

浪潮雲海大數據一體機集成了計算單元、存儲單元、通訊單元、管理單元等核心模塊,能夠覆蓋數據的存儲、處理、展現等所有技術環節。正如浪潮集團高級副總裁王恩東所描述的那樣:「雲海大數據一體機正是順應時代要求推出的,採用新型體系架構的軟體一體化的產品。通過浪潮集團一體化的產品、服務,幫助用戶快速實現對大數據的應用與開發,同時我們也希望以此為起點,增強產業鏈的應用,共同挖掘並充分釋放中國大數據的潛能,將中國的大數據產業做大做強。」

相關焦點

  • 數據說話:大數據處理引擎Spark與Flink比拼
    【IT168 資訊】  下一代大數據計算引擎  自從數據處理需求超過了傳統資料庫能有效處理的數據量之後,Hadoop 等各種基於 MapReduce 的海量數據處理系統應運而生。
  • spark結構化數據處理:Spark SQL、DataFrame和Dataset
    本文主要講解Spark 1.6.x的結構化數據處理相關東東,但因Spark發展迅速(本文的寫作時值Spark 1.6.2發布之際,並且Spark 2.0的預覽版本也已發布許久),因此請隨時關注Spark SQL官方文檔以了解最新信息。文中使用Scala對Spark SQL進行講解,並且代碼大多都能在spark-shell中運行,關於這點請知曉。
  • 大數據分析工程師入門9-Spark SQL
    本文為《大數據分析師入門課程》系列的第9篇,在本系列的第8篇-Spark基礎中,已經對Spark做了一個入門介紹,在此基礎上本篇拎出Spark SQL,主要站在使用者的角度來進行講解,需要注意的是本文中的例子的代碼均使用Scala語言。
  • 【大數據嗶嗶集20210117】Spark面試題靈魂40問
    不一定,當數據規模小,Hash shuffle快於Sorted Shuffle數據規模大的時候;當數據量大,sorted Shuffle會比Hash shuffle快很多,因為數量大的有很多小文件,不均勻,甚至出現數據傾斜,消耗內存大,1.x之前spark使用hash,適合處理中小規模,1.x之後,增加了Sorted shuffle,Spark更能勝任大規模處理了。
  • Apache Spark大數據分析入門(一)
    Apache Spark的出現讓普通人也具備了大數據及實時數據分析能力。鑑於此,本文通過動手實戰操作演示帶領大家快速地入門學習Spark。本文是Apache Spark入門系列教程(共四部分)的第一部分。
  • 大數據入門:Spark RDD、DataFrame、DataSet
    尤其是在涉及到數據結構的部分,理解清楚這三者的共性與區別,非常有必要。今天的大數據入門分享,我們就主要來講講Spark RDD、DataFrame、DataSet。RDD、DataFrame、DataSet三者的共性RDD、DataFrame、Dataset全都是spark平臺下的分布式彈性數據集,為處理超大型數據提供便利。
  • 數據分析工程師面試集錦5——Spark面試指南
    Spark 同時支持Scala、Python、Java 、R四種應用程式API編程接口和編程方式, 考慮到大數據處理的特性,一般會優先使用Scala進行編程。2、Spark有什麼特點,處理大數據有什麼優勢?
  • 最簡大數據Spark-2.1.0
    在近些年Hadoop已經慢慢成為大數據事實標準的大環境下,能抱住Hadoop的大腿,使其快速火起來。畢竟對於已經上了Hadoop的公司,切到一個如果完全不同的生態,即使這個生態再好,考慮到成本問題,公司也會猶豫。但是Spark完全不存在這個顧慮。完整的技術棧。包括SQL查詢、流式計算、機器學習和圖算法組件在內的一攬子解決方案,讓你一個框架搞定所有,難以拒絕的誘惑。
  • 解決Spark數據傾斜(Data Skew)的N種姿勢
    為何要處理數據傾斜(Data Skew)什麼是數據傾斜對Spark/Hadoop這樣的大數據系統來講,數據量大並不可怕,可怕的是數據傾斜。何謂數據傾斜?數據傾斜指的是,並行處理的數據集中,某一部分(如Spark或Kafka的一個Partition)的數據顯著多於其它部分,從而使得該部分的處理速度成為整個數據集處理的瓶頸。
  • Spark 數據傾斜及其解決方案
    如果調整 Shuffle 時的並行度,使得原本被分配到同一 Task 的不同 Key 發配到不同 Task 上處理,則可降低原 Task 所需處理的數據量,從而緩解數據傾斜問題造成的短板效應。(1)操作流程RDD 操作 可在需要 Shuffle 的操作算子上直接設置並行度或者使用 spark.default.parallelism 設置。
  • 用Apache Spark進行大數據處理——第一部分:入門介紹
    在這個Apache Spark文章系列的第一部分中,我們將了解到什麼是Spark,它與典型的MapReduce解決方案的比較以及它如何為大數據處理提供了一套完整的工具。Hadoop和SparkHadoop這項大數據處理技術大概已有十年歷史,而且被看做是首選的大數據集合處理的解決方案。MapReduce是一路計算的優秀解決方案,不過對於需要多路計算和算法的用例來說,並非十分高效。
  • Spark實戰第二版(涵蓋Spark3.0)-第十章 通過結構化流接入數據
    關注公眾號:登峰大數據,閱讀Spark實戰第二版(完整中文版),系統學習Spark3.0大數據框架!
  • 黑馬程式設計師:技術筆記大數據面試題之spark相關(二)
    昨天分享了大數據面試題之spark相關一,看到有很大的反響,今天就分享接下來的二,希望能更好的幫助到大家!這樣的好處在於 combine/reduce() 可以處理大規模的數據,因為其輸入數據可以通過外排得到(mapper 對每段數據先做排序,reducer 的 shuffle 對排好序的每段數據做歸併)。目前的 Spark 默認選擇的是 hash-based,通常使用 HashMap 來對 shuffle 來的數據進行 aggregate,不會對數據進行提前排序。
  • 大數據機器學習庫spark mllib基礎及應用案例
    近日,飛馬網邀請業內資深大數據研發專家董西成為大家在線講解了大數據機器學習庫spark mllib基礎及應用案例。
  • 代碼 | Spark讀取mongoDB數據寫入Hive普通表和分區表
    ;import org.apache.spark.api.java.function.Function;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.SparkSession
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    本文作者來自阿里巴巴計算平臺部門,深度參與阿里巴巴大數據/數據中臺領域建設,將從歷史的角度對數據湖和數據倉庫的來龍去脈進行深入剖析,來闡述兩者融合演進的新方向——湖倉一體,並就基於阿里雲MaxCompute/EMR DataLake的湖倉一體方案做一介紹。
  • 大數據之謎Spark基礎篇,Spark運行架構原理詳解
    Worker,也是一個進程,主要是負責有,一是用自己的內存,存儲RDD的某些partition數據;另一個是啟動其他進程和線程,來對RDD上的partition進行運行的處理和計算Executor,也是一個進程,在一個Executor進程裡面會有多個task線程。
  • 智存智算有道 釋放數據價值 浪潮雲海Insight V6強勢來襲!
    近日浪潮雲海創新論壇2020(IIF2020)在山東濟南隆重舉行,為打造安全、穩定、高效的企業級大數據基礎軟體,會上浪潮推出最新升級的企業級大數據平臺軟體浪潮雲海Insight V6,旨在幫助用戶快速構建智能、高效、敏捷、安全的大數據處理平臺,為企業數位化
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!
  • 百度大數據三面題:shuffle過程+HBase+Spark優化+kmeans算法
    hadoop和spark的都是並行計算,那麼他們有什麼相同和區別呢?說一說Spark Streaming和Storm有何區別?kafka的數據存在內存還是磁碟Hive與關係型資料庫的關係?spark集群運算的模式簡單說一下hadoop的shuffle過程三面:(主要是算法原理)自我介紹說說你對大數據行業現狀的看法