ZD至頂網伺服器頻道 09月08日 :說起Spark,熟悉大數據架構的人一定不會陌生,它已是繼Hadoop之後最活躍的開源項目之一。作為發源於美國加州大學伯克利分校AMPLab的集群計算平臺,Spark立足於內存計算,並以多迭代批量處理出發,兼收並蓄數據倉庫、流處理和圖計算等多種計算形式得到了行業的肯定。作為國內IT行業領軍廠商,浪潮早在2012年就推出了採用Hadoop+Spark架構的大數據一體機,如今這款產品已經應用於金融、電信、公安、交通、衛生等各個行業領域,成為用戶大數據分析處理平臺的理想之選。
Hadoop+Spark的數據架構模式
據了解,雲海大數據一體機就是採用了業內主流的Hadoop+Spark的架構形式,搭建了國內外領先的大數據分析平臺CloudCanyon,通過Spark計算框架消除了傳統Map/Reduce計算框架的弊病,實現了高效的內存計算。Hadoop經過多年的發展,大家對其性能已經是耳熟能詳;但是對於Spark,許許多人還覺得有些陌生。
其實在架構上Spark的優勢更為明顯——Spark是一個靈活的計算框架,適合做批處理、工作流、交互式分析、迭代式機器學習、流處理等不同類型的應用,因此Spark可以成為一個用途廣泛的計算引擎,並在未來取代Map/Reduce的地位。與此同時,Spark還可以與Hadoop生態系統的很多組件互操作,可以運作在新一代資源管理框架YARN上,它還可以讀取已有的存放在Hadoop上的數據,這是個非常大的優勢。
經過複雜的系統調優和的改進,浪潮雲海大數據一體機具有高性能、穩定性好、功能豐富、易管理等特徵,採用不同的數據處理的架構來提供對不同行業應用的支撐。通過新型的數據處理架構,實現了計算隨數據分布的數據本地化,保證了業務的連續性,即使三到四千個計算單元重載節點情況下,還能夠實現相對比較好的擴展性。
浪潮雲海大數據一體機的性能優勢
Spark優化後性能可比原生快數倍
從技術角度來說,浪潮雲海大數據一體機支持高性能Apache Spark作為預設執行引擎,可比原生的Hadoop Map/Reduce快;其次,通過建立獨立與Spark的分布式列存緩存層,可以有效防止GC的影響,消除Spark的性能波動,同時在列式緩存上實現索引機制,進一步提高了執行性能;再次,在SQL執行計劃優化方面,實現了基於代價的優化器(Cost based optimizer)以及多種優化策略,性能可比原生Spark快數倍;最後通過全新的方法解決數據傾斜或者數據量過大的問題,使得處理超大數據量時也遊刃有餘。
3大語法實現SQL支持
浪潮雲海大數據一體機支持SQL 99語法及PL/SQL過程語言擴展,並且可以自動識別HiveQL、SQL99和PL/SQL語法,在保持跟Hive兼容的同時提供更強大的SQL支持。由於現有的數據倉庫大都基於SQL99,而且國內客戶大量使用PL/SQL,因此浪潮雲海大數據一體機可以支持複雜的數據倉庫類的分析應用,也使得原有資料庫系統遷移到Hadoop更為容易。
基於R的數據挖掘和機器學習
浪潮雲海大數據一體機包含了專業用於數據挖掘的R語言執行引擎,並且擴展了R語言,支持多種分布式數據挖掘算法,包括統計算法和機器學習算法;也支持在R中調用SQL語句,通過Spark訪問分布式內存數據。這些功能使得用戶可以真正的在全量數據上進行機器學習或數據挖掘,而再也不用使用採樣的方法,精準度得到很大提高。
數據處理性價比提升10倍
浪潮雲海大數據一體機支持混合存儲體系(內存/快閃記憶體/磁碟),分布式列存儲可以存放在速度較快的快閃記憶體SSD上或者更快的內存中。經過實際測試發現,大數據一體機中採用SSD替代大容量昂貴的內存作為緩存,性能沒有明顯的下降,因此可以用同樣的價格買到容量大10倍的SSD作為緩存,提供了極高的數據處理性價比。
浪潮雲海大數據一體機集成了計算單元、存儲單元、通訊單元、管理單元等核心模塊,能夠覆蓋數據的存儲、處理、展現等所有技術環節。正如浪潮集團高級副總裁王恩東所描述的那樣:「雲海大數據一體機正是順應時代要求推出的,採用新型體系架構的軟體一體化的產品。通過浪潮集團一體化的產品、服務,幫助用戶快速實現對大數據的應用與開發,同時我們也希望以此為起點,增強產業鏈的應用,共同挖掘並充分釋放中國大數據的潛能,將中國的大數據產業做大做強。」