大數據的發展歷史當中,Hadoop技術框架是佔據著重要地位的,歷經十多年的時間,依然是企業搭建大數據平臺基礎架構的主流選擇,圍繞著Hadoop而生的大數據生態組件,也都各自發揮著各自的作用。今天的Hadoop大數據培訓分享,我們來坐Hadoop技術生態做一個簡單的介紹。
Hadoop可以說是第一代大數據技術框架的主流選擇,很多早期開始搭建大數據系統平臺的企業,都是從Hadoop開始的,面對海量數據,Hadoop通過分布式集群,實現穩定的大數據儲存和大數據計算,這是Hadoop的核心。
分布式文件系統HDFS
HDFS是Hadoop體系中數據存儲管理的基礎。它是一個高度容錯的系統,能檢測和應對硬體故障,用於在低成本的通用硬體上運行。
分布式計算框架Mapreduce
MapReduce是一種分布式計算模型,用以進行大數據量的計算。它屏蔽了分布式計算框架細節,將計算抽象成map和reduce兩部分,非常適合在大量計算機組成的分布式並行環境裡進行數據處理。
分布式列存資料庫HBASE
HBase是一個建立在HDFS之上,面向列的針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態模式資料庫。
分布式協作服務Zookeeper
解決分布式環境下的數據管理問題,包括統一命名,狀態同步,集群管理,配置同步等。
數據倉庫HIVE
Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉化為MapReduce任務在Hadoop上執行。通常用於離線分析。
數據ETL/同步工具Sqoop
Sqoop是SQL-to-Hadoop的縮寫,主要用於傳統資料庫和Hadoop之前傳輸數據。數據的導入和導出本質上是Mapreduce程序,充分利用了MR的並行化和容錯性。
日誌收集工具Flume
Flume是一個可擴展、適合複雜環境的海量日誌收集系統。
分布式資源管理器Yarn
YARN主要是為了解決原始Hadoop擴展性較差,不支持多計算框架而提出的。作為通用的運行時框架,用戶可以編寫自己的計算框架,在該運行環境中運行。
關於Hadoop大數據培訓,Hadoop技術生態,以上就是簡單的介紹了。大數據發展迅速,大數據技術也在快速更新迭代,想入行發展,主流技術框架一定要掌握牢靠。