什麼是 Hadoop 生態系統

2021-01-05 開源中國
https://www.facebook.com/hadoopers 


在一些 Teiid 的一些文章和示例上都會有關於 JBoss Data Virtualization (Teiid) 通過 Hive 使用 Hadoop 作為數據源的信息。當使用 Hadoop 環境創建 Data Virtualization 示例時,比如 Hortonworks Data Platform, Cloudera Quickstart 等等,裡面會包含大量的開源項目。本篇文章主要是對 Hadoop 生態系統有個初步的認識,以下的一些開源項目詳情可以查看 hadoop ecosystem table。

Map Reduce -MapReduce 是使用集群的並行,分布式算法處理大數據集的可編程模型。Apache MapReduce 是從 Google MapReduce 派生而來的:在大型集群中簡化數據處理。當前的 Apache MapReduce 版本基於 Apache YARN 框架構建。YARN = 「Yet-Another-Resource-Negotiator」。YARN 可以運行非 MapReduce 模型的應用。YARN 是 Apache Hadoop 想要超越 MapReduce 數據處理能力的一種嘗試。

HDFS - The Hadoop Distributed File System (HDFS) 提供跨多個機器存儲大型文件的一種解決方案。Hadoop 和 HDFS 都是從 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前,NameNode 是 HDFS 集群的一個單點故障 (SPOF) 。利用 Zookeeper,HDFS 高可用性特性解決了這個問題,提供選項來運行兩個重複的 NameNodes,在同一個集群中,同一個 Active/Passive 配置。

HBase - 靈感來源於 Google BigTable。HBase 是 Google Bigtable 的開源實現,類似 Google Bigtable 利用 GFS 作為其文件存儲系統,HBase 利用 Hadoop HDFS 作為其文件存儲系統;Google 運行 MapReduce 來處理 Bigtable 中的海量數據,HBase 同樣利用 Hadoop MapReduce 來處理 HBase 中的海量數據;Google Bigtable 利用 Chubby 作為協同服務,HBase 利用 Zookeeper 作為對應。

Hive - Facebook 開發的數據倉庫基礎設施。數據匯總,查詢和分析。Hive 提供類似 SQL 的語言 (不兼容 SQL92):HiveQL。

Pig - Pig 提供一個引擎在 Hadoop 並行執行數據流。Pig 包含一個語言:Pig Latin,用來表達這些數據流。Pig Latin 包括大量的傳統數據操作 (join, sort, filter, etc.),也可以讓用戶開發他們自己的函數,用來查看,處理和編寫數據。Pig 在 hadoop 上運行,在 Hadoop 分布式文件系統,HDFS 和 Hadoop 處理系統,MapReduce 中都有使用。Pig 使用 MapReduce 來執行所有的數據處理,編譯 Pig Latin 腳本,用戶可以編寫到一個系列,一個或者多個的 MapReduce 作業,然後執行。Pig Latin 看起來跟大多數程式語言都不一樣,沒有 if 狀態和 for 循環。

Zookeeper - ZooKeeper 是 Hadoop 的正式子項目,它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper 的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。Zookeeper 是 Google 的 Chubby 一個開源的實現.是高有效和可靠的協同工作系統。Zookeeper 能夠用來 leader 選舉,配置信息維護等.在一個分布式的環境中,我們需要一個 Master 實例或存儲一些配置信息,確保文件寫入的一致性等。

Mahout - 基於 MapReduce 的機器學習庫和數學庫。

同時,你可以訪問 Big Data Insights Page,學習更多關於 Hadoop 生態系統的 Red Hat 產品。

via ossmentor.com

相關焦點

  • Hadoop工具生態系統指南 | 網際網路數據資訊網-199IT | 中文網際網路...
    Hadoop工具生態系統生長迅速,以下是IT經理網整理的最新Hadoop工具資源,供IT經理日常參考,歡迎讀者來信或留言補充。 HadoopApache hadoop項目負責開發可靠的、可擴展的分布式計算開源軟體。網址:hadoop.apache.org HDFS分布式文件系統提供高速的應用數據訪問。
  • hadoop是什麼:分布式系統基礎架構
    hadoop是什麼?hadoop能有哪些應用?hadoop和大數據是什麼關係?下面我們將圍繞這幾個問題詳細闡述。hadoop是什麼?例如,如果您要 grep 一個 10TB 的巨型文件,會出現什麼情況?在傳統的系統上,這將需要很長的時間。但是 Hadoop 在設計時就考慮到這些問題,採用並行執行機制,因此能大大提高效率。發展歷程Hadoop原本來自於谷歌一款名為MapReduce的編程模型包。
  • Hadoop
    要想了解Hadoop,就必須知道HDFS和MapReduce是什麼。),它是一個高度容錯性的系統,適合部署在廉價的機器上。#顯示/下的所有文件夾信息hadoop fs -ls /#遞歸顯示所有文件夾和子文件(夾)hadoop fs -lsr#創建/user/hadoop目錄hadoop fs -mkdir /user/hadoop#把a.txt放到集群/user/hadoop/文件夾下hadoop fs -put a.txt /user/hadoop/#把集群上的/user/
  • hadoop基礎知識介紹_hadoop是什麼語言開發的_hadoop能做什麼
    一、hadoop是什麼? (1)Hadoop是一個開發和運行處理大規模數據的軟體平臺,可編寫和運行分布式應用處理大規模數據,是Appach的一個用java語言實現開源軟體框架,實現在大量計算機組成的集群中對海量數據進行分布式計算(或專為離線和大規模數據分析而設計的)並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
  • Hadoop大數據生態系統及常用組件簡介(3)
    Hadoop的生態系統很大,上面這些組件圖標,你熟悉其中哪些呢?Flink 與 Hadoop 軟體棧是什麼關係?Flink 獨立於Apache Hadoop,且能在沒有任何 Hadoop 依賴的情況下運行。
  • RedHat 開源其 Hadoop 存儲系統
    作為大數據+混合雲業務戰略的一部分,Red Hat沒有選擇推出自己的hadoop商業版本或者收購一家Hadoop發行廠商,而是推出了首個Hadoop HDFS文件存儲系統的開源替代產品。RedHat Storage hadoop插件基於Gluster文件系統——Red Hat於2011年以1.36億美元收購了Gluster,目前已經將Gluster的技術整合到了Red hat的存儲伺服器產品(RHSS)中。Red hat計劃在今年某個時候將該插件發布到Apache軟體基金會。
  • 大數據掃盲——什麼是Hadoop
    hadoop起源——分布式文件系統(GFS),可用於處理海量網頁的存儲——分布式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。——分布式的結構化數據存儲系統Bigtable,用來處理海量結構化數據到啟發的Doug Cutting基於這三篇論文利用自己兩年的業餘時間,完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目(同年,
  • Hadoop知識整理
    Hadoop是什麼1)Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。2)主要解決,海量數據的存儲和海量數據分析計算的問題。執行步驟(1)配置集群(a)配置:hadoop-env.shLinux系統中獲取JDK的安裝路徑:echo $JAVA_HOME/opt/module/jdk1.8.0_144修改hadoop-env.sh中的JAVA_HOME 路徑:export JAVA_HOME
  • 騰訊主導Apache Hadoop新版本發布
    近幾年來熱度不減的大數據,就是由開源的軟體來驅動整個產業生態的。這裡就不得不提到一個裡程碑式的開源產品——hadoop:從谷歌的三篇論文,到雅虎的hadoop,開啟了如今的大數據時代。過去的系統軟體主要是由閉源軟體來驅動的。雖然像作業系統湧現出Linux這樣優秀的軟體,但後面的資料庫和應用伺服器,仍然幾乎都是從閉源產品去驅動的。
  • Hadoop安裝部署
    缺點是版本管理比較混亂,各種版本層出不窮,很難選擇,選擇生態組件時需要大量考慮兼容性問題、版本匹配問題、組件衝突問題、編譯問題等。集群的部署安裝配置複雜,需要編寫大量配置文件,分發到每臺節點,容易出錯,效率低。集群運維複雜,需要安裝第三方軟體輔助。CDH是第三方公司Cloudera公司基於社區版本的基礎上做了一些優化和改進,穩定性更強一些。
  • Hadoop初學者生態系統概述
    什麼是Hadoop?這是指可擴展性,這是Hadoop系統的重要功能之一。Hadoop生態系統概述其中包括:Apache Pig (Pig是Hadoop生態系統的一種ETL):它是一種高級腳本語言,用於為Hadoop集群中的大型數據集編寫數據分析程序。Pig使開發人員能夠生成查詢執行例程,以分析大型數據集。
  • HADOOP快速入門
    一 什麼是HADOOPHADOOP是apache旗下的一套開源軟體平臺HADOOP提供的功能:利用伺服器集群,根據用戶的自定義業務邏輯-chgrp-chmod-chown功能:linux文件系統中的用法一樣,對文件所屬權限示例:hadoop fs -chmod 666 /hello.txt
  • Hadoop 多節點集群
    由於整個集群無法演示,我們將使用三個系統(一個主節點和兩個從節點)解釋Hadoop集群環境;下面給出他們的IP位址。首先,您應該使用「java -version」驗證系統中是否存在java。java版本命令的語法如下。$ java -version如果一切正常,它會給你以下輸出。
  • hadoop偽分布式環境搭建篇:linux系統安裝教程
    本篇文章是接上一篇《超詳細hadoop虛擬機安裝教程(附圖文步驟)》,上一篇有人問怎麼沒寫hadoop安裝。在文章開頭就已經說明了,hadoop安裝會在後面寫到,因為整個系列的文章涉及到每一步的截圖,導致文章整體很長。
  • 在Ubuntu上裝Hadoop
    /core/releases.html 下載最近發布的版本 最好為hadoop創建一個用戶: 比如創建一個group為hadoop user為hadoop的用戶以及組  $ sudo addgroup hadoop $ sudo adduser --ingroup
  • Hadoop HDFS詳細操作
    一:HDFS架構圖HDFS(Hadoop Distributed File System,Hadoop分布式文件系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。因此Hadoop建議存儲大文件數據會定時保存到本地磁碟,但不保存block的位置信息,而是由DataNode註冊時上報和運行時維護(NameNode中與DataNode相關的信息並不保存到NameNode的文件系統中,而是NameNode每次重啟後,動態重建)NameNode失效則整個HDFS都失效了,所以要保證NameNode的可用性
  • Hadoop Streaming
    Hadoop生態有非常多的工具可以用於大數據的管理和數據處理例如在hadoop環境下的命令行可以執行:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /bin/wc
  • Hadoop生態圈
    本章講一下關於大數據技術hadoop,直接步入正題,在了解hadoop之前,先來說一下什麼是大數據?一.大數據1.概述:是指無法在一定時間範圍內無法用常規軟體工具進行捕捉、管理和處理的數據集合,需要使用新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。主要解決海量數據的存儲和分析計算問題。
  • 自學Hadoop,推薦指數最高的12本專業書籍
    第8章~第14章介紹Hadoop生態系統,包括支持MapReduce程序的單元測試和集成測試框架、Hadoop系統的監控和日誌系統、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日誌流處理、HBase等。第15章~第17章介紹了數據科學基本概念及應用、雲計算實例、分布式下載服務實例等。
  • Win10系統下Hadoop和Hive開發環境搭建填坑指南
    前提筆者目前需要搭建數據平臺,發現了Windows系統下,Hadoop和Hive等組件的安裝和運行存在大量的坑,而本著有坑必填的目標,筆者還是花了幾個晚上的下班時候在多個網際網路參考資料的幫助下完成了Windows10系統下Hadoop和Hive開發環境的搭建。