最全的大數據技術大合集:Hadoop家族、Transwarp系列、Cloudera系列、spark、storm...該有的都有了

2021-02-17 Hadoop大數據應用

點擊上方「藍色字體」 可快捷關注。


大數據我們都知道hadoop,可是還會各種各樣的技術進入我們的視野:Spark,Storm,impala,讓我們都反映不過來。為了能夠更好 的架構大數據項目,這裡整理一下,供技術人員,項目經理,架構師選擇合適的技術,了解大數據各種技術之間的關係,選擇合適的語言。

我們可以帶著下面問題來閱讀本文章:
1.hadoop都包含什麼技術?
2.星環科技與hadoop的關係是什麼,都有什麼產品,產品有什麼特性?

3.Cloudera公司與hadoop的關係是什麼,都有什麼產品,產品有什麼特性?

4.Spark與hadoop的關聯是什麼?
5.Storm與hadoop的關聯是什麼?

hadoop家族

創始人:Doug Cutting

整個Hadoop家族由以下幾個子項目組成:


Hadoop Common:

Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各 種工具,如:配置文件和日誌操作等。


HDFS:

是Hadoop應用程式中主要的分布式儲存系統, HDFS集群包含了一個NameNode(主節點),這個節點負責管理所有文件系統的元數據及存儲了真實數據的DataNode(數據節點,可以有很 多)。HDFS針對海量數據所設計,所以相比傳統文件系統在大批量小文件上的優化,HDFS優化的則是對小批量大型文件的訪問和存儲。


MapReduce:

是一個軟體框架,用以輕鬆編寫處理海量(TB級)數據的並行應用程式,以可靠和容錯的方式連接大型集群中上萬個節點(商用硬體)。


Hive:

Apache Hive是Hadoop的一個數據倉庫系統,促進了數據的綜述(將結構化的數據文件映射為一張資料庫表)、即席查詢以及存儲在Hadoop兼容系統中的大 型數據集分析。Hive提供完整的SQL查詢功能——HiveQL語言,同時當使用這個語言表達一個邏輯變得低效和繁瑣時,HiveQL還允許傳統的 Map/Reduce程式設計師使用自己定製的Mapper和Reducer。hive類似CloudBase,基於hadoop分布式計算平臺上的提供 data warehouse的sql功能的一套軟體。使得存儲在hadoop裡面的海量數據 的匯總,即席查詢簡單化。


Pig:

Apache Pig是一個用於大型數據集分析的平臺,它包含了一個用於數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在於它們的結構經得起 大量的並行,也就是說讓它們支撐起非常大的數據集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器。Pig的語言層當前包含了一個原生語 言——Pig Latin,開發的初衷是易於編程和保證可擴展性。

Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,並且用戶可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。


HBase:

Apache HBase是Hadoop資料庫,一個分布式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問,並針對了商用伺服器集群上的大型表格做出 優化——上百億行,上千萬列。其核心是Google Bigtable論文的開源實現,分布式列式存儲。就像Bigtable利用GFS(Google File System)提供的分布式數據存儲一樣,它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。


ZooKeeper:

Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服 務、 分布式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。


Avro:

Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。avro用來做以後hadoop的RPC,使hadoop的RPC模塊通信速度更快、數據結構更緊湊。


Sqoop:

Sqoop是一個用來將Hadoop和關係型資料庫中的數據相互轉移的工具,可以將一個關係型資料庫中數據導入Hadoop的HDFS中,也可以將HDFS中數據導入關係型資料庫中。


Mahout:

Apache Mahout是個可擴展的機器學習和數據挖掘庫,當前Mahout支持主要的4個用例:

推薦挖掘:搜集用戶動作並以此給用戶推薦可能喜歡的事物。

聚集:收集文件並進行相關文件分組。

分類:從現有的分類文檔中學習,尋找文檔中的相似特徵,並為無標籤的文檔進行正確的歸類。

頻繁項集挖掘:將一組項分組,並識別哪些個別項會經常一起出現。


Cassandra:

Apache Cassandra是一個高性能、可線性擴展、高有效性資料庫,可以運行在商用硬體或雲基礎設施上打造完美的任務關鍵性數據平臺。在橫跨數據中心的複製 中,Cassandra同類最佳,為用戶提供更低的延時以及更可靠的災難備份。通過log-structured update、反規範化和物化視圖的強支持以及強大的內置緩存,Cassandra的數據模型提供了方便的二級索引(column indexe)。


Chukwa:

Apache Chukwa是個開源的數據收集系統,用以監視大型分布系統。建立於HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和穩定性。 Chukwa同樣包含了一個靈活和強大的工具包,用以顯示、監視和分析結果,以保證數據的使用達到最佳效果。


Ambari:

Apache Ambari是一個基於web的工具,用於配置、管理和監視Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀 況儀錶盤,比如heatmaps和查看MapReduce、Pig、Hive應用程式的能力,以友好的用戶界面對它們的性能特性進行診斷。


HCatalog

Apache HCatalog是Hadoop建立數據的映射表和存儲管理服務,它包括:

為類似Pig、MapReduce及Hive這些數據處理工具提供互操作性。


Chukwa:

Chukwa是基於Hadoop的大集群監控系統,由yahoo貢獻。

Transwarp系列產品:

創始組織:星環科技

1.Transwarp Data Hub(TDH):企業級一站式大數據綜合平臺

有六大優勢

(1)無限水平擴展

(2)統一數據處理平臺

(3)高速數據分析

(4)靈活數據處理

(5)實時流計算

(6)超高性價比

2.Transwarp Hadoop


Transwarp Hadoop 提供基礎的分布式文件系統作為存儲引擎,YARN作為資源管理框架,組合了一系列Apache項目,為用戶提供了數據的採集、存儲、數據同步、批處理、工作流分析以及全文搜索功能,是TDH不可或缺的基石。星環科技改進了Apache YARN資源管理框架,可以在同一個HDFS數據集上動態創建Inceptor交互式分析集群、Map/Reduce批處理集群以及實時流處理集群,提供多部門間資源配額管理、動態資源調配、資源共享的能力,為企業建立一站式數據平臺提供有力支持。

3.Transwarp Inceptor


Transwarp Inceptor交互式分析引擎提供高速SQL分析和R語言數據挖掘能力,可幫助企業建立高速可擴展的數據倉庫和/或數據集市,結合多種報表工具提供交互式數據分析、即時報表和可視化能力。Inceptor提供完整的ANSISQL支持以及PL/SQL過程語言擴展,可以支持複雜的數據倉庫類分析應用,也使得從原有資料庫系統遷移到Hadoop更為容易。

4.Transwarp Hyperbase

Transwarp Hyperbase實時資料庫是建立在ApacheHBase基礎之上,融合了多種索引技術、分布式事務處理、全文實時搜索、圖形資料庫在內的實時NoSQL資料庫。Hyperbase可以高效地支持企業的在線OLTP應用、高並發OLAP應用、批處理應用、全文搜索或高並發圖形資料庫檢索應用,結合Inceptor高速SQL引擎,是企業創建可擴展在線運營資料庫(Operational Database)或者實時分析型資料庫(ODS - Operational Data Store)的最佳選擇。


5.Transwarp Stream

Transwarp Stream實時流處理引擎提供了強大的流計算表達能力,支持複雜的應用邏輯,生產系統的消息通過實時消息隊列進入計算集群,在集群內以流水線方式被依次處理,完成數據轉換、特徵提取、策略檢查、分析告警等複雜服務計算,最終輸出到Hyperbase等存儲集群,實時生成告警頁面、實時展示頁面等。系統具備強擴展性、強容錯、低延遲、高吞吐等特點,成熟應用於實時數據(如傳感器數據)的實時告警、風險控制、在線統計和挖掘等業務。

Cloudera系列產品:

創始組織:Cloudera公司


1.Cloudera Manager:

有四大功能


2.Cloudera CDH:英文名稱:CDH (Cloudera’s Distribution, including Apache Hadoop)

Cloudera公司的發行版,我們將該版本稱為CDH(Cloudera Distribution Hadoop)。


3.Cloudera Flume

Flume是Cloudera提供的日誌收集系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據。

4.Cloudera Impala

Cloudera Impala對你存儲在Apache Hadoop在HDFS,HBase的數據提供直接查詢互動的SQL。


5.Cloudera hue

Hue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供所有的cdh組件的shell界面的接口。

Spark

創始組織:加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分布式數據集。

儘管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統中並行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程式。

Storm

創始人:Twitter

Twitter將Storm正式開源了,這是一個分布式的、容錯的實時計算系統,它被託管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統,BackType現在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure寫的。

掃描下方「二維碼」歡迎關注。

相關焦點

  • 大數據架構師基礎:hadoop家族,Cloudera系列產品介紹
    大數據我們都知道hadoop,可是還會各種各樣的技術進入我們的視野:Spark,Storm,impala,讓我們都反映不過來。
  • 大數據學習環境搭建系列(一)大數據集群平臺介紹
    作者 | CDA數據分析師掌握搭建大數據集群的方法是學習大數據技術的人需要具備的基礎技能,因此我會通過接下來的三十餘篇文章介紹大數據平臺的搭建方法。在本文中我將向小夥伴們介紹一下搭建大數據集群需要哪些知識以及我們接下來搭建的大數據集群平臺架構,讓大家對平臺有個總體的認識並普及一些概念。
  • hadoop與數據挖掘的關係_區別_哪個好
    項目說明:hadoop_storm_spark結合實驗的例子,模擬雙11,根據訂單詳細信息,匯總出總銷售量,各個地區銷售排行,以及後期的SQL分析,數據分析,數據挖掘等。 - 第二階段(離線報表) - (1)用戶訂單入oracle資料庫, - (2)通過sqoop把數據導入hadoop上。 - (3)使用mr和rdd對hadoop上的原始訂單做etl清洗 - (4)建立hive表和sparkSQL內存表。
  • Hadoop大數據面試題全版本
    以下資料來源於網際網路,很多都是面試者們去面試的時候遇到的問題,我對其中有的問題做了稍許的修改了回答了部分空白的問題,其中裡面有些考題出的的確不是很好,但是也不乏有很好的題目,這些都是基於真實的面試來的,希望對即將去面試或向繼續學習hadoop,大數據等的朋友有幫助!
  • Spark-2.0.2源碼編譯
    Spark官網下載地址:http://spark.apache.org/downloads.html有兩種一種是編譯好的 一種是沒編譯的(需要自己編譯) 看自己的選擇Maven 3.3.9+jdk7以上scala 2.11+注意:在配置java之前,需要檢查以下Linux是否有自帶jdk,如果有的話,先刪除,然後再解壓jdk進行配置用以下命令去檢查rpm
  • 黑馬程式設計師:技術筆記大數據面試題之spark相關(二)
    昨天分享了大數據面試題之spark相關一,看到有很大的反響,今天就分享接下來的二,希望能更好的幫助到大家!12.Mapreduce和Spark的都是並行計算,那麼他們有什麼相同和區別答:兩者都是用mr模型來進行並行計算:1)hadoop的一個作業稱為job,job裡面分為map task和reduce task,每個task都是在自己的進程中運行的,當task結束時,進程也會結束
  • 百度大數據三面題:shuffle過程+HBase+Spark優化+kmeans算法
    一面:(比較簡單都是些常見的問題)自我介紹和項目簡單說一下hadoop的map-reduce編程模型吧!map-reduce程序運行的時候會有什麼比較常見的問題,你簡單描述一下hadoop的TextInputFormat作用是什麼,如何自定義實現?hadoop和spark的都是並行計算,那麼他們有什麼相同和區別呢?
  • hadoop教程全套教學視頻高清完整
    大數據視頻教程 大數據Hadoop Spark教程 最新大數據視頻課Hadoop大數據視頻教程項目推薦算法Spark Hive HBase Flume Kafkahadoop入門教程全套教學視頻高清完整大數據開發2020入門到精通Hadoop挖掘hbase機器學習Spark視頻教程大數據Hadoop全棧生態圈入門視頻Hive
  • Apache Spark大數據分析入門(一)
    Apache Spark的出現讓普通人也具備了大數據及實時數據分析能力。鑑於此,本文通過動手實戰操作演示帶領大家快速地入門學習Spark。本文是Apache Spark入門系列教程(共四部分)的第一部分。
  • 助力零基礎學員掌握大數據技術,潭州教育開設實用大數據課程
    隨著國家將大數據戰略提升到國家戰略高度,將大數據視為經濟發展和轉型的重要科技依據。大數據相關人才出現了供不應求的狀況,大數據分析師更是被媒體稱為「未來發展前景良好的職業之一」。針對這種現象,潭州教育開設大數據課程,打造網際網路行業需求人才,幫助零基礎或者想深入學習的人,更快更好的學習大數據,掌握專業技能,提高自身薪酬。
  • 大數據(Hadoop、Spark、NoSQL)的技術與實踐
    相對於其它專注於培訓大數據技術的課程,本課程有如下特點:1、除了對各種大數據技術本身的原理、設計與使用方法進行全面深入的講解以外,更重要的是對各種技術的本質與特點進行了深入的分析、比較與討論,從而使學員對各種技術的真正適用場景能客觀準確的判斷;2、結合企業實際對大數據的概念進行了明確的澄清;3、結合企業應用實際,介紹了各種大數據技術具體定位與應用規劃與方法
  • Spark【面試】
    和spark的都是並行計算,那麼他們有什麼相同和區別兩者都是用mr模型來進行並行計算,hadoop的一個作業稱為job,job裡面分為map task和reduce task,每個task都是在自己的進程中運行的,當task結束時,進程也會結束spark用戶提交的任務成為application,一個application
  • 學習大數據這門技術所需要的是什麼?
    但是因為數據的門檻較高,對於學習人員有一定的要求,那麼學習大數據需要什麼基礎知識呢首先我們了解下對於大數據學習者本身的學歷水平的要求。目前大多數的機構,對於大數據學習者要求必須是大專學歷以上,而且大專學歷還要求是理工科相關專業的,如果是本科及本科以上的,則對專業要求適當的放寬。
  • 史上最詳細、最全面的Hadoop環境搭建
    [hadoop@bigdata-senior01 modules]$ cat /opt/data/wc.inputhadoop mapreduce hivehbase spark stormsqoop hadoop hivespark hadoop[hadoop@bigdata-senior01 hadoopstandalone
  • Apache Beam實戰指南 | 手把手教你玩轉大數據存儲HdfsIO
    關於 Apache Beam 實戰指南系列文章隨著大數據 2.0 時代悄然到來,大數據從簡單的批處理擴展到了實時處理、流處理、交互式查詢和機器學習應用。近年來湧現出諸多大數據應用組件,如 HBase、Hive、Kafka、Spark、Flink 等。
  • 利用flume+kafka+storm+mysql構建大數據實時系統
    【數盟致力於成為最卓越的數據科學社區,聚焦於大數據、分析挖掘、數據可視化領域,業務範圍:線下活動、在線課程、獵頭服務】
  • 【大數據嗶嗶集20210117】Spark面試題靈魂40問
    3)容錯機制Linage,精華部分就是DAG和Lingae簡單說一下hadoop和spark的shuffle相同和差異?1)從 high-level 的角度來看,兩者並沒有大的差別。不一定,當數據規模小,Hash shuffle快於Sorted Shuffle數據規模大的時候;當數據量大,sorted Shuffle會比Hash shuffle快很多,因為數量大的有很多小文件,不均勻,甚至出現數據傾斜,消耗內存大,1.x之前spark使用hash,適合處理中小規模,1.x之後,增加了Sorted shuffle,Spark更能勝任大規模處理了。
  • Hadoop和Spark的區別是什麼?現在都流行用哪種技術?
    談到大數據,相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而,最近業界有一些人正在大張旗鼓的宣揚Hadoop將死,Spark將立。他們究竟是危言聳聽?譁眾取寵?還是眼光獨到堪破未來呢?與Hadoop相比,Spark技術如何?現工業界大數據技術都在使用何種技術?如果現在想要參加大數據培訓的話,應該從哪一種開始呢?
  • Spark入門介紹
    Spark是一種基於內存的快速,通用,可擴展的大數據計算引擎框架。四 、Spark及相應環境安裝4.1 Mac:下載安裝jdk1.8並配置環境變量,下載scala的壓縮包後解壓(我使用的是scala-2.11.12),;以及spark-2.3.1-bin-hadoop2.7壓縮包解壓。
  • 大數據入門自學還是培訓?附全國培訓機構特點分析!
    002 教大數據的人都有什麼派系?目前市面上大數據培訓機構很多,有專門做大數據的,也有老牌機構新開的大數據課程,有線上也有線下。各個細分的分支都挺齊全。因為大數據發展是最近幾年,這些機構往往已經建立了10年以上,他們有良好的線下培訓機制,一般專業也比較細分,有一定的企業就業能力。你相當於重新上一個大學,小白派們!價格當然是最高的。【達人派】這個派系的老師很有特點,他們有的是企業達人,有的已經是專職講師,有的已經有一個小的機構,一般都很專業很專業,他們只講透一個專業的技能。