大數據學習環境搭建系列(一)大數據集群平臺介紹

2021-01-08 CDA數據分析師

作者 | CDA數據分析師

掌握搭建大數據集群的方法是學習大數據技術的人需要具備的基礎技能,因此我會通過接下來的三十餘篇文章介紹大數據平臺的搭建方法。在本文中我將向小夥伴們介紹一下搭建大數據集群需要哪些知識以及我們接下來搭建的大數據集群平臺架構,讓大家對平臺有個總體的認識並普及一些概念。

首先我們接觸的是虛擬機,及在虛擬機中安裝Linux作業系統

集群搭建完成後我們總共會有四個虛擬機,其中偽分布集群有一臺虛擬機,虛擬機名稱為single_node。分布式集群有三個虛擬機 名稱分別為master、slave1、slave2。各個虛擬機的IP配置及安裝軟體(含軟體運行的模塊)如下表所示。

註:hostname:每個節點的主機名稱

IP:每個節點的IP位址

NN:NameNode

DN:DataNode

NM:NodeManager

RM:ResourceManager

SNN:SecondaryNameNode

/ :表示不安裝

分布式集群的架構如下圖所示

硬體

節點:我們後面會經常提到節點,分布式環境中一個伺服器就是一個節點,在我們搭建的集群中伺服器指的是通過VMware軟體虛擬出來的虛擬機。

作業系統:伺服器上運行的作業系統基本上都是Linux作業系統,當然虛擬機中安裝的也是Linux系統。

網絡:集群中的多個節點之間協同工作需要不斷交換數據及狀態、命令等信息,因此需要互通的網絡環境。我們的集群是通過虛擬機軟體虛擬出來的,網絡也是由虛擬機軟體虛擬出的虛擬網卡來實現數據交換的。

軟體

集群中的軟體主要有 hadoop、spark、hive、hbase、zookeeper這幾個。

Hadoop

雖然大數據集群平臺根據具體業務需求不同配置組成不同,但大部分集群都會以hadoop集群為基礎。例如大數據倉庫Hive及分布式資料庫Hbase的存儲都會用到hadoop集群的分布式文件系統HDFS,計算部分默認使用Hadoop原生的MapReduce計算框架。分布式計算框架spark可以使用hadoop內置的通用資源管理模塊yarn來提供統一的資源管理和調度。

hadoop大數據集群一般說來可以有單機模式、偽分布模式、分布式模式這三種模式。

分布式模式:是實際應用的一種模式,分布式集群由多個節點組成理論上集群中的節點越多,集群的性能也就越好。

單機模式:單機模式只在一個節點上運行,是一種默認的配置方式,無需進行其他配置即可運行,以單Java進程運行,方便進行調試,此時HDFS是不可用的。

偽分布式:此模式同樣也是在單節點上運行的,與單機模式不同的是程序是以不同的Java進程來運行的,節點即作為NameNode也作為DataNode,此時可以使用HDFS,是常用的開發測試模式。

Spark

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎,是目前比較流行的分布式計算框架。

Spark 主要有三個特點 :

首先,高級 API 剝離了對集群本身的關注,Spark 應用開發者可以專注於應用所要做的計算本身。其次由於是基於內存的計算框架等原因,Spark 很快,支持交互式計算和複雜算法。最後,Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等,而在 Spark 出現之前,我們一般需要學習各種各樣的引擎來分別處理這些需求。Hive

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

Zookeeper

ZooKeeper是一個分布式的,開放源碼的分布式應用程式協調服務,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟體,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。

Hbase

HBase是一個分布式的、面向列的開源資料庫,HBase在Hadoop之上提供了類似於Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關係資料庫,它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。

Sqoop

是一款開源的工具,主要用於在Hadoop(Hive)與傳統的資料庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關係型資料庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型資料庫中。

這是我們近期推出的「大數據學習環境搭建系列文章」的第一篇,接下來我們會更新並持續推出該系列的其餘文章,幫助有需求的朋友好好了解和掌握大數據學習平臺的搭建知識,大家一直關注我們吧。

更多精彩資訊和優質內容,可前往我們的CDA網站:專注教育16年品牌,CDA數據分析師——助力高薪就業,實現人生理想

也可以手機端隨時隨地瀏覽各類優質內容,還有免費體驗課程喲!

相關焦點

  • 大數據學習環境搭建系列(二)虛擬機軟體Vmware的安裝
    作者 | CDA數據分析師概述在進行分布式架構的學習前,首先需進行基礎環境準備。眾所周知,在單機運算能力無法滿足處理海量數據的運算能力時,人們普遍開始考慮使用分布式運算來代替單機運算,這也成為了大數據分析和小數據分析最顯著的區別之一,即使用的工具不同。
  • 大數據學習:大數據平臺架構的組成
    大數據平臺是什麼?有哪些組成?01、大數據平臺是指以處理海量數據存儲、計算及不間斷流數據實時計算等場景為主的一套基礎設施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。02典型大數據平臺架構由上到下,可分為三個部分:數據搜集、數據處理、數據輸出與展示。
  • 大數據平臺架構:數據平臺建設的幾種方案
    隨著大數據在越來越多的企業當中落地,企業要開展大數據相關的業務,那麼首先要搭建起自身的數據平臺。而企業搭建大數據平臺,往往需要結合成本、業務、人員等各方面的因素,來規劃數據平臺建設方案。今天我們就來聊聊數據平臺建設的幾種方案。
  • 「乾貨」蒼穹大數據云GIS平臺最全介紹
    今天,我們繼續分享一下蒼穹大數據云GIS平臺(KQGIS BDS)。KQGIS BDS融合雲計算、大數據和物聯網等新一代先進技術,採用分布式架構,提供高可靠、高性能、高並發的雲GIS服務,支持集群智能管理、資源彈性調度,實現海量地理空間數據的存儲、處理、分析和共享應用。
  • 大數據技術師資培訓班
    實驗:完成一個簡單的平臺實驗大數據課程體系介紹大數據課程體系在教學實施的研討大數據實踐教學環境的準備下午大數據技術棧大數據的商業需求和解決方案實驗:MapReduce實現Wordcount大數據技術的現狀和展望大數據課程整體解決方案實施大數據課程及實驗案例
  • 【BDTC 2015】大數據基礎設施分論壇:解讀大數據系統、平臺與基準...
    2015中國大數據技術大會第二天的大數據基礎設施分論壇中,來自阿里雲、Hulu、北京憶恆創源、阿里巴巴、企事錄以及中科院計算所的技術專家分享了大數據基礎設施從設計、搭建到平臺測試標準各個方面的技術關鍵點、實際問題和解決方法。
  • 課堂小數據+教學大數據:營造智慧學習環境
    當日,在福建省各地市教育局領導、中小學校長及學校代表、特邀嘉賓與合作夥伴的共同見證下,清大知好樂隆重發布了清大學堂雲平臺、大數據精準互動課堂、清大AI智能作業、教師專業發展平臺、名校培優衝刺計劃,以及清大悅讀系列的數字圖書借閱機、數字圖書閱讀器、智慧化線上閱讀平臺、智慧化數據展示平臺等多款智慧教育產品及解決方案。
  • 大數據開發、運維、數據分析分別是幹什麼的?哪個薪資最高?
    玩轉大數據首先要明確自己將要學習的方向,沒有人能一下子吃透大數據裡面所有的東西。 在大數據的世界裡面主要有三個學習方向,大數據開發師、大數據運維師、大數據架構師。 哪個好?
  • 大數據開發、運維、數據分析都是幹啥的?哪個專業掙得最多?
    玩轉大數據首先要明確自己將要學習的方向,沒有人能一下子吃透大數據裡面所有的東西。在大數據的世界裡面主要有三個學習方向,大數據開發師、大數據運維師、大數據架構師。哪個好?我不知道你所說的哪個好?什麼是大數據開發工程師大數據開發:也就是去網絡上找數據,各大平臺,用爬蟲去爬取,建庫。圍繞大數據系平臺系統級的研發人員,熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。
  • 10年大數據平臺經驗,總結出這份數據建設乾貨(內含學習資料)
    先來說說背景吧,搭建大數據平臺離不開BI。在大數據之前,BI就已經存在很久了,簡單把大數據等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。再來說說數據中臺吧,厚平臺,大中臺,小前臺,沒有基礎厚實笨重的大數據平臺,是不可能構建數據能力強大、功能強大的數據中臺的。沒有大數據中臺,要迅速搭建小快靈的小前臺也只是理想化的。
  • eBay的Connected Commerce大數據平臺實踐
    eBay目前的大數據平臺分為三層,數據整合層:負責數據獲取,處理及清洗等ETL工作,包括批處理及實時處理能力,包括相關的商業產品和開源產品;數據平臺層:主要由傳統數據倉庫(EDW),基於Teradata集群,總容量超過10PB;奇點(Singularity),存放半結構化及深層次結構化數據存儲,總容量超過36PB;以及Hadoop集群,總容量超過100PB;
  • 大數據的左膀右臂!
    發展成熟的虛擬化和有著廣闊前景的雲計算,將成為大數據價值實現的左膀右臂。面對海量數據的增長,傳統架構雖然能夠進行擴充,但它卻面臨著不能實現水平橫向擴展的局限性,傳統的IT架構和數據處理方式無法有效地應對大數據環境。數據的存儲、計算、管理、分析等節點都需要適應大數據需求的方案,同時也要滿足性能上的擴展。因此,基於數據中心的IT基礎設施,也必將從傳統的數據中心邁向雲數據中心轉型。
  • 乾貨 如何用Solr搭建大數據查詢平臺
    果斷Down了那個褲子,然後就一發不可收拾,走上了收藏褲子的不歸路,直到有一天,我發現收藏已經非常豐富了,粗略估計得好幾十億條數據,拍腦袋一想,這不能光收藏啊,我也搭個社工庫用吧……0x01 介紹社工庫怎麼搭呢,這種海量數據的東西,並不是簡單的用mysql建個庫,然後做個php查詢select * from sgk where username
  • 大數據學院|數據科學與大數據技術專業介紹
    一、 專業介紹數據科學與大數據技術專業是教育部為落實構建《促進大數據發展行動綱要》而批准設立的新工科專業,該專業是以大數據為研究對象,以從數據中獲取知識與智慧為主要目的,以統計學、計算機科學、可視化以及專業領域知識等為理論基礎,以數據採集、預處理、數據管理及數據計算等為研究內容的一門學科。
  • 國內首個大數據交易行業規範出臺|大數據|數據|交易|規範出臺_網易...
    本報北京6月19日訊 記者李俠報導 今天上午,中關村大數據交易產業聯盟專家顧問委員會成立暨中關村大數據金融服務平臺籤約儀式在京召開,會上發布了《中關村數海大數據交易平臺規則》(以下簡稱《規則
  • 機器學習實踐心得:數據平臺設計與搭建
    下文將基於本人所負責的個推大數據平臺搭建工作,與大家分享個推數據平臺架構方面的經驗以及踩過的一些坑。  一、背景:機器學習在個推業務中的應用場景  作為獨立的智能大數據服務商,個推主要業務包括開發者服務、精準營銷服務和各垂直領域的大數據服務。
  • 大數據架構師基礎:hadoop家族,Cloudera系列產品介紹
    hive類似CloudBase,基於hadoop分布式計算平臺上的提供data warehouse的sql功能的一套軟體。使得存儲在hadoop裡面的海量數據 的匯總,即席查詢簡單化。Pig:Apache Pig是一個用於大型數據集分析的平臺,它包含了一個用於數據分析應用的高級語言以及評估這些應用的基礎設施。
  • 北京科技大學大數據分析集群平臺中標公告
    北京國際工程諮詢有限公司受北京科技大學的委託,就「北京科技大學大數據分析集群平臺」項目(項目編號:BIECC-ZB8283)組織採購,評標工作已經結束,中標結果如下:  一、項目信息  項目編號:BIECC-ZB8283  項目名稱:北京科技大學大數據分析集群平臺  項目聯繫人:蘇海、王經理
  • 下多了247所大學開設大數據專業,該怎麼教學?
    本書系統地介紹了數據挖掘算法理論與方法、工具和應用,包括經典數據挖掘算法,大數據環境下常用數據挖掘算法的優化,大數據新常態下催生的數據分析方法(如推薦系統、連結分析與網頁排序、網際網路信息抽取、日誌挖掘與查詢分析)、工具與應用。  5.《深度學習》
  • 學習大數據分析要什麼基礎,零基礎入門ok嗎?
    由此也滋生了越來越多的人想進入大數據領域——或許你是即將畢業的大學生,基於自己的文科背景擔憂自己能否零基礎入門大數據行業,畢竟隔行如隔山,到時學不進去又誤了自己找工作的時間,也是左右皆空啊;或許你剛畢業一兩年,當初渾渾噩噩畢了業隨便找了個工作,現在終於覺得要好好規劃人生了,正迷茫於到底要不要學習大數據分析技術進入人才濟濟的大市場崗位,好為自己的未來職業生涯奠定基礎;或許你早已流轉職場多年,感覺身處瓶頸期的自己已無晉升或提升空間