Hadoop生態圈

2020-12-23 紙鶴視界

本章講一下關於大數據技術hadoop,直接步入正題,在了解hadoop之前,先來說一下什麼是大數據?

一.大數據

1.概述:是指無法在一定時間範圍內無法用常規軟體工具進行捕捉、管理和處理的數據集合,需要使用新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。主要解決海量數據的存儲和分析計算問題。

2.特點(5V)

*Volume(大量):數據存儲量;

*Velocity(高速):大數據區分於傳統數據挖掘的最顯著特徵;

*Variety(多樣):數據分為結構化數據和非結構化數據;

*value(低價值密度):低價值密度的高低與數據總量成反比;

*Veracity(真實性)。

3.應用場景:人工智慧、保險的海量數據挖掘及風險預測、物流倉儲、金融多維度體現用戶特徵......

4.大數據部門組織結構:

二.Hadoop

1.概述:一個用於分布式大數據處理的開源框架,由Apache基金會所開發的分布式系統基礎框架,允許使用簡單的編程模型在跨計算機集群的分布式環境中存儲和處理大數據。同常是指一個更廣泛的概念-Hadoop生態圈。

2.Hadoop生態圈

*Sqoop:一款開源工具,主要用在Hadoop、Hive與傳統資料庫(Mysql)間進行數據傳遞,可以將關係型資料庫數據導入到Hadoop的HDFS中,也可以從HDFS中導入關係型資料庫中;

*Flume:一個高可用、高可靠的分布式海量日誌採集、聚合和傳輸系統,支持在日誌系統中定製各類數據發送方,用於收集數據;

*Kafka:一種高吞吐量的分布式發布訂閱消息系統;

*HBase:一個建立在HDFS之上,面向列的針對性結構化數據的可伸縮、高可靠、高性能、分布式的動態資料庫,保存的數據可以使用Mapreducer來處理,將數據存儲和並行計算完美的結合在一起;

*Storm:對數據流做連續查詢,在計算時就將結果以流動形式輸出給用戶,用於「連續計算」;

*Spark:一種基於內存的分布式計算框架,與Mapreducer不同的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法,內部提供了大量的庫,如 Spark Sql、Spark Streaming等;

*Fiilnk:一種基於內存的分布式計算框架,用於實時計算場景較多;

*Oozie:一個管理hadoop job 的工作流程調動管理系統,用於協調多個MapReducer任務的執行;

*Hive:基於Hadoop的一個數據倉庫工具,定義了一種類似SQL的查詢語言(HQL),將SQL轉化為MapReduce任務在Hadoop上執行。通常用於離線分析。

*Impala:用於處理存儲在Hadoop集群中大量數據的MPP(大規模並行處理)SQL查詢引擎,與Hive不同,不基於MapReducer算法。它實現了一個基於守護進程的分布式結構,負責在同一臺機器上運行的查詢執行所有方面,執行效率高於Hive。

3.三大發行版本:Apache、Cloudera、Hortonworks

4.優勢

*高可靠性:Hadoop底層維護多個數據副本,即使某個存儲出現故障,也不會導致數據的丟失;

*高擴展性:在集群間分配任務數據,可方便的擴展數以千計的節點;

*高效性:hadoop是並行工作的,以加快任務處理速度;

*高容錯性:能夠自動將失敗的任務從新分配。

5.組成

*HDFS:分布式文件系統;

*MapReducer:分布式數據處理模型和執行環境(分布式計算);

*YARN:job調度和資源管理框架;

*Common:支持其他模塊的工具模塊(輔助工具)。

6.三種模式

*單機模式:不需要配置,Hadoop被認為單獨的java進程,經常用來做調試;

*偽分布式模式:可以看做只有一個節點的集群,在這個集群中,這個節點既是master,也是slave,既是namenode,也是datanode,既是jobtracker,也是tasktracker;

*完全分布式模式:Hadoop的守護進程運行在由多臺主機搭建的集群上,是真正的生產環境。

後面我們會介紹到HDFS和MapReducer,期待...

相關焦點

  • 大數據之hadoop環境搭建
    上執行:ssh-copy-id hadoop01ssh-copy-id hadoop02ssh-copy-id hadoop03在hadoop02上執行:ssh-copy-idhadoop01ssh-copy-id hadoop02ssh-copy-id hadoop03在hadoop03上執行:ssh-copy-id hadoop0304.上傳並解壓安裝包
  • 十萬個為什麼之hadoop篇
    如果運行map任務的節點在將map中間結果傳送給reduce任務之前失敗,hadoop 將在另一個節點上重新運行這個map以再次構建map中間結果。4.hdfs中的塊為什麼這麼大?Hdfs 的塊比磁碟的塊大,其目的是為了最小化尋址開銷。如果塊足夠大,從磁碟傳輸數據的時間會明顯大於定位這個塊開始位置所需的時間。因而,傳輸一個由多個塊組成的大文件的時間取決於磁碟傳輸速率。
  • 宜信財富:什麼是生態圈?生態圈對我們的戰略和業務意味著什麼?
    什麼是生態圈?生態圈對我們的戰略和業務意味著什麼?我們如何建設生態圈?如何用好生態圈?這些問題對很多 同事來講,似乎遙遠,卻又觸手... 什麼是生態圈?生態圈對我們的戰略和業務意味著什麼?我們如何建設生態圈?如何用好生態圈?這些問題對很多 同事來講,似乎遙遠,卻又觸手可及。
  • 大數據分析中Spark,Hadoop,Hive框架該用哪種開源分布式系統
    內容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 兩種風格,都可使用,效果相同。
  • 金螳螂建「網際網路+家」生態圈
    【深圳商報訊】(記者 鍾國斌)金螳螂日前公告稱,為實現公司平臺化發展戰略,加快構建金螳螂綜合服務生態圈,公司擬以不超過12億元,發起設立或者與符合條件的專業投資者共同發起設立產業併購基金。該基金將重點在消費升級、人工智慧、大健康、網際網路金融等領域進行產業布局。 公告顯示,金螳螂此次設立的產業併購基金主要投資新材料、大消費、大健康、網際網路以及主營業務領域相關產業鏈。
  • 智勝科技與醫療,共建數位化創新醫療生態圈
    武田中國與數位化創新平臺合作夥伴啟動構建數位化醫療生態圈武田中國與數位化創新平臺合作夥伴啟動構建數位化醫療生態圈「隨著數位化醫療時代的到來,從疾病診斷、線上隨訪/複診、網上購藥、健康管理,很多圍繞著患者需求的醫療解決方案正在應運而生。」
  • 合川:以商招商 畫好數字產業生態圈
    牢牢把握大數據、智能化發展的新趨勢,合川區大力發展數字經濟,引進頭部企業及關聯企業、生態企業,引導數字經濟和實體經濟深度融合,數字經濟產業生態圈正在逐步成型。   產業生態圈逐步成型   隨著一個個項目籤約、一批批企業入駐,合川數字經濟產業鏈正在日益完善,數字經濟產業生態圈正在逐步成型。
  • 王汝芳:生態圈金融有助於中小企業獲得金融服務 促進公平競爭
    可以把這種順應產業生態圈發展需要,立足和綜合考慮不同產業生態圈的特點,為生態圈中各節點企業提供普惠金融和精準服務,提升資源配置效率,力求把服務單個企業、供應鏈企業所面臨的風險控制到最低,並有效推進產業發展的新金融模式稱為生態圈金融。它是供應鏈金融順應多維網格化發展需要的高級形態。
  • 京投發展 「TOD智慧生態圈」 與城市一起成長
    02 智慧生態圈,創造商業新模式 京投發展專注於軌道交通車輛基地一體化開發,多年來以深耕TOD行業的豐富研發經驗和實踐成果,開創性提出「TOD智慧生態圈」開發理念「TOD智慧生態圈」強調對城市、對地鐵、對市民提供可持續性服務。
  • 重慶大學城市科技學院大經管生態圈二期工程竣工
    永川日報全媒體訊(記者 鍾 梅)日前,重慶大學城市科技學院經濟管理學院大經管生態圈二期工程竣工儀式、創新創業教育教學中心揭牌儀式暨2020年校企合作籤約儀式,在大經管生態圈二期金融仿真中心舉行。
  • 第二屆「共建誠信文明生態圈」活動在深舉行
    讀創/深圳商報記者 蘇兵▲第二屆「共建誠信文明生態圈」活動現場與會嘉賓合影。12月26日,第二屆「共建誠信文明生態圈」活動在深圳星河麗思卡爾頓酒店隆重召開。本屆活動以「助力三地互聯互通大融合,開創灣區誠信文明新局面」為口號,旨在促進我國誠信建設並助力深圳先行示範區及粵港澳大灣區的誠信文明發展。
  • 瑟拉福集團堅定使命 構建消費升級型社群資本生態圈
    生態圈布局十大產業 實現多方共贏隨著經濟轉型加速和百姓生活水平的提高,各行業消費升級形勢向好,具備長期發展的趨勢和巨大的投資機會。所以,共建社群資本生態圈是三方共贏的一次創舉。社群資本化是企業實現突破的必然途徑日前,疫情在多地均有所反覆。2020年年初之時,許多企業也因疫情影響受到嚴重衝擊。如何能在困境之下,保證銷售額,頂住現金流壓力,維繫客戶黏度等成為難題。但同時,這也成為其走上社群資本化之路的契機。
  • Exact易科半導體設計行業生態圈活動豐富
    上海2020年5月21日 /美通社/ -- Exact易科軟體攜手眾多友商建立Fabless IC業服務生態圈,為IC設計企業提供一站式多種信息服務。生態圈涵蓋IC公司的企業信息化,網絡及數據安全、專利法務諮詢及服務、會計師事務所的IPO 諮詢及服務等。在疫情期間安排了一系列對IC設計公司的線上分享,在今後Exact易科軟體還會安排線下的系列活動。 「晶片國產化」是國家未來長期重要發展戰略。
  • 通州副中心金融生態圈正在悄然形成
    通州副中心金融生態圈正在悄然形成。 全球最大的金融信息服務機構路孚特中國區總部落戶,三峽資產等15家三峽集團二三級子公司完成工商遷移,北投集團金融版塊全部落戶副中心,五道口金融學院、北京財富管理研究院、北京綠色金融和可持續發展研究院等一批智庫項目籤約落地,運河商務區已經集聚了230餘家銀行、保險、證券、基金、保理等金融企業,副中心金融生態圈正在大運河畔悄然形成。
  • 外服生態圈戰「疫」聯盟 傳遞「不見面的溫暖」
    此外,上海外服還積極發揮外服生態圈的輻射作用,聯合了法大大、數字中歐、知了背調、TTI、職選等生態圈合作夥伴組成「外服生態圈戰疫聯盟」,共同參與抗擊疫情的活動中,為企業和僱員提供「不見面的溫暖服務」,包括電子合同、在線培訓、職場測評、職場EAP、抗疫消毒用品等,為節後返工的企業和員工護航
  • 信銳物聯畫了一個生態圈,這個圈裡都有啥?
    信銳針對這一現狀,打造全面、開放、多場景共用的物聯網雲平臺以及企業級物聯網生態圈,與生態夥伴協同推進物聯網發展進程。什麼是信銳企業級物聯網生態圈?信銳企業級物聯網生態圈是業內創新發布的企業級物聯網生態系統,加入信銳物聯網生態圈可獲得SUNDRAY IoT CONNECT CERTIFIED(信銳企業級物聯網生態圈標識),擁有該標識的產品可與信銳IoT平臺互聯互通。
  • 怡境國際20周年:共建理想生活生態圈
    12月29日,在廣州太古倉舉辦的「行走的風景·中國城鄉理想生活方式」論壇上,GVL怡境國際集團創始人、怡境集團董事長、高級工程師彭濤宣布「生態圈賦能理想生活」戰略發布——成立20周年的怡境,未來10年將關注人與自然、人與人、人與自我的發展歷程,將整合旗下專業機構,構建資源、資本、產業、建設和運營賦能生態圈。
  • 微信不遺餘力封殺外鏈,生態圈就能安全了?
    微信生態圈安全了?微信頻頻出手打擊外鏈的目的就是建立一個安全的生態圈,一方面用戶的體驗度需要得到保證,另一方面外鏈中所包含的垃圾信息太多了,微信用戶很容易受到影響,如果因為這些信息而出現任何安全的問題,就得不償失了。因此,微信在封禁外鏈這件事情上態度十分堅決。可是,單憑封禁外鏈能保護微信的生態圈的安全嗎?