知識篇:新一代的數據處理平臺Hadoop簡介

2021-01-09 新世紀認證

在雲計算和大數據大行其道的今天,Hadoop及其相關技術起到了非常重要的作用,是這個時代不容忽視的一個技術平臺。事實上,由於其開源、低成本和和前所未有的擴展性,Hadoop正成為新一代的數據處理平臺。

Hadoop是基於Java語言構建的一套分布式數據處理框架,從其歷史發展角度我們就可以看出,Hadoop一誕生,就具備高貴的血統,發展順風順水:

2004年,Google發表論文,向全世界介紹了MapReduce2005年初,為了支持Nutch搜尋引擎項目,Nutch的開發者基於Google發布的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用2005年中,所有主要的Nutch算法被移植到MapReduce和NDFS(NutchDistributedFileSystem)環境來運行2006年2月,ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發展2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日誌處理2008年,淘寶開始投入研究基於Hadoop的系統–雲梯,並將其用於處理電子商務相關數據。雲梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業,掃描500TB數據2008年1月,Hadoop成為Apache頂級項目2008年7月,Hadoop打破1TB數據排序基準測試記錄。Yahoo的一個Hadoop集群用209秒完成1TB數據的排序,比上一年的紀錄保持者保持的297秒快了將近90秒

……

很多人開始接觸Hadoop時,都以為這是一個項目,其實Hadoop除了核心的MapReduce和HDFS之外,還包含了眾多的子項目,換句話說,Hadoop已經形成了一個豐富的技術生態圈:

隨著網際網路的飛速發展,大量數據的存儲和分析遇到瓶頸,磁碟容量的增長遠遠大於磁碟讀取速度,1TB的磁碟,數據傳輸速度100MB/s,讀一遍2.5H,寫數據就別提了,心拔涼拔涼的(當然SSD在生產環境的實際應用,大大緩解了這一窘境)。

數據量的增長在網際網路應用中體現的非常明顯,好的網際網路應用動輒就有上千萬的用戶,無論是數據的容量、壓力都與日俱增。

另外在企業應用層面,很多大中型企業,信息化進行了十幾年,企業內部積累了大量的非結構化數據,各種類型的文件需要存儲、備份、分析、展示,苦於沒有很好的辦法進行數據處理。

那麼如何解決這樣的問題,技術牛人自然有辦法,比如磁碟數據的並行讀寫,數據分塊,分布式文件系統,冗餘數據,MapReduce算法等等,最後Hadoop等類似的技術應運而生。於是我等草民有福了。

不是有那麼一句話麼,大數據勝於好算法,如果數據足夠多,可能產生出意想之外的應用,看看現在Facebook、Twitter、微博相關的衍生應用就知道了。另外,無論算法好壞,更多的數據總能帶了來更好的推薦效果,這也是顯而易見。

所以,無論雲計算和大數據口號喊的多麼虛頭八腦,但Hadoop都是一門非常務實的技術,無論你身在網際網路企業還是傳統軟體公司,都應該學習和了解這門技術。

Hadoop的部署提供三種模式,本地模式、偽分布模式和全分布模式,建議大家採用第三種進行實踐,這樣對系統用法的理解更深入一些。

這就需要你至少要兩臺機器進行集群,比較好的方式是使用虛擬機。Hadoop原生支持Unix/Linux,你要是想在Windows上玩,還需要裝模擬環境cygwin。

這時候就體現出Mac用戶的優勢了,我是採用Mac做Master,起兩臺虛擬Linux做Slave,SSD+8G內存,毫無壓力。這樣做的好處其實在Unix編程思想這部書中也提到過,就是用最小工作環境達到最大的工作範圍。

相關焦點

  • 銀興智能:助力廣發銀行打造Hadoop資源管理平臺
    據深圳銀興智能數據有限公司(簡稱:銀興智能)介紹,隨著廣發銀行大數據平臺hadoop集群應用場景越來越多,研發中心、數據中心、卡中心和分行等部門均在大數據平臺上進行數據開發和數據分析,由於數據開發和分析的場景各不相同,使用和購置的資源也不同。
  • hadoop基礎知識介紹_hadoop是什麼語言開發的_hadoop能做什麼
    一、hadoop是什麼? (1)Hadoop是一個開發和運行處理大規模數據的軟體平臺,可編寫和運行分布式應用處理大規模數據,是Appach的一個用java語言實現開源軟體框架,實現在大量計算機組成的集群中對海量數據進行分布式計算(或專為離線和大規模數據分析而設計的)並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
  • hadoop最新發行穩定版:DKHadoop版本介紹
    Hadoop對於從事網際網路工作的朋友來說已經非常熟悉了,相信在我們身邊有很多人正在轉行從事hadoop開發的工作,理所當然也會有很多hadoop入門新手。Hadoop開發太過底層,技術難度遠比我們想像的要大,對新手而言選擇一個合適的hadoop版本就意味著上手更快!
  • hadoop開發應用實例_hadoop應用開發技術實例詳解 - CSDN
    hadoop是什麼?hadoop能有哪些應用?hadoop和大數據是什麼關係?下面我們將圍繞這幾個問題詳細闡述。hadoop是什麼?Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
  • 更快、更強——解析Hadoop新一代MapReduce框架Yarn
    編者按:對於業界的大數據存儲及分布式處理系統來說,Hadoop 是耳熟能詳的卓越開源分布式文件存儲及處理框架,對於 Hadoop 框架的介紹在此不再累述,隨著需求的發展,Yarn 框架浮出水面, @依然光榮復興的 博客給我們做了很詳細的介紹,讀者通過本文中新舊 Hadoop MapReduce 框架的對比,更能深刻理解新的 yarn 框架的技術原理和設計思想
  • 汙水處理知識篇:汙水的PH值
    北極星水處理網訊:汙水的PH值,特別是生活汙水的PH有時候會經常被忽略掉,而且我們也很少去關注化驗單裡的那個經常在6~8之間變化的PH值,但pH值其實是汙水中的一個很重要的測量項目。pH值對汙水處理的活性汙泥中的微生物引起細胞膜電荷的變化,從而影響了微生物對營養物質的吸收;影響代謝過程中酶的活性;改變生長環境中營養物質的可給性以及有害物質的毒性。活性汙泥中的每種微生物都有其最適pH值和一定的pH範圍。在最適範圍內酶活性最高,如果其他條件適合,微生物的生長速率也最高。
  • 大數據開發前要做什麼準備?8臺Hadoop伺服器進行集群規劃前配置
    安裝個CentOS Linux 8開始大數據開發2、Linux內核怎麼升級?升級有什麼好處?CentOS8升級內核並開啟BBR手裡有一臺3年前的伺服器Dell R620,上面安裝了兩路CPU型號是Xeon E5-2603 V2 1.8GHz,內存沒有插滿只有64GB,8個硬碟位插滿共8塊SAS硬碟。
  • 汙水處理知識篇:水處理行業常用單位換算及計算 趕緊收藏
    汙水處理知識篇:水處理行業常用單位換算及計算 趕緊收藏北極星水處理網訊:必須知道的一些水處理行業常用單位換算及計算:1.長度:1英寸(inche)=25.4毫米(mm)1英尺(ft)=30.480釐米(cm)=0.3048
  • 大數據時代可能影響你的7個商業趨勢 | 網際網路數據資訊網-199IT |...
    (譯者註:由於目前的大數據存儲都不是基於關係型資料庫的,所以傳統通過sql語言來操作數據的方式無法直接使用,例如:對於hadoop存儲的數據是無法直接通過sql來查詢的。因而需要把傳統的sql語言進行中間轉換從而進行操作,例如:hadoop中hive,就是相當於將sql轉換成MapReduce,從而去讀取、操作hadoop上的數據。)
  • 汙水處理知識篇:為什麼COD與BOD是常用的汙染指標
    北極星環保網訊:在汙水處理過程中,為了使處理後的水,實現達標排放,在汙水處理的每個環節都會用水質監測設備檢測水質,根據水質監測設備測得的數據,採用相應的處理方法,使本環節水質指標達到要求,再進入下一個處理環節。在這些水質監測指標中,大家聽到最多的也是最重要的兩個指標就是COD和BOD。那麼這兩個有什麼區別與聯繫呢?
  • Hadoop大數據生態系統及常用組件簡介
    Gartner的一項研究表明,2015年,65%的分析應用程式和先進分析工具都將基於Hadoop平臺,作為主流大數據處理技術,Hadoop具有以下特性:        方便:Hadoop運行在由一般商用機器構成的大型集群上,或者雲計算服務上        健壯:Hadoop致力於在一般商用硬體上運行,其架構假設硬體會頻繁失效,Hadoop可以從容地處理大多數此類故障
  • Hadoop資源管理與作業調度框架yarn剖析
    提到Hadoop,大家可能首先想到的是Hdfs存儲、mapreduce離線計算,Hadoop2.x推出yarn(Yet Another Resource Negotiator)之後,hadoop已搖身一變為資源管理與作業調度平臺,基於yarn可在hadoop集群上可運行mepreduce(離線計算
  • hadoop入門基礎教程操作篇
    關於hadoop的分享此前一直都是零零散散的想到什麼就寫什麼,整體寫的比較亂吧。最近可能還算好的吧,畢竟花了兩周的時間詳細的寫完的了hadoop從規劃到環境安裝配置等全部內容。寫過程不是很難,最煩的可能還是要給每一步配圖,工程量確實比較大。
  • Hive數據倉庫實戰
    Hive作為大數據平臺Hadoop之上的主流應用,公司一般都是用它作為公司的數據倉庫,分布式機器學習的訓練數據和數據處理也經常用它來處理,下面介紹下它的常用功能。Hive原理和功能介紹Hive是建立在 Hadoop 上的數據倉庫基礎構架。
  • Apache Hadoop 3.0.0 GA 正式發布,要求 Java 8
    HDFS支持糾刪碼(Erasure Coding)與副本相比糾刪碼是一種更節省空間的數據持久化存儲方法。標準編碼(比如Reed-Solomon(10,4))會有1.4 倍的空間開銷;然而HDFS副本則會有3倍的空間開銷。因為糾刪碼額外開銷主要是在重建和執行遠程讀,它傳統用於存儲冷數據,即不經常訪問的數據。當部署這個新特性時用戶應該考慮糾刪碼的網絡和CPU 開銷。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 好程式設計師大數據培訓分享Hadoop技術優缺點
    數據的指數級增長對處於市場領導地位的網際網路公司,它們需要對TB級別和PB級別的數據進行分析處理,以發現哪些網站更受歡迎,哪些商品更具有吸引力,哪些廣告更吸引用戶。傳統的工具對於處理如此規模的數據集越來越無能為力。
  • Hadoop是低成本的大數據解決方案?別逗了!
    Hadoop是當下流行的大數據並行計算體系,橫向擴展、生態圈成熟等一直是它的主要特點。但這些特點當中,絕對不包含廉價。 可能你認為的低成本,實際上只是硬體和軟體授權成本,而不是總體成本。在學習成本、開發成本、管理成本上Hadoop並不總是佔優。現在伴隨公有雲技術的成熟,Hadoop甚至連硬體成本也不佔優了。
  • Hadoop技術生態簡介
    大數據的發展歷史當中,Hadoop技術框架是佔據著重要地位的,歷經十多年的時間,依然是企業搭建大數據平臺基礎架構的主流選擇,圍繞著Hadoop而生的大數據生態組件,也都各自發揮著各自的作用。今天的Hadoop大數據培訓分享,我們來坐Hadoop技術生態做一個簡單的介紹。
  • 數據倉庫模型設計與工具
    三、建模工具Datablau DDM是新一代數據模型管理工具,由ERwin數據建模研發骨幹開發團隊榮譽出品。、處理和應用。  Datablau(數語科技)簡介北京數語科技有限公司,成立於2016年,是專注於數據治理領域的國內自主智慧財產權的專業軟體產品提供商,主要業務是數據治理軟體產品的研發與銷售。