Hadoop是低成本的大數據解決方案?別逗了!

2021-01-09 中關村在線

Hadoop是當下流行的大數據並行計算體系,橫向擴展、生態圈成熟等一直是它的主要特點。但這些特點當中,絕對不包含廉價。 

可能你認為的低成本,實際上只是硬體和軟體授權成本,而不是總體成本。在學習成本、開發成本、管理成本上Hadoop並不總是佔優。現在伴隨公有雲技術的成熟,Hadoop甚至連硬體成本也不佔優了。 

Hadoop與阿里雲MaxCompute的成本對比

國內做大數據,基本就這兩個選擇:自建Hadoop或者使用阿里雲的MaxCompute(就是原來的ODPS)。像Amazon、Google、微軟的大數據服務在國內基本處於不可用或者很難用的狀態。這裡,我們就來對比一下這兩個主流的技術選型: 

以企業擁有10TB數據為例,自建hadoop集群,則至少需要6臺機器(3nodes+2NameNode+1jobtracker),成本在20萬左右。除此之外,還需要投入機房資源,網絡設備和運維成本。這其中主要是運維成本,要知道一個運維人員的成本一年至少15萬。這樣,整體算下來要55萬左右。 

如果採用阿里雲的MaxCompute,按照現在的報價,大約需要32160(存儲費用)+45000(計算費用)=77160元。也就是說二者的成本差距在7倍以上。 

按照Hortonworks首席技術官EricBaldeschwieler關於成本的陳述,就更為誇張:硬體成本只佔Hadoop數據中心總成本的20%。

掀開Hadoop的蓋子 這些隱性成本你需要知道

「Hadoop是一個框架,不是一個解決方案」——在解決大數據分析的問題上人們誤認為Hadoop可以立即有效工作,而實際上對於簡單的查詢,它是可以的。但對於難一些的分析問題,Hadoop會迅速敗下陣來,因為需要你直接開發Map/Reduce代碼。出於這個原因,Hadoop更像是J2EE編程環境而不是商業分析解決方案。 所謂框架意味著你一定要在之上做個性化和業務相關的開發和實現,而這些都需要成本。 

同時,因為Hadoop龐大的生態系統,也導致了學習成本奇高。目前Hadoop生態中包括了幾十種相關的產品,常見的就有:MapReduce、HDFS、Hive、hbase、YARN、Zookeeper、Avro、JAQL、PIG、solr、mesos、shark、stream、storm。熟悉這些產品的部署步驟、功能特性、開發方法都需要付出高昂的學習成本。 

有開發者評論說,「它變得好像是用一個錘子來建造一個房屋」,這並不是不可能,但是帶來了「不必要的痛苦和可笑的低效成本」。

http://apple.zol.com.cn/586/5868713.html apple.zol.com.cn true 中關村在線 http://apple.zol.com.cn/586/5868713.html report 1844 Hadoop是當下流行的大數據並行計算體系,橫向擴展、生態圈成熟等一直是它的主要特點。但這些特點當中,絕對不包含廉價。 可能你認為的低成本,實際上只是硬體和軟體授權成本,而不是總體成本。在學習成本、開發成本、管理成本上Hadoop並不總是佔優。現在伴隨公有雲...

相關焦點

  • hadoop基礎知識介紹_hadoop是什麼語言開發的_hadoop能做什麼
    (2)Hadoop就是一個分布式計算的解決方案。 Hadoop框架中最核心設計就是:HDFS和MapReduce.HDFS提供了海量數據的存儲,MapReduce提供了對數據的計算。 數據在Hadoop中處理的流程可以簡單的按照下圖來理解:數據通過Haddop的集群處理後得到結果。
  • 大數據時代可能影響你的7個商業趨勢 | 網際網路數據資訊網-199IT |...
    我們也看到了一個有益的生態系統的出現,迅速的讚美或擴展能力的核心支持技術,在大數據案例中,大數據生態系統已經迅速集中一批技術提供者,例如:Hadoop,Cassandra,Accumulo,Oracle,IBM.那麼在大數據的生態系統中我可以看到哪些趨勢會出現?有一大批的技術公司努力構建一種no-sql技術,從而為大數據提供解決方案例如:hadoop。
  • 銀興智能:助力廣發銀行打造Hadoop資源管理平臺
    據深圳銀興智能數據有限公司(簡稱:銀興智能)介紹,隨著廣發銀行大數據平臺hadoop集群應用場景越來越多,研發中心、數據中心、卡中心和分行等部門均在大數據平臺上進行數據開發和數據分析,由於數據開發和分析的場景各不相同,使用和購置的資源也不同。
  • 大數據開發前要做什麼準備?8臺Hadoop伺服器進行集群規劃前配置
    安裝個CentOS Linux 8開始大數據開發2、Linux內核怎麼升級?升級有什麼好處?CentOS8升級內核並開啟BBR手裡有一臺3年前的伺服器Dell R620,上面安裝了兩路CPU型號是Xeon E5-2603 V2 1.8GHz,內存沒有插滿只有64GB,8個硬碟位插滿共8塊SAS硬碟。
  • 雲數據中心互聯中光模塊與交換機對應解決方案
    但是,這種數據中心結構因其數量較多,需要提供低成本、高帶寬和低延時的DCI解決方案。光模塊在高效DCI中的解決方案我們知道,傳輸鏈路中的最大傳輸容量取決於光模塊技術,目前100G技術正在迅速成為DCI各個應用層面的主力技術,同時400G也在大力發展。
  • 只有大公司才能負擔起大數據驅動的解決方案嗎
    只有大公司才能負擔起大數據驅動的解決方案嗎 TechWeb.com.cn 發表於 2020-11-30 10:24:44   目前最大的誤區之一仍然是,只有大公司才能負擔得起大數據驅動的解決方案
  • hadoop開發應用實例_hadoop應用開發技術實例詳解 - CSDN
    hadoop是什麼?hadoop能有哪些應用?hadoop和大數據是什麼關係?下面我們將圍繞這幾個問題詳細闡述。hadoop是什麼?Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
  • hadoop最新發行穩定版:DKHadoop版本介紹
    Hadoop對於從事網際網路工作的朋友來說已經非常熟悉了,相信在我們身邊有很多人正在轉行從事hadoop開發的工作,理所當然也會有很多hadoop入門新手。Hadoop開發太過底層,技術難度遠比我們想像的要大,對新手而言選擇一個合適的hadoop版本就意味著上手更快!
  • 現代化大數據解決方案特點有哪些
    那麼,大數據解決方案在現代化中發揮著完美作用的顯著特點是什麼呢?  一.更高的準確度和廣泛的應用  現代化可以作為越來越多的數據採集的工具和手段,尤其是數據採集的靈敏度得到了進一步的提高,依靠數據採集渠道的不斷改進,顯然可以更好地保證數據使用的有效改善,超高精度為現代、高質量的大數據解決方案的應用帶來的可靠性是真實的,現代大數據解決方案的實用價值是全方位的
  • 【IOTE企業秀】致力於提供高性能低成本的傳感器和傳感器解決方案...
    公司致力於面向消費電子,智能家電,醫療設備,暖通空調(HVAC),物聯網市場提供高性價比的MEMS傳感器和傳感器解決方案。產品包括流量傳感器和真空壓力傳感器,即將推出環境氣體傳感器和紅外陣列傳感器。二、核心優勢博思發科技公司獲得美國專利的MEMS製造平臺,它與目前主流的高性能,低成本的CMOS工藝兼容。
  • Apache Eagle:分布式實時 Hadoop 數據安全方案
    併集成機器學習對用戶行為建立Profile以實時智能地保護Hadoop生態系統中大數據安全的解決方案。在eBay,我們擁有數萬名工程師、分析師和數據科學家,他們每天訪問分析數PB級的數據,以為我們的用戶帶來無與倫比的體驗。在全球業務中,我們也廣泛地利用海量大數據來連接我們數以億計的用戶。
  • 一個反向電流小尺寸、低成本解決方案
    打開APP 一個反向電流小尺寸、低成本解決方案 佚名 發表於 2018-06-01 09:32:57 這是反向電流保護系列博文的第一篇文章,在這篇文章中,你將能夠對現有解決方案有高層次的總體認識和了解。  原因 反向電流的最常見原因,即反向偏置電壓,就是輸出上的電壓要高於輸入上的電壓,從而使電流在系統中的流動方向與你希望的流動方向相反。圖1中顯示了這個情況。
  • hadoop入門基礎教程操作篇
    關於hadoop的分享此前一直都是零零散散的想到什麼就寫什麼,整體寫的比較亂吧。最近可能還算好的吧,畢竟花了兩周的時間詳細的寫完的了hadoop從規劃到環境安裝配置等全部內容。寫過程不是很難,最煩的可能還是要給每一步配圖,工程量確實比較大。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • Apache Hadoop 3.0.0 GA 正式發布,要求 Java 8
    更多關於HDFS的糾刪碼可以參見http://hadoop.apache.org/docs/r3.0.0-beta1/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html或者直接閱讀本博客Hadoop 3.0糾刪碼(Erasure Coding):節省一半存儲空間的相關介紹。
  • 2019年數據中心電源解決方案
    在討論2019年數據中心電源管理解決方案之前,我想簡要地描述下數據中心的概況。2016年,我撰寫了《Data center next generation power supply solutions for improved efficiency(實現數據中心效率提升的下一代電源解決方案)》的文章。
  • 進入大數據時代,你需要更有效的數據解決方案
    二、為什麼需要數據分析數據分析,實際上就是運用各種統計方法收集數據,並進行分析的過程。數據分析的目的包括但不僅限於:1.觀察總結,發現問題2.對當下業務提出解決方向3.預測未來業務方向數據分析的結果是基於事實性的數據所獲得的洞察,因此,有助於決策者做出更加符合市場需求的決策。
  • 量化派基於Hadoop、Spark、Storm的大數據風控架構
    在徵信技術上,傳統的方法是從線下採集信用數據,效率比較低。可以說,傳統的線下徵信技術限制了數據來源和信用評估思路,而網際網路的技術、工具和思維則具備了改變這一切的可能性。回歸到徵信的本質,其實就在於解決兩方面問題:信用能力和信用意願,換而言之,即解決個人的還款能力和還款意願,再追根溯源一點,即解決壞帳和逾期兩個問題[2]。
  • 大數據時代:十大最熱門的大數據技術 - 大數據_CIO時代網 - CIO...
    隨著大數據分析市場快速滲透到各行各業,哪些大數據技術是剛需?哪些技術有極大的潛在價值?根據弗雷斯特研究公司發布的指數,這裡給出最熱的十個大數據技術。   1、預測分析   預測分析是一種統計或數據挖掘解決方案,包含可在結構化和非結構化數據中使用以確定未來結果的算法和技術。
  • 比自建Hadoop便宜 雲棲大會揭秘阿里雲數加MaxCompute
    DT時代,越來越多的企業應用數據步入雲端。 Hadoop是當下流行的大數據並行計算體系,橫向擴展、生態圈成熟等一直是它的主要特點。