Hadoop是當下流行的大數據並行計算體系,橫向擴展、生態圈成熟等一直是它的主要特點。但這些特點當中,絕對不包含廉價。
可能你認為的低成本,實際上只是硬體和軟體授權成本,而不是總體成本。在學習成本、開發成本、管理成本上Hadoop並不總是佔優。現在伴隨公有雲技術的成熟,Hadoop甚至連硬體成本也不佔優了。
Hadoop與阿里雲MaxCompute的成本對比
國內做大數據,基本就這兩個選擇:自建Hadoop或者使用阿里雲的MaxCompute(就是原來的ODPS)。像Amazon、Google、微軟的大數據服務在國內基本處於不可用或者很難用的狀態。這裡,我們就來對比一下這兩個主流的技術選型:
以企業擁有10TB數據為例,自建hadoop集群,則至少需要6臺機器(3nodes+2NameNode+1jobtracker),成本在20萬左右。除此之外,還需要投入機房資源,網絡設備和運維成本。這其中主要是運維成本,要知道一個運維人員的成本一年至少15萬。這樣,整體算下來要55萬左右。
如果採用阿里雲的MaxCompute,按照現在的報價,大約需要32160(存儲費用)+45000(計算費用)=77160元。也就是說二者的成本差距在7倍以上。
按照Hortonworks首席技術官EricBaldeschwieler關於成本的陳述,就更為誇張:硬體成本只佔Hadoop數據中心總成本的20%。
掀開Hadoop的蓋子 這些隱性成本你需要知道
「Hadoop是一個框架,不是一個解決方案」——在解決大數據分析的問題上人們誤認為Hadoop可以立即有效工作,而實際上對於簡單的查詢,它是可以的。但對於難一些的分析問題,Hadoop會迅速敗下陣來,因為需要你直接開發Map/Reduce代碼。出於這個原因,Hadoop更像是J2EE編程環境而不是商業分析解決方案。 所謂框架意味著你一定要在之上做個性化和業務相關的開發和實現,而這些都需要成本。
同時,因為Hadoop龐大的生態系統,也導致了學習成本奇高。目前Hadoop生態中包括了幾十種相關的產品,常見的就有:MapReduce、HDFS、Hive、hbase、YARN、Zookeeper、Avro、JAQL、PIG、solr、mesos、shark、stream、storm。熟悉這些產品的部署步驟、功能特性、開發方法都需要付出高昂的學習成本。
有開發者評論說,「它變得好像是用一個錘子來建造一個房屋」,這並不是不可能,但是帶來了「不必要的痛苦和可笑的低效成本」。
http://apple.zol.com.cn/586/5868713.html apple.zol.com.cn true 中關村在線 http://apple.zol.com.cn/586/5868713.html report 1844 Hadoop是當下流行的大數據並行計算體系,橫向擴展、生態圈成熟等一直是它的主要特點。但這些特點當中,絕對不包含廉價。 可能你認為的低成本,實際上只是硬體和軟體授權成本,而不是總體成本。在學習成本、開發成本、管理成本上Hadoop並不總是佔優。現在伴隨公有雲...