值得關注的12大開源大數據分析應用軟體

2020-12-08 199IT

對於許多大企業來說,開源大數據分析已經成為日常業務中一個必不可少的組成部分。據New Vantage Partners公司對《財富》1000強公司的高層主管開展的調查顯示,如今62.5%的企業在生產環境中至少運行一種大數據工具或應用軟體。這比2013年給出同樣回復的企業數量高出近一倍,只有5.4%的受訪企業沒有大數據計劃。

說到大數據分析,開源軟體是常態,而不是異數。許多企業使用的一些領先工具由Apache基金會管理,許多商業工具至少一部分基於這些開源解決方案。

我們在本文中介紹了市面上12款頂尖的開源數據分析解決方案,其中一些為大數據分析提供了全面的端到端平臺,另一些要與其他技術結合起來。它們都適合大企業使用,都是市面上領先的數據分析工具。

1. Hadoop

談到開源數據分析技術,就不可能不提到Hadoop。Apache基金會的這個項目已經幾乎成為大數據的同義詞,它讓企業能夠大規模分布式處理極其龐大的數據集。TDWI和SAS聯合開展的一項調查發現,近60%的企業預計在2016年年底之前會在生產環境中擁有Hadoop集群。

然而值得一提的是,Hadoop本身無法實現數據分析。它通常是從大數據獲取洞察力的整個更龐大解決方案的一部分。

2. Spark

Spark也是Apache旗下的一個項目,它承諾可以迅速處理大數據。實際上,它聲稱「在內存中運行程序的速度比Hadoop MapReduce快100倍,在磁碟上運行程度的速度快10倍」。

由於這種出色性能,它常常用於分析流式數據或用於需要交互式分析功能的應用軟體中。許多公司經常把它與Hadoop或Mesos一起使用,不過它也能獨立運行。最近,它的人氣得到了急劇提升,Syncsort在2016年開展的一項調查發現,受訪的企業大數據工作人員中近70%對Spark有興趣。

3. Talend

不像前面兩個項目,Talend由一家營利公司管理,而不是由基金會管理。因而,提供收費支付服務。Talend既提供免費產品,又提供收費產品。它免費的開源解決方案名為Talend Open Studio,下載量已超過了200萬人次。

市場研究公司Gartner最近將Talend評為數據集成領域的「領導者」。這家公司聲稱,相比與之競爭的解決方案,它幫助企業分析大數據的速度快五倍,而成本卻只有五分之一。

4. Jaspersoft

與Talend一樣,Jaspersoft也有多個版本,有的版本免費,有的版本收費。社區版是免費、開源的,而Reporting版、AWS版、專業版和企業版需要收費,不過隨帶支持服務。

Jaspersoft是一款開源商業智能工具,旨在讓企業用戶可以藉助自助服務,滿足自己的要求。該公司聲稱,它的技術支持130000多款應用軟體,提供嵌入式商業智能功能。

5. Pentaho

Pentaho自詡為「全面的數據集成和商業智能平臺。」該公司主要大力推銷它的商業版軟體,該軟體基於開源社區版。

許多公司將它與Hadoop和Spark之類的工具一起使用,以便能夠報告和顯示大數據。該軟體聲稱擁有一大批的知名客戶,包括英國電信(BT)、卡特皮勒、納斯達克、美國國土安全部、美國國家海洋和大氣局(NOAA)、《紐約時報》、EMC及其他許多企業組織。

6. RapidMiner

RapidMiner聲稱是「頭號開源數據科學平臺」,Gartner將它評為高級分析魔力象限報告中的領導者。它能夠實現自助式預測分析,承諾有望提升速度飛快的性能。

用戶包括寶馬、漢莎航空、達美樂比薩公司、索尼、福特、Salesforce、國際特赦組織和通用電氣公司。整個RadiMiner平臺包括三個獨立的組件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。這三個組件都採用開源許可證或商業許可證,商業版價格取決於用戶數量。

7. Storm

Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之類的公司所使用,它是一種實時大數據處理引擎。

它的官方網站解釋:「Storm讓用戶很容易可靠地處理無限制的數據流,它在實時處理方面的功能好比Hadoop在批處理方面的功能。」客戶可以將它與任何資料庫或任何程式語言一起使用。它具有可擴展、容錯、易於部分使用的優點。然而用戶要注意的是,Storm還沒有進入到1.0版本這個階段。

8. H2O

H2O被60000多個數據科學家和7000多家企業組織所使用,聲稱是「世界上領先的開源機器學習平臺。」由於它的內存技術,它提供了極其出色的性能。它還與Hadoop和Spark之類的其他許多開源數據分析工具整合起來,支持所有主要的流行資料庫,提供收費的支持服務。

除了標準版的H2O外,該公司還提供Sparkling Water,這個版本整合了Spark和Steam,後者是一種端到端人工智慧應用引擎。

9. Lumify

Lumify由一家名為Altamira 科技的公司開發,自稱是「開源大數據分析和可視化平臺」。

它讓用戶易於創建二維或三維圖形,可顯示實體之間的關係,或在地圖上覆蓋數據。對於有興趣深入了解它的工作原理的那些人來說,官方網站提供了幾個視頻,顯示了Lumify的實際運行,上面還有一個演示網站,讓用戶可以上傳自己的數據,並試用軟體。

10. Drill

Apache Drill讓用戶得以使用SQL查詢用於非關係型數據存儲系統。它支持一系列NoSQL和基於雲的數據存儲系統。

Apache Drill包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌雲存儲和Swift。它還讓用戶可以使用單一查詢,即可搜索用不同技術存儲起來的多個數據集。此外,它支持許多流行的商業智能工具。

11. MongoDB

作為最知名的NoSQL資料庫之一,MongoDB是一種開源非關係型數據存儲解決方案。客戶包括大都會人壽(MetLife)、芝加哥市、Expedia、谷歌、氣象頻道、BuzzFeed和Facebook。

除了免費開源版外,該公司還提供一款收費的企業版和雲託管的版本MongoDB Atlas。知名市場研究機構弗雷斯特研究公司將MongoDB評為大數據NoSQL領域的「領導者」。

12. SpagoBI

SpagoBI是一款開源商業智能和大數據分析平臺。

該軟體完全免費,但還提供收費的用戶支持、維護、諮詢和培訓等服務。它包括了用於報告、多維分析(OLAP)、圖表、位置情報、數據挖掘、ETL(抽取轉換和加載)及更多其他方面的工具。它還與流行的內存處理引擎整合起來,能夠實現實時處理。

相關焦點

  • DOT模型助力大數據分析軟體開發
    【IT168 專稿】2011年12月2日、3日,Hadoop in China 2011在北京會議中心成功舉辦。本次大會以「海量數據掘寶」為主題,吸引了來自世界各地的一千餘名關注Hadoop的專家、開發者和使用者。
  • 大數據五項相關技術與數據分析應用案例
    大數據技術指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。3、KafkaKafka是一種高吞吐量的分布式發布訂閱消息系統,其在大數據開發應用上的目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理,也是為了通過集群來提供實時的消息。大數據開發需掌握Kafka架構原理及各組件的作用和使用方法及相關功能的實現!4、Chukwa是一個開源大型分布式系統的數據採集監視系統。
  • 12個頂級大數據工具 - 大數據_CIO時代網 - CIO時代—新技術、新...
    在大數據技術作為概念和業務戰略出現的十年中,湧現了執行各種任務和流程的數千種工具。而推出這些工具的提供商都承諾可以為企業節省時間和成本,並發現能夠讓企業獲利的商業洞察力。顯然,大數據分析工具的市場正在不斷增長。  許多大數據分析工具最初像大數據軟體框架Hadoop一樣都是開源項目,但商業實體迅速湧現,為開源產品提供了新工具或商業的支持和開發。
  • 大數據人才缺口這麼大,現在轉行大數據容易嗎?
    主要有以下三個方向:1、大數據分析工程師主要負責大數據數據分析和挖掘平臺的規劃、開發、運營和優化;根據項目設計開發數據模型、數據挖掘和處理算法;通過數據探索和模型的輸出進行分析給出分析結果。基本技能這塊要求有編程基礎,熟悉python或者Mat lab語言,邏輯清晰、溝通和匯報表達能力良好,另外需要有行業相關知識。
  • 值得買科技攜手中關村大數據產業聯盟,共同探索消費大數據應用前景
    1月11日,中關村大數據產業聯盟秘書長趙國棟一行蒞臨北京值得買科技股份有限公司參觀交流,並與值得買科技創始人、董事長兼CEO隋國棟,首席技術官劉峰,副總裁張梅等相關負責人召開座談會,就雙方在大數據尤其是消費大數據領域的合作前景進行了深入探討。會後,中關村大數據產業聯盟向隋國棟頒發了副理事長證書。
  • 大數據時代:十大最熱門的大數據技術 - 大數據_CIO時代網 - CIO...
    隨著大數據分析市場快速滲透到各行各業,哪些大數據技術是剛需?哪些技術有極大的潛在價值?根據弗雷斯特研究公司發布的指數,這裡給出最熱的十個大數據技術。   1、預測分析   預測分析是一種統計或數據挖掘解決方案,包含可在結構化和非結構化數據中使用以確定未來結果的算法和技術。
  • Hortonworks的DataFlow 3.0平臺簡化流式分析應用軟體的開發
    據Gartner預測,「到2020,70%的企業將採用數據流來實現實時分析」*,同樣,HDF的應用與去年同期相比也顯著加快。HDF是業界首個開源平臺,企業可通過該平臺迅速創建流式應用軟體,進而實現實時分析。  Hortonworks首席技術官Scott Gnau表示:「為了在當今的互聯世界中保持競爭力,企業必須利用來自世界各地數據的觀點。我們收集的數據大多來自互聯設備。
  • 七牛雲 Niu Talk 數據科學論壇第三期:大數據開發與開源生態
    近日,「七牛雲 Niu Talk 」 數據科學系列論壇第三期如期舉行, 三位嘉賓圍繞大數據開發與開源生態,結合自己多年行業經驗,帶來關於「大數據開發與開源生態」的精彩演講和圓桌對話。
  • 辦公必備的大數據分析利器,值得推薦數據分析工具
    說到數據分析,很多小夥伴可能第一時間聯想到複雜的算法,龐大的數據,甚至是讓人眼花繚亂的代碼。但實際上,運營做數據分析並不需要懂這些,關鍵是你對業務流程的理解,以及用數據解決問題的思維。本文將介紹在一些領域被高頻率使用,且不可缺少的大數據分析利器,使用尚可的數據分析工具。
  • 星環科技+鯤鵬:乘風破浪的大數據生態
    成立於2013年的星環科技,專注於企業級大數據平臺等產品的自主研發,2016年被Gartner評為全球最具有前瞻性的數據倉庫及數據管理解決方案廠商,2017年被IDC評為中國大數據市場領導者,2018年成為12年來全球首個完成TPC-DS測試並通過官方審計的資料庫廠商。8月14日,星環科技發布了基於鯤鵬的大數據平臺解決方案。
  • IBM發布SDI方案Spectrum Computing,為高性能大數據分析提速
    Spectrum Computing是智能的資源與工作負載管理軟體,幫助企業挖掘數據價值,提升性能密集型大數據分析工作負載和機器學習的速度。該技術將為各行各業的客戶提供支持,比如通過基因組排序實現更好的癌症治療、輔助工程師設計出具有奪冠實力的一級方程式賽車、幫助銀行家面向潛在客戶推出個性化金融服務等。
  • 在開源技術棧,我該如何對大數據查詢引擎做選型?雷達簡圖揭答案
    上次聊的是開源大數據存儲引擎,數據既然存儲了就要使用,因此查詢與分析就是面向業務應用的能力呈現。伴隨著開源軟體的深化發展,今天的查詢系統如果僅支持SQL引擎那就太OUT了,因為數據的膨脹、查詢的複雜度、查詢響應時間、系統訪問並發量等諸多因素,致使我們在查詢引擎的技術選型上必須長遠考慮,構建一個能夠支撐混合查詢負載的生態環境是必須的。
  • 開源的Flume系統實現流式數據收集的應用場景分析
    如何高效地收集這些日誌,並發送到後端存儲系統(比如Hadoop、數據倉庫等)中進行統一分析和挖掘,是每個企業大數據平臺需要解決的問題。本文將介紹開源的Flume系統實現流式數據收集的應用場景分析。如下圖所示:數據收集場景開源的Flume系統是一個通用的流式數據收集系統,可以將不同數據源產生的流式數據近實時地發送到後端中心化的存儲系統中
  • 數據中心管理軟體的應用與發展
    這些傳感器通常將數據饋送到數據中心管理軟體,其軟體通常稱為數據中心基礎設施管理(DCIM)軟體。   數據中心運營商對這樣解決方案的需求一直在迅速增長。根據錫安市場研究公司(Zion Market Research)的數據,DCIM軟體市場目前每年增長約20.3%。到2021年,數據中心管理軟體市場規模可能達到17億美元。
  • 百度開源2020年度報告:兩大開源平臺、九個捐贈項目
    03累計向4大基金會捐贈了九個開源項目1、超級鏈(XuperChain)2019年5月,百度基於持續多年在區塊鏈技術與應用領域的研究與探索,推出了完全自主智慧財產權的區塊鏈底層技術——超級鏈(XuperChain)並正式開源,現已成為國內最具影響力的區塊鏈開源技術之一,其具有四大核心技術亮點,如下:1)高度易用:多語言智能合約支持、多語言sdk+
  • CPDA:學習數據分析為什麼要選擇用SPSS來做統計軟體
    SPSS軟體平臺提供高級統計分析,龐大的機器學習算法庫,文本分析,開源可擴展性,與大數據的集成以及在應用程式中的無縫部署。 在我們平時在進行數據分析工作中對它的易用性,靈活性和可伸縮性使SPSS可供所有技能水平的用戶使用。
  • 醫療健康大數據:應用實例與系統分析
    比如,ActiveHealthManagement收集用戶健康方面的數據以幫助用戶實現健康管理;CancerIQ整合臨床數據和基因數據幫助實現癌症的風險評估、預防和治療;CliniCast利用大數據預測治療效果以及降低花費。本文首先介紹醫療健康行業的大數據特點以及大數據技術背景,然後舉例說明目前大數據在醫療健康行業的應用,最後分析目前的醫療健康大數據系統及其相關技術。
  • 全球最具影響力的大數據企業排行榜
    其具體產品包括伺服器與存儲硬體、資料庫軟體、分析應用程式以及相關服務等。在IBM圍繞大數據開發出的產品中,DB2、Informix與InfoSphere資料庫平臺、Cognos與SPSS分析應用可謂最為知名。IBM同時也為Hadoop開源數據分析平臺提供支持。2、惠普惠普在2012年獲得的大數據營收名列第二,總值為6.64億美元。
  • 軍工研究所大數據應用分析
    大致在大數據存儲、分析利用上,都存在難點。一是難以進行存儲,繼而形成大數據。當前大多數軍工數據的積累,首先存在責任主體不明,企業未應對當下大數據時代的發展趨勢,成立數據部門和團隊;其次,當前使用的企業信息化系統未進行或者難以進行功能改造,不具備數據採集、數據聚合的能力;現有數據應用大多是面向某一應用而設計的專用場景功能,數據孤島、煙囪現狀很突出,而大數據是立足數據、發現關聯、應用擴展的動態平臺。
  • 2021大數據5大趨勢,值得關注!
    同時,數據的融合利用面臨著建立數學模型的挑戰,大數據挖掘面臨算力與算法、數據樣本準確性、小數據、人與數據融合的挑戰。 鄔賀銓認為,在智慧城市管理與工業網際網路中有很多需要數據融合應用的場景,多元異構的數據融合將盤活數據,通過數據挖掘開發數據價值,發揮數據作為生產要素的作用。