用於數據分析的各類主流ETL 工具比較,哪種最適合你

2020-12-13 電子發燒友

用於數據分析的各類主流ETL 工具比較,哪種最適合你

工程師飛燕 發表於 2018-06-23 11:25:00

數據提取、轉換與加載(ETL,Extract-Transform-Load)工具能夠使組織內的不同數據更易於訪問、更有意義、也更能被其他數據系統所使用。通常情況下,面對由此產生的自寫代碼、自建系統的相關成本和複雜性時,企業會直接去選擇購置ETL工具。

第一種選擇:您可以根據自身的情況,選擇各種開源的ETL工具(請參考https://www.alooma.com/blog/open-source-etl-tools-comparison),來進行自行搭建。不過您往往會發現自己需要有更多的功能、靈活性與技術支持。

第二種選擇:與現有供應商合作,選擇一種能夠很好地處理當前數據源和數據流的解決方案。此處所說的現有供應商,一般是一些大品牌的廠商。

第三種選擇:最新的ETL平臺。這些通常是基於雲端的解決方案,能夠為現有數據源到雲端數據倉庫的各種數據提供端到端的ETL支持。它們也是針對日益增長的、基於網絡的大數據流量所構建的。

本文將深入分析各種現有ETL工具的優、缺點,並快速瀏覽各種最新的ETL平臺。

現有ETL工具概述

現有的ETL工具通常由業界知名公司(微軟,IBM等)所設計,因此其預裝的客戶群也比較龐大。

這些工具一般由一整套的工具所組成,並且能夠針對具體的問題被予以定製。由於許多公司將其數據存儲在傳統的單一資料庫和系統之中,因此這些工具的製造商能夠提供用相應的數據遷移工具,並支持現有的批處理方法。

常見的ETL工具

下面雖不是一份完整的清單,但它涵蓋了主要的工具產品。

1.IBM InfoSphere Information Server

作為一款ETL工具,IBM InfoSphere Information Server是IBM Information Platforms Solutions套件和IBM InfoSphere的一部分。它使用圖形符號來構建數據的整合方案,並具備各種版本(包括伺服器版,企業版和MVS版)。

2.Informatica PowerCenter

Informatica PowerCenter是一款ETL產品套件的總稱,它包括PowerCenter客戶端工具、伺服器和存儲資料庫。

該軟體將數據存儲在庫中,以便客戶端工具和伺服器能夠訪問到。各種操作一般在伺服器上被執行,其伺服器分別連接到源與目標系統上以獲取數據,然後通過各種轉換,最終將數據加載到目標系統之中。

3.iWay軟體

Information Builders的iWay集成套件具有將應用程式與數據相集成的功能。客戶可以使用它們來管理結構化、與非結構化的信息。該套件包括有iWay數據遷移器、iWay服務管理器和iWay通用適配器框架。

4.Microsoft SQL Server Integration Services

Microsoft SQL Server集成服務(SSIS)是一個高性能的數據集成方案平臺,它包含了用於數據倉庫的各種ETL包。

5.OpenText

OpenText集成中心是一個具有整合能力的平臺,各個企業能夠通過它來提取、增強、改造、整合數據,並且可以將數據內容從一個或多個存儲庫遷移到任何新的目標之上。

6.Oracle GoldenGate

Oracle GoldenGate是一款比較全面的軟體包,它能夠實現在異構的IT環境中進行實時的數據集成與複製。

7.Pervasive軟體

Pervasive的數據集成平臺是一款企業級的數據集成軟體方案,它能夠幫助公司在任何類型的數據源和應用程式之間建立起連接。同時,它還能支持各種實時集成的場景。

8.Pitney Bowes軟體

Pitney Bowes能夠提供大量針對數據集成的工具和解決方案。其Sagent Data Flow是一款靈活的整合引擎,它能夠採集不同來源的數據,並提供一套全面的數據轉換工具,以增強其核心的業務價值。

9.SAP Business Objects Data Services

以前被稱為Business Objects Data Integrator的SAP業務對象數據服務(BODS)是一款可被用於數據集成、質量控制、分析和處理的ETL工具。它能夠幫助您將可信的數據整合併轉換到各個數據倉庫的系統之中, 以產生分析報告。

10.SAS Data Management

SAS數據管理建立在SAS平臺之上,它是SAS投向ETL市場的一個工具。該平臺由一個包含了(20多種)SAS工具和服務的大型套件所組成。

11.Sun Java Composite Application Platform Suite

Sun的ETL與數據集成工具是大型Java複合應用程式平臺套件(CAPS)中的一部分。它是Oracle公司的一款標準化企業服務總體套件(Enterprise Service Bus software suite)。Java CAPS的組件能夠整合現有應用程式,並能在面向服務的架構環境中提供新的業務服務。

12.SYBASE

Sybase ETL包括Sybase ETL Development和Sybase ETL Server。

Sybase ETL Development是一款用於創建和設計數據轉換項目與作業的GUI工具。該工具提供了一個完整的模擬與調試環境,旨在加速ETL轉換流程的開發。Sybase ETL Development包含有一臺用於控制實際處理流程的ETL開發伺服器,它能夠連接到各個資料庫,並執行相關過程。

Sybase ETL Server是一種可擴展的分布式網格引擎,它使用轉換流(由Sybase ETL Development所設計)來連接到各個數據源,通過提取數據,然後將數據加載到目標之上。

13.Syncsort

SyncSort的雲解決方案能夠訪問並整合來自各種來源的數據,從而於將數據遷移到各個雲端的存儲資料庫之中。

現有ETL工具的局限性

現有工具最大的局限性在於:它們被設計為「批量進行工作」,即:採集數據、上傳數據、採集更多的數據、再上傳之。這種批量加載數據在某些情況下的確適用,但是在某些單獨的方法上會存在一些問題。

數據批處理與轉換工具很難實現跨平臺的數據源採集,特別是在涉及到變更數據捕獲(CDC,Change Data Capture)的情況時。當上傳批量數據出現問題時,您需要跟蹤問題、排除故障並儘快重新提交作業。而這種批量處理方式是非常致命的,因為如果在數據倉庫中存在著超過24小時的、被API調用與分配的數據;或者需要同時備份傳入的數據,那麼這些CDC信息就可能因此而丟失或被覆蓋,從而造成巨大的問題。

而面對越來越多的數據流和其他類型的數據源時,尤其是在需要儘快提供最新數據的需求下,這些批處理的工具集就更加不適合了。

最新ETL工具的概述

最新的ETL工具套件是以實時流量數據處理和雲計算為基礎所構建的。它們與先進的雲端數據倉庫有著很好的集成,並能夠支持持續增長的數據源和數據流。

如今的趨勢是:基於雲的ETL服務。它們通常能夠提供對實時數據、智能模式檢測等方面的支持。

隨著對實時數據訪問需求的出現,諸如Kafka之類的最新模型,都能夠實現基於數據流的處理和分布式的消息隊列。以Alooma為代表的公司,通過新的技術提供了基於SaaS平臺和本地的解決方案。面對數據流,最新的ETL平臺能夠在完成加載的數據倉庫內部,進行不同級別的轉換,並通過Python、Java等代碼以實現完全控制。

而對於數據的完整性,最新的ETL平臺通過強大的內置安全網絡,能夠實現各種錯誤的處理和報告。

常見的最新ETL平臺和工具

下面列出了常見的最新ETL平臺和工具:

1.Alooma

Alooma是一個為雲服務構建的企業數據管道(data pipeline)平臺。Alooma能夠提供一種現代的、可擴展的、基於雲端的ETL解決方案,它可以實時地將來自任何數據源的數據匯集到任何一個數據倉庫之中。

錯誤處理:處理、監控/報告、整流(restreaming)

轉換:支持Python轉換的ETL

2.Confluent

Confluent是一個基於Apache Kafka的全面數據流平臺。它能夠在數據流中發布、訂閱、存儲並處理數據。Confluent提供了其平臺的開源版本。

錯誤處理:僅監控

轉換:ETL,Kafka Streams API

3.Fivetran

Fivetran是一款SaaS類型的數據集成工具。它能夠從不同的雲服務、資料庫和商業智能(BI)工具中提取數據,並將其加載到數據倉庫之中。

錯誤處理:僅監控

轉型:有限的ELT

4.FlyData

FlyData是一款SaaS類型的數據遷移工具。它可用於管理MySQL、PostgreSQL、MariaDB、Percona的數據加載過程,並以CSV/TSV/JSON的格式記錄到Amazon的Redshift數據倉庫之中。

錯誤處理:緩衝式處理

轉型:有限的ELT

5.Matillion

Matillion能夠提供雲端數據的集成。它是一款專為Amazon Redshift、Google BigQuery和Snowflake構建的ETL工具。

錯誤處理:僅通過代碼支持,但並非內置

轉換:圖形化構建的ETL

6.SnapLogic

SnapLogic提供了數據集成平臺即服務(data integration platform-as-a-service)的工具,可用於連接各種雲端數據源、SaaS應用和本地的商業軟體應用。

錯誤處理:支持,但並非內置

轉換:圖形化構建的ETL

7.Stitch Data

Stitch是一款雲端優先(cloud-first)的、開發者專用工具,可用於快速地移動數據。

錯誤處理:手動,記錄在拒絕表(rejection table)中

轉型:有限的準ETL

8.StreamSets

StreamSets是原生雲(cloud-native)的產品集合,可用於控制數據漂移,以及與數據、數據源、數據基礎架構、數據處理有關的變化問題。

錯誤處理:有錯誤記錄處理

轉換:代碼類和GUI的ETL

9.Striim

Striim(發音為「stream」)是一個實時的流媒體分析和數據集成平臺。

錯誤處理:僅監控

轉換:內置和具有Java功能的ETL

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 詳細的六款主流ETL工具介紹及功能對比
    etl工具的使用,必不可少。最近用kettle做數據處理比較多,所以也就介紹下這方面內容,這裡先對比下幾款主流的ETL工具。在如下Gartner魔力象限位於領導者地位:數據集成工具魔力象限、數據質量工具魔力象限 、元數據管理解決方案魔力象限 、主數據管理解決方案魔力象限 、企業級集成平臺即服務(EiPaaS)魔力象限。
  • 7種主流數據分析軟體比較及經典教材推薦
    Stata最大的優勢可能在於回歸分析(它包含易於使用的回歸分析特徵工具),logistic回歸(附加有解釋logistic回歸結果的程序,易用於有序和多元logistic回歸)。強而有力和靈活性加上一個便於使用者操作的界面;最新的建模工具,快速直覺且容易使用的軟體。由於它革新的圖表使用者界面和精密的分析引擎工具,EViews 是強大,靈活性和便於使用的功能。EViews 預測分析計量軟體在科學數據分析與評價、金融分析、經濟預測、銷售預測和成本分析等領域應用非常廣泛。這也是撰寫計量模型論文最方便的軟體之一。
  • 數據科學家是如何不用ETL工具進行分析數據的?
    要進行分析,數據科學團隊首先需要訪問來自多個應用程式和業務流程的高質量數據,你要把數據從a點移到b點,通常通過自動化過程實現——抽取、轉換、加載或ETL。一般而言,ETL會將數據加載到某種形式的數據倉庫,以便於訪問。但是,ETL和數據倉庫存在一個主要問題。ETL需要大量的編碼,專門知識和維護。
  • 2018年ETL工具比較
    SAP Business Objects數據服務以前稱為Business Objects Data Integrator,SAP BusinessObjects Data Services(BODS)是用於數據集成,數據質量,數據分析和數據處理的ETL工具。它允許您整合和轉換可信的數據到數據倉庫系統以進行分析報告。
  • ETL工具(數據倉庫)
    資料庫也可以做數據倉庫,不過就是 專業的工具 寫起來效率更高,現成的工具直接調用。還有就是如果你是數據產品經理,開發人員 開發東西時間成本是很大的,不要覺得今天 提需求,2天就弄出來。站在外行的角度,想當然的覺得很簡單。你一個小的思維變動,人家可能改幾天。提出的需求要思考清楚,不要經常變動。提出需求以後,後面不要加需求。開發人員最討厭,因為你的思考不全面,謹慎導致重新開發,返工。
  • 三大主流ETL工具選型
    確實,工具是死的,人才是活的。在兩大ETL工具技術的比對上,可以從對ETL流程的支持、對元數據的支持、對數據質量的支持、維護的方便性、定製開發功能的支持等方面考慮。一個項目中,從數據源到最終目標表,多則上百個ETL過程,少則也有十幾個。
  • 學習數據分析,這些超好用的數據分析工具你必須知道!
    目前市場上有數千種工具能夠幫你節約時間和成本,帶你從全新的角度洞察你所在的行業。 以下介紹幾款超好用的數據分析工具,幫助你在數據分析的學習以及工作中能夠脫穎而出。
  • 數據人必備!史上最全的數據分析可視化工具!
    作為一名數據分析人,沒有一個好的可視化工具怎麼能行?藉此,學姐整理了史上最全的數據可視化分析工具盤點!涉及數據分析、商業分析、軟體分析及圖像處理,可能涉及到所有可視化相關領域,行業裡的學習夥伴趕緊看看有沒有自己正在學習的吧!
  • BI大數據分析是什麼,大數據bi工具有哪些
    大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
  • 關於數據分析工具的終極問題
    但換個思維想想,除了不能處理大數據這一條以外,還有什麼Excel不能做的呢?這個局限的大數據,又是指多大呢?我們在日常中用到的數據是否超過了這個極限呢?在我看來,Excel屬於萬能型的選手,解決小數據當然最適合,加上插件也可以處理到百萬、千萬、甚至億行級的數據。所以對於有抱怨Excel想法的人,我希望你可以多花些時間了解Excel。
  • 20款最流行的免費定性數據分析工具
    CAQDAS是計算機輔助定性數據分析。計算機輔助定性數據分析(CAQDAS)軟體具有編碼工具,連結工具,映射或網絡工具,查詢工具以及編寫和注釋工具的功能。Tagger模塊提供了一個直觀的圖形界面和各種選項,用於定義適合標記文本的標籤。分析器模塊包含不同的文本分析函數,其中許多是TACT的用戶已知的。分析器模塊還包括基於自然語言的查詢生成器,允許執行複雜而強大的查詢,而無需學習複雜的查詢語言。Visualizer模塊提供了生成分析結果的分布圖的可能性,使得結果的評估更匹配。
  • 學習分析工具比較研究【薦讀】
    學習分析技術應運而生,並成為研究熱點。學習分析工具在學習分析過程中具有舉足輕重的作用,好的研究工具可以使研究過程事半功倍。本文從多個角度對學習分析工具進行了分類,並從使用環境、數據支持格式、是否可視化等維度詳細比較,討論了24種學習分析工具的特點,旨在為學習分析提供相應的技術支持。
  • 55 個實用的大數據可視化分析工具
    因此,筆者收集了適合各個平臺各種行業的多個圖表和報表工具,這些工具中不乏有適用於NET、Java、Flash、HTML5、Flex等平臺的,也不乏有適用於常規圖表報表、甘特圖、流程圖、金融圖表、工控圖表、數據透視表、OLAP多維分析等圖表報表開發的。為了進一步讓大家了解如何選擇適合的數據可視化產品,本文將圍繞這一話題展開,希望能對正在選型中的企業有所幫助。
  • 18年6大BI與數據可視化工具的比較分析
    【IT168 資訊】如今,有大量功能強大的可視化工具可以幫助您展示想法、可視化數據、進行談話,與客戶和全球社區分享您的重要分析。在本文中,我們將比較最常用的平臺並分析其主要功能,以幫助您選擇一個或多個平臺,為您的工作交流提供不可或缺的幫助。
  • 如何選擇最適合的大數據分析軟體?
    所以,關鍵區分因素可能還是要根據企業的能力以及在數據分析方面的成熟度,重點考慮如何在易用性、算法複雜性和價格之間尋找平衡。我們將在本文對九個主流大數據分析軟體廠商的產品進行對比,即Alteryx、 IBM、KNIME.com、 Microsoft、 Oracle、 RapidMiner、SAP、 SAS 和 Teradata,其中有的廠商提供的工具不止一個。
  • 大數據分析工具採購指南
    一旦組織決定要購買一個大數據分析工具,下一步就是制定一個流程,評估可用的產品,然後從中找到一個最適合你需求和要求的產品。下面我們將介紹在評估各種大數據分析工具符合企業需求的程度時可能用到的必備特性和特定屬性。然後,你再編寫一個預案請求(RFP),說明使用這些工具將如何解決組織的需求。評估標準建模技術的廣度與深度。
  • 共55個,盤點最實用的大數據可視化分析工具
    此時就需要倚仗大數據可視化(BDV)工具,因此,筆者收集了適合各個平臺各種行業的多個圖表和報表工具,這些工具中不乏有適用於NET、Java、Flash、HTML5、Flex等平臺的,也不乏有適用於常規圖表報表、甘特圖、流程圖、金融圖表、工控圖表、數據透視表、OLAP多維分析等圖表報表開發的。為了進一步讓大家了解如何選擇適合的數據可視化產品,本文將圍繞這一話題展開,希望能對正在選型中的企業有所幫助。
  • 有哪些值得推薦的數據可視化工具?
    可用於業務數據的快速分析,製作dashboard,也可構建可視化大屏。tableau的平價替代,有別於Tableau的是,企業級數據分析的功能更多。antv帶有一系列的數據處理API,簡單數據的數據歸類,分析的能力,被很多大公司用作自己BI平臺的底層工具。 2、可視化報表類——適合報表開發、BI工程師Tableau幾乎是數據分析師人人會提的工具,內置常用的分析圖表,和一些數據分析模型,可以快速的探索式數據分析,製作數據分析報告。
  • 面向數據倉庫的ETL工具的實現與優化
    對於少量的資料庫update操作,直接使用sql語句操作的方式實現,然而,對於批量數據載入請求需要使用專門的加載工具來實現,通過使用加載工具加載實現對數據的分割和異步載入。工作流引擎負責從ETL流程定義形成的圖結構中,分析出各個階段中處於就緒狀態的任務,分配相應的資源,並啟動任務執行。
  • 值得推薦的數據可視化工具都在這
    1、純可視化圖表生成/圖表插件——適合開發,工程師 ECharts 一個純Javascript的數據可視化庫,百度的產品,常應用於軟體產品開發或網頁的統計圖表模塊。可在Web端高度定製可視化圖表,圖表種類多,動態可視化效,各類圖表各類形式都完全開源免費。