ETL工具(數據倉庫)

2021-03-02 數據分析論壇

這些年,幾乎都與ETL打交道,接觸過多種ETL工具。現將這些工具做個整理,與大家分享。我們公司用過(SSIS,datastage)在選擇的時候,多聽專業人士意見,如果不懂,那就去 51job 上面看,人家招聘 那個崗位需求多,要求怎麼樣。

資料庫也可以做數據倉庫,不過就是 專業的工具 寫起來效率更高,現成的工具直接調用。還有就是如果你是數據產品經理,開發人員 開發東西時間成本是很大的,不要覺得今天 提需求,2天就弄出來。站在外行的角度,想當然的覺得很簡單。你一個小的思維變動,人家可能改幾天。提出的需求要思考清楚,不要經常變動。提出需求以後,後面不要加需求。開發人員最討厭,因為你的思考不全面,謹慎導致重新開發,返工。


一 ETL工具

【國外】

1. datastage

點評:最專業的ETL工具,價格不菲,使用難度一般

2. informatica

點評:專業程度如Datastage旗鼓相當,價格似乎比Datastage便宜。

Informatica PowerCenter 8.6.1 for Win 32Bit

3. kettle

點評:業界最有名的開源ETL工具。開源當然就免費,免費的有些東西使用就不是很方便。

4. ODI

點評:oracle資料庫廠商提供的工具,有局限性,與oracle資料庫耦合太深。

5.Cognos

Cognos BI Cognos是在BI核心平臺之上,以服務為導向進行架構的一種數據模型,是唯一可以通過單一產品和在單一可靠架構上提供完整業務智能功能的解決方案。它可以提供無縫密合的報表、分析、記分卡、儀錶盤等解決方案,通過提供所有的系統和資料資源,以簡化公司各員工處理資訊的方法。作為一個全面、靈活的產品,Cognos業務智能解決方案可以容易地整合到現有的多系統和數據源架構中。

6.SSIS

SSIS是Microsoft SQL Server Integration Services的簡稱,是生成高性能數據集成解決方案(包括數據倉庫的提取、轉換和加載 (ETL) 包)的平臺。構成Integration Services 包括用於生成和調試包的圖形工具和嚮導;用於執行工作流函數(如 FTP 操作)、執行 SQL 語句或發送電子郵件的任務;

------------------------------------------

【國內】

6. beeload

點評: 最好的國產ETL工具,但產品化程度還有一定距離。國內的工具基本不怎麼用,用的人少,大家需要謹慎選擇。

---------------------------

二 專業調度工具

有人說: ETL是BI的基礎,而調度是ETL的靈魂,可見調度的重要性!

調度原本是ETL技術的一個分支,但這些年, 調度越來似乎有走獨立工具的趨勢。雖然在ETL工具有調度功能,但與獨立調度工具相比,ETL工具的調度就顯得很弱了。

【國外】

1. Control-M

點評:你當了大哥太多年,確實有點寂寞。不論是你的規模、價格、使用難度,都很偉大,但我一界平民,你對我只是傳說。

【國內】

2. taskctl

點評:調度新秀。專業,而且設計獨特、體驗友好。易安裝、易使用,看好其前景。

3. ETS

點評:專業化有待提升

4. Moia

點評:產品與項目是有區別的,不要總是在產品化與客戶化之間徘徊。

5. ETL-Plus

點評:功能全,遺憾的是東南倒塌。

相關焦點

  • 面向數據倉庫的ETL工具的實現與優化
    (Extract-Transform-Load)技術是目前採用較多的數據交換技術之一,ETL實際上是數據抽取,數據轉換和數據加載三種操作的總稱。通常ETL操作發生在數據倉庫中,通過ETL工具從數據源中抽取需要的數據,根據需要的格式對數據進行格式轉換、清洗,去除冗餘數據,將不同格式存儲的數據進行格式統一,然後將加工處理後的數據加載到新的資料庫中進行存儲。
  • 數據倉庫ETL工具那麼多,其實掌握一個就足夠了
    在維度建模中我們已經了解數據倉庫中的維度建模方法以及基本要素,在這篇文章中我們將學習了解數據倉庫的ETL過程以及實用的ETL工具。一、什麼是ETL?構建數據倉庫的核心是建模,在數據倉庫的構建中,ETL貫穿於項目始終,它是整個數據倉庫的生命線。
  • 用於數據分析的各類主流ETL 工具比較,哪種最適合你
    第一種選擇:您可以根據自身的情況,選擇各種開源的ETL工具(請參考https://www.alooma.com/blog/open-source-etl-tools-comparison而這種批量處理方式是非常致命的,因為如果在數據倉庫中存在著超過24小時的、被API調用與分配的數據;或者需要同時備份傳入的數據,那麼這些CDC信息就可能因此而丟失或被覆蓋,從而造成巨大的問題。 而面對越來越多的數據流和其他類型的數據源時,尤其是在需要儘快提供最新數據的需求下,這些批處理的工具集就更加不適合了。
  • Hive數據倉庫實戰
    它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的SQL查詢功能, Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數據。
  • 詳細的六款主流ETL工具介紹及功能對比
    etl工具的使用,必不可少。最近用kettle做數據處理比較多,所以也就介紹下這方面內容,這裡先對比下幾款主流的ETL工具。任務通過允許每個轉換,任務,腳本等等,更有利於自動化更新數據倉庫的複雜工作。任務通過允許每個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。KITCHEN 允許你批量使用由Chef設計的任務 (例如使用一個時間調度器)。KITCHEN也是一個後臺運行的程序。
  • 數據科學家是如何不用ETL工具進行分析數據的?
    要進行分析,數據科學團隊首先需要訪問來自多個應用程式和業務流程的高質量數據,你要把數據從a點移到b點,通常通過自動化過程實現——抽取、轉換、加載或ETL。一般而言,ETL會將數據加載到某種形式的數據倉庫,以便於訪問。但是,ETL和數據倉庫存在一個主要問題。ETL需要大量的編碼,專門知識和維護。
  • BI大數據分析是什麼,大數據bi工具有哪些
    數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。大數據分析與數據分析最核心的區別是處理的數據規模不同,由此導致兩個方向所需的技能技巧也是不同的。傳統BI的技術標籤:ETL、數據倉庫、OLAP、可視化報表。
  • 數據倉庫模型設計與工具
    一、基本概念維度建模,是數據倉庫大師Ralph Kimball提出的,是數據倉庫工程領域最流行的數倉建模經典。二、建模方法 —— 經典數據倉庫模型數據倉庫建模方法論可分為:維度建模、範式建模、Data Vault模型、Anchor模型。
  • 商務智能軟體FineBI的ETL數據集
    ETL數據集就是經過ETL處理之後添加進來的數據表,如:新增公式列,join,union等操作,這樣加進來的表前面會有「etl」符號作為標識。下面將通過商務智能軟體FineBI進行介紹。添加ETL數據集打開BIDemo業務包,點擊+ETL,進入添加ETL表界面從數據連接bidemo中選擇銷售活動數據表,點擊下一步進入表數據設置頁面,在該頁面可以對新加表進行ETL處理。經過ETL處理之後,點擊保存可以看到,一張新的銷售活動經過ETL處理的表被加進了業務包。
  • 2018年ETL工具比較
    這種錯誤處理是至關重要的,因為如果數據倉庫中的數據超過了24小時API調用的分配數量,或者傳入的數據得到備份以及CDC信息的情況下丟失的數據可能是一個巨大的問題丟失或被覆蓋。那麼越來越多的數據流和其他類型的數據源呢?它們不太適合設計和建立在批處理過程中的工具集,尤其是在今天需要儘快提供最新數據的情況下。
  • ETL還是ELT?這個工具玩轉數據清洗實現高效率
    在此情況下,為了實現企業全局數據的系統化運作管理(信息孤島、數據統計、數據分析、數據挖掘) ,為DSS(決策支持系統)、BI(商務智能)、經營分析系統等深度開發應用奠定基礎,挖掘數據價值 ,企業會開始著手建立數據倉庫,數據中臺。將相互分離的業務系統的數據源整合在一起,建立一個統一的數據採集、處理、存儲、分發、共享中心。
  • 商務智能軟體FineBI的ETL處理
    ETL轉換是指對分布的、異構數據源中的數據,比如說關係數據等底層數據進行一定的轉換,然後將轉換後的資料庫保存在中間層中,成為數據分析的基礎。下面將通過商務智能軟體FineBI介紹。比如說我們想要基於業務包外部的數據表添加一個ETL轉換表至BIdemo業務包中,那麼該如何選擇外部數據表呢?
  • ETL與數據集成平臺的評價報告
    2.5 ETL工具必須在更短的時間內處理更多的數據(更好的吞吐量和可擴展性)ETL工具提高吞吐量和性能,以處理爆炸性的數據量和不斷縮小的批處理窗口。不希望從頭刷新整個數據倉庫,而是希望ETL工具捕獲和更新自上次加載以來在源系統中發生的更改。
  • 我們可以不再使用ETL了嗎?
    但是將這些豐富的OLTP和客戶數據遷移到OLAP系統中並不是一項簡單的任務。生產資料庫以不同的方式存儲數據,對必須費力映射到數據倉庫的列使用特殊的命名約定。其中一些源系統甚至不是關係資料庫,而是專有的大型機文件系統或平面文件存儲,這更加大了難度。除了事務性數據之外,還有時間序列和地理數據,所有這些數據都必須經過調整,以適應所選擇的模式。
  • 大數據為什麼不再使用ETL?
    數據科學家是指能採用科學方法、運用數據挖掘工具對複雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數位化重現與認識,並能尋找新的數據洞察的工程師或專家(不同於統計學家或分析師)。生產資料庫以不同的方式存儲數據,對必須費力映射到數據倉庫的列使用特殊的命名約定。其中一些源系統甚至不是關係資料庫,而是專有的大型機文件系統或平面文件存儲,這更加大了難度。除了事務性數據之外,還有時間序列和地理數據,所有這些數據都必須經過調整,以適應所選擇的模式。  將所有這些數據轉換為數據倉庫中一致且可用的格式仍然是一項艱巨的任務。
  • 建設數據倉庫的八個步驟
    2.選擇滿足數據倉庫系統要求的軟體平臺    在數據倉庫所要解決的問題確定後,第二個步驟就是選擇合適的軟體平臺,包括資料庫、建模工具、分析工具等。    ·能否提供數據倉庫的建模工具,是否支持對元數據的管理。    ·能否提供支持大數據量的數據加載、轉換、傳輸工具(ETT)。    ·能否提供完整的決策支持工具集,滿足數據倉庫中各類用戶的需要。
  • 三大主流ETL工具選型
    確實,工具是死的,人才是活的。在兩大ETL工具技術的比對上,可以從對ETL流程的支持、對元數據的支持、對數據質量的支持、維護的方便性、定製開發功能的支持等方面考慮。一個項目中,從數據源到最終目標表,多則上百個ETL過程,少則也有十幾個。
  • 關於數據分析,你需要知道的ETL基礎知識
    ETL是數據集成的第一步,也是構建數據倉庫最重要的步驟,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析依據。ETL一詞較常用在數據倉庫,但其對象並不限於數據倉庫。舉個例子,某電商公司分析人員根據訂單數據進行用戶特徵分析。
  • 數據倉庫和數據挖掘之間的聯繫和區別
    因此這兩者在本質上就存在明顯的區別,不過兩者既相互區別又相互聯繫,數據倉庫和數據挖掘都可以看做是商業智能工具集合。因此這兩者在本質上就存在明顯的區別,不過兩者既相互區別又相互聯繫,數據倉庫和數據挖掘都可以看做是商業智能工具集合。下面我們來好好認識一下數據倉庫和數據挖掘的定義、聯繫和區別吧!
  • 【原創】-數據倉庫的由來?
    數據倉庫到底是什麼? 一、邏輯層次和概念層次,資料庫和數據倉庫在一定程度上具有相通性,都是通過資料庫軟體去管理數據,但是資料庫更關注業務交易處理過程中數據的存儲~ 數據倉庫的著重點 1、對於業務的存儲數據進行分析。