[Hadoop] Cloudera Impala:基於Hadoop的實時查詢開源項目

2021-01-08 開源中國

CSDN報導 文/劉江  正在紐約進行的大數據技術會議Strata Conference + Hadoop World傳來消息,Cloudera發布了實時查詢開源項目Impala 1.0 beta版,稱比原來基於MapReduce的Hive SQL查詢速度提升3~90倍(詳情可以參考此文中的「How much faster are Impala queries than Hive ones, really?」部分),而且更加靈活易用。Impala是高角羚的意思,這種羚羊主要分布在東非。

同時,這個項目也將以Cloudera Enterprise RTQ(Real-Time Query)為名進入CDH發行版。可以部署到生產環境的版本將到2013年一季度就緒。不過,據ComputerWorld和MarketWatch的報導,Capgemini金融服務、Karmasphere、MicroStrategy、Pentaho、Qlikview和Tableau等已經在Impala上做了幾個月的實際產品測試。

眾所周知,Hadoop及HBase、HDFS其實是在Google的MapReduce、BigTable和GFS三篇論文的啟發下開發出來的。而近年來Google的基礎架構又有了一波新的革新,有媒體稱之為後Hadoop時代的三駕馬車Caffeine、Pregel和Dremel。當然,這種說法有混淆了輩份之嫌,而且並不十分科學。Pregel是圖資料庫,據說在MapReduce之外擔負了另外20%的數據處理任務,與三大論文之間沒有承繼關係。項目的創始人之一Grzegorz Malewicz去年來過北京,是Hadoop in China大會的主題演講嘉賓。今年加盟了Facebook。前幾天我在GTalk裡詢問他的近況,他說正在開發Pregel的開源版本。其實某種程度上,Caffeine是MapReduce的演進,在今年OSDI上大火的Spanner可以視為BigTable的演進,而Dremel則是新出的。

無論如何,有了好東西,開源社區當然會很快跟進,仿照Dremel的Apache Drill項目已經進行一段時間了。而Cloudera在官方博客中也明確承認,「對每個Hadoop用戶都具有革命性的技術」Impala是在Dremel的啟發下開發的。也就是說,Impala不再使用緩慢的Hive+MapReduce批處理,而是通過與商用並行關係資料庫中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或者HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲。其架構如下圖所示。


Impala的架構(來自ZDNet)

Impala採用與Hive相同的元數據、SQL語法、ODBC驅動程序和用戶接口(Hue Beeswax),這樣在使用CDH產品時,批處理和實時查詢的平臺是統一的。目前支持的文件格式是文本文件和SequenceFiles(可以壓縮為Snappy、GZIP和BZIP,前者性能最好)。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni將在正式版中支持。

博客同時還比較了Impala與Dremel。文中說: 

Dremel之所以能在大數據上實現交互性的響應速度,是因為使用了兩方面的技術:一是對有嵌套結構的嵌套關係型數據採用了全新的列式存儲格式,一是分布式可擴展統計算法,能夠在幾千臺機器上並行計算查詢結果。 

而後一技術是從並行關係型資料庫那裡借鑑而來的。與2010年Dremel論文只能處理單表查詢相比,Impala已經能夠支持完整的JOIN操作。此外,除了Trevni列式存儲格式之外,Impala還支持廣泛的其他格式。也就是說:  

Impala+Trevni已經完全實現了Dremel論文中的查詢性能,而且在SQL功能上還超過了它。 

文章也強調Impala並不會取代傳統的數據倉庫和MapReduce+Hive。數據倉庫在對數量有限的結構化數據集做複雜的分析處理時仍然更加適用,而長期運行的數據轉換負載還是MapReduce的用武之地。

有意思的是,這篇官方博文的作者之一是Impala的架構師Marcel Kornacker,在加盟Cloudera之前,是Google F1項目查詢引擎的主開發人員,F1項目的任務,正是將AdWords的存儲從MySQL轉到Spanner。

Impala的主要資源

原文連結:

http://blog.csdn.net/u010415792/article/details/8980112

相關焦點

  • Cloudera Impala:基於Hadoop的實時查詢開源項目
    CSDN報導 文/劉江  正在紐約進行的大數據技術會議Strata Conference + Hadoop World傳來消息,Cloudera發布了實時查詢開源項目Impala 1.0 beta版,稱比原來基於MapReduce的Hive SQL查詢速度提升3~90
  • Hadoop工具生態系統指南 | 網際網路數據資訊網-199IT | 中文網際網路...
    HadoopApache hadoop項目負責開發可靠的、可擴展的分布式計算開源軟體。網址:hadoop.apache.org HDFS分布式文件系統提供高速的應用數據訪問。網址:cloudera.com/hadoop ZooKeeper針對分布式應用的高性能協調服務。ZooKeeper為配置信息、命名提供集中化管理服務,支持分布式同步,並提供群組服務。
  • Hadoop和大數據:60款頂級開源工具
    它基於Java,具有容錯性、高度擴展性和高度配置性。支持的作業系統:Windows、Linux和OS X。相關連結:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html9.
  • 大數據掃盲——什麼是Hadoop
    Hadoop是一個開源大數據處理框架。當前大部分公司的大數據平臺都是基於Hadoop開發的,包括,華為、阿里、騰訊等國內科技巨頭。hadoop起源為此oug Cutting團隊開發了Nutch項目已增強搜尋引擎框架的效率但並沒有解決根本問題。但奇怪的師google的搜尋引擎在處理數據上顯得毫無壓力!正當大家都很疑惑是,google工程師突然「洩密」!這就是google發布了震驚業界的三大論文。
  • 薦六十款針對Hadoop和大數據頂級開源工具
    它基於Java,具有容錯性、高度擴展性和高度配置性。支持的作業系統:Windows、Linux和OS X。相關連結:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html9.
  • Hadoop知識整理
    Cloudera Hadoop官網地址:https://www.cloudera.com/downloads/cdh/5-10-0.html下載地址:http://archive-primary.cloudera.com/cdh5/cdh/5/(1)2008年成立的Cloudera是最早將Hadoop商用的公司,為合作夥伴提供Hadoop的商用解決方案
  • Hadoop將死?Cloudera CEO怒懟Gartner
    【IT168 評論】大數據已經過了炒作階段,但即使是現在,提到大數據很多人首先會想到hadoop,但最近多份分析報告和趨勢預測的文章所傳遞出的聲音,讓Hadoop再度成為了爭議的焦點。年初的調查,Hadoop被列為2018年大數據領域的「漸凍」趨勢之一,不少人將Hadoop稱作「倒下的大象」,比如Lucidworks執行長Will Hayes。
  • Hadoop生態圈
    本章講一下關於大數據技術hadoop,直接步入正題,在了解hadoop之前,先來說一下什麼是大數據?一.大數據1.概述:是指無法在一定時間範圍內無法用常規軟體工具進行捕捉、管理和處理的數據集合,需要使用新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。主要解決海量數據的存儲和分析計算問題。
  • 頂級hadoop管理工具專題及常見問題 - CSDN
    Cloudera Impala的體系結構 Cloudera的Impala由三個關鍵組件組成,稱為impala,impala-shell和impala-state-store。 SQL查詢中涉及的各個組件之間的交互如下圖所示: Impala shell是一個shell腳本,它用於啟動用於運行查詢的impala-shell-py python程序。
  • hadoop組成與體系結構詳解
    Hadoop Common:Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日誌操作等。2. HDFS:分布式文件系統,提供高吞吐量的應用程式數據訪問,對外部客戶機而言,HDFS 就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件,等等。但是 HDFS 的架構是基於一組特定的節點構建的(參見圖 1),這是由它自身的特點決定的。
  • RedHat 開源其 Hadoop 存儲系統
    作為大數據+混合雲業務戰略的一部分,Red Hat沒有選擇推出自己的hadoop商業版本或者收購一家Hadoop發行廠商,而是推出了首個Hadoop HDFS文件存儲系統的開源替代產品。 Red Hat本周三宣布開源其Red Hat Storage Hadoop插件,作為HDFS的替代產品。RedHat Storage hadoop插件基於Gluster文件系統——Red Hat於2011年以1.36億美元收購了Gluster,目前已經將Gluster的技術整合到了Red hat的存儲伺服器產品(RHSS)中。
  • 大數據基礎入門——Hadoop強大的、快速、良好發展的生態圈!
    在Apache基金下,Hadoop社區已經發展成為一個大數據與雲計算結合的生態圈,對於大數據的計算不滿足於離線的批量處理了,同時也支持在線的基於內存和實時的流式計算。了解完大數據的基礎部分,Hadoop基礎之後,接下來學習Hadoop生態圈的技術,這才是大數據的實用部分,商用部分以及更有價值的部分。
  • Hadoop
    Hadoop歷史雛形開始於2002年的Apache的Nutch,Nutch是一個開源,比如HBase、Hive等,這些都是基於HDFS和MapReduce發展出來的。在最初,HADOOP是作為Apache Nutch搜尋引擎項目的基礎架構而開發的,後來由於它獨有的特性,讓它成為HADOOP CORE項目的一部分。
  • hadoop基礎知識介紹_hadoop是什麼語言開發的_hadoop能做什麼
    一、hadoop是什麼? (1)Hadoop是一個開發和運行處理大規模數據的軟體平臺,可編寫和運行分布式應用處理大規模數據,是Appach的一個用java語言實現開源軟體框架,實現在大量計算機組成的集群中對海量數據進行分布式計算(或專為離線和大規模數據分析而設計的)並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
  • Impala介紹以及常見問題
    01 Impala簡介Impala伺服器是一個由Cloudera 開發並開源的,基於HDFS/Hbase,分布式的大規模並行處理impala查詢的時間多了8個小時解決方案:1.將timestamp類型改為string時區配置:默認impala配置不是中國時區,所以在使用from_unixtime的時候有誤差解決方案:在cdh裡面impala->配置->impala Daemon -&
  • 什麼是 Hadoop 生態系統
    當使用 Hadoop 環境創建 Data Virtualization 示例時,比如 Hortonworks Data Platform, Cloudera Quickstart 等等,裡面會包含大量的開源項目。本篇文章主要是對 Hadoop 生態系統有個初步的認識,以下的一些開源項目詳情可以查看 hadoop ecosystem table。
  • 回顧·基於Impala平臺打造交互查詢系統
    本文根據網易大數據蔣鴻翔老師DataFun Talk——「大數據從底層處理到數據驅動業務」中分享的《基於Impala平臺打造交互查詢系統》編輯整理而成,在未改變原意的基礎上稍做整理。下面是今天分享的內容大綱,第一個講一下交互式查詢的特點,在大數據平臺有很多查詢平臺可以選擇,第二個講一下依據項目如何選擇平臺,選型因素是什麼。
  • 快速搭建CDH-Hadoop-Hive-Zoopkeeper-Sqoop學習環境
    CDH簡單了解CDH: C:cloudera(公司) D:distribute H:Hadoop解決了大數據Hadoop 2.x生態系統中各個框架的版本兼容問題,不用自己編譯, CDH適合商用,版本更新比較慢,也可以選擇其他版本。
  • hadoop的補充---03
    hadoop.mapreduce.TaskAttemptContext taskContext = new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job
  • 騰訊TDW項目:開源的分布式數據倉庫
    本期,我們採訪的是騰訊TDW開源項目負責人、騰訊高級工程師趙偉。  TDW,騰訊分布式數據倉庫項目,在hadoop的基礎上開發的騰訊內部最大的離線數據處理平臺。TDW支持Oracle功能兼容的SQL語法,支持PB及的存儲和TB及的計算等。  以下是採訪記錄。  CSDN:請簡單的介紹一下TDW項目的應用場景。