Apache Kudu 1.8.0 發布,Hadoop 生態數據存儲系統

2020-12-06 IT資訊及架構進階

Hadoop 數據存儲系統 Apache Kudu 1.8.0 已發布,該版本包含以下新特性:

引入了手動數據重新平衡工具,可用於在平板電腦伺服器之間重新分配表副本為 Kudu Python 客戶端添加了對「IS NULL」和「IS NOT NULL」謂詞的支持改進診斷工具,使診斷和故障排除更加簡單添加了對 Spark Streaming DataFrames 的支持到 Kudu Spark 連接器為 Python 客戶端添加了Pandas支持詳情請看發布說明:

https://kudu.apache.org/releases/1.8.0/docs/release_notes.html下載地址:

https://kudu.apache.org/releases/1.8.0

相關焦點

  • Apache Hadoop 3.0.0 GA 正式發布,要求 Java 8
    今天凌晨 Apache Hadoop 3.0.0 GA 版本正式發布,這意味著我們就可以正式在線上使用 Hadoop 3.0.0 了!這個版本是 Apache Hadoop 3.0.0 的第一個穩定版本,有很多重大的改進,比如支持 EC、支持多於2個的NameNodes、Intra-datanode均衡器等等。
  • 在Apache Kudu上對時間序列工作負載進行基準測試
    時間序列作為對快速數據的快速分析自2015年開放原始碼發布Apache Kudu以來,它自稱是用於對快速數據進行快速分析的存儲。其常規任務包含許多不同的工作負載,但是增長最快的用例之一是時間序列分析。時間序列有幾個關鍵要求:高性能流式攝取– 時序工作負載越來越需要以高採樣率從成千上萬的數據源中攝取數據。
  • Apache SkyWalking(Incubating) 5.0.0-alpha 發布
    5.x版本系列的首次發布,系統迎來了全新的UI和功能特性。現代化的UI,後端複雜的分析能力,展現了從3.x到5.x的跨越,以及技術迭代。新版本從7個維度可視化剖析分布式系統的運行情況1. 幫助從單個實例的角度查看系統的運行情況。可以通過搜索框查詢到任何一個在運行的進程。
  • Apache RocketMQ 4.4.0 發布
    萬眾期待的 4.4.0 版本終於在昨天成功發布,值得關注的新特性包括權限控制(ACL)和消息軌跡(Msg Trace)。下面大家解讀該版本引入的這兩大特性。
  • pyspark-不同類型存儲讀寫
    背景結構化數據與非結構化數據的轉換不同類型存儲支持不同類型索引支持前置版本信息正確各組件對應的python語言工具庫安裝就緒,本文基於如下版本,調試正常核心sc.read.format("XXXX").options(XXXX).load(XXXX)dataframe.write.format("XXXX").mode
  • Apache RocketMQ 4.8.0 發布,升級 DLedger 模式
    Apache RocketMQ 4.8.0 已發布。發布公告顯示,在此版本中,社區對 RocketMQ 完成大量的優化和問題修復。
  • Hadoop大數據生態系統及常用組件簡介
    但是如果100G都是文本數據,比如雲智慧透視寶後端kafka裡的數據,抽取一條mobileTopic的數據如下:【107,5505323054626937,區域網,區域網,unknown,0,0,09f26f4fd5c9d757b9a3095607f8e1a27fe421c9,1468900733003】,這種數據100G能有多少條,我們可想而知。
  • Apache Kudu又更新?1.4版改進了Web界面
    【IT168 資訊】Apache Kudu 1.4已經發布,改進了Kudu Web界面的可用性,以及一個新的文件系統檢查實用程序。Apache Kudu原來是Cloudera的項目,現在是Apache Hadoop生態系統的一部分。Apache表示其可以用於快速分析數據。
  • Apache DolphinScheduler 1.3.2 發布,性能提升 2~3 倍
    (Incubating)經過長達  5 個多月的辛苦努力, 終於發布了 1.3.2 正式版本。LoggerServer 是一個 RPC 服務,提供日誌分片查看、刷新和下載等功能在 1.2 版本實現的架構中,任務隊列的實現基於 ZooKeeper。master 將任務數據存放到 ZooKeeper 中,然後 worker 節點通過分布式鎖的方式去消費任務隊列,延遲了任務開始執行的時間。為保證任務隊列的性能,ZooKeeper 的節點中並未存儲執行任務所需的全部數據。
  • Apache Airflow 2.0 發布,Airbnb 開源的調度系統
    Apache Airflow 2.0.0 已正式發布,Airflow 是一個靈活、可擴展的工作流自動化和調度系統,可編集和管理數百 PB 的數據流。
  • 大數據開發前要做什麼準備?8臺Hadoop伺服器進行集群規劃前配置
    前期準備安裝好CentOS Linux 8 並升級完內核和軟體包之後再進行Hadoop的安裝。參考文章:1、知道Linux是怎麼安裝的嗎?安裝個CentOS Linux 8開始大數據開發2、Linux內核怎麼升級?升級有什麼好處?
  • hadoop基礎知識介紹_hadoop是什麼語言開發的_hadoop能做什麼
    一、hadoop是什麼? (1)Hadoop是一個開發和運行處理大規模數據的軟體平臺,可編寫和運行分布式應用處理大規模數據,是Appach的一個用java語言實現開源軟體框架,實現在大量計算機組成的集群中對海量數據進行分布式計算(或專為離線和大規模數據分析而設計的)並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
  • Apache Pulsar 2.6.1 版本正式發布:功能增強,新增 OAuth2 支持
    在 Apache Pulsar 2.6.0 版本發布後的 2 個月,2020 年 8 月 21 日,Apache Pulsar 2.6.1 版本正式發布!
  • hadoop最新發行穩定版:DKHadoop版本介紹
    Hadoop對於從事網際網路工作的朋友來說已經非常熟悉了,相信在我們身邊有很多人正在轉行從事hadoop開發的工作,理所當然也會有很多hadoop入門新手。Hadoop開發太過底層,技術難度遠比我們想像的要大,對新手而言選擇一個合適的hadoop版本就意味著上手更快!
  • hadoop開發應用實例_hadoop應用開發技術實例詳解 - CSDN
    hadoop是什麼?hadoop能有哪些應用?hadoop和大數據是什麼關係?下面我們將圍繞這幾個問題詳細闡述。hadoop是什麼?Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
  • Apache Flink 1.9.0 發布,開源流處理框架
    Apache Flink 1.9.0 已經發布,Apache Flink 項目的目標是開發一個流處理系統,以統一和支持多種形式的實時和離線數據處理應用程式以及事件驅動的應用程式。
  • Apache Eagle:分布式實時 Hadoop 數據安全方案
    併集成機器學習對用戶行為建立Profile以實時智能地保護Hadoop生態系統中大數據安全的解決方案。Apache Eagle提供一套高效分布式的流式策略引擎,具有高實時、可伸縮、易擴展、交互友好等特點,同時集成機器學習對用戶行為建立Profile以實現實時智能實時地保護Hadoop生態系統中大數據的安全。背景隨著大數據的發展,越來越多的成功企業或者組織開始採取數據驅動商業的運作模式。
  • Hive數據倉庫實戰
    它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的SQL查詢功能, Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數據。
  • Apache Flex BlazeDS 4.7.0 發布 - OSCHINA - 中文開源技術交流社區
    Apache Flex BlazeDS 4.7.0 發布,Apache Flex BlazeDS 是基於伺服器的 Java 遠程和 Web 消息技術,允許開發者簡單連接到後端分布式數據和實時推送數據到