Elasticsearch 7.10.0發布,基於Apache Lucene 8.7.0

2020-12-23 蟲蟲搜奇

日前Elastic發布了Elasticsearch 7.10.0。該版本基於Apache Lucene 8.7.0開發,支持在Elasticsearch 在線彈性雲和自建實例使用,有關該版本的功能,請和蟲蟲一起學習。

可搜索的快照可存儲更多內容

大數據流行的幾天,企業數據都每天都以指數級的速率增長。尤其是日誌和監控數據(例如日誌,指標,跟蹤和安全事件)。很多企業都在用Elasticsearch收集和存儲數據,用來做實時告警、在線分析以及機器學習檢測,用來驅動DevOps工作流,監控安全事件。但是大量數據存儲需要大量資源,尤其是靠雲服務企業,每一M都是錢,怎麼能保證數據存儲並保持經濟是一個問題。

為了解決這個問題,Elasticsearch引入了數據的生命周期。使用索引生命周期管理等功能有助於將數據從高性能,高成本的"熱"節點移動到性能較低的磁碟的低成本"熱"節點。將大量數據保留在熱節點上,仍然需要大量的存儲費用。而如果能將其分級,將大量不是需要實時的數據存儲為快照。但是這樣的解決方案存在問題,那就是需要在將快照恢復,需要花費大量恢復時間。

新版本中加入了一個Beta版本的功能可搜索快照,,可讓用戶直接在無需還原的情況下在AWS S3,Microsoft Azure存儲或Google Cloud Storage等低成本對象存儲上搜索快照,而不會顯著影響搜索性能。平衡成本,性能和功能,以滿足存儲和搜索需求。

可搜索快照為稱為冷層(cold tier)的新數據層提供了動力。冷層可以將集群存儲減少50%,而不會顯著影響性能,從而極大的降低只讀數據的存儲成本。它保持與熱層(warm tier)和熱層相同的可靠性和冗餘級別,並完全支持從Elasticsearch獲得的自動恢復。

通過EQL增強Elasticsearch的安全性

在7.9版中,Elasticsearch事件查詢語言(EQL),一種新的實驗性查詢語言。EQL在Endgame中已使用多年,可幫助用戶全面了解威脅調查,識別和預防系統。現在已將安全性領域中使用的這些相同的獨特功能引入了Elasticsearch,並且在7.10中,Elasticsearch中的EQL現在處於Beta版,用於諸如可觀察性和其他時間序列數據之類的用例。

EQL旨在輕鬆地處理一個事件並關聯其他事件或事件序列,以得出系統狀態的結論。可以在一段時間內將這些事件關聯起來,以找到新的結論。

其他功能和可用性增強

搜索時間點(PIT)

在Elasticsearch中查詢索引時,實際上是在給定的時間點搜索數據。如果查詢返回前10%的結果,如何查詢其他90%的結果?在大多數可觀察性和安全性使用案例中,索引不斷變化,因此發送另一個查詢將返回不同的結果,因為索引或數據已更改。時間點讀取器使用戶能夠以給定時間點處的狀態重複查詢索引。時間點閱讀器已經提供了EQL查詢語言希望將來將其用於許多其他用例。

通配符欄位類型大小寫不敏感

在Elasticsearch 7.9中,引入了新的通配符欄位類型。在引入這種新的欄位類型之前,在網絡瀏覽器上進行了人類學習,但是在查詢中使用通配符會佔用大量資源,並且通常導致搜索時間慢於預期。通配符欄位類型提供了額外的靈活性,並且是組合查詢的簡便方法。在7.10中,增加了對不區分大小寫查詢的支持。默認情況下,這只需將可選的case_insensitive標誌設置為true即可對術語級查詢(例如術語,術語,前綴,通配符和正則表達式)啟用不區分大小寫的功能。這將極大地有益於安全性和可觀察性。

GET /my-index-000001/_eql/search

{

"query": """

process where process.executable : "c:\\\\windows\\\\system32\\\\cmd.exe"

"""

}

無符號64位整數

Elasticsearch新版本,支持無符號的64位整數。此新的數字類型支持從0到264-1的非常大的正整數。這對於系統生成的數據(例如來自路由器的計數器或Windows註冊表事件)特別有用。聚合仍然可以在最接近的兩倍上進行。

版本數據類型

如何搜索數值為語義的軟體版本?版本數據類型是關鍵字欄位的一種特殊形式,用於處理軟體版本值並支持基於語義版本控制的軟體優先級規則。例如,主要版本,次要版本和修補程序版本按數字排序("2.1.0" < "2.4.1" < "2.11.2"),而預發行版本則在發行之前進行排序("1.0.0-alpha < "1.0.0")。

新匯總功能

除了在7.8中添加的聚合外,還引入了兩個新的聚合函數:直方圖欄位上的最小/最大聚合,以及直方圖聚合的硬邊界。直方圖數據類型對於處理大量數字數據很有用,該數據經常在生成的地方聚合,從而允許使用更節省空間的Elasticsearch索引。例如,Elastic APM可以匯總直方圖數據或將其匯總為一種結構,以減少從APM代理髮送到Elasticsearch的數據量。能夠在直方圖上進行匯總可以支持新的方案。

第二個聚合是速率指標聚合,它在date_histogram內使用,並計算date_histogram聚合的存儲桶中指定欄位的出現率。以前,計算費率比較困難,由於費率是分析時間序列數據時的基本信息,因此認為簡化費率很有價值。這是我們正在進行的許多此類調整之一,以驗證對時間序列數據使用Elasticsearch通用搜索和分析引擎是否容易且直觀。

新的接收節點管道UI

使用新的接收節點管道UI可以更輕鬆地調試接收流。添加了視覺提示和管道測試,使可以輕鬆地逐步執行流程。查看輸出中的錯誤消息可以幫助確定需要採取哪些措施,以確保的文檔能夠與提取處理器一起正常工作。

REST API對系統索引的訪問已被棄用

Elasticsearch不建議使用REST API訪問系統索引。多數嘗試訪問系統索引的REST API請求都將返回以下棄用警告:

以下REST API端點將訪問系統索引作為其實現的一部分,並且不會返回棄用警告。添加了一個新的元數據標誌來跟蹤索引。升級期間,Elasticsearch會自動將此標誌添加到任何現有系統索引中。

GET _cluster/state

POST _cluster/reroute

GET {index}/_stats

GET {index}/_segments

GET {index}/_shard_stores

GET _cat/[indices,aliases,health,recovery,shards,segments]

系統索引的新線程池

系統索引添加了兩個新的線程池:system_read和 system_write。這些線程池可確保對Elastic Stack至關重要的系統索引(例如安全性或Kibana所使用的系統索引)在集群承受沉重的查詢或索引負載時保持響應能力。

system_read是一個fixed線程池,用於管理針對系統索引的讀取操作的資源。類似地,system_write是一個fixed線程池,用於管理針對系統索引的寫操作的資源。兩者的最大線程數等於5或等於可用處理器的一半,以較小者為準。

機器學習

AUC ROC指標,用於評估分類機器學習模型

新增加了接收器工作特性曲線下的面積(AUC ROC),作為分類分析的評估指標。這是了解模型性能的常用評估指標。

數據框分析中的自定義功能處理器

數據框分析中的新欄位使用戶能夠提供自己的功能轉換和處理器,這些功能和處理器在訓練之前應用,並在推理時自動應用。這使可以在將任何數據行提供給分析之前,對其進行最後一步的特徵轉換。

Elasticsearch 7.10存儲減少

Elasticsearch 7.10依賴於Apache Lucene 8.7,後者引入了對存儲欄位的更高壓縮,這是索引中特別存儲的部分_source。在我們作為基準的各種數據集上,我們注意到空間減少了0%至10%。此更改特別有助於在文檔之間具有大量冗餘數據的數據集,這通常是由我們的可觀察性解決方案生成的文檔的情況,該解決方案重複了有關在每個文檔上生成數據的主機的元數據。

Elasticsearch提供了配置index.codec設置的能力,以告知Elasticsearch如何積極地壓縮存儲的欄位。這兩個值都將支持,default並且best_compression將通過此更改獲得更好的壓縮。

基準測試報告說,使用新的存儲欄位壓縮,最多可減少10%的空間!這是個大新聞,特別是對於為存儲和維護PB級數據付費的組織而言。由Elastic Observability和Elastic Security解決方案創建的索引將獲得最大的節省,因為它們通常保存的數據具有重複性。

Elasticsearch性能改進

Elastic一直致力於不斷提高搜索聚合性能和內存效率。在7.8中,我們通過維護序列化的結果減少了聚合內存的消耗;在7.9中,將search.max_buckets限制增加到65,535。Elasticsearch團隊在7.10中繼續了這項工作,特別針對協調節點和請求級斷路器,以提高性能以及對基數和存儲桶聚合的內存跟蹤。通過預先計算日期範圍,日期直方圖聚合性能也提高了50%。

索引速度提高

Elasticsearch 7.10將索引編制速度提高了20%。我們減少了將條目添加到事務日誌所需的協調。這種減少允許更多的並發性,並將事務日誌緩衝區的大小從增大8KB到1MB。但是,對於全文搜索和其他分析密集型用例而言,性能提升較低。索引鏈越重,收益就越低,因此涉及許多欄位,提取管道或全文本索引的索引鏈將獲得較低的收益。

相關焦點

  • 讓安全計算更簡單 - Apache Teaclave (incubating) 0.1.0 正式發布
    0.1.0 的版本發布。0.1.0 版是 Teaclave 社區發展重要的裡程碑,它是暨 Teaclave 進入 Apache 孵化器後發布的第一個正式版本,這意味著 Teaclave 通向 Apache 頂級項目之路走上了正軌。Teaclave 是一個安全計算平臺,為隱私數據計算賦能。基於硬體安全能力,Teaclave 確保敏感數據在可信域外和離岸場景下安全可控的流通和處理,無需擔心隱私數據洩露和濫用。
  • ElasticSearch 中的中文分詞器該怎麼玩?
    內置分詞器:4.2 中文分詞器在 Es 中,使用較多的中文分詞器是 elasticsearch-analysis-ik,這個是 es 的一個第三方插件,代碼託管在 GitHub 上:https://github.com/medcl/elasticsearch-analysis-ik4.2.1
  • ElasticSearch新版功能驚人
    日前Elastic發布了Elasticsearch 7.10.0後又持續更新了7.10.1。該版本基於Apache Lucene 8.7.0開發,支持在Elasticsearch 在線彈性雲和自建實例使用。現在就快速瀏覽下7.10的驚人特性。
  • Apache Kafka 2.0.0 正式發布,分布式消息發布訂閱系統 - OSCHINA...
    Apache Kafka 2.0.0 已正式發布,這是一個主要版本,新增了許多重要的新功能。此外還包括許多重要的 bug 修復和改進,其中還包括一些嚴重的錯誤修復。
  • FlinkSQL結合Kafka、Elasticsearch、Kibana實時分析電商用戶行為
    使用Flink SQL結合Kafka、Elasticsearch、Kibana實時分析電商用戶行為 (Use flink sql to combine kafka, elasticsearch and kibana, real-time analysis of e-commerce user behavior.)
  • pacebox-springboot 1.1.5 發布,java 生態框架
    pacebox-springboot 融合封裝已發布,旨在提供快速開發腳手架、打造更好的開源生態環境。
  • 一次有趣的Elasticsearch+矩陣變換聚合實踐
    項目是一個基於日期維度做預處理的技術方案,以下是結合Elasticsearch優缺點揚長避短的一次嘗試性實戰,非常有意思,希望可以帶來一些參考,同時歡迎各種討論。:大區、小區等數量超過3000+以上客戶企業類型客戶企業類型劃分:2B、2C等數量在10+以上客戶行業類型客戶企業行業所屬類型劃分,如家具、服裝、電子、3C等數量在100+以上企業業務類型企業物流業務類型,如寄件、派件、未寄件派件等日期範圍日期範圍篩選限制在1個月,即日期的滑動窗口在1~31天(這個限定範圍是與業務部門多次討論得來,否則後面實現的代價會更大
  • 一加氫OS 10.0正式發布:基於Android10.0 一加5/5T也可升級
    【TechWeb】10月15日,在今天下午的一加7T系列發布會上除了發布了一加最新款旗艦手機一加7T系列以外,還發布了搭載在一加手機上的最新系統一加氫OS 10.0。一加氫OS 10.0基於Android10.0開發出來的,一加7T可能是第一款出廠就搭載Android 10的手機產品。
  • Apache Airflow 2.0 發布,Airbnb 開源的調度系統
    Apache Airflow 2.0.0 已正式發布,Airflow 是一個靈活、可擴展的工作流自動化和調度系統,可編集和管理數百 PB 的數據流。
  • Bwsaas v1.0.0 發布,基於 TP6 的多租戶多應用多端快速開發框架...
    bwsaas多租戶多應用多端支持框架release版v1.0.0發布。
  • Apache Felix Framework 4.0.0發布
    【IT168 資訊】OSGi 4.3通過昨天發布的Felix Framework 4.0.0被加入到到Apache Felix項目中。這次發布的版本與之前版本之間的關鍵區別就在於它通過了OSGi 4.3的兼容性測試。
  • Apache DolphinScheduler 1.2.0 發布,分布式可視化工作流任務調度...
    DolphinScheduler Release 1.2.0 Apache DolphinScheduler
  • ElasticSearch 中的中文分詞器以及索引基本操作詳解
    內置分詞器:1.2 中文分詞器在 Es 中,使用較多的中文分詞器是 elasticsearch-analysis-ik,這個是 es 的一個第三方插件,代碼託管在 GitHub 上。索引創建成功後,如下圖:0、1、2、3、4 分別表示索引的分片,粗框表示主分片,細框表示副本(點一下框,通過 primary 屬性可以查看是主分片還是副本)。.kibana 索引只有一個分片和一個副本,所以只有 0。
  • aelf Enterprise 1.0.0 Preview 1 版正式發布
    3月27日,aelf Enterprise 1.0.0 Preview 1 版正式發布。aelf Enterprise 1.0.0 preview 1 版是一個整體的區塊鏈商業化解決方案,包含完備的區塊鏈系統、開發套件、開發文檔、以及配套的基礎應用和基礎服務。
  • ImageMagick 7.0.10-44 發布,多功能圖片處理軟體
    ImageMagick 7.0.10-44 現已正式發布,該版本可以在 Linux,Windows,Mac Os X,iOS,Android
  • ImageMagick 7.0.10-54 發布,多功能圖片處理軟體
    ImageMagick 7.0.10-54 現已正式發布,該版本可以在 Linux,Windows,Mac Os X,iOS,Android OS 等平臺上運行。
  • ...九寨溝7.0級地震最新消息_九寨溝7.0級地震最新消息2017-天氣網
    四川九寨溝7.0級地震最新消息(圖文直播) 8月8日21時19分在四川九寨溝發生7.0級地震,震源深度20千米。    中國地震臺網正式測定:8月8日21時19分在四川阿壩州九寨溝縣(北緯33.20度,東經103.82度)發生7.0級地震,震源深度20千米。另據央視記者消息,甘肅隴南、蘭州、天水、平涼多地有震感。
  • 盤點支持升級Android 7.0的五大智慧型手機品牌
    今年8月,谷歌發了Android 7.0,除了提供了一些按鈕,改變了一些菜單外,其實大家最在意的,時候使用久了之後卡頓的問題,這次據說真的解決了。   說到時機,其實現在也正是一個好時候,新發布的Mate 9等旗艦機自然都會支持Android 7.0,而大概在6-12月前發布的高端手機,也有機會升級到Android 7.0,這對於現在的用戶來說,絕對稱得上一個好消息。   接下來,我們就看看哪些手機品牌已經表示要吃個牛軋糖了。
  • 雲安全日報201204:Apache Tomcat應用伺服器發現信息洩露漏洞,需要...
    12月3日,Apache Tomcat安全團隊發布了安全更新,修復了Tomcat中信息洩露等重要漏洞。以下是漏洞詳情:漏洞詳情來源:https://lists.apache.org/thread.html/rce5ac9a40173651d540babce59f6f3825f12c6d4e886ba00823b11e5%40%3Cannounce.tomcat.apache.org%3ECVE-2020-17527 嚴重程度