為什麼Elasticsearch查詢變得這麼慢了?

2021-02-23 銘毅天下Elasticsearch

0、引言

Elasticsearch社區中經常看到慢查詢問題：「你能幫我看看Elasticsearch的響應時間嗎？」或者是：「我的ES查詢耗時很長，我該怎麼做？」

包含但不限於：Nested慢查詢、集群查詢慢、range查詢慢等問題。

1、兩個維度

每當我們得到這些類型的問題時，我們首先要深入研究兩個主要方面：

我們將首先關注開發方面的問題。我們將獲得慢查詢，討論DSL查詢語言，並查看有助於改進Elasticsearch查詢的小型常規選項。

2、開發維度—你的查詢有多慢？

第一步是查看發送到群集的查詢所花費的時間。在研究如何打開慢速日誌時，Elasticsearch文檔可能有點不清楚，因此我將在下面展示一些示例。

默認情況下，所有版本的Elasticsearch都會關閉慢速日誌，因此您必須對群集設置和索引設置進行一些更新。
這些示例適用於使用elasticsearch 6.2，但您可以在此處找到所有以前的版本。
只需將$ES_version替換為您正在使用的版本，
例如5.5版本設置官網參考：http://t.cn/E7Hq2NG。

向_cluster API發送放置請求以定義要打開的慢速日誌級別：警告，信息，調試和跟蹤。（有關日誌記錄級別的更多信息參考：http://t.cn/E7Hqc5e。）

1curl -XPUT http://localhost:$ES_PORT/_cluster/settings -H 『Content-Type: application/json』 -d』
2{
3"transient" : {
4"logger.index.search.slowlog" : "DEBUG",
5"logger.index.indexing.slowlog" : "DEBUG"
6}
7}'
8

所有慢速日誌記錄都在索引級別啟用，因此您可以再次向index _settings API發送請求以打開，但如果您每月，每季度等都在滾動更新索引，則還必須添加到索引模板中。

將API調用調整為索引設置以匹配您想要命中的慢日誌時間閾值。（您可以設置為0s以分析實例並收集正在發送的所有查詢，並設置為-1以關閉慢速日誌。）
使用您在_clustersettings中選擇使用的日誌級別設置。在這個例子中，「DEBUG」。
ES_PORT是一個持久的環境變量。

1curl -XPUT http:
2 '{"index.search.slowlog.threshold.query.debug": "-1",
3 "index.search.slowlog.threshold.fetch.debug": "-1",}'

現在，您需要收集日誌。每個分片生成慢速日誌並按數據節點收集。如果您只有一個包含五個主分片的數據節點（這是默認值），您將在慢速日誌中看到一個查詢的五個條目。由於Elasticsearch中的搜索發生在每個分片中，因此每個分片都會看到一個。每個數據節點存儲慢速日誌，默認情況如下

/var/log/elasticsearch/$ClusterID_index_slowlog_query

和/var/log/elasticsearch/$ClusterID_index_slowlog_fetch.

如您所見，搜索慢速日誌再次根據搜索階段分解為單獨的日誌文件：獲取（fetch）和查詢（query）。
現在我們在日誌中有結果，我們可以拉入一個條目並將其分開。

1[2018-05-21T12:35:53,352][DEBUG ][index.search.slowlog.query]
2[DwOfjJF] [blogpost-slowlogs][4] took[1s], took_millis[0], types[],
3stats[], search_type[QUERY_THEN_FETCH], total_shards[5],
4source[{"query":{"match":{"name":{"query":"hello world",
5 "operator":"OR","prefix_length":0,"max_expansions":50,
6"fuzzy_transpositions" :true,"lenient":false,"zero_terms_query":
7 "NONE","boost":1.0}}},"sort":[{"price": {"order":"desc"}}]}],

在這裡，您看到：

1 日期
2 時間戳
3 日誌級別
4 慢速類型
5 節點名稱
6 索引名稱
7 分片號
8 時間花費
9 查詢的主體（_source>）

一旦我們獲得了我們認為花費的時間太長的查詢，我們就可以使用一些工具來分解查詢：

工具1：Profile API

Profile API提供有關搜索的信息頁面，並分解每個分片中發生的情況，直至每個搜索組件（match/range/match_phrase等）的各個時間。搜索越詳細，_profile輸出越詳細。

工具2：Kibana profiling 工具

這與_profileAPI密切相關。它提供了各個搜索組件的完美的可視化效果表徵各個分解階段以及各階段查詢的時間消耗。同樣，這允許您輕鬆選擇查詢的問題區域。

3、開發維度—Elasticsearch的查詢原理

現在我們已經確定了一個很慢的查詢，我們通過一個分析器profile來運行它。但是，查看單個組件時間結果並未使搜索速度更快。怎麼辦？

通過兩個階段（下面）了解查詢的工作原理，允許您以從速度和相關性方面獲得Elasticsearch最佳結果的方式重新設計查詢。

3.1 Query階段3.2 fetch階段

獲取階段由路由節點開始，路由節點確定每個分片發送的50個（5個分片×10個結果）結果中的前10個文檔。

路由節點向分片發出對前10個文檔的請求。（可能是包含最高得分文檔的一個分片，或者它們可能分散在多個分片中。）

返回列表後，主節點會在查詢響應的_hits部分中顯示文檔。

4、開發維度—filter過濾器查詢優化

結果分數是Elasticsearch的關鍵。通常，當您使用搜尋引擎時，您需要最準確的結果。例如，如果您正在搜索「蘋果」，您不希望結果包括「蘋果手機」。

Elasticsearch根據您提供的參數對查詢結果進行評分。

雖然查詢相關性不是本篇文章的重點，但重要的是在此提及，因為如果您有快速搜索需求但結果不是您要查找的結果，則整個搜索都是浪費時間。
那麼，你如何加快搜索速度？

4.1 查詢時，使用query-bool-filter組合取代普通query

提高搜索性能的一種方法是使用過濾器。過濾後的查詢可能是您最需要的。

首先過濾是很重要的，因為搜索中的過濾器不會影響文檔分數的結果，因此您在資源方面使用很少的資源來將搜索結果範圍縮小到很小。

使用過濾查詢，結合使用布爾匹配，您可以在評分之前搜索包含X的所有文檔，或者不包含Y的所有文檔。此外，可以filter是可以被緩存的。

過濾器filter查詢不是加速Elasticsearch查詢的唯一方法。

【from騰訊】默認情況下，ES通過一定的算法計算返回的每條數據與查詢語句的相關度，並通過score欄位來表徵。

但對於非全文索引的使用場景，用戶並不care查詢結果與查詢條件的相關度，只是想精確的查找目標數據。

此時，可以通過query-bool-filter組合來讓ES不計算score，
並且儘可能的緩存filter的結果集，供後續包含相同filter的查詢使用，提高查詢效率。

filter原理推薦閱讀：吃透 | Elasticsearch filter和query的不同

5、開發維度——其他優化5.1 避免使用script查詢

避免使用腳本查詢來計算匹配。推薦：建立索引時存儲計算欄位。

例如，我們有一個包含大量用戶信息的索引，我們需要查詢編號以「1234」開頭的所有用戶。

您可能希望運行類似「source」的腳本查詢：

doc ['num'].value.startsWith（'1234'）

此查詢非常耗費資源並且會降低整個系統的速度。合理的建議：考慮在索引時添加名為「num_prefix」的欄位。
然後我們可以查詢

「name_prefix」：「1234」。

5.2 避免使用wildcard查詢

主要原因：
wildcard類似mysql中的like，和分詞完全沒有了關係。

出現錯誤：
用戶輸入的字符串長度沒有做限制，導致首尾通配符中間可能是很長的一個字符串。後果就是對應的wildcard Query執行非常慢，非常消耗CPU。

根本原因：
為了加速通配符和正則表達式的匹配速度，Lucene4.0開始會將輸入的字符串模式構建成一個DFA (Deterministic Finite Automaton)，帶有通配符的pattern構造出來的DFA可能會很複雜，開銷很大。

可能的優化方案：

wildcard query應杜絕使用通配符打頭，實在不得已要這麼做，就一定需要限制用戶輸入的字符串長度。

最好換一種實現方式，通過在index time做文章，選用合適的分詞器，比如nGram tokenizer預處理數據，然後使用更廉價的term query來實現同等的模糊搜索功能。

對於部分輸入即提示的應用場景，可以考慮優先使用completion suggester, phrase/term/suggeter一類性能更好,模糊程度略差的方式查詢，待suggester沒有匹配結果的時候，再fall back到更模糊但性能較差的wildcard, regex, fuzzy一類的查詢。

詳盡原理參考：https://elasticsearch.cn/article/171

5.3 合理使用keyword類型

ES5.x裡對數值型欄位做TermQuery可能會很慢。

在ES5.x+裡，一定要注意數值類型是否需要做範圍查詢，看似數值，但其實只用於Term或者Terms這類精確匹配的，應該定義為keyword類型。

典型的例子就是索引web日誌時常見的HTTP Status code。

詳盡原理參考：https://elasticsearch.cn/article/446

5.4 控制欄位的返回

一是：數據建模規劃的時候，在Mapping節點對於僅存儲、是否構建倒排索引通過enabled、index參數進行優化。

二是：_source控制返回，不必要的欄位不需要返回，舉例：採集的原文章詳情內容頁，根據需要決定是否返回。

5.5 讓Elasticsearch幹它擅長的事情

在檢索/聚合結果後，業務系統還有沒有做其他複雜的操作，花費了多少時間？

這塊是最容易忽視的時間耗費擔當。

Elasticsearch顯然更擅長檢索、全文檢索，其他不擅長的事情，儘量不要ES處理。比如：頻繁更新、確保數據的ACID特性等操作。

6、配置維度——核心配置6.1 節點職責明晰區分路由節點、數據節點、候選主節點。

路由節點的主要優點是：

由於路由節點減少了搜索和聚合的壓力，因此數據節點上的內存壓力略有降低；

「智能路由」——因為他們知道所有數據存在的地方，他們可以避免額外的跳躍；「智能路由」——因為他們知道所有數據存在的地方，他們可以避免額外的跳躍；

從架構上講，將路由節點用作集群的訪問點非常有用，因此您的應用程式無需了解詳細信息。從架構上講，將路由節點用作集群的訪問點非常有用，因此您的應用程式無需了解詳細信息。

儘量將主節點與數據節點分開，因為它將減少所有群集的負載。

以下時間開始考慮專用主節點：

群集大小開始變得難以駕馭，可能像10個節點或更高？

您會看到由於負載導致集群不穩定（通常由內存壓力引起，導致長GC，導致主節點暫時從集群中退出）您會看到由於負載導致集群不穩定（通常由內存壓力引起，導致長GC，導致主節點暫時從集群中退出）

分離主節點的主要目的是使「主節點的職責」與負載隔離，因為高負載可能導致長GC，從而導致集群不穩定。

分離主節點後，一個高負載的集群只會影響數據節點（顯然仍然不好），但能保證主節點穩定，一旦集群超載，基本上專門的主節點給你喘息的空間，而不是整個集群走向崩潰。

另外，與數據節點相比，主節點通常可以非常「輕」。幾GB的RAM，中等CPU，普通磁碟等或許就能滿足需求（需要根據實際業務場景權衡）。

為什麼Elasticsearch查詢變得這麼慢了?

相關焦點

在elasticsearch中使用function_score查詢

ElasticSearch-hard插件及IK分詞器安裝

ElasticSearch

讓Elasticsearch飛起來!百億級實時查詢優化實戰

深入淺出 spring-data-elasticsearch 之 ElasticSearch 架構初探(一)

Open Distro for Elasticsearch 1.1.0 發布,Elasticsearch 發行版

這篇實戰攻略,帶你輕鬆入門Elastic search

Elasticsearch實現原理分析

Hadoop 讀寫 Elasticsearch

全文搜尋引擎ElasticSearch入門教程

elasticsearch 八、重要的配置更改

《Elasticsearch 權威指南》中文版

Elasticsearch Analyzer

ElasticSearch 億級數據檢索案例實戰!

ElasticSearch 索引 VS MySQL 索引

基於Ansj 的 elasticsearch 2.3.1 中文分詞插件

Elasticsearch官方文檔離線訪問實操指南

2021-Java後端工程師面試指南-(Elasticsearch)

Elasticsearch高階使用方法有哪些?

elasticsearch Discovery 發現模塊學習