原來Kafka源碼也在用二分搜索!

2020-12-08 JavaEdge

設為「星標」，好文章不錯過！

Kafka的索引組件使用二分搜索，而且社區還針對Kafka自身特點對其改良。

1 索引架構

如下幾個類都位於該包下：

AbstractIndex.scala最頂層抽象類：封裝了索引類型的公共操作LazyIndex.scala定義了AbstractIndex上的一個包裝類，實現索引項延遲加載，該類只為提高性能OffsetIndex.scala偏移索引，保存<位移值，文件物理磁碟位置>對。TimeIndex.scala時間戳索引，保存<時間戳，位移值>對。TransactionIndex.scala事務索引，為已中止事務（Aborted Transcation）保存重要元數據。只有啟用Kafka事務特性後，該索引才可能出現

2 AbstractIndex代碼結構

2.1 類定義

2.2 屬性

索引文件（file）每個索引對象在磁碟上都對應一個索引文件。該欄位是var型，說明它可被修改。難道索引對象還能動態更換底層索引文件？是的。1.1.0版本後，Kafka允許遷移底層的日誌路徑，所以，索引文件自然要是可以更換的起始位移值（baseOffset）索引對象對應日誌段對象的起始位移值。查看Kafka日誌路徑，日誌文件和索引文件都是成組出現。比如若日誌文件是00000000000000000123.log，一定還有一組索引文件00000000000000000123.index、00000000000000000123.timeindex等。這裡的「123」就是這組文件的起始位移值，即baseOffset索引文件最大字節數（maxIndexSize）控制索引文件的最大長度。Kafka源碼傳入該參數的值是Broker端參數segment.index.bytes值，即10MB。所以默認下所有Kafka索引文件大小都是10MB。索引文件打開方式（writable）「True」：以「讀寫」方式打開，「False」：以「只讀」方式打開。

每個繼承AbstractIndex的子類負責定義具體的索引項結構，基於此架構設計，AbstractIndex定義抽象方法entrySize表示不同索引項的大小

// OffsetIndexoverride def entrySize = 8// TimeIndexoverride def entrySize = 12

為什麼選擇8、12？

在OffsetIndex中，位移值4位元組，物理磁碟位置4位元組，所以共8位元組。但位移值不是長整型嗎，不是應該8位元組？。其實AbstractIndex已保存baseOffset，這裡的位移值，實際上是相對於baseOffset的相對位移值，即

真實位移值 - baseOffset

使用相對位移值能有效節省磁碟空間。而Broker端參數log.segment.bytes是整型，這說明Kafka中每個日誌段文件的大小不會超過2^32，即4GB，這說明同一個日誌段文件上的位移值 - baseOffset 一定在整數範圍內。因此，源碼只需4位元組保存。

同理，TimeIndex中的時間戳類型是長整型，佔8位元組，位移依然使用相對位移值，佔用4個字節，因此共需12位元組。

3 Kafka的索引底層實現原理

內存映射文件，即Java中的MappedByteBuffer。

內存映射文件的主要優勢在於，它有很高的I/O性能，特別是對於索引這樣的小文件來說，由於文件內存被直接映射到一段虛擬內存上，訪問內存映射文件的速度要快於普通的讀寫文件速度。

在Linux的這段映射的內存區域就是內核的頁緩存（Page Cache）。裡面的數據無需重複拷貝到用戶態空間，避免了大量不必要的時間、空間消耗。

在AbstractIndex中，這個MappedByteBuffer就是名為mmap的變量。接下來，我用注釋的方式，帶你深入了解下這個mmap的主要流程。

這些代碼最主要的作用就是創建mmap對象。要知道，AbstractIndex其他大部分的操作都是和mmap相關。

案例：

計算索引對象中當前有多少個索引項protected var _entries: Int = mmap.position()/ entrySize計算索引文件最多能容納多少個索引項private[this] var _maxEntries: Int = mmap.limit()/ entrySize再進一步，有了這兩個變量，我們就能夠很容易地編寫一個方法，來判斷當前索引文件是否已經寫滿：

def isFull: Boolean = _entries >= _maxEntriesAbstractIndex最重要的就是這個mmap變量。事實上，AbstractIndex繼承類實現添加索引項的主要邏輯，也就是向mmap中添加對應的欄位。

寫入索引項

下面這段代碼是OffsetIndex的append方法，用於向索引文件中寫入新索引項。

append方法的執行流程

查找索引項

索引項的寫入邏輯並不複雜，難點在於如何查找索引項。AbstractIndex定義了抽象方法parseEntry用於查找給定的索引項，如下所示：

protected defparseEntry(buffer: ByteBuffer, n: Int): IndexEntry

「n」表示要查找給定ByteBuffer中保存的第n個索引項（在Kafka中也稱第n個槽）。IndexEntry是源碼定義的一個接口，裡面有兩個方法：indexKey和indexValue，分別返回不同類型索引的<Key，Value>對。

OffsetIndex實現parseEntry的邏輯如下：

overrideprotected def parseEntry(buffer: ByteBuffer, n: Int): OffsetPosition = { OffsetPosition(baseOffset + relativeOffset(buffer, n), physical(buffer, n)) }

OffsetPosition是實現IndexEntry的實現類，Key就是之前說的位移值，而Value就是物理磁碟位置值。所以，這裡你能看到代碼調用了relativeOffset(buffer, n) + baseOffset計算出絕對位移值，之後調用physical(buffer, n)計算物理磁碟位置，最後將它們封裝到一起作為一個獨立的索引項返回。

我建議你去看下relativeOffset和physical方法的實現，看看它們是如何計算相對位移值和物理磁碟位置信息的。

有了parseEntry方法，我們就能夠根據給定的n來查找索引項了。但是，這裡還有個問題需要解決，那就是，我們如何確定要找的索引項在第n個槽中呢？其實本質上，這是一個算法問題，也就是如何從一組已排序的數中快速定位符合條件的那個數。

4 二分查找算法

到目前為止，從已排序數組中尋找某個數字最快速的算法就是二分查找了，它能做到O(lgN)的時間複雜度。Kafka的索引組件就應用了二分查找算法。

Kafka索引應用二分查找算法快速定位待查找索引項位置，之後調用parseEntry來讀取索引項。不過，這真的就是無懈可擊的解決方案了嗎？

改進版

顯然不是！我前面說過了，大多數作業系統使用頁緩存來實現內存映射，而目前幾乎所有的作業系統都使用LRU（Least Recently Used）或類似於LRU的機制來管理頁緩存。

Kafka寫入索引文件的方式是在文件末尾追加寫入，而幾乎所有的索引查詢都集中在索引的尾部。這麼來看的話，LRU機制是非常適合Kafka的索引訪問場景的。

但，這裡有個問題是，當Kafka在查詢索引的時候，原版的二分查找算法並沒有考慮到緩存的問題，因此很可能會導致一些不必要的缺頁中斷（Page Fault）。此時，Kafka線程會被阻塞，等待對應的索引項從物理磁碟中讀出並放入到頁緩存中。

下面我舉個例子來說明一下這個情況。假設Kafka的某個索引佔用了作業系統頁緩存13個頁（Page），如果待查找的位移值位於最後一個頁上，也就是Page 12，那麼標準的二分查找算法會依次讀取頁號0、6、9、11和12，具體的推演流程如下所示：

通常來說，一個頁上保存了成百上千的索引項數據。隨著索引文件不斷被寫入，Page #12不斷地被填充新的索引項。如果此時索引查詢方都來自ISR副本或Lag很小的消費者，那麼這些查詢大多集中在對Page #12的查詢，因此，Page #0、6、9、11、12一定經常性地被源碼訪問。也就是說，這些頁一定保存在頁緩存上。後面當新的索引項填滿了Page #12，頁緩存就會申請一個新的Page來保存索引項，即Page #13。

現在，最新索引項保存在Page #13中。如果要查找最新索引項，原版二分查找算法將會依次訪問Page #0、7、10、12和13。此時，問題來了：Page 7和10已經很久沒有被訪問過了，它們大概率不在頁緩存中，因此，一旦索引開始徵用Page #13，就會發生Page Fault，等待那些冷頁數據從磁碟中加載到頁緩存。根據國外用戶的測試，這種加載過程可能長達1秒。

顯然，這是一個普遍的問題，即每當索引文件佔用Page數發生變化時，就會強行變更二分查找的搜索路徑，從而出現不在頁緩存的冷數據必須要加載到頁緩存的情形，而這種加載過程是非常耗時的。

基於這個問題，社區提出了改進版的二分查找策略，也就是緩存友好的搜索算法。總體的思路是，代碼將所有索引項分成兩個部分：熱區（Warm Area）和冷區（Cold Area），然後分別在這兩個區域內執行二分查找算法，如下圖所示：

乍一看，該算法並沒有什麼高大上的改進，僅僅是把搜尋區域分成了冷、熱兩個區域，然後有條件地在不同區域執行普通的二分查找算法罷了。實際上，這個改進版算法提供了一個重要的保證：它能保證那些經常需要被訪問的Page組合是固定的。

想想剛才的例子，同樣是查詢最熱的那部分數據，一旦索引佔用了更多的Page，要遍歷的Page組合就會發生變化。這是導致性能下降的主要原因。

這個改進版算法的最大好處在於，查詢最熱那部分數據所遍歷的Page永遠是固定的，因此大概率在頁緩存中，從而避免無意義的Page Fault。

下面我們來看實際的代碼。我用注釋的方式解釋了改進版算法的實現邏輯。一旦你了解了冷區熱區的分割原理，剩下的就不難了。

5 總結

AbstractIndex是Kafka所有類型索引的抽象父類，裡面的mmap變量是實現索引機制的核心，你一定要掌握它。改進版二分查找算法：社區在標準原版的基礎上，對二分查找算法根據實際訪問場景做了定製化的改進。你需要特別關注改進版在提升緩存性能方面做了哪些努力。改進版能夠有效地提升頁緩存的使用率，從而在整體上降低物理I/O，緩解系統負載瓶頸。你最好能夠從索引這個維度去思考社區在這方面所做的工作。

實際上，無論是AbstractIndex還是它使用的二分查找算法，它們都屬於Kafka索引共性的東西，即所有Kafka索引都具備這些特點或特性。

原來Kafka源碼也在用二分搜索!

相關焦點

Flink 全網最全資源(視頻、博客、PPT、入門、實戰、源碼解析、問答等持續更新)

Kafka【入門】就這一篇!

一文詳解二分搜索樹 ,圖文並茂!

kafka使用原理介紹

kafka極簡教程

二分查找的妙用:判定子序列

關於Kafka區分請求處理優先級的討論

kafka入門(原理-搭建-簡單使用)

通過問答的方式學習 Go sort 包使用與源碼

大白話+13張圖解 Kafka

Apache Kafka 快速入門指南

Kafka快速入門秘籍:背景介紹,應用場景分析、核心架構分析

【Leetcode每日打卡】判斷二分圖

Leetcode刷題-二分查找

CentOS7下簡單搭建zookeeper+kafka集群

Kafka這些名詞都說不出所以然,您竟然敢說自己精通kafka

Kafka官方文檔翻譯-最新版v2.7(三)

flink-1.12.0 upsert-kafka connector demo

二分查找

Kafka常見錯誤整理(不斷更新中)