如何使用 K8s 兩大利器"審計"和"事件"幫你擺脫運維困境?

2020-12-26 計算機java編程

概述

下面幾個問題，相信廣大 K8s 用戶在日常集群運維中都曾經遇到過:

集群中的某個應用被刪除了，誰幹的？Apiserver 的負載突然變高，大量訪問失敗，集群中到底發生了什麼？集群節點 NotReady，是什麼原因導致的？集群的節點發生了自動擴容，是什麼觸發的？什麼時間觸發的？以前，排查這些問題，對客戶來說並不容易。生產環境中的 Kubernetes 集群通常是一個相當複雜的系統，底層是各種異構的主機、網絡、存儲等雲基礎設施，上層承載著大量的應用負載，中間運行著各種原生（例如：Scheduler、Kubelet）和第三方(例如：各種 Operator）的組件,負責對基礎設施和應用進行管理和調度；此外不同角色的人員頻繁地在集群上進行部署應用、添加節點等各種操作。在集群運行的過程中，為了對集群中發生的狀況能夠儘可能的了如指掌，我們通常會從多個維度對集群進行觀測。

日誌，作為實現軟體可觀測性的三大支柱之一，為了解系統運行狀況，排查系統故障提供了關鍵的線索，在運維管理中起著至關重要的作用。Kubernetes 提供了兩種原生的日誌形式——審計（Audit）和事件（Event），它們分別記錄了對於集群資源的訪問以及集群中發生的事件信息。從騰訊雲容器團隊長期運維 K8s 集群的經驗來看，審計和事件並不是可有可無的東西，善用它們可以極大的提高集群的可觀測性，為運維帶來巨大的便利。下面讓我們先來簡單認識一下它們。

什麼是 Kubernetes 審計？

Kubernetes 審計日誌是 Kube-apiserver 產生的可配置策略的結構化日誌，記錄了對 Apiserver 的訪問事件。審計日誌提供 Metrics 之外的另一種集群觀測維度，通過查看、分析審計日誌，可以追溯對集群狀態的變更；了解集群的運行狀況；排查異常；發現集群潛在的安全、性能風險等等。

審計來源

在 Kubernetes 中，所有對集群狀態的查詢和修改都是通過向 Apiserver 發送請求，對 Apiserver 的請求來源可以分為4類

控制面組件，例如 Scheduler，各種 Controller，Apiserver 自身節點上的各種 Agent，例如 Kubelet、Kube-proxy 等集群的其它服務，例如 Coredns、Ingress-controller、各種第三方的 Operator 等外部用戶，例如運維人員通過 Kubectl

審計中都記錄了些什麼？

每一條審計日誌都是一個 JSON 格式的結構化記錄，包括元數據（metadata）、請求內容（requestObject）和響應內容（responseObject）3個部分。其中元數據一定會存在，請求和響應內容是否存在取決於審計級別。元數據包含了請求的上下文信息，例如誰發起的請求，從哪裡發起的，訪問的 URI 等等；

審計有什麼用？

Apiserver 做為 Kubernetes 集群唯一的資源查詢、變更入口，審計日誌可以說記錄了所有對於集群訪問的流水，通過它可以從宏觀和微觀了解整個集群的運行狀況，比如：

資源被刪掉了，什麼時候刪掉的，被「誰」刪掉的？服務出現問題，什麼時候做過版本變更？Apiserver 的響應延時變長，或者出現大量 5XX 響應 Status Code，Apiserver 負載變高，是什麼導致的？Apiserver 返回 401/403 請求，究竟是證書過期，非法訪問，還是 RBAC 配置錯誤等。Apiserver 收到大量來自外網 IP 對敏感資源的訪問請求，這種請求是否合理，是否存在安全風險；什麼是Kubernetes事件？

事件（Event）是 Kubernetes 中眾多資源對象中的一員，通常用來記錄集群內發生的狀態變更，大到集群節點異常，小到 Pod 啟動、調度成功等等。我們常用的kubectl describe命令就可以查看相關資源的事件信息。

事件中記錄了什麼？

級別（Type）：目前僅有「Normal」和「Warning」，但是如果需要，可以使用自定義類型。資源類型/對象(Involved Object)：事件所涉及的對象，例如 Pod，Deployment，Node 等。事件源（Source）：報告此事件的組件；如 Scheduler、Kubelet 等。內容（Reason）：當前發生事件的簡短描述，一般為枚舉值，主要在程序內部使用。詳細描述（Message）：當前發生事件的詳細描述信息。出現次數（Count）：事件發生的次數。事件有什麼用？

集群內已經翻江倒海，集群外卻風平浪靜，這可能是我們日常集群運維中常常遇到的情況，集群內的狀況如果無法透過事件來感知，很可能會錯過最佳的問題處理時間，待問題擴大，影響到業務時才發現往往已經為時已晚；除了早早發現問題，Event 也是排查問題的最佳幫手，由於 Event 記錄了全面的集群狀態變更信息，所以大部分的集群問題都可通過 Event 來排查。總結一下 Event 在集群中扮演兩大重要角色：

「吹哨人」：當集群發生異常情況時，用戶可通過事件第一時間感知；「目擊者」：集群中的大小事件都會通過 Event 記錄，如果集群中發生意外情況，如:節點狀態異常，Pod 重啟，都可以通過事件查找發生的時間點及原因；TKE 如何發掘審計/事件的價值

傳統的通過輸入查詢語句檢索日誌的方式來使用審計和事件，固然可以提供很高的靈活性，但也有著較高的使用門檻，不僅要求使用者對於日誌的數據結構非常了解，還要熟悉 Lucene、SQL 語法。這往往導致使用效率偏低，也無法充分發掘數據的價值。

騰訊雲容器服務 TKE 聯合騰訊雲日誌服務CLS，打造出針對 Kubernetes 審計/事件採集、存儲、檢索、分析的一站式產品級服務，不僅提供了一鍵開啟/關閉功能，免去一切繁瑣的配置；而且容器團隊還從長期運維海量集群的經驗中，總結出對於 Kubernetes 審計/事件的最佳使用實踐，通過可視化的圖表，以多個維度對審計日誌和集群事件進行呈現，使用者只需了解 K8s 的基本概念，就能很「直覺」地在 TKE 控制臺上進行各種檢索和分析操作，足以涵蓋絕大多數常見集群運維場景，讓無論是發現問題還是定位問題都事半功倍，提升運維效率，真正將審計和事件數據的價值最大化。

如何使用 TKE 審計/事件服務去排查問題？

關於 TKE 的集群審計/事件簡介與基礎操作，請參考集群審計、事件存儲的官方文檔。

場景示例：

下面我們看幾個現實中的典型場景

示例1: 排查一個工作負載消失的問題

在審計檢索頁面中，單擊【K8s 對象操作概覽】標籤，指定操作類型和資源對象

查詢結果如下圖所示：

由圖可見，是 10001****7138 這個帳+號，對應用「nginx」進行了刪除。可根據帳號ID在【訪問管理】>【用戶列表】中找到關於此帳號的詳細信息。

示例2: 排查一個節點被封鎖的問題

在審計檢索頁面中，單擊【節點操作概覽】標籤，填寫被封鎖的節點名

查詢結果如下圖所示：

由圖可見，是10001****7138這個帳+號在2020-1-30T06:22:18時對172.16.18.13這臺節點進行了封鎖操作。

示例3: 排查 Apiserver 響應變慢的問題

在審計檢索的【聚合檢索】標籤頁中，提供了從用戶、操作類型、返回狀態碼等多個維度對於 Apiserver 訪問聚合趨勢圖。

由圖可見，用戶tke-kube-state-metrics的訪問量遠高於其他用戶，並且在「操作類型分布趨勢」圖中可以看出大多數都是 list 操作，在「狀態碼分布趨勢」圖中可以看出，狀態

碼大多數為 403，結合業務日誌可知，由於 RBAC 鑑權問題導致tke-kube-state-metrics組件不停的請求Apiserver重試，導致 Apiserver 訪問劇增。日誌如下所示：

示例4:排查節點異常的問題

一臺 Node 節點出現異常，在事件檢索頁面，點擊【事件總覽】，在過濾項中輸入異常節點名稱

查詢結果顯示，有一條節點磁碟空間不足的事件記錄查詢結果如下圖：

進一步查看異常事件趨勢

可以發現，2020-11-25號開始，節點172|16|18|13由於磁碟空間不足導致節點異常，此後 kubelet 開始嘗試驅逐節點上的 pod 以回收節點磁碟空間；

示例5: 查找觸發節點擴容的原因

開啟了節點池「彈性伸縮」的集群，CA（cluster-autoscler）組件會根據負載狀況自動對集群中節點數量進行增減。如果集群中的節點發生了自動擴（縮）容，用戶可通過事件檢索對整個擴（縮）容過程進行回溯。

在事件檢索頁面，點擊【全局檢索】，輸入以下檢索命令：

event.source.component : "cluster-autoscaler"

在左側隱藏欄位中選擇event.reason、event.message、event.involvedObject.name、event.involvedObject.name進行顯示，將查詢結果按照日誌時間倒序排列，結果如下圖所示：

通過上圖的事件流水，可以看到節點擴容操作在2020-11-25 20:35:45左右，分別由三個 nginx Pod(nginx-5dbf784b68-tq8rd、nginx-5dbf784b68-fpvbx、nginx-5dbf784b68-v9jv5) 觸發，最終擴增了3個節點，後續的擴容由於達到節點池的最大節點數沒有再次觸發。

如何使用 K8s 兩大利器"審計"和"事件"幫你擺脫運維困境?

相關焦點

天融信堡壘機運維管理利器

雙語閱讀|Jim’s Puppy,最好的伴侶總會讓你擺脫困境

白巖松:如何擺脫稚嫩心態和不敢表達的困境

海量大數據平臺的運維智能化實踐

一個人陷入困境時,只有把這3件事給做好,才能早日擺脫困境

如何擺脫困境?《易經》給出了三個步驟,助你從失落中走出來

運維監控系統 - 選型篇

【IDCC2020】廣東浩雲長盛網絡股份有限公司全國運維總經理朱紅兵...

後疫情時代,AIOps釋放企業運維新活力

軍用重卡深陷沙海無法前進,看汽車兵如何擺脫困境?

學姐的這些方法,幫你擺脫英語困境!

同樣都是運維,有的人月薪5K,有人月薪60K,差距為啥這麼大?

QooCam 8k全景相機,帶你玩轉地球嗨翻天!

情緒化的時代,我們該如何擺脫溝通困境?

這些補脾食物,可以幫你擺脫困境,不妨多吃

什麼是資料庫審計?

日誌易助力臺灣國泰世華銀行網絡安全合規審計

雲運維的核心是什麼?

王健林是如何從負債8900億減至1800億擺脫困境的?林寧功不可沒

什麼是審計?物流費用專項審計如何開展?

如何使用 K8s 兩大利器"審計"和"事件"幫你擺脫運維困境?

相關焦點

天融信堡壘機 運維管理利器

雙語閱讀|Jim’s Puppy,最好的伴侶總會讓你擺脫困境

白巖松:如何擺脫稚嫩心態和不敢表達的困境

海量大數據平臺的運維智能化實踐

一個人陷入困境時,只有把這3件事給做好,才能早日擺脫困境

如何擺脫困境?《易經》給出了三個步驟,助你從失落中走出來

運維監控系統 - 選型篇

【IDCC2020】廣東浩雲長盛網絡股份有限公司全國運維總經理朱紅兵...

後疫情時代,AIOps釋放企業運維新活力

軍用重卡深陷沙海無法前進,看汽車兵如何擺脫困境?

學姐的這些方法,幫你擺脫英語困境!

同樣都是運維,有的人月薪5K,有人月薪60K,差距為啥這麼大?

QooCam 8k全景相機,帶你玩轉地球嗨翻天!

情緒化的時代,我們該如何擺脫溝通困境?

這些補脾食物,可以幫你擺脫困境,不妨多吃

什麼是資料庫審計?

日誌易助力臺灣國泰世華銀行網絡安全合規審計

雲運維的核心是什麼?

王健林是如何從負債8900億減至1800億擺脫困境的?林寧功不可沒

什麼是審計?物流費用專項審計如何開展?

天融信堡壘機運維管理利器