阿里開源混沌工程工具 ChaosBlade

2021-01-07 開源中國

近日,阿里開源了混沌工程工具 ChaosBlade。該項目是遵循混沌工程(Chaos Engineering)原理的實驗工具,用於模擬常見的故障場景,幫助提升分布式系統的可恢復性和對故障的容錯性。

高可用架構是保障服務穩定性的核心。ChaosBlade 經歷了 6 年時間的改進和實踐,累計在線上執行演練場景達數萬次,阿里官方將阿里巴巴在故障演練領域的創意和實踐,濃縮成了一個混沌工程工具,並將其開源。

阿里巴巴集團在混沌工程領域已經實踐多年,將混沌實驗工具 ChaosBlade 開源目的,目的是:

ChaosBlade 能解決哪些問題

△ ChaosBlade 的組件架構

衡量微服務的容錯能力

通過模擬調用延遲、服務不可用、機器資源滿載等,查看發生故障的節點或實例是否被自動隔離、下線,流量調度是否正確,預案是否有效,同時觀察系統整體的 QPS 或 RT 是否受影響。在此基礎上可以緩慢增加故障節點範圍,驗證上遊服務限流降級、熔斷等是否有效。最終故障節點增加到請求服務超時,估算系統容錯紅線,衡量系統容錯能力。

驗證容器編排配置是否合理

通過模擬殺服務 Pod、殺節點、增大 Pod 資源負載,觀察系統服務可用性,驗證副本配置、資源限制配置以及 Pod 下部署的容器是否合理。

測試 PaaS 層是否健壯

通過模擬上層資源負載,驗證調度系統的有效性;模擬依賴的分布式存儲不可用,驗證系統的容錯能力;模擬調度節點不可用,測試調度任務是否自動遷移到可用節點;模擬主備節點故障,測試主備切換是否正常。

驗證監控告警的時效性

通過對系統注入故障,驗證監控指標是否準確,監控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監控告警的準確和時效性。

定位與解決問題的應急能力

通過故障突襲,隨機對系統注入故障,考察相關人員對問題的應急能力,以及問題上報、處理流程是否合理,達到以戰養戰,鍛鍊人定位與解決問題的能力。

功能和特點

場景豐富度高

ChaosBlade 支持的混沌實驗場景不僅覆蓋基礎資源,如 CPU 滿載、磁碟 IO 高、網絡延遲等,還包括運行在 JVM 上的應用實驗場景,如 Dubbo 調用超時和調用異常、指定方法延遲或拋異常以及返回特定值等,同時涉及容器相關的實驗,如殺容器、殺 Pod。後續會持續的增加實驗場景。

使用簡潔,易於理解

ChaosBlade 通過 CLI 方式執行,具有友好的命令提示功能,可以簡單快速的上手使用。命令的書寫遵循阿里巴巴集團內多年故障測試和演練實踐抽象出的故障注入模型,層次清晰,易於閱讀和理解,降低了混沌工程實施的門檻。

場景擴展方便

所有的 ChaosBlade 實驗執行器同樣遵循上述提到的故障注入模型,使實驗場景模型統一,便於開發和維護。模型本身通俗易懂,學習成本低,可以依據模型方便快捷的擴展更多的混沌實驗場景。

△ ChaosBlade 場景覆蓋圖

近期規劃

主要是功能迭代,包括:

參考:ChaosBlade 項目介紹、阿里巴巴中間件

相關焦點

  • 阿里正式開源通用算法平臺Alink,「雙11」將天貓推薦點擊率提升4%
    除了支持阿里自己的平臺外,還支持 Kafka,HDFS 和 HBase 等一系列開源數據存儲平臺。 阿里雲計算和機器智能部門表示,開發者和數據分析師可以利用開原始碼來構建軟體功能,例如統計分析、機器學習、實時預測、個性化推薦和異常檢測。而 Alink 提供的一系列算法,可以幫助處理機器學習任務,例如 AI 驅動的客戶服務和產品推薦。
  • 阿里開源otter:分布式資料庫同步系統
    【IT168 資訊】阿里巴巴一向熱衷於開源。從風風火火的去IOE運動,到阿里在GitHub中託管的60個開源項目,都可以看到他們開源的決心。本周一(8月19日),阿里巴巴宣布開源分布式資料庫同步系統otter。
  • 15 個開源的頂級人工智慧工具
    Artificial intelligence,AI是科技研究中最熱門的方向之一。以下這些開源人工智慧應用都處於人工智慧研究的最前沿。1. Caffe它是由賈揚清在加州大學伯克利分校的讀博時創造的,Caffe 是一個基於表達體系結構和可擴展代碼的深度學習框架。使它聲名鵲起的是它的速度,這讓它受到研究人員和企業用戶的歡迎。
  • 高效開源EDA工具鏈已在路上?
    最大感觸是開源硬體(晶片)在美國各界已經成為一種共識——從學術界、企業界到DARPA這樣的政府機構,都在積極投入到開源晶片與晶片敏捷開發方向的研究中。早在2016年的首屆Architecture 2030遠景研討會上,很多人就認為開源硬體將會是未來的大主題(Big Theme,如圖1)。而在國內,很多人對開源硬體/晶片的理解還有些片面,只是認為「開源晶片=RISC-V」。
  • 最流行的十大開源雲監控工具
    監控和測試工具分為實時資料庫、數據採集工具、可視化工具、意見反饋工具、日誌記錄器等等。在過去的幾年裡,開源產品和商業監控應用程式發生了爆炸式增長,下面是其中10個最受歡迎的開源雲監控工具。  Prometheus
  • 阿里開源自研語音識別模型 DFSMN,準確率高達96.04%
    近日,阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基於世界最大的免費語音識別資料庫LibriSpeech。
  • 嚇一跳,阿里雲在GitHub上有400多個開源項目,應該是中國第一吧
    作為一個程式設計師,入行這麼多年來一直關注著開源的事情,今天心血來潮查了一下國內一些公司關於開源的信息,沒想到阿里和旗下的阿里雲讓我有點吃驚,排名第一不是百度、騰訊這些標榜自己是科技公司的巨頭,反而在GitHub全球貢獻排行榜上,阿里是唯一一家入圍GitHub 頂尖貢獻名單的中國公司。
  • 2014 非常好用的開源 Android 測試工具
    在開發 Android 應用的時候要進行測試,現在市場上有大量的測試工具。本文主要是展示一系列的開源 Android 測試工具。每個工具都會有相應的簡短介紹,還有一些相關的資源。Android 測試工具列表是按照字母來排序的,最後還會介紹幾個不是特別活躍的 Android 測試相關的開源項目。
  • 60款流行網絡工具的開源替代選擇
    開源網絡工具能派得上用處。無論你是在管理大型企業數據中心中成千上萬的系統,還是僅僅把你家裡的幾臺電腦連接起來,開源網絡工具都能幫助你搭建和維護一個低成本的網絡。本文整理出了讓這項任務變得更容易一點的60款開源網絡工具。
  • 盤點網際網路巨頭奉獻的十大開源安全工具
    不少大型網際網路公司經常會將自己開發的頂級安全工具開源,推動整個網際網路的安全發展。本月早些時候安全牛曾介紹過Google開源的web安全測試工具Firing Range、Nogofail以及Facebook開源的Osquery等。事實上不僅Google、Facebook,包括Netflix甚至Etsy.com這樣的電商網站也都貢獻過精品開源安全工具。
  • 2020年阿里云云原生市場現狀與發展趨勢分析 雲原生促阿里雙11訂單...
    2020天貓雙11狂歡季成交額、阿里雲創建訂單峰值再次創下新高,下單體驗更為流暢,其背後的阿里云云原生技術功不可沒。阿里雲已擁有國內規模最大的雲原生產品家族和開源生態,在Gartner發布的2020年公共雲容器報告中,阿里雲排名全球第一。
  • 橫評:五款免費開源的語音識別工具
    為此,我們對比了五款基於 HMM 和 N-gram 模型的語音識別工具:CMU Sphinx,Kaldi,HTK,Julius 和 ISIP。它們都是開源世界的頂級項目,與 Dragon 和 Cortana 等商業語音識別工具不同,這些開源、免費的工具可以為開發者提供更大的自由度以及更低的開發成本,因此在開發圈始終保持著強大的生命力。
  • 谷歌大數據工具衍生新開源平臺Drill
    首頁 > 外聞 > 關鍵詞 > 衍生最新資訊 > 正文 谷歌大數據工具衍生新開源平臺Drill
  • Facebook開源物體識別工具Detectron,加速計算機視覺研究
    近日,Facebook的人工智慧實驗室(FAIR)開源了計算機視覺研究平臺Detectron。Detectron系統實現了最先進的物體檢測算法,包括Mask R-CNN。 它是用Python編寫的,支持Caffe2深度學習框架。
  • Salesforce開源構建Einstein AI模型的工具
    Salesforce今天宣布開源TransmogrifAI,這是一款用於自動化AI計劃的本土軟體,相比Oracle工具來說它解決了任務的不同方面。該工具使工程師能夠自動生成針對特定數據而量身定製的機器學習模型,被稱為是現有人工智慧自動化解決方案的更靈活的替代方案,例如谷歌基於雲的AutoML服務。據Salesforce稱,這些產品通常只支持很小範圍的用例,並且最初設計是用於處理像照片這樣的非結構化數據,而不是結構化的業務記錄。
  • 這10個開源安全工具你知道幾個?
    【IT168 評論】開源工具可以為IT安全人士實施安全措施和學習培訓奠定堅實的基礎。以下是人們應該知道的10個IT安全工具:  (1)Nessus(可見性)與許多其他開源軟體包一樣,Nagios也提供免費和商業版本。  Nagios Core是開源項目的核心,基於免費的開源版本。可以通過插件監控各個產品,並執行各項任務。目前市場上大約有50個由Nagios開發的官方插件和超過3000個社區開發的插件。  Nagios的用戶界面可以通過桌面、Web或移動平臺的前端進行修改,並且可以通過其中一種可用的配置工具來管理配置。
  • 7個用於開源網絡情報滲透測試工作的熱門OSINT工具
    這只能通過使用不同的OSINT開源網絡情報工具來實現。工具在搜索信息中起著重要作用,但是如果不知道工具的重要性和用法,它將對用戶沒有幫助。為什麼我們需要這些OSINT開源網絡情報工具?讓我們考慮一種情況或場景,其中我們需要在Web上查找與某個主題相關的信息。為此,您需要首先搜索並進行分析,直到獲得準確的結果,這會花費大量時間。
  • 推薦14款開源的Web應用測試工具
    關鍵特性:泛型測試方法靈活的測試腳本編寫分布式框架成熟的HTTP支持3.Multi-MechanizeMulti-Mechanize是一個開源的Web性能和負載測試框架,可讓你並發運行多個Python腳本來對網站或者Web服務進行壓力測試。
  • ...中間件首次實現自研、開源、商用「三位一體」,技術飛輪效應顯現
    阿里在 2019 年完成了全站的核心系統上雲,對於阿里中間件來講,這是一個意義非凡的機遇和挑戰。實際上,從 2011 年 Dubbo 開源開始,阿里中間件就已經嘗試在雲產品和開源方面努力探索,希望讓支持阿里核心業務的中間件系統從封閉走向開放,服務更廣泛的用戶。
  • 2020年最受歡迎的雲生態開源應用程式監控工具
    雲生態監控和日誌處理領域分為實時資料庫,度量標準收集器,可視化工具,輪詢器,記錄器等。過去幾年中,開源產品和商業監控應用程式不斷湧現,本文我介紹幾個最受歡迎的開源雲應用監控工具。PrometheusPrometheus(普羅米修斯)是領先的開源雲監視解決方案,除其他事項外,其數據以時間序列資料庫存儲,天然適合監控資料庫存儲。