隨著數據中心規模的擴張,用於存儲數據的硬碟數量不斷增長。雲計算平臺中要使用數以百萬級的硬碟作為數據存儲載體,高效、可靠又穩定的硬碟存儲系統對於雲服務的重要性不言而喻。
正因為硬碟是雲計算系統中最為重要的存儲載體,硬碟的健康管理是雲服務穩健可靠的根本。
為此,希捷與騰訊雲伺服器運營團隊在2018年開始在騰訊雲的數據中心中部署了FARM技術,從而對雲平臺和數據中心的每一塊硬碟進行實時的「體檢」與健康管理。
為什麼FARM能夠做到硬碟的健康狀況預知?這項技術又是怎樣被應用的?今天我們就來系統地為大家追根溯源,看看FARM究竟是一項什麼神秘的黑科技?
FARM是什麼?
一看見FARM這個詞,大家很容易聯想到風吹草低見牛羊。但真相是,FARM的全稱為Field Accessibility Reliability Metrics,最早於2018年OCP峰會上提出。
它的字面意思是 「終端客戶可方便獲取的硬碟可靠性指標」,是一種讓用戶以極其簡單的方法獲取硬碟全方面參數的日誌。
FARM的目的在於讓雲計算用戶以此建立基於機器學習的健康監控或者預測模型,以及實時直觀地獲取數據中心中每一塊硬碟的健康狀況。
在目前的硬碟運維實踐中,硬碟的數據採集主要基於SMART體系(Self-Monitoring Analysis and Reporting Technology,即自動檢測分析及報告技術)。
它能分析並預警硬碟可能發生的問題。 SMART體系自投入使用已有25年時間,可涵蓋10多項的參數。
FARM是對SMART體系的重大改良。FARM本身獲取方便,參數覆蓋廣,可以說是超級加強版的SMART。
FARM的120多項參數包含了硬碟更加底層的傳感器和磁頭級別的相關參數,以及飛行高度、工作負載、環境等使用狀況的參數,並且已經在多個希捷產品上實施,給硬碟做詳細的「全身體檢」。
FARM的結構簡單、數據量小,在抓取參數時,不會影響到系統本身在運轉的業務。客戶可以通過非常細的粒度按需抓取數據,以自己所需的頻次獲取硬碟健康日誌及大量數據,並通過大數據建模,進行監控和分析。
通過定期的FARM數據抓取, 希捷與騰訊雲基於雲業務模型,利用定製機器學習算法,將硬碟健康度進行打分評估,提前識別高風險硬碟,儘快採取措施,做業務遷移、風險規劃等,避免極低概率下硬碟批量失效而導致業務中斷和數據丟失。
FARM都記錄些什麼?
讓我們舉些例子:
硬碟信息:SN序列號、WWN全球唯一名字、容量等基本信息,以及磁頭數量、馬達等零部件的運行時間、最近一次的硬碟狀態等。
讀寫數據量:除讀寫LBA(邏輯區塊地址)數量之外,還包含按類別統計的讀寫命令數量(總數,隨機命令數,非讀寫命令數),以及最近幾個小時內在磁碟不同區域的讀寫命令數量等。
錯誤統計:除記錄SMART已經包含的錯誤處理數據之外,還包含固件內部異常事件、讀寫重試、機構部件重試等。同時對於不可恢復的錯誤,按照讀寫分別統計。
環境參數:記錄外界環境相關參數,除溫度之外,還包含溼度、5V/12V輸入電壓、馬達電壓等。
可靠性參數:包含周期性及空閒時的後臺評估、IDD(In Drive Diagnostic)、偏心率、以及磁頭級別的底層參數——誤碼率、信道補償、尋道錯誤率、磁阻、飛行高度等。
騰訊雲是國內首家部署FARM的企業。
通過此項目,希捷聯合騰訊雲對其數據中心的硬碟運行數據進行實時檢測,應用大數據建模分析存在失效風險的硬碟。
作為國內領先的雲服務提供商,騰訊雲對系統的穩定性和可靠性要求嚴苛。騰訊雲與希捷合作,通過FARM定期對硬碟的健康數據抓取,實時監控硬碟的健康狀態。
一旦發現有任何異常,便會及時採取措施,提醒客戶重新設計工作負載,未雨綢繆,保護關鍵業務的延續性。雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。