SMART在這裡可不是「奔馳老頭樂」,它是Self-Monitoring, Analysis and Reporting Technology自我監測、分析和報告技術的縮寫。通過SMART中報告的信息,我們能夠了解到SSD的健康狀態及預警信息。
一般來說不同硬碟的SMART項定義是不同的,但NVMe協議中對SMART項進行了規範化。下圖是東芝SSD Utility工具箱軟體中對RC500的SMART檢測報告:
數據非常詳細,但對於普通用戶來說又有些無力感。下面存儲極客就以東芝RC500為例,帶大家讀懂NVMe固態硬碟的SMART定義。
Critical Warning重要警告:
這一項需要觀察「原始值」一列的數據,正常情況下應為0。如果顯示為1代表當前硬碟處於過熱狀態;顯示為2代表快閃記憶體出現嚴重錯誤導致可靠性降級,該考慮更換了;顯示為3代表快閃記憶體已經進入只讀狀態(壽命用盡,鎖盤以保護用戶數據)。還有一種狀態4是只有企業級固態硬碟才具備的,代表增強型斷電保護功能失效(通常是因為電池/電容故障)
Composite Temperature綜合溫度:
這一項的單位是熱力學溫度開爾文,減去273之後就是我們常用的攝氏度了。不同固態硬碟對正常溫度的定義是不一樣的,通常只有廠商自己的工具箱軟體才能明確。例如東芝RC500的正常溫度是在79度以下,達到79度後SSD Utility會報告高磁碟溫度。
Available Spare可用冗餘空間
這一項顯示的是當前可用於替換壞塊的快閃記憶體備用塊佔出廠時總數的百分比,是一項非常重要的健康度指標。配備東芝BiCS快閃記憶體的NVMe固態硬碟可以在使用很久後依然保持100%的狀態。
Available Spare Threshold備用空間閾值
與上一項相關,當可用備用空間低於該閾值時就會發出預警,提醒用戶快閃記憶體剩餘壽命不足,該更換新硬碟了。
Percentage Used已使用的耐久度
這一項顯示的是已經使用的寫入耐久度(百分比),平時我們看到的健康度其實就是100%減去已使用耐久度百分比後的結果。
Data Units Read讀取扇區計數
該項數值乘以1000後即為讀取的扇區(1扇區=512位元組)數量統計。
Data Units Write寫入扇區計數
該項數值乘以1000後即為寫入的扇區(1扇區=512位元組)數量統計。
Host Read Commands讀取命令計數
固態硬碟自使用以來累計接收到的讀取命令數量統計。
Host Write Commands寫入命令計數
固態硬碟自使用以來累計接收到的寫入命令數量統計。
Controller Busy Time主控繁忙時間計數
該項統計的是主控忙於處理IO命令的時間總和(單位:分鐘)。當IO隊列有未完成的命令時,主控即處於「忙」的狀態。下圖所示為東芝RC500固態硬碟的主控晶片TC58NC1202GST:
Power Cycles通電次數
Power On Hours通電時間
Unsafe Shut downs不安全關機次數(異常斷電計數)
非正常斷電是威脅固態硬碟的大敵,我們應該儘可能地避免強制關機。東芝的SSD Utility工具箱軟體會自動記錄不安全關機次數,並通過活動警告提醒用戶關注。
Media and Data Integrity Errors快閃記憶體和數據完整性錯誤
主控檢測到未恢復的數據完整性錯誤的次數。當有糾錯引擎無法校正的ECC、CRC校驗失敗或者LBA標籤不匹配錯誤發生時,該數值會增加。這一項數值如果不為零,代表固態硬碟工作已經不穩定。
Number of Error Information Log Entries錯誤日誌條目計數
Warning Composite Temperature Time過熱警告時間
Critical Composite Temerature Time過熱臨界溫度時間
NVMe固態硬碟的SMART健康信息報告已經比較完整,但還遺漏了一項接口速率。在經過多次插拔之後,M.2接口可能會鬆動,導致固態硬碟的讀寫速度達不到應有的水平。這個故障也可以通過東芝SSD Utility工具箱發現和排除,非常方便。
NVMe固態硬碟的健康信息通常使用英文顯示,儘管看起來複雜,但經過今天存儲極客的介紹之後,是不是就有了豁然開朗的感覺呢?