數據中心MTBF和AFR如何計算與應用?

2021-02-14 機房360

預測MTBF有多種可用方法,似乎不可能找到使用同一方法的兩個系統。不過,還是有一種方法可以適用於大多數組織的各種不同過程。

現場數據評估方法使用實際的現場故障數據,因此能夠提供比模擬情況更準確的故障率評估。對於小批量生產的產品或新產品,此數據可能找不到;不過,對那些已在現場獲得廣泛應用的產品,應該始終採用此數據。因此,對於跨系統比較,從現場數據評估開始比較是最合理也是最現實的。請注意,此方法與其他許多方法一樣,都是基於第78號白皮書中討論的穩定故障率假設。

本白皮書介紹完成此方法的步驟,列舉並說明各個步驟中可能影響結果的可變因素。如果要進行比較的系統間的關鍵假設或可變因素發生變化,那麼評估這些變化對MTBF估計結果的可能影響就非常重要。圖1說明現場數據評估過程的時間線。隨後的過程步驟將說明時間線中的每個元素。

第1步:定義並估計抽樣總體的大小

確定年故障率(AFR)並最終確定產品的MTBF的過程中,第一步是確定要分析的特定產品抽樣總體。是基於特定產品型號還是整個產品系列進行計算?此抽樣總體中產品的生產時間跨度應該多大(以天或月計)?生產日期何時開始何時結束?為抽樣總體選擇的產品應該在設計方面非常相似,並具有足夠多的數量以保證所採集數據的統計有效性,這非常重要。

第2步:確定採集數據的樣本時間範圍

過程的第二步是確定從抽樣總體中採集故障數據的樣本時間範圍。通常在產品的用戶給供應商報告故障時採集數據。抽樣總體中產品的最晚生產日期和樣本期間開始日期之間的適合時間間隔,因產品、地理位置、分銷過程和庫存地點不同而有所差異。例如,如果產品在工廠倉庫中儲存兩個月,在分銷渠道中歷時兩個月,那麼最早只能在抽樣總體中最晚產品生產日期的四個月後開始進行抽樣。對於需要通過批發商、經銷商和零售商這些環節的產品,四個月被視為是考慮上述可變因素的合理時間範圍。

下面說明兩個重要的可變因素:(1)抽樣總體中產品的最晚生產日期和樣本期間開始日期之間要有足夠的時間間隔;(2)數據採集窗口要足夠大,以確保結果的可信度。

如果抽樣總體中產品的最晚生產日期和樣本期間開始日期之間沒有足夠的時間間隔,那麼在抽樣總體中的產品得到完全部署之前可能就已經開始進行抽樣了。這種情況可能會造成兩種結果。第一,由於尚未部署的產品不可能出現故障,所以有低估故障率的傾向。第二種結果就是樣本期間很可能包括大量的安裝故障或設置故障。因為新產品的故障率可能會顯示為一個標準的「浴缸」型,所以包括大量安裝故障可能會導致高估故障率。儘管我們知道這兩種相反的效果都很明顯,但也不能指望他們能互相抵消。

在抽樣時間方面,另一個需要考慮的重要問題是窗口的持續時間。需要多少天才能充分採集故障數據?採樣時間窗口必須選得足夠寬,以便可以從樣本中移除統計「幹擾」。獲得合理準確度所需的持續時間取決於抽樣總體的大小。例如,大批量產品可能需要一個月時間,小批量產品可能需要幾個月時間。

第3步:定義故障

必須準確定義故障,確保評估過程的一致性後,才能開始統計故障。

現在假設在「故障」產品返回工廠時,是由每個技術人員單獨定義故障。某位技術人員可能只統計那些出現重大故障的產品,而另一位技術人員可能統計所有出現了故障(包括重大故障)的產品。這兩種極端的做法使得準確評估特定產品故障率的可能性幾乎為零,當然更不能準確評估對該產品的過程控制所產生的影響。因此,在診斷任意產品之前,供應商必須對故障有一個明確的定義。在計算特定事件的MTBF時,供應商可能有多種不同的故障定義。例如,UPS供應商會試圖評估導致關鍵負載停用的故障的MTBF以及負載能夠繼續運轉的不很嚴重的故障的MTBF。

第4步:接收、診斷和修理產品

樣本期間結束時間和AFR計算時間之間必須有足夠的時間間隔,以允許一定的時間來接收、診斷和修理報告為有故障的產品。診斷結果確定故障類型,而修理將會驗證診斷結果。體積較小的產品通常會發回供應商處,這會導致出現接收延遲或需要一定的產品遞送時間。產品到達供應商處後,必須對其進行診斷和修理,這會導致另一個稱為診斷延遲的延遲。大型產品通常在客戶處進行診斷和修理,因此基本沒有延遲。在上述任一情況下,都需要在計算AFR前診斷和修理產品。

如果是大批量產品,很可能在診斷延遲結束時仍然有需要修理的產品。在這些情況下,有時會做出未修理產品和以前修理過的產品出現故障的機率相等這樣的假設。取決於待評估產品的生產量和產品類型,接收延遲和診斷延遲可以在樣本期間結束時間後加上幾個星期,您可以在此時間點計算AFR。

第5步:計算年故障率

計算年故障率是用來說明某個特定產品在一個日曆年度內的預期故障數。計算此數值的第一步是「按年計算」故障數據。將樣本期間中的故障數乘以每年的樣本期間數,可以得出此值。第二步就是確定整個抽樣總體的故障率。將計算出來的每年故障數除以抽樣總體期間安裝的產品數,可以得出此值。下面是公式1:

此公式有如下兩個假設:(1)產品一年365天、每天24小時連續運轉(2)抽樣總體中的所有產品都在同一時間開始運轉。因此儘管此公式可以用於任意產品,但更適用於連續運轉的產品。如果已知要安裝的產品是間斷運轉的,那麼使用公式2計算AFR更準確。備用的應急發電機系統就是這種類型產品的一個示例。

使用此公式,AFR僅考慮產品實際運轉的時間。實際上,公式1和公式2是不同假設條件下的同一公式。下面的假想示例說明當分析一個非連續運轉產品時二者的差別有多大:

本抽樣總體有10,000輛汽車。在2個月(樣本期間)內,要採集此抽樣總體的故障數據。平均而言,一輛汽車每年運轉400個小時。在這2個月內,有10輛汽車出現故障。

使用公式1:

故障率為10個故障x(每年52個星期/樣本期間為8個星期)/抽樣總體中有10,000臺裝置=0.0065或0.65%。

使用公式2:假設這些產品同時*開始運轉,抽樣總體的運轉時間為每年10,000x400小時=每年累計4百萬小時或,000,000/8760小時=累計457年。故障率為10個故障x(每年52個星期/樣本期間為8個星期)/累計457年=0.14或14%

【請注意,此假設是為了簡化這個示例。現實情況是產品在整個期間內都有銷售,因此實際運轉時間將比上面的數字小,導致AFR值變大。】

如果上面的示例是以連續運轉產品為例,那麼兩個AFR值將相等。即使取消所有產品同時開始運轉這個假設,AFR值仍然非常接近。因此,了解產品是連續運轉還是非連續運轉對於進行正確地分析至關重要。

第6步:將AFR轉換為MTBF

將AFR轉換為MTBF(以小時計)是所有步驟中最容易的,不過可能也是最常被誤解的。只有在故障率穩定這一假設下,將AFR轉換為MTBF才有效。下面是此公式:

MTBF=一年內的小時數/AFR=8760/AFR 公式3

使用AFR評估過程對MTBF計算結果抽樣

下面的假想示例有助於說明整個過程。

第1步:確定抽樣總體全部為「X」牌15kVAUPS系統,是在2003年的第36周到第47周(9月1日至11月21日)生產的,生產窗口時長共12周。抽樣總體共2000臺裝置。

第2步:確定採樣窗口從2004年2月2日開始,至2004年7月16日結束。選擇這一採樣窗口時,考慮了在產品庫存和分銷過程中會有10周的延遲。

第3步:將故障定義為由任何原因(包括人為錯誤)引起的關鍵負載停用。

第4步:在樣本期間,總共報告了二十起故障。其中,九起故障被劃分為關鍵負載停用故障,其他故障為非關鍵故障。因此,根據第3步中確定的故障定義,下面計算中使用的故障數為九。已經在計算AFR之前接收、診斷和修理了出現故障的產品。

第5步:AFR計算如下:

AFR=(9個故障*每年52個星期/樣本期間為24周)/抽樣總體中有2000臺裝置=0.00975=0.975%

第6步:MTBF計算如下:

MTRF=8760/AFR=8760/0.00975=898,462小時

相關焦點

  • 支撐美團萬億級數據中心的計算引擎架構演進
    OCTO 提供了服務註冊發現、數據治理、負載均衡、容錯、灰度發布等治理功能,致力於提升研發效率,降低運維成本,並提升應用的穩定性。OCTO 最新演進動態細節可參考《美團下一代服務治理系統 OCTO2.0 的探索與實踐》一文。
  • 給數據中心部署 NVIDIA TESLA P100 的三大理由
    現代化的 HPC 數據中心正攻克當今世界所面臨的部分超級挑戰。傳統的 CPU 已不再能提供其過去所帶來的性能提升,HPC 數據中心的出路是 GPU 加速計算。NVIDIA Tesla 是加速計算領域的先進平臺,也是世界部分超大型計算中心的動力源,能夠在提供超高吞吐量的同時節約成本。
  • AUTOSAR Adaptive – 車載計算中心
    這些傳感器為汽車提供連貫的環境模式,這意味著車載網絡必須在短時間內傳輸和處理大量的數據,從而要求網絡架構能實現低時延的高數據吞吐量。此外,傳感器數據融合需要高性能車載計算系統,該系統在專用硬體支持下能夠處理複雜算法。同時,包含傳感器和執行器的整個處理流程需要安全地集成到汽車當中,並確保較低的延遲。IT伺服器端上可用的數字服務對車輛架構有很大的影響。
  • 如何在數據中心中安裝環境監控系統
    這要求數據中心設施管理人員定期監控數據中心關鍵設備的運行狀態及其周圍的環境狀況,尤其是在沒有採用DCIM系統的情況下。  獨立的遠程監控系統使數據中心設施管理人員可以在其行動裝置上查看實時的狀態更新。這些監控系統有助於確保關鍵IT設備的全天候操作,即使管理人員不在現場也是如此。    如果考慮以下提示,則設置監控系統和傳感器可能很簡單快捷。
  • 如何根據鏈輪齒數和節距計算鏈輪中心距及鏈條長度
    我們在設計鏈傳動布置時,往往會採用一個鏈輪固定、另一個鏈輪可調整的布置方式,這樣就可以避免精確中心距要求,省去繁瑣的計算過程。但是對中心距不可調整的鏈傳動以及同中心距有多掛平行鏈傳動並且不方便布置張緊機構的鏈傳動來說,就避免不了中心距和鏈條長度的精確計算,需要我們按照鏈條節距及節數來確定中心距,保持鏈條的張緊狀態。
  • ☞未來數據中心新貴: 微伺服器, 定義、商機解讀
    ,導致數據中心將承載著大量並行化、海量小負荷的工作需求,使得傳統的數據中心將面臨巨大的挑戰。在雲計算、大數據、移動網際網路飛速發展的今天,伺服器作為基礎層的支撐設備,高性能與低能耗成為用戶的最終訴求。因此,微伺服器擁有比刀片伺服器更高的部署密度以及更低的能耗。本期,筆者將從十個方面帶大家了解微伺服器那些事。大數據時代的來臨,將海量數據湧入數據中心,導致數據中心將承載著大量並行化、海量小負荷的工作需求,使得傳統的數據中心將面臨巨大的挑戰。
  • 維諦技術(Vertiv):「數據中心群落」崛起
    田軍告訴我,「無論維諦技術(Vertiv)如何改變,我們對市場研究的方法一直是很好的傳承,2014年做這個決定,其實是代表了數據中心領域的核心人群對未來的一種期待。」同時,他也坦承,「在那個當下,我們對很多技術也有迷茫,所以通過5年時間做一下回歸,是非常理性的。這個周期內的所有技術都會接受客觀環境和商業市場的考驗。」
  • 大數據應用|大數據時代新技術在智能交通中的應用
    為探索大數據時代人工智慧、大數據等新技術如何應用到交通運輸領域中,實現智能交通的重大變革, 首先,從信息資源整合、數據智能分析決策、大數據全生命周期的新技術應用
  • 正在被巨大數據中心吞噬的全球電力,谷歌臉書和比特幣的「源」罪
    在加利福尼亞州伯克利,負責美國能源部Lawrence Berkeley國家實驗室數據中心能效專家中心的 Dale Sartor說:「現在的趨勢是好的,但是5到10年後它是什麼樣子就是個問題了。」隨著未來渴望大量能源的需求日益臨近,世界上一些頂尖公司的學術實驗室和工程師正在探索如何控制這一行業帶來的環境影響。
  • 數據中心網絡架構
    伺服器在POD內遷移不必修改IP位址和默認網關,因為一個POD對應一個L2廣播域。匯聚交換機和接入交換機之間通常使用生成樹協議,STP(Spanning Tree Protocol)。STP使得對於一個VLAN網絡只有一個匯聚層交換機可用,這就意味著大量二層交換機的埠被浪費。大二層網絡由於傳統的數據中心伺服器利用率太低,平均只有10%~15%,浪費了大量的電力能源和機房資源。
  • 大型數據中心UPS超遠距離並機系統的實現
    現代大型數據中心UPS應用中,系統的擴容和可靠性冗餘的升級越來越頻繁,但是在並機系統的設計和後續改造中,常常由於安裝位置的限制,UPS之間距離太遠而無法並機。例如:某國際著名網際網路公司的大型數據中心,採用了按需擴容的模組化設計。每個模組不但相對獨立自成體系,並且空間的利用率非常高。如果要對系統UPS進行擴容或增加冗餘,會非常困難。
  • 數據中心備用電源系統的發電和配電
    (2)備用電源與市電之間的負載端切換圖5所示的電源切換,為備用電源與市電的負載端切換,按該切換設計,備用電源與市電之間的電源切換點在配電系統末端,通過自動切換開關ATS,實現備用電源與市電之間的切換。(2)備用電源與市電之間的不斷電切換(close transition)當備用電源帶所有負載運行過程中市電恢復時,如果備用電源向市電的切換不中斷負載設備的供電,則備用電源向市電的切換為不斷電切換。
  • 如何設計實時數據平臺(下篇)
    可視應用平臺Davinci,作為統一數據可視化平臺,以配置化方式支持各種數據可視化和交互需求,並可以整合其他數據應用以提供數據可視化部分需求解決方案,另外還支持不同數據從業人員在平臺上協作完成各項日常數據應用。其他數據終端消費系統如數據開發平臺Zeppelin、數據算法平臺Jupyter等在本文不做介紹。
  • 如何設計實時數據平臺(技術篇)
    可視應用平臺Davinci,作為統一數據可視化平臺,以配置化方式支持各種數據可視化和交互需求,並可以整合其他數據應用以提供數據可視化部分需求解決方案,另外還支持不同數據從業人員在平臺上協作完成各項日常數據應用。其他數據終端消費系統如數據開發平臺Zeppelin、數據算法平臺Jupyter等在本文不做介紹。
  • 維諦技術(Vertiv):AI技術開闢數據中心節能革命新戰場
    而當其他領域的競爭成為一片紅海,資本回頭一看方知,AI在能源環境這塊的應用,卻是一片尚未被完全挖掘的藍海,前景十分廣闊。 為了迎合碳中和的國家戰略,實現國家提出的節能減排與碳排量指標,在能源環境領域進行AI節能,便迫在眉睫。特別是數據中心行業,正成為AI節能的重要應用領域。 至於AI對在數據中心領域中又是如何應用?未來對經濟增長有何拉動作用?
  • GTC 2020 | NVIDIA全新Ampere數據中心GPU全面投產
    NVIDIA創始人兼執行長黃仁勳表示:「雲計算和AI的強大趨勢正在推動數據中心設計的結構性轉變,過去的純CPU伺服器正在被高效的加速計算基礎架構所取代。NVIDIA A100 GPU作為一個端到端的機器學習加速器,其實現了從數據分析到訓練再到推理20倍的AI性能飛躍。這是有史以來首次,可以在一個平臺上實現對橫向擴展以及縱向擴展的負載的加速。
  • 當聯邦學習保護數據隱私,如何保證其自身的安全性?
    在本文中,星雲 Clustar 首席聯邦學習架構師 & 港科大博士柴迪將對不同類型的聯邦學習技術進行安全性評估,深入探討聯邦學習是否會造成隱私數據洩漏。聯邦學習(Federated Learning)是一種由多方參與的聯合計算技術,多方在不洩漏各自隱私數據的前提下,完成模型的訓練與推理。在實際應用中,聯邦學習既可以發生在同一企業的不同部門,也可以在不同企業之間。
  • 如何計算ROC曲線 和 AUC
    然後我看了你的報告,並給每個數據都給了確定的答案,其中感冒60人,正常40人,這一步驟主要是模擬實際生產數據中的真實 lab 值。這裡如果有感謝興趣的朋友,也可以查看下 這篇博客,應該是我找到的比較有深度的 auc 的計算了總的來說,不考慮最後一種情況,AUC當然是越大 越好,如果是最後一致情況,那當然是越小越好,因為我一旦取反,那麼就和第一種情況一樣啦。
  • 【粉磨】如何準確計算立磨熱平衡
    2.1 基準數據及設定條件  基準數據和假設條件對計算結果影響較大,因此首先要確定出準確合理的原始數據及參數。2012年11月國家建築材料工業水泥能效環保評價檢驗測試中心對太原市廣廈建材年產60萬t礦渣微粉粉磨系統生產線做了技術鑑定,測試得到了系統基本生產數據,具有客觀性和準確性,本文以此為依據進行熱平衡計算。  基準溫度:0℃(絕對溫度273K);基準時間:1h;基準大氣壓:101.325kPa;量和單位參考國標GB3102.4-93《熱學到量和單位》。
  • 大數據如何應用於ISR作戰?數據管理10條核心建議
    大數據定義:5V特徵2. 大數據賦能軍用的關鍵核心問題:如何從海量數據中提煉可用情報,並支持決策的優先級,本質是數據管理的問題3.為解決此問題,北約聯合空中力量中心(JAPCC)重點聚焦大數據技術,認為其將作為關鍵解決方案,以滿足現代多域作戰的戰場需求。Volume(大量):數據量大,即採集、存儲和計算的數據量都非常大。Velocity(高速):數據增長速度快,處理速度也快,時效性要求高。