網絡的可靠性是設計出來的——解析網絡解決方案的可靠性

2021-01-07 51CTO

網絡可靠性的定義

根據國家標準GB-6583的規定,產品的可靠性是指:設備在規定的條件下、在規定的時間內完成規定的功能的能力。對於網絡系統的可靠性,除了耐久性外,還有容錯性和可維護性方面的內容。

1、耐久性。是指設備運行的無故障性或壽命,專業名稱叫MTBF(Mean Time Between Failure),即平均無故障時間,它是描述整個系統可靠性的重要指標。對於一個網絡系統來說,MTBF是指整個網絡的各組件(鏈路、節點)不間斷無故障連續運行的平均時間。

2、容錯性。專業名稱叫MTTR(Mean Time to Repair),即系統平均恢復時間,是描述整個系統容錯能力的指標。對於一個網絡系統來說,MTTR是指當網絡中的組件出現故障時,網絡從故障狀態恢復到正常狀態所需的平均時間。

3、可維護性。在系統發生故障後,能夠很快地定位問題並通過維護排除故障,這屬於事後維護;根據系統告警提前發現問題(如CPU使用率過高,埠流量異常等),通過更換設備或調整網絡結構來規避可能出現的故障,這屬於預防維護。可維護性需要管理人員來實施,體現了管理的水平,也反映了系統可靠性的高低。

表示系統可靠性的公式為:

MTBF / ( MTBF + MTTR ) * 100%。

從公式或以看出,提高MTBF或降低MTTR都可以提高網絡可靠性。造成網絡不可用的因素包括:設備軟硬體故障、設備間鏈路故障、用戶誤操作、網絡擁塞等。針對這些因素採取措施,使網絡儘量不出故障,提高網絡MTBF指標,從而提升整網的可靠性水平。

然而,網絡中的故障總是不可避免的,所以設計和部署從故障中快速恢復的技術、縮小MTTR指標,同樣是提升網絡可靠性水平的手段。

在網絡架構的設計中,充分保證整網運行的可靠性是基本原則之一。網絡系統可靠性設計的核心思想則是,通過合理的組網結構設計和可靠性特性應用,保證網絡系統具備有效備份、自動檢測和快速恢復機制,同時關注不同類型網絡的適應成本。

構建可靠的網絡,需要從耐久性、容錯性以及可維護性三個方面進行網絡規劃設計。而網絡的規劃設計是個系統工程,不同的設計方案的可靠性性效果不盡相同,這就需要以科學的方法進行設計,構建符合需要的可靠性網絡。

一、網絡解決方案可靠性的設計原則

不同的網絡,其可靠性的設計目標是不同的。網絡解決方案的可靠性需要根據實際需求進行設計。高可靠性的網絡不但涉及到網絡架構、設備選型、協議選擇、業務規劃等技術層面的問題,還受用戶現有網絡狀況、網絡投資預算、用戶管理水平等影響,因此在規劃可靠性網絡時需要因地制宜,綜合考慮各方面的影響因素。

網絡結構通常分核心層、匯聚層和接入層。網絡層次越高其可靠性要求也越高。在網絡的方案設計中,採用層次化的網絡設計結構,不同層次解決不同級別的可靠性要求。為保證網絡可靠性,可靠性技術的實施並不是簡單疊加和無限制的冗餘。否則,一方面會增加網絡建設整體成本,另一方面還會增加管理維護的複雜度,給網絡引入潛在的故障隱患。因此在進行規劃時,應該根據網絡結構、網絡類型和網絡層次,分析網絡業務模型,確定基礎網絡拓撲,明確對網絡可靠性最佳的關鍵節點和鏈路,合理規劃和部署各種網絡高可用技術。

在網絡可靠性規劃實施時,應在保證網絡各層次可靠性要求的基礎上,儘量降低複雜度,適度地控制成本,才能設計出最適合的方案。不能為追求單純可靠性而忽視系統的整體成本和性能,構建可靠性網絡是一個平衡各方面因素的過程。所以對於網絡可靠性,沒有最好的方案,只有最合適的方案。

二、解決方案可靠性的設計方法實例

1、網絡接入層可靠性方案

可靠的接入層應提供以下主要特性:

使用冗餘引擎和冗餘電源獲得系統級冗餘,為關鍵用戶群提供高可靠性;

與具備冗餘系統的匯聚層進行雙歸屬連接,獲得預設網關冗餘,支持在匯聚層的主備交換機間快速實現故障切換;

通過鏈路匯聚提高帶寬利用率,同時降低複雜性;

通過配置802.1X,動態ARP檢查及IP源地址保護等功能增加安全性,有效防止非法訪問。

接入層到匯聚層有四種連接方式,如表1所示。可以看出,三角形組網(拓撲4)提供了更高的接入可靠性以及更靈活的擴展能力,所以建議採用三角形組網方式。由於接入層三角形組網存在二層環路,所以需要在交換機上使能多生成樹協議MSTP。匯聚層交換機部署虛擬路由器冗餘協議VRRP,將VRRP組的虛擬IP位址作為伺服器網關。

圖1. 高可靠性接入典型組網

接入層的四種拓撲的比較:

拓撲

優點

缺點

1

倒U形

不啟用STP,網絡管理簡單。

VLAN可以跨匯聚層交換機,二層的擴展靈活。

匯聚交換機故障時,造成其同側接入交換機上的伺服器不可達,無法實現高可用接入

2

U形

不啟用STP,網絡管理簡單。

接入交換機與匯聚交換機之間有冗餘鏈路。

VLAN不能跨匯聚交換機,部署不靈活。接入交換機間鏈路故障時,VRRP心跳報文無法傳遞,網絡處於不穩定狀態。

3

矩形

接入交換機與匯聚交換機之間有冗餘鏈路。

VLAN可以跨匯聚層交換機

當接入交換機上行鏈路故障時,所有流量將從另一側的交換機上行,網絡收斂比變小,網絡易擁塞,降低了網絡可靠性。

4

三角形

接入交換機與匯聚交換機之間有冗餘鏈路、冗餘路徑。

VLAN 可以跨匯聚層交換機,部署靈活

生成樹計算比矩形拓撲複雜。

表1. 四種拓撲連接方式的對比

2、網絡匯聚層可靠性方案

匯聚層應使用與核心層相同結構的冗餘節點備份連接,以實現最快速的路由收斂並避免黑洞產生。匯聚層做三層接入網關時,還需要通過VRRP等協議實現網關的冗餘備份和流量的負載分擔。匯聚層邊界發生鏈路或節點故障時,收斂速度取決於預設網關冗餘與故障切換,通過合理地配置協議定時器,可達到秒級的收斂速度。

匯聚層到核心層間採用OSPF等動態路由協議進行路由層面高可用保障。常見連接方式有兩種,如圖2所示。左圖組網方式從匯聚層到核心層具有全冗餘鏈路和轉發路徑;右圖組網方式從匯聚層到核心層沒有冗餘鏈路,當主鏈路發生故障時,需要通過路由協議計算獲得從匯聚到核心的冗餘路徑。所以,三角形拓撲的故障收斂時間較小,但要佔用更多的設備埠,建網成本略高。

圖2. 匯聚層與核心層的拓撲

3、核心層可靠性方案

核心層設備作為網絡的骨幹,需要能提供快速的數據交換和極高的永續性。從備份和負載分擔的角度可選用雙核心或多核心;從單臺設備考慮,選用交換性能和可靠性高的設備,支持雙主控、電源冗餘、風扇冗餘、分布式轉發等特性。並降低核心設備配置的複雜度,減少出現錯誤的機率。

儘量在核心使用冗餘的點到點三層互聯(如圖2左圖),因為這種設計可產生最快速、最確定的收斂結果。將核心設計為只使用硬體加速業務的三層交換環境要優於二層的設計,因為在鏈路或節點故障時能提供更快的收斂速度、通過減少路由鄰接關係和網絡拓撲提高可擴展性、通過等價多路徑提高帶寬利用率。

4、IRF虛擬化技術提高可靠性

圖3. 傳統架構網絡拓撲與IRF架構網絡拓撲對比

傳統架構為保證網絡高可靠性通常採用MSTP+VRRP,這種組網需要在接入交換機與匯聚交換機間運行MSTP協議,管理和維護較複雜。但當接入交換機和匯聚交換機都採用H3C IRF智能彈性架構技術之後,可將每兩臺交換機(也可以是多臺)配置成一個IRF堆疊組,兩臺匯聚交換機也配置成一個堆疊組,接入交換機與匯聚交換機之間通過捆綁鏈路連接,如圖3所示。從邏輯上看,一個堆疊組就是一臺設備,因此接入交換機和匯聚交換機間不存在二層環路,可以避免MSTP的配置管理,簡化網絡設計。

圖4是採用IRF設計時的網絡高可靠性切換方式。情況A是正常轉發路徑,伺服器流量經過網絡接入層和匯聚層的IRF堆疊組。情況B,當接入層IRF堆疊組的一臺交換機出現故障,伺服器網卡進行切換,通過IRF另一臺交換機即可恢復網絡通信,而匯聚層設備無需任何變化,數據流仍從同一聚合鏈路進入網絡。情況C,匯聚層設備出現單臺故障,伺服器不感知,只由接入交換機將流量轉發到聚合鏈路,匯聚層存活的交換機感知的仍是從現有聚合鏈路接收數據流。情況D,發生捆綁鏈路故障,交換機會將數據流轉發到捆綁組存活鏈路上,對於IRF交換機組來說,數據流轉的邏輯接口並未改變。

IRF的實施可以提供更高的網絡可靠性,進一步簡化網絡管理。

圖4. IRF組網的HA部署

5、綜合可靠性組網模型

網絡按照分層、模塊化的思路進行設計和規劃,根據業務等規劃因素進行模塊化區域劃分,每個區域有自己的匯聚核心與網絡核心互連,如圖5所示。

圖5.綜合可靠性組網模型

網絡匯聚層以上都為三層設備,配置OSPF協議,網絡故障收斂速度快,易於管理和維護。接入層千兆雙歸屬到匯聚層設備,提供鏈路冗餘備份。匯聚採用雙機備份,雙歸屬到核心層。核心層設備通過高速鏈路連接,完成數據交換和雙機熱備份。對於設備較多的網絡,核心層可考慮使用多臺設備搭建RPR環或RRPP環替代雙機熱備份。核心設備要求支持雙主控、電源/風扇冗餘、跨板聚合以提高可靠性。

可靠性網絡的主要故障恢復時間指標如表2所示:

網絡故障

收斂性能

接入-匯聚/匯聚-核心鏈路故障

500毫秒

匯聚層設備故障

1秒

核心層設備故障

500毫秒

匯聚/核心層設備雙主控切換

200毫秒

鏈路聚合故障

1秒

 表2.可靠性網絡主要性能指標

三、總結

高可靠性永遠是網絡必不可少的重要需求。網絡系統的可靠性就像自然界的生態平衡,維繫著系統的正常運轉,一旦平衡被打破,需要具備自我恢復的能力。一個可靠的網絡系統,能夠保證長期的正常運轉,在極低的概率情況下才出現故障。高可靠性的設備和可靠性技術(如冗餘備份和IRF)是保證以上可靠性的基礎。

網絡解決方案是一個系統,其可靠性的程度更大程度上取決於設計方案。好的設計方案在保證可靠性的前提下,能簡化系統的複雜度,提高系統可維護性,並控制成本在合理的範圍內。只有真正理解用戶需求,並在廣泛實踐的基礎上才能形成滿足用戶需要的可靠性解決方案,在這個過程中方案設計是核心,網絡解決方案的可靠性是設計出來的。

【責任編輯:

陳博文

TEL:(010)68476606】

相關焦點

  • 可靠性設計與分析關鍵技術
    目前,可靠性建模技術發展了適用於單功能和多功能系統的串聯繫統模型、並聯繫統模型、冗餘(貯備)系統模型、表決系統模型及其組合結構的複雜網絡系統模型。幾種典型的可靠性框圖如圖2-6所示,其中,可靠度數學模型中Ri(t)表示第i個單元的可靠度、ti表示第i個單元的工作壽命。 (1)串聯繫統模型:由n個單元組成的串聯繫統,任意單元發生故障均會導致整個系統發生故障。
  • 基於多源信息融合及貝葉斯網絡的 小子樣可靠性評估
    以貝葉斯網絡為基礎,將ML- Ⅱ多源信息融合法應用於節點的可靠度確定中。同時,為避免不可用數據的影響,提出t 檢測對驗前數據和樣本數據進行相容性檢驗,解決了小子樣系統中根節點可靠度難以確定的問題,提高了預測精度。基於鑄造起重機主起升機構可靠性評估對提出的方法進行驗證,結果表明所提出的方法能夠很好地應用於鑄造起重機起升機構的可靠性評估,可為提高起升機構可靠性提供支持和參考。
  • 可靠性設計技術發展與現狀分析
    1.可靠性設計的定義可靠性設計,是指在產品設計過程中,為滿足產品可靠性要求,將產品性能指標和可靠性指標進行綜合分析與設計的過程,目的是通過可靠性分析與可靠性評估,從產品結構、材料、工藝、使用條件等方面不斷優化可靠性設計方案,消除潛在故障模式,使設計的產品滿足預期性能要求和可靠性要求。產品可靠性要求,包括定量和定性指標要求,它們是產品可靠性設計的依據。
  • 技術文章:可靠性設計與分析關鍵技術
    貯備單元失效率和工作單元失效率相等時的熱貯備系統可靠性數學模型與上述並聯繫統模型相同。冷貯備系統可靠性框圖如圖4所示。2 可靠性預計技術可靠性預計,即對設計或生產的電子設備的基本可靠性和任務可靠性進行預測,它是產品可靠性分配、可靠性設計方案評價和產品維修方案制訂的重要依據。
  • 電子微組裝可靠性設計有哪些挑戰?
    、測試內容、測試埠的解決方案。從產品層面來看,為提升TSV互連的可靠性,人們關注的熱點問題仍是滿足可靠性要求的TSV尺寸、材料的設計,目前商業化SiP產品的TSV解決方案,設計了針對2.5D和3D封裝的TSV結構和線上/線下測試方法(MEOL)。不過,儘管TSV技術在高密度集成方面具有絕對優勢,但TSV技術的高成本和可靠性潛在問題,仍是目前其拓展應用過程中最具挑戰的問題。
  • 先進封裝和電路板的可靠性挑戰
    隨後又在2019年ANSYS收購了業界唯一自動化設計可靠性分析軟體Sherlock開發商 DfR Solutions。ANSYS的綜合多物理場解決方案與Sherlock的精確可靠性分析相結合,將提供一個完整的設計師級套件,幫助客戶在設計周期的早期快速便捷分析電子故障,從而可在開發過程中為用戶節省時間和資金。
  • 多手段保證LTE承載網可靠性
    需求可分為三個層面:設備可靠性、網絡可靠性和業務可靠性。在承載網中,網絡和設備的可用性要求達到99.999%(這相當於設備在一年的連續運行中,因各種可能原因造成停機維護的時間少於5分鐘),高可靠性是電信運營商網絡建設和網絡運營的基本要求。在網絡架構不斷演進中可靠性的要求一直貫穿其中,可以說可靠性是網絡的必備特性。可靠性保證網絡發生故障時以最快的速度進行保護倒換,使得運營商的損失降到最低。
  • 一個軍用器件可靠性設計竟然是這樣的!
    國產星用DC/DC變換器雖然在軌試驗中尚未出現失效現象的歷史記錄,但在地面試驗中,已經有過不少的故障歸零報告,基本上屬於設計缺陷。 以上統計數據表明,控制和減少由於技術方案選擇、電路拓撲設計以及元器件使用設計原因所造成的DC/DC變換器故障,具有重要意義。
  • 谷歌可靠性工程的設計經驗
    本文是Google SRE Ramón Medrano Llamas 在西班牙奧維耶多大學希洪校區理工學院關於可靠性工程設計的分享。可靠性成本:隨著服務可用性數字9的增加,可靠性成本呈指數級增長。可能出現的故障:內存、CPU、硬碟、網卡、電源、電纜、挖斷光纖的挖掘機、撞向變電站的卡車…
  • 實現遠方保護與就地保護有效配合的新方案,可提升配網保護可靠性
    為解決以上問題,強電磁工程與新技術國家重點實驗室(華中科技大學)、國網鄂州供電公司、國網山東電力科學研究院的研究人員金能、梁宇、邢家維、戎子睿、林湘寧,在2019年第24期《電工技術學報》上撰文,提出了具備抗採樣異常能力的高可靠遠方保護冗餘跳閘邏輯,並設計了遠方保護與就地保護最優配合方案。
  • PET基ITO 導電薄膜的可靠性研究
    4 導電薄膜可靠性提升方案  4.1 可靠性方案一 設計更改銀漿線走線方向設計(按鍵靈敏度、可靠性提升)  改變銀漿線路的走線方式,將走線方向與貼裝的方向一致,貼裝的方式如圖4,圖中導電薄膜銀漿線路為橫向走線,貼裝的方式先貼中間後貼兩邊,為橫向貼裝,貼裝的過程中受橫向力,如果銀漿線路也為橫向走線,即使受到外力,按鍵區各部分還是和銀漿線路相連通
  • 校園無線網絡解決方案
    校園無線網絡覆蓋主要考慮學生宿舍、教學樓、圖書館、體育館以及校道等室外區域,建議使用工業路由器來解決問題校園無線覆蓋的需求分析如下:1、校園無線網絡覆蓋主要考慮學生宿舍、教學樓、圖書館、體育館以及校道等室外區域;
  • 電子產品工藝設計可靠性
    電子產品生產,特別是高可靠性電子產品的生產,對環境的要求很高,優良的環境條件是保證電子產品可靠性的重要因素。 二、工藝設計的概念和內涵 工藝設計是指產品生產製造工藝的設計。 進行工藝設計,需明確以下問題。 (1)工藝設計屬於優化設計的範疇 所謂優化,即在給定的條件下,從一切可行的方案中尋求最適當的方案。進行工藝設計,首先要考慮本單位的生產技術條件(製造環境)及生產綱領。
  • PCBA設計的可靠性(DFR)的優勢
    打開APP PCBA設計的可靠性(DFR)的優勢 發表於 2020-09-29 17:27:50 設計PCBA時,您的主要目標是什麼
  • 可靠性物理知識
    譯者註:可靠性物理分析(也俗稱失效物理分析,失效分析)更多的是了解器件材料在各種應力條件下的變化最終導致失效的物理或者化學機制,從而通過設計避免或者是量化這些物理和化學機制對最終產品可靠性的影響。這隻有一個真實的答案:扔掉那些老舊的標準,擁抱以可靠性物理分析(Reliability Physics Analysis -RPA)的世界中來。可靠性物理分析是基於科學理論為基礎的分析方法通過運用我們所知的故障機理來預測產品可靠性和提高產品性能。高性能的建模工具運用於產品設計階段,模擬由于振動、衝擊、溫度循環、疲勞老化和腐蝕等等造成的失效。
  • 華為5G電信雲解決方案榮獲2020年Asia Communication Awards「網絡...
    [遠程會議,2020年12月9日] 近日,華為5G電信雲解決方案憑藉其業界創新的超融合雙引擎基礎設施平臺、基於容器的微服務架構、網元無狀態設計等技術創新榮獲2020年Asia Communication Awards(以下簡稱ACA)「網絡功能虛擬化創新」獎。
  • 電子所舉辦電子產品可靠性分析設計培訓班
    為使中國科學院電子產品設計人員進一步提高可靠性設計水平,中國科學院電子學研究所人事教育處組織的電子產品可靠性分析設計培訓班於12月6日至7日在一室報告廳舉辦,培訓為期兩天,包括電子所和其他院屬單位的職工在內共計62餘名科技人員參加。
  • 區間離散度與非概率可靠性的關係及影響
    基於控制變量法探究了極限狀態函數中設計變量的區間離散度對非概率可靠性指標的影響,並通過工程實例,驗證了所建立關係模型的合理性、實用性,拓展了非概率可靠性設計理論。由式(12)可知,設計點、均值xic、離差xir、可靠度指標η 等4 個指標知其三即可求其一。圖 1 線性功能函數3 非線性極限狀態函數情況下的非概率可靠性指標上述針對線性極限狀態函數給出了非概率可靠性指標的精確解析解,但對於極限狀態函數為高度非線性的情況,難以獲得非概率可靠性指標的精確解析解。
  • 過程工業中的可靠性工程師
    如果貴公司還在糾結要不要招聘一位可靠性工程師,或者壓根就沒有額外招聘的想法,那麼挑一兩個智商情商比較高的維修人員進行可靠性技術培訓,來開展可靠性方面的工作也是可行的。由於現國內的過程工業,尤其是石油石化的可靠性工程師鳳毛麟角,如果企業決心要做可靠性建設,要麼像剛才我說的自我培養(藉助諮詢公司的力量),要麼從外企挖人,要麼找在其他行業中,有機械背景的可靠性工程師。一個稱職的可靠性工程師,要具備基本的工程技能:機械或電氣背景的本科學歷,最好還是工學碩士。
  • 數字網絡公共廣播系統設計方案
    下面豐廣科技分享一套完整的數字IP網絡廣播系統設計方案,文章來源:豐廣科技http://www.fengakj.com/jjfa/gggbjjfa.html7)《公共廣播工程費用概預算編制辦法》8)《XX產品手冊》2、設計原則本項目方案設計遵循技術先進、功能齊全、性能穩定、節約成本的原則。