技術盛宴 | 數據中心網絡等價多路徑(ECMP)技術應用研究

2021-01-11 IT168

  目前數據中心網絡廣泛應用的Fabric架構中會應用大量的ECMP(Equal-Cost Multipath Routing,簡寫ECMP),其優點主要體現在可以提高網絡冗餘性和可靠性,同時也提高了網絡資源利用率;大量的ECMP鏈路在特定場景下運行過程中會引發其他問題。例如,當某條ECMP鏈路斷開後,ECMP組內所有鏈路流量都會被重新HASH,在有狀態的伺服器區域(如LVS)中將導致雪崩現象,又或者會出現多級ECMP的HASH極化導致鏈路擁塞等。本文將結合ECMP運行原理針對以上問題進行分析,並探討如何優化ECMP的運用。

  等價多路徑路由

  等價多路徑路由,即存在多條到達同一個目的地址的相等開銷的路徑。當設備支持等價路由時,發往該目的IP 或者目的網段的三層轉發流量就可以通過不同的路徑分擔,實現網絡鏈路的負載均衡,並在鏈路出現故障時,實現快速切換。

  ECMP實現流程:

  圖例1:ECMP流程圖

  步驟一:HASH因子的選擇

  首先數據報文轉發查詢路由表,確認存在多個等價路由,再根據當前用戶配置的流量均衡算法,提取參與 HASH 計算的關鍵欄位,即HASH因子。ECMP 流量均衡可選擇的 HASH 因子如下表:

  圖表1:流量均衡模式對應HASH因子表

  註:因ECMP為三層轉發,即使配置基於源MAC、目的MAC或者源目MAC作為HASH因子,系統也會默認選擇源IP作為HASH因子。另外,在選擇提取HASH因子為目的IP時ECMP會默認選擇源目IP作為HASH因子。

  步驟二:HASH計算

  基於步驟一提取的 HASH 因子,根據 HASH 算法進行計算,得出相應的 HASH lb-key(load-balance key)。 ECMP 流量均衡支持的 HASH 算法包括異或(XOR)、CRC、 CRC+擾碼等。

  HASH算法有很多種,我們以XOR算法為例做出說明。XOR運算法則為兩個輸入比特位相同時為0,不同則為1。HASH因子不同,運算結果也不盡相同。

  1、 HASH因子為IP address source(SIP):

  a) SIP XOR 0 ,得出一個32bit的數值a

  b) 將數值a再進行高16bit和低16bit做XOR計算得出16bit數值b

  c) 數值b的15~12bit與11~8bit再做XOR計算,得出4bit數值c

  d) 數值c替換數值b的11~8bit,得出數值d

  e) 數值d截取低位10bit即為lb key

  2、 HASH因子為SIP+DIP/DIP:

  a) DIP XOR SIP ,得出一個32bit的數值a

  b) 剩餘運算步驟與SIP運算一致

  3、 HASH因子為SIP+DIP+SP+DP:

  a) SIP XOR DIP得到32bit的數值a

  b) 數值a的低16bit XOR SP 得到32bit的數值b

  c) 數值b的低 16bit XOR DP 得到 32bit 的數值c

  d) 數值c的高16bit XOR 低16bit得到16bit的數值d

  e) 數值d的15~12bit XOR 11~8bit,得到4bit的數值e

  f) 數值e替換數值d的11~8bit,得出數值f

  g) 數值f截取低10bit,即為lb-key

  步驟三:確認轉發下一跳

  數據報文經過路由查表後找到對應ECMP 基值(base-ptr),根據 HASH 因子通過 HASH 算法計算獲得 HASH lb-key 後,進行 ECMP 下一跳鏈路數(Member-count)求餘計算,再與ECMP基值進行加法運算得出轉發下一跳index,即確定了下一跳轉發路由。

  計算公式:Next-hop =(lb-key % Member-count)+ base-ptr

  上述流程為ECMP常規轉發流程,但在特定網絡環境下運行過程中就會出現問題,接下來繼續分析數據中心網絡中ECMP遇到的2個常見問題。

  問題一 單鏈路故障導致ECMP組所有數據流被重新HASH計算

  當Leaf交換機發送6條數據流到LVS伺服器,Leaf先進行HASH運算負載均衡到每一臺LVS伺服器上,正常流量轉發如圖例2所示:

  圖例2:ECMP轉發圖

  當某臺LVS伺服器網卡出現故障或者鏈路出現故障,Leaf交換機會將ECMP組內數據流將重新HASH計算,再進行負載均衡到剩餘有效鏈路上,進而導致TCP會話斷開,發生雪崩現象,例如一些支付類業務,同一個用戶的一次支付過程會調用多個業務服務,業務側要求一次支付的過程都落在同一個處理伺服器上,當出現單條鏈路故障後不僅影響該鏈路所在LVS承載的用戶,同時還影響該ECMP組下其他LVS承載的用戶,如圖例3所示:

  圖例3:故障後ECMP轉發圖

  優化方案:

  為避免單臺LVS伺服器故障或者單鏈路故障導致整個ECMP組內流量全部被重新HASH,ECMP可採用彈性HASH算法來優化。採用彈性HASH算法後,僅將故障鏈路的流量重新HASH到其他活躍鏈路上,而非故障鏈路上的數據流則無需改變下一跳。實現效果如圖例4所示:

  圖例4:ECMP彈性HASH算法

  彈性HASH具體實現原理:

  圖例5:彈性HASH流程

  在交換機上生成一張索引表(RH Flow Set Table),用於存放相關索引值對應下一跳路由地址。數據報文經過路由查表後找到對應ECMP 基值,提取HASH因子進行HASH運算,在HASH Key與ECMP數量取餘數時無論是否出現故障鏈路,均以最初數量進行取餘運算,因此運算結果一致,非故障鏈路數據依然按照原有鏈路轉發。如下圖中,鏈路3故障後軟體CPU將及時更新RH flow table,將失效鏈路用正常鏈路均勻替換。

  圖例6:彈性HASH索引表替換示意圖

  問題二 HASH極化問題

  如圖例7所示,在Leaf設備和Spine設備均採用上聯鏈路數為偶數且ECMP算法及HASH因子一致的情況下,數據流在Leaf設備上經過一次HASH計算,將數據流負載分擔到兩臺Spine上,均衡後效果為數據流1、2、3轉發至Spine-1,數據流4、5、6轉發至Spine-2,Spine再進行HASH計算負載分擔到兩臺DCI核心上,因在Spine層採用的HASH算法與Leaf的HASH算法一致,最終Spine-1的數據流1、2、3均轉發至DCI-1上,未負載分擔到DCI-2上任何數據流,而Spine-2的數據流4、5、6均轉發至DCI-2上,未負載分擔到DCI-1上任何數據流,同理Leaf-2發送的數據流也是如此,進而產生HASH極化問題,導致SPINE和DCI之間鏈路有一條空閒,極大的浪費了網絡資源,甚至會導致流量擁塞。

  圖例7:HASH極化

  優化方案:

  l 同廠商Leaf設備和Spine設備均採用相同上聯鏈路數場景下,應避免在相鄰的兩臺設備上使用相同的負載均衡算法;

  l 設備在運行HASH計算時,除傳統的五元組外,可以增添擾動因子,避免HASH計算結果相同。

  HASH擾動的計算過程中HASH因子仍然正常提取,再增加用戶自定義隨機擾動因子,經過HASH算法運算時,不同交換機HASH計算結果就將不一致,以達到避免HASH極化現象的出現。

  圖例8:HASH擾動計算過程

  動態負載均衡技術實現

  在數據中心網絡中,突發流量多,並且存在大象流和老鼠流並存現象,本文所描述的基於數據流五元組的HASH算法,並結合HASH擾動因子技術實現流量負載均衡,但無法實現大象流和老鼠流並存的網絡中多鏈路之間的流量負載均衡。

  銳捷網絡新一代25G數據中心網絡解決方案中所採用的最新晶片,已能夠支持DLB(Dynamic load balance,動態鏈路負載)特性,可基於流量負載狀態實現動態的HASH負載均衡。具體實現方法是交換機為每條進行負載均衡的數據流創建一個流表,基於流表記錄流量統計信息,根據流量統計信息動態調整鏈路負載均衡。

  感謝您關注銳捷網絡技術乾貨文章!現誠邀您參與有獎調研,您寶貴的意見和建議將幫助我們在技術探索與分享上持續精進。

相關焦點

  • 「網絡技術控」數據中心網絡走向Spine-Leaf架構
    傳統的數據中心網絡一般基於核心層、匯聚層和接入層的三層設計,不少情況下,數據中心網絡會省去匯聚層,因為大部分的企業數據中心都是位於同一物理位置。所謂的大二層也多由生成樹協議控制。但是,隨著網絡協議和技術發展的進步和先進的軟體定義網絡(SDN)技術的結合,網絡架構師重新構想應該如何構建網絡。數據中心網絡所服務的是端到端的終端有效和快速的連接,因此考慮到端到端的高轉發速度和低延遲,那麼Spine-leaf網絡架構是更好的選擇。
  • 雲計算數據中心網絡技術全面剖析
    當前分散雲數據中心伺服器虛擬化使用的主要是Bare-Metal方案。分散雲給數據中心網絡帶來了新的挑戰,虛擬機之間的數據通信管理需求促使了一系列網絡新技術的發展。在OS-Level與Hosted方案中,虛擬機都是架設於作業系統之上的,因此VM/VE之間的通信主要由同樣運行於基礎作業系統之上的網絡交換應用程式來完成。
  • EVI技術及其在數據中心內和數據中心間的應用
    為了實現高可靠性和冗餘部署,當今大多數企業網絡及其數據中心跨越了多個位於不同地理位置的物理站點,在這些站點部署類似的業務,在這些站點之間進行二層互通。為了實現站點間的資源動態調配和管理,虛擬機在數據中心之間要能夠自由遷移,由於虛擬機遷移過程對用戶透明,不能改變IP位址,所以必須在分布於異地的站點之間實現二層網絡互聯。
  • 一文讀懂網絡界新貴SR技術化繁為簡的奧秘
    隨著MPLS技術的廣泛應用,其優勢和劣勢也都更加凸顯。被稱為「下一代MPLS」的Segment Routing技術很好地繼承了MPLS的優勢,同時也對MPLS的劣勢進行了顛覆和創新。1.SR繼往傳統MPLS的數據平面既保持了標籤轉發的簡單高效,還能支持顯式路徑從而提供強大的流量調度能力。
  • EPON網絡技術的研究與應用
    2)上行數據流採用TDMA技術。OLT接收數據前比較LLID註冊列表;每個ONU在由局端設備OLT統一分配的時隙中發送數據幀;分配的時隙(通過測距技術)補償了各個ONU距離的差距,避免了各個ONU之間的碰撞。
  • 遙感高光譜數據處理與應用技術研修班舉行
    11月7日,由中國科學院人事局支持,中國科學院西安光學精密機械研究所人力資源管理處和光譜成像技術院重點實驗室聯合舉辦的遙感高光譜數據處理與應用技術研修班在西安光機所祖同樓四樓會議室舉行。西安光機所組織30餘名科研人員與國內20餘家從事空間領域研究機構的專業技術人員共50餘人參加了學習。
  • 迅特通信獲得「廣東省矽基光電子工程技術研究中心」認定
    此次成功申報廣東省工程技術研究中心,是繼2019年成功申報國家科技部「光接入用25G/50G/100G PON矽基光電子晶片與子系統」重點研發項目後,公司在矽基光電子技術的研究上再一次獲得認可和肯定。市場前瞻,實現全新突破   隨著5G網絡建設如火如荼地開展,為了滿足用戶對寬帶需求的增長,各大運營商對網絡技術不斷改進,市場對光模塊的需求日益擴大。
  • 大數據_數據挖掘技術分類及應用
    該術語還有其他一些同義詞:資料庫中的知識發現 、信息抽取 、信息發現 、智能數據分析 、探索式數據分析( 、信息收穫 、數據考古 等。   Data Mining(數據挖掘)是資料庫研究、開發和應用最活躍的一個分支,是多學科的交叉領域,它涉及資料庫技術、人工智慧、機器學習、神經網絡、數學、統計學、模式識別、知識庫系統、知識獲取、信息提取、高性能計算、並行計算、數據可視化等多方面知識。
  • 科學家利用基因網絡技術重建COVID-19早期的進化路徑
    來自英國劍橋大學和德國的研究人員利用基因網絡技術重建了COVID-19在的早期「進化路徑」。
  • 2015.09:網際網路大數據在政府統計中的應用路徑研究(「大數據在政府...
    網際網路大數據在政府統計中的應用路徑研究[1] 「大數據在政府統計中的應用研究」課題組本文以網際網路大數據為背景,結合政府統計工作的特點,提出了網際網路大數據在政府統計中的應用路徑,並以網際網路搜索數據在房價統計方面的應用進行了案例研究,提出了網際網路大數據在政府統計應用中的展望。
  • 用於下一代數據中心網絡的400G CWDM8光纖
    為了支持新的應用需求,超大型雲服務提供商正在加速部署下一代12.8T交換機和其他網絡設備,並將交換機之間的互連速度提高到400GB/s。為了實現400G數據速率轉換,需要滿足低功耗、高密度的新光學接口技術,以及在超大規模雲數據中心部署乙太網網絡基礎設施的低成本要求。
  • 中國科學院空間應用工程與技術中心
    中科院空間應用工程與技術中心2021年推免生面試通知(第一批)   中國科學院空間應用工程與技術中心是中國載人航天工程運行與管理支持中心的依託單位,承擔我國載人航天工程技術抓總、預先研究管理、應用成果管理和推廣、數據管理、國際合作、科普公益以及空間站運營管理規劃
  • 【IDCC2019】數據中心技術論壇|中國信通院李潔:邊緣數據中心的發展
    伴隨著5G、物聯網、邊緣計算等終端側應用場景的技術演進與迭代,終端側上網需求量將呈現指數級增長,同時,對IDC的應用場景也將進一步擴大,IDC市場需求隨之拉升。先說一下為什麼會研究邊緣數據中心,其實可能要往前推,要推到為什麼要研究邊緣計算,大概說有三個主要的內容,一個是數據這塊,大家可以看出現在隨著網際網路技術的發展,數據是呈爆炸式的增長。一個是2020年全國數據中心全球網際網路數據總量將達到40ZB,可以看到像資產配置、互聯飛機、智慧工廠都會造成數據的急劇膨脹。
  • 高爐煤氣脫硫技術路徑與應用研究
    研究發現,高爐煤氣中的硫主要來自於燃料中的硫,硫元素賦存形態為羰基硫、二硫化碳、硫化氫,其中有機硫佔比達80%以上。採用催化水解法可以將有機硫轉化為無機硫,再進行吸附脫除。工程應用表明,該技術脫硫效果較好,具有一定的應用前景。
  • 維諦技術(Vertiv):AI技術開闢數據中心節能革命新戰場
    但這一研究對算法的要求非常高:需要消耗200到300塊GPU設備,以幾周的時間來運行訓練,算力的成本非常高。而隨著大型數據中心的規模越來越大,能耗壓力也隨之增大,數據的海量積累,也催生用人工智慧技術來進行數據中心節能的一套解決方案。要知道,在谷歌的大數據中心,光伺服器就有百萬級的臺數,一旦運行,當中產生的能耗之大,可想而知。
  • 應有科技獲北京中科銘創生態技術研究中心支持開啟數據零售之路
    應有科技獲北京中科銘創生態技術研究中心支持開啟數據零售之路 深圳應有科技有限公司獲北京中科銘創生態技術研究中心支持,為應有產品形態添加大數據元素
  • 看網絡遙測技術如何助力精細化網絡運維?
    基於AI、大數據的網際網路應用推動了網際網路數據中心產品、技術的快速升級。首先,接入帶寬從傳統的10Gbps升級到25Gbps/100Gbps,需要基礎網絡提供高轉發能力保障業務的高可用。因此,25G網絡架構的TCP Incast現象比10G網絡更加明顯,瞬時的多打一導致出接口報文擁塞,出接口緩存用完後會基於尾部丟棄機制進行丟包,應用監測到丟包後發起TCP重傳,造成數據端到端延時的進一步惡化,嚴重影響業務體驗。
  • 華中科技大學光電國家研究中心研究員吳非:數據應用對存儲提出的...
    2019年7月14日,由中國新一代IT產業推進聯盟指導,CIO時代學院、中國電子科技集團公司第十五研究所計算機質檢中心主辦,全國高校大數據教育聯盟、章魚大數據、萬山數據協辦的"第八屆中國大數據應用論壇暨中國電科15所大數據應用論壇"在京隆重開幕。
  • 前端網絡通常採用TCP協議、IP/乙太網絡技術,成為前端網絡主流技術
    圖表 1數據中心網絡接入情況 2.數據中心網絡 2.1.數據中心內部網絡 不同類型的應用對數據中心網絡有著不同的要求。進入20世紀,隨著更高速率的SSD的規模應用,特別是近來高速低時延的NVMe技術的出現,存儲需要更高速更高效的網絡;計算網絡主要採用InfiniBand專網,典型代表為HPC等高性能業務,低時延是其極致追求。但隨著RoCE技術的深入發展,Ethernet在計算網絡中的應用也逐漸普遍。
  • 保障應急測繪 InSAR遙感技術應用研究中心成立
    封面新聞 記者 田之路近日,封面新聞記者獲悉,四川省測繪地理信息局測繪應急保障中心,與北京無線電測量研究所在成都舉行合作框架協議籤約儀式,聯合成立InSAR遙感技術應用研究中心。InSAR意為合成孔徑雷達幹涉測量理論與應用方法技術研究,目前已建立了較完善的區域性地表形變InSAR監測技術體系與工作方法,為我國地面沉降調查與監測提供了一種低成本、高效率、短周期、高精度、大區域覆蓋的遙感技術手段。InSAR技術在鐵路沿線地面沉降、礦山開採沉陷、滑坡活動監測、地震等領域均取得了令人滿意的效果。