智聖新創|某高校接入交換機埠環路導致交換機丟包和終端異常

2020-09-03 智聖新創

一、組網描述


某高校宿舍有線網採用大二層架構,利用QINQ技術使得接入交換機每個埠一個單獨的VLAN,從而避免ARP、DHCP欺騙,廣播風暴等。核心採用H3C SR8808-X作為BRAS設備,用來進行QINQ終結以及終端用戶的PPPOE Server,實現終端用戶的接入認證。

QINQ外層VLAN標籤在RG S8610下聯宿舍樓匯聚S5560的接口上啟用,內層VLAN標籤在接入交換機E528上。

二、問題描述

某日,從網管軟體上收到217號宿舍樓匯聚和接入交換機丟包率高報警,經檢查,發現網管軟體的217號樓宿舍樓的設備丟包率達70%。

同時終端PC PPPOE撥號錯誤651。

三、處理過程

1.對網管軟體的丟包告警進行驗證;

PING 217號樓設備發現丟包率很高,遠程登錄設備發現操作特別卡頓,說明網管軟體的丟包率告警並非軟體誤報。

2.通過網管軟體發現其它宿舍樓宇的設備並未出現丟包率高報警,因此排除S8610到SR8808-X之間的物理線路和設備問題,同時僅該宿舍樓出現問題,懷疑是S8610的G2/8口有丟包,於是檢查S8610的G2/8接口。發現接口下有錯誤包和丟包,但是數量不是很多,增長速度也不快;

3.嘗試更換G2/8口下的單模光模塊後,觀察一段時間發現G2/8口未在出現錯誤包和丟包,收發光衰都在正在範圍,同時網管軟體上的217號樓丟包率高報警消除,撥號正常;

4.至此,以為出現丟包率高報警的原因是光模塊導致。

5.過了大約一周的時間,網管軟體再次發出217號樓設備丟包率高報警,按照之前同樣的方法進行排查,發現S8610的G2/8接口並沒有出現錯誤包和丟包情況。

6.回歸拓撲圖,考慮到217號樓設備的網關均在SR8808-X上,因此分段進行排查。先排查217號樓匯聚H3C S5560到SR8808-X路徑上的丟包情況,經過測試發現SR8808-X到S8610並沒有丟包,SR8610到S5560丟包嚴重。

7.因此懷疑丟包在S8610-----S5560兩臺設備和中間鏈路存在問題。於是在S8610上開啟ACL計數判斷丟包是否由設備本身造成。

在S8610上配置如下:其中172.16.204.44是217號樓匯聚S5560的管理地址,211.70.160.82是測試PC,可以認為是接在SR8808-X上;

ip access-list extended test

10 permit ip host 172.16.204.44 host211.70.160.82

20 permit ip any any

ip access-list extended test1

10 permit ip host 172.16.204.44 host211.70.160.82

20 permit ip any any

在分別在G2/8的IN方向,和AG6口的出方向丟用ACL,進行計數;

interface GigabitEthernet 2/8

switchport mode dot1q-tunnel

switchport dot1q-tunnel allowed vlan adduntagged 3608

switchport dot1q-tunnel native vlan 3608

medium-type fiber

ip access-group test in

spanning-tree bpdufilter enable

descriptionto_SS217_WiredNet_HuiJu_S5560_G1/0/28

interface AggregatePort 6

switchport mode uplink

switchport trunk allowed vlan remove1-3600,3615-4094

ip access-group test1 out

description to_SR8808-X(wirednet)

8.經過一段時間觀察後,發現從G2/8口收到了1088421個數據包,但是從上聯口僅轉發出去1088362,少了59個包,並且隨著時間的推移這個差值在增加。

9.對 S8610 設備的底層 buffer 計數,發現部分埠有丟包計數,摘取部分 log 如下:

DROP_PKT_CNT(3).cpu0[0xe200043]=0x49fd: <COUNT=0x49fd>

DROP_PKT_CNT(0).ge1[0xe21f040]=0x96: <COUNT=0x96>

DROP_PKT_CNT(0).ge2[0xe220040]=0x2c0: <COUNT=0x2c0>

DROP_PKT_CNT(0).ge3[0xe221040]=0xb21: <COUNT=0xb21>

DROP_PKT_CNT(0).ge7[0xe225040]=0x19b1:<COUNT=0x19b1>

10.經過與銳捷廠家確認後,目前S8610的兩塊千兆線卡的MAC晶片的buffer大小是3MB,當發送到某一個埠的瞬時流量超過千兆時,其埠就會丟包。當流量高峰期時,出現burst(突發)流量,是有可能因為buffer不足導致丟包的;

11.根據廠家的答覆可能是設備硬體規格不夠導致丟包,對此我是持懷疑態度的,主要有兩方面原因:

1)客戶現場有2塊這種規格的千兆業務板卡,目前出現問題的只有其中一塊,並且通過網管軟體的監控,未出現問題的板卡流量一直要比出現問題的板卡流量大;

2)通過網管軟體的監控,出現丟包的板卡單個千兆口最大高峰期流量200Mbps,並沒有達到「瞬時流量超過千兆」

經過廠家的確定後,如果是硬體問題,只能新增業務板卡進行分流,沒有其它好的解決方案。

12.過了大約2周後,丟包現象再次出現,利用ACL計數同樣發現包丟在S8610上,但是經過檢查,S8610底層上並沒有丟包記錄,也就是說這次丟包不是硬體buffer不足導致。

13.考慮到S8610僅根據MAC地址做二層轉發,懷疑是不是有什麼造成S8610上的MAC地址表學習錯誤導致轉發失敗。

14.因為終端和設備的網關均在SR8808-X上,而S8610作為二層設備,只是根據數據幀中的目的MAC地址(網關的MAC地址)轉發,丟包有可能是數據幀中的目的MAC地址在S8610的MAC地址表中不存在表項或者對應的出接口不正確。基於此,想到通過二層ACL計數確定網關的MAC地址在S8610是通過正確上聯口AG6口學習到。做了如下配置:

1)創建二層ACL,其中741f.4ac5.f802為網關的MAC地址

mac access-listextended 700

10 permit host 741f.4ac5.f802 any etype-any

20 permit any any etype-any

2)在所有接口下應用該ACL,上聯口除外

mac access-group 700 in

3)開啟對該ACL計數功能

mac access-list counter 700

15.果不其然,一段時間後發現ACL有計數,並且數量很多。正常情況下,網關的MAC地址不可能從下聯口學習到,出現這種情況一般有兩個原因:

1)有設備一直在模擬網關的MAC作為數據幀的源MAC在發送數據,導致S8610上MAC地址學習錯誤;

2)接口下聯設備有環路;

16.為了定位在S8610的哪個接口學習到MAC地址,通過不停的在S8610上執行命令:

xq_stud_huiju_S8610rldp enable

xq_stud_huiju_S8610(config-if-GigabitEthernet 1/1)#rldpport loop-detect block

五、總結

1.對於該種組網方式,利用QINQ已經實現每埠每VLAN,避免了設備之間的環路,廣播風暴,ARP、DHCP等欺騙,但是無法避免接入交換機某個埠的環路;

2.利用單埠環路檢測可以解決該問題,原理是:設備啟用了單埠環路檢測後,會從接口向外發送檢測包,如果從該接口又收到了檢測包,說明該接口下有環路。

H3C設備會根據配置對埠進行相應的處理:

1)block:將該埠阻塞,不進行數據轉發,埠物理狀態UP,同時設備日誌中會有告警;

2)shutdown:將該埠關閉,不進行數據轉發,埠物理狀態down,同時設備日誌中會有告警;

銳捷的設備會根據配置對埠進行如下處理:

1)block:將該埠阻塞,不進行數據轉發,埠物理狀態UP,同時設備日誌中會有告警;

2)shutdown-port:將該埠關閉,不進行數據轉發,埠物理狀態down,同時設備日誌中會有告警;

3)shutdown-svi:將該埠對應svi置於shutdown狀態,同時設備日誌中會有告警;

4)warning:設日誌中僅發出告警,不做其它操作;

一般建議使用shutdown方式,這樣排錯時也比較容易,同時設備又不損耗資源。

3.強烈建議此種組網方式,必須要在接入設備上開啟單埠環路檢測功能;

相關焦點

  • 交換機負荷過重 引發數據嚴重丟包
    由於網絡環路現象能夠造成交換機的某個交換埠輸入、輸出數據流量明顯異常現象,朋友認為只要掃描一下故障交換機的各個交換埠,找出流量狀態不正常的故障埠,並將對應的埠關閉掉,相信這樣就能恢復交換機的工作狀態了。
  • Ping丟包率大:交換機埠故障惹的禍
    一、簡單介紹Ping丟包率概念  數據在網絡中是被分成一個個數據包傳輸的,每個數據包中都有表示數據的信息和提供數據路由的楨。而數據包在一般介質中傳播是總有一小部分由於兩個終端的距離過大會丟失,而大部分數據包都會到達目的終端.所謂網絡丟包率是數據包丟失部分與所傳數據包總數的比值.正常傳輸時網絡丟包率應該控制在一定範圍內。
  • 網絡丟包怎麼辦?這些解決辦法不得不知
    使用Ping命令測試,發現在一段時間內數據包發送延時比正常值略高,間隔一小段時間數據包又全部丟失,丟包率超過50%,丟包曲線成規則狀,網絡服務基本不可用。 故障分析: 在區域網中引起網絡發生振蕩性時斷時通,一般可能是由於互連的交換機中的某兩個交換機間出現了環路,或者某個交換機的兩個埠直接相連。
  • 探究何種原因導致網絡數據丟包嚴重
    許多時候,我們可能都會碰到網絡連接時斷時續的故障現象,面對這種網絡故障,不少網絡管理員都會使用Ping命令對網絡連通性進行測試,測試結果表明此時的網絡傳輸線路數據丟包現象非常嚴重,那麼究竟是什麼因素導致了數據丟包現象比較嚴重呢?是連接線路接觸不穩定?是網絡病毒?還是其他的潛在因素?
  • 交換機埠「假死」 如何起死回生?
    不知道大家有沒有遇見過跟我一樣的現象,即CISCO交換機上的某些正在工作的埠,突然變成關閉狀態了,該埠上即使插著網線,埠上的指示燈仍然不亮(這種故障往往是在下面所連接的網絡出現故障的時侯出現)。以前這種情況多出現在位於單位上網際網路的那臺交換機上,當這種情況發生時,為了迅速排除故障,我們會先調整一個埠,即將網線從有問題的埠上撥下來,再插到一個空閒的埠上,這時一般網絡故障就排除了。
  • 造成乙太網交換機性能測試丟包的因素有哪些
    打開APP 造成乙太網交換機性能測試丟包的因素有哪些 佚名 發表於 2020-12-08 16:24:58 在工業乙太網交換機性能測試過程中,我們經常會遇到非設備性能因素導致的丟包,對測試產生困擾。
  • 濮陽聯通案例分享:某單位網速慢的處理分享
    某用戶單位反饋網速過慢,訪問網頁經常打不開的現象,請求查找原因解決問題。二、 處理過程該問題由辦公終端病毒異常發包導致,建議解決方案如下:1.將相應辦公終端隔離殺毒,從源頭上根除,清除終端上的區域網共享軟體,在接入交換機上封殺445,2425等埠。2.為避免類似問題再次出現建議在接入交換機連接辦公終端的接口上增加相應的arp保護機制。
  • 智能安全接入 神州數碼網絡交換機解析
    現代企業面對各類終端設備的大量接入,急需性能給力的智能交換機為高效便捷的網絡傳輸進行保障,而智能安全的接入層交換機可為企業搭建快速傳遞信息的平臺。神州數碼網絡DCS-3600系列交換機是神州數碼網絡(以下簡稱DCN)推出的高性能二層乙太網交換設備,該系列做工出色,性能強勁,可為大中型企業級網絡、運營商寬帶接入提供保障,下面就來深入了解下吧。
  • 交換機介紹
    交換機交換機的工作原理學習:學習數據幀的源MAC地址和交換機埠的對應關係廣播:交換機向除了進口之外的所有其他埠廣播數據幀,查找未知的MAC地址轉發:為了避免衝突,提高網絡效率,終端設備要避免在一個衝突域衝突域:集線器的所有埠處於一個衝突域交換機:交換機的每個埠是一個衝突域交換機的所有埠在一個廣播域裡路由器:路由的每個埠都是一個廣播域乙太網的兩個問題
  • 交換機的埠類型與VLAN配置
    一、交換機的埠類型區域網為了隔離廣播必須劃分VLAN,了解VLAN的劃分與配置,必須先熟悉交換機的埠類型,交換機的埠類型主要有Access、Trunk、Hybrid三類,這裡我們主要介紹前兩種類型的埠:Access
  • 華為交換機的網絡二層環路排除方法
    在設備上執行命令: display interface brief | include up 通過查看發生異常流量的埠數目、流量方向等判斷環路發生的具體位置和原因。 注意:該方法只能看到網絡的當前流量結果,此時需要和網絡的正常業務量進行比較,流量遠大於正常業務流量時,才能判斷可能存在二層環路。
  • 交換機故障分類與排除故障步驟的原因
    如果不小心把光纖插頭弄髒,可能導致光纖埠汙染而不能正常通信。我們經常看到很多人喜歡帶電插拔接頭,理論上講是可以的,但是這樣也無意中增加了埠的故障發生率。在搬運時不小心,也可能導致埠物理損壞。如果購買的水晶頭尺寸偏大,插入交換機時,也容易破壞埠。此外,如果接在埠上的雙絞線有一段暴露在室外,萬一這根電纜被雷電擊中,就會導致所連交換機埠被擊壞,或者造成更加不可預料的損傷。
  • 什麼是POE交換機,POE交換機和普通交換機可以連接嗎?
    具備供電功能的POE交換機價格要略高於普通交換機,並且可以通過命令號進行配置,也就是我們常說的智能交換機,並非是傻瓜型的交換機。現在不僅僅交換機具有POE供電功能,家庭中較為常見的是具有供電功能的POE路由器。
  • 連交換機的攻擊、防禦都不懂,還做什麼網絡工程師
    連交換機的攻擊、防禦都不懂,還做什麼網絡工程師 防火牆、路由器、交換機一般分別放在邊界或者DMZ、核心和分布層、接入層;這些設備裡面,為什麼交換機最缺乏安全性呢?
  • 如何解決交換機連接路由器,電腦無法上網?
    解決辦法 請按照以下方法排查: 排查一:檢查物理連接 可能原因:線路接錯、網線接口接觸不良或環路。 解決辦法:請將交換機與路由器的LAN口連接,電腦連接交換機上的網絡接口,並確保所有連接接口的指示燈都亮。 請注意不要形成環路(即勿將網線兩頭都接入交換機)。 排查二:檢查路由器限定 可能原因:路由器限制電腦上網。
  • 小姜學網絡(交換機安全埠配置)附代碼
    ,是指針對交換機的埠進行安全屬性的配置,從而控制用戶的安全接入。交換機埠安全主要有兩種類項:一是限制交換機埠的最大連接數,二是針對交換機埠進行MAC地址、IP位址的綁定。限制交換機的最大連接數可以控制交換機埠的下連的主機數,並防止用戶的惡意的ARP欺騙。
  • 高效易管理 華為S1700系列交換機首測
    華為S1700系列交換機就是專為滿足中小企業新需求而打造的新一代綠色節能以太接入交換機,它提供了簡單便利的安全維護手段和豐富的業務特性,可為用戶打造安全可靠的高性能網絡,是中小企業、網吧、酒店、學校等的理想選擇。
  • 可管理交換機基礎配置命令-華為(Huawei)
    熟悉計算機網絡的朋友平時都會接觸到交換機,交換機在網絡傳輸中起到非常重要的作用。簡單的來說交換機又分為可配置管理的交換機以及傻瓜式換機(不可以進行配置)。我在平時配置交換機的時候整理了華為交換機基礎的配置步驟,歡迎大家參考學習。
  • 安全高性能 H3C S1850-28P交換機評測
    【IT168 評測】H3C S1850系列乙太網交換機是杭州華三通信技術有限公司(以下簡稱H3C公司)專為構建高性能網絡需求而自主研發設計並推出的全千兆二層網管交換機,在滿足高性能的基礎上,提供更全面的安全接入策略和更強的網絡管理維護易用性
  • 路由器與交換機區別是什麼?交換機的知識你了解了多少
    交換機的基本功能;1. 像集線器一樣,交換機提供了大量可供線纜連接的埠,這樣可以採用星型拓撲布線。2. 像中繼器、集線器和網橋那樣,當它轉發幀時,交換機會重新產生一個不失真的方形電信號。3. 像網橋那樣,交換機在每個埠上都使用相同的轉發或過濾邏輯。4.