昨天我們推送了《x86 伺服器 4 類常見問題匯總和故障案例》(點擊標題可回顧),分享了在社區交流活動中,多位社區會員探討的伺服器故障處理經驗之談,受到了很多讀者關注。當然,難題的解決路徑可能不只一條,有熱心高手,在看到公眾號推送後,就針對該文提出了自己的觀點,並分享了實踐經驗。我們將此作為該文後續推送,以便大家從多個角度分析和解決問題。
以下內容為社區會員徐康針對原文中的故障處理提出的見解,供參考。
IBM 3650M3伺服器外接220V意外斷電後,再來電,伺服器無法啟動,如何處理?
【原文分享】
按以下步驟處理:
查看伺服器是否有桔色燈,按桔色類指示檢查硬體,檢查電源工作是否正常,有AC,沒有DC是有電源有輸入沒有輸出。啟動鍵不亮,是主板沒有加電。IMM應該不通,無法查看IMM日誌。不加電的故障,首先判斷電源是好是壞,最好用的方法是短接電源黑綠插頭,風扇能轉動起來,電源多數是好的。相反,更換電源即可。若判斷電源能正常工作,那就在機箱內拔掉各種板卡做最小化測試,要是有加電反映,那就是板卡導致的,要是仍無加電反映,那就更換主板。
【本文作者提出】
IBM M3的伺服器第一次通電時間會很長,表現狀況為 通電後,按電源後,電源燈在閃,風扇在轉,無屏顯,內部健康燈無報錯。只有一個建議——等。10-30分鐘後再來。曾經一臺新的3650 m3伺服器,通電按下電源鍵,出去吃了個飯回來剛剛亮屏啟動。如果是一個多小時以上沒有反應,那就是主板掛了。
如果cpu 內存電源之類的有問題,前面板的內部健康燈會亮或者閃橙色燈。診斷面板上有相對應故障的設備的燈亮起,告訴你具體是那個硬體設備故障,不需要做最小化測試。
▲那個藍色的那塊扣出來就是診斷面板
遠程桌面連接超出最大連接數
【原文分享】
由於伺服器默認為允許連接數為2個,如果登陸後忘記註銷,而是直接關閉遠程桌面的話,伺服器識別此次登陸還是留在伺服器端的。出現這種情況,最常見的就是重啟伺服器,但是,如果是高峰期,重啟伺服器帶來的損失是顯而易見的。那麼此時,就可以利用mstsc/console指令進行強行登陸了。打開「運行」框,鍵入「mstsc/v:xxx.xxx.xxx.xxx(伺服器IP)/console」,即可強行登陸到遠程桌面了。
【本文作者提出】
遠程桌面最大數量和伺服器無關,是windows系統限制,就是在購買是說的多少用戶的windows。解決的方法可以通過增加用戶數來解決,服務裡添加遠程桌面許可伺服器參考連接https://blog.csdn.net/hanzheng260561728/article/details/73901193
臨時想使用可以使用伺服器的帶外管理來遠程kvm(hp的ilo dell的idrac等ipmi)
IBM 3650M4伺服器硬碟更換流程,兩塊330g硬碟做的raid1,另一塊硬碟600g硬碟沒有做raid1,600g硬碟損壞後如何更換?
【原文分享】
正常情況下把壞硬碟移除插入新硬碟就可以了,如果作業系統無法識別到硬碟就需要重啟動伺服器進入webbios中重新激活新硬碟後,作業系統才能正常使用硬碟。
2塊300GB 做RAID1,損壞一塊直接更換即可。
如果另外一塊600GB硬碟就單盤使用,已經故障的話,系統內已經無法識別這塊盤了,數據也沒有了。更換後,如果無法識別,需要進RAID Web配置界面進行初始化配置。
另外,不建議單塊盤直接使用,無數據保護。
【本文作者提出】
注意插入的必須是沒有raid信息的硬碟,更換方面以及注意事項建議諮詢800後更換。自己想了解可以百度lsi的陣列卡使用手冊。Ibm、dell用的都是lsi的陣列卡。
lenovo 萬全伺服器,用戶反應最近幾天辦理業務時速度很慢,經常卡住沒反應,經查應用系統沒有問題,如何處理?
【原文分享】
首先檢查辦理業務速度慢的是個別用戶,還是所有用戶,如果是所有用戶都慢,需要進看伺服器的cpu和內存佔用率是否很高、之後查看網卡工作狀態是否正常。
網絡,應用,中間件,資料庫,作業系統,伺服器,存儲都會涉及到,要做綜合分析。先從系統層面著手,看看有沒有異常進程,資源使用率是否合理,IO是否有瓶頸,網絡是否有丟包,連接數是否正常逐步排查,向外擴展排查範圍。
【本文作者提出】
業務慢的話,和硬體基本無關。檢測硬體日誌可以確定是否有硬體故障。
dell伺服器報W1228 ROMB Batt < 24hr錯誤如何處理?
【原文分享】
這個報警是陣列卡的電池容量如果在停電的狀態下無法使用超過24小時,也就是電池壽命將要完結,這個報警不會影響作業系統運行,即使電池故障也不會影響作業系統,只是在陣列卡上的緩存將被禁用而性能上有所影響,建議您如果伺服器在保修期內請致電商家進行報修。
【本文作者提出】
bbwc電池問題,更換電池或者移除電池。
Bbwc電池是保證意外掉電後給陣列卡cache供電,保證陣列卡cache中的數據不丟失。現在更多的是用fbwc,掉電後cache數據回寫到flash上
最後再分享幾句經驗之談,給剛入伺服器運維和售後的朋友:
一定不要自以為是,在沒有萬全退路前,或者不知道後果前,不要擅自決定一些操作。請查閱文檔或者800廠商後以書面方式給出解決方案後再操作。操作前列出操作步驟,以及可能發生的結果,應對方法。
伺服器在條件允許的情況下一定要配置帶外管理。帶外管理可以實時查看硬體狀況,硬體報錯日誌,遠程kvm,遠程掛載iso等等功能,甚至可以有藍屏截圖,操作錄屏等等。
一些好習慣:拆前先拍照,截圖,硬碟拿下來前編個號。
遇見硬體故障不要著急,在帶外管理裡看日誌,分析故障硬體。打800不丟人,有問題就800。運維售後保護好自己,不要擅自操作去抗鍋。
長按二維碼關注公眾號