伺服器故障如何排查?

2020-09-05 海龜動態雲

我是英俊瀟灑,技術過硬的網盾運維攻城獅龜哥。今天咱們來聊聊伺服器出故障了如何排查。

伺服器運行過程中難免會出現非人為因素的故障,遇事不要慌,沉著冷靜,找出問題所在,對症下藥的來解決。下面給大家分享常見的排查方法。

一、 咱們得搞清楚問題的前因後果

醫生診斷講究「望聞問切」然後對症下藥,伺服器故障也一樣啊。

首先啊,搞清楚伺服器故障的「發病」時間、症狀表現是什麼?

然後查監控平臺,查日誌,很多問題都是在日誌系統中暴露出來的,。

二、有哪些用戶訪問?

1. $last

2. $w

在沒有其他用戶幹活的時候,可以用這兩個命令查看都有誰在線,誰訪問過,捕捉現場嫌疑人。

三、執行過什麼命令?

1.$history

根據前面看到的誰登錄過,查看一下之前伺服器上執行過的命令,更新HISTTIMEFORMAT環境變量來顯示這些命令被執行的時間,不過不該看的咱還是不要看哦,侵犯別人隱私知道的太多容易被滅口~~

四、查看正在運行的進程

1.$pstree-a

2.$psaux

這都是查看現有進程的。psaux的結果比較雜亂,pstree-a的結果比較簡單明了,可以看到正在運行的進程及相關用戶。

五、監聽的網絡服務

1.$netstat-ntlp

2.$netstat-nulp

3.$netstat-nxlp

找到所有正在運行的服務,檢查它們是否應該運行。查看各個監聽埠。在netstat顯示的服務列表中的PID和psaux進程列表中的是一樣的。

如果伺服器上有好幾個Java或者Erlang什麼的進程在同時運行,能夠按PID分別找到每個進程就很重要了。

六、CPU和內存

1.$free-m

2.$uptime

3.$top

4.$htop

還有剩餘的內存和CPU嗎?伺服器是否正在內存和硬碟之間進行swap?

是否有某些CPU核負載過多了?

伺服器最大的負載來自什麼地方?平均負載是多少?

七、硬體

1.$lspci

2.$dmidecode

3.$ethtool

網卡是否設置好?是否正運行在半雙工狀態?速度是10MBps?有沒有TX/RX報錯?

找到RAID卡、CPU、空餘的內存插槽。根據這些情況可以大致了解硬體問題的來源和性能改進的辦法。

八、IO性能

1.$iostat-kx2

2.$vmstat210

3.$mpstat210

4.$dstat--top-io--top-bio

這些命令對於調試後端性能非常有用。

檢查磁碟使用量:伺服器硬碟是否已滿?

是否開啟了swap交換模式(si/so)?

確認CPU被誰佔用,dstat可以看到誰在進行IO:看看是不是MySQL或者PHP進程佔用了所有的系統資源?

九、掛載點和文件系統

1.$mount

2.$cat/etc/fstab

3.$vgs

4.$pvs

5.$lvs

6.$df-h

7.$lsof+D//*bewarenottokillyourbox*/

確認一共掛載了多少文件系統。

有沒有某個服務專用的文件系統?(比如MySQL?)

文件系統的掛載選項是什麼:noatime?default?有沒有文件系統被重新掛載為只讀模式了?

磁碟空間是否有剩餘?大文件被刪除後有沒有清空?

十、內核、中斷和網絡

1.$sysctl-a|grep...

2.$cat/proc/interrupts

3.$cat/proc/net/ip_conntrack/*maytakesometimeonbusyservers*/

4.$netstat

5.$ss-s

你的中斷請求是否是均衡地分配給CPU處理,還是會有某個CPU的核因為大量的網絡中斷請求或者RAID請求而過載了?

SWAP交換的設置是什麼?對於工作站來說swappinness設為60就很好,不過對於伺服器就太糟了:你最好永遠不要讓伺服器做SWAP交換,不然對磁碟的讀寫會鎖死SWAP進程。

conntrack_max是否設的足夠大,能應付你伺服器的流量?

在不同狀態下(TIME_WAIT,…)TCP連接時間的設置是怎樣的?

如果要顯示所有存在的連接,netstat會比較慢,你可以先用ss看一下總體情況。

你還可以看一下LinuxTCPtuning了解網絡性能調優的一些要點。

十一、系統日誌和內核消息

1.$dmesg

2.$less/var/log/messages

3.$less/var/log/secure

4.$less/var/log/auth

查看錯誤和警告消息,比如看看是不是很多關於連接數過多導致?

看看是否有硬體錯誤或文件系統錯誤?

分析是否能將這些錯誤事件和前面發現的疑點進行時間上的比對。如果你有多臺機器,看起來很不方便,可以事先把日誌存儲在系統筆記的雲日誌伺服器上,支持全文模糊查找,

十二、定時任務

1.$ls/etc/cron*+cat

2.$foruserin$(cat/etc/passwd|cut-f1-d:);docrontab-l-u$user;done

查看是不是用戶提交了隱藏的定時任務或者運行某個定時任務過於頻繁等?

根據以上找出了問題所在,對應維護相應板塊就可以了。此處證明了找一個24*7小時的運營商租用伺服器多麼重要,畢竟伺服器故障解決的越迅速,避免風險的係數就越高。還有什麼不清楚的,歡迎各位聯繫龜哥探討。

相關焦點

  • 常見簡單地排查存儲伺服器報錯的三大步驟
    網際網路時代的飛速發展,存儲伺服器的應用也是越來越廣泛。那使用了高性能設備的話,伺服器故障也是屢見不鮮,那當伺服器發生報錯的時候我們該如何緊急應對呢?下面小編就給大家簡單的介紹一下吧!伺服器故障排除一般包括三個部分:第一部分從伺服器故障的基本原理入手。如果開機時機器沒有顯示,可能是顯示器或電源電路有故障。
  • 如何去判斷伺服器硬碟故障
    伺服器硬碟作為伺服器的核心數據倉庫,所有用戶數據以及軟體都存在於此,它的穩定與安全與否直接決定著伺服器數據安全。伺服器每時每刻都需要對數據進行記錄和讀取,而這個過程也對伺服器的硬碟有著很大的聯繫,硬碟就是伺服器的一個主要存儲空間,存儲著伺服器中的所有數據,但是硬碟所出現故障的機率同樣非常高。下面颶風科技-挽風就詳細介紹一下伺服器硬碟出現故障的一些常見表現,如果有這些情況出現時,可以針對硬碟進行相關的排查。
  • 常用網絡故障的處理排查方法
    網絡故障是最容易出現的,也是難以解決的問題,這個平時我們弱電行業網朋友問的比較多的問題,尤其是經常跟電腦及交換機打交道的朋友,網絡故障難免會出現,那麼本期我們整理了大部分網絡故障排查思路與案例處理方法,應該說可以解決日常中大部分的網絡問題,我們一起來了解下。
  • 網絡故障的處理手段:排查步驟
    排查步驟:檢查DHCP伺服器是否正常,相關服務是否運行。從主機、核心交換機分別 ping DHCP伺服器。內網設置靜態IP位址後,檢查是否可以ping通網關。排查步驟:在不能上網的主機上cmd—>ipconfig /all,查看獲取到IP位址信息。如果出現下圖所示,說明DHCP伺服器相應作域的「003 默認路由」 的設置錯誤。
  • 伺服器基本故障及排查方法
    HUB等設備的網線接口,在與終端或伺服器連接後,如果終端或伺服器啟動及配置正常,其指示燈會亮(注意指示燈顏色是否正常,參考設備說明書),如果指示燈不亮,說明設備有故障;C. 網卡部件是否接插到位無翹起,網卡上金手指是否氧化;D. 網線或交換機等設備周圍是否有幹擾。4) 主機外觀檢查:A. 檢查機箱內是否有異物造成短路;B.
  • 立爾訊科技教您如何進行刀片伺服器故障預防處理
    刀片伺服器作為網際網路的重要支撐,被廣泛應用於各個行業。雖然刀片伺服器被廣泛使用,但許多企業並不知道它們。所以,如果我們從事網際網路業務,我們如何防止刀片故障?其次,讓我們了解正確的操作和防止刀片故障的具體要求。
  • 圖解Kubernetes——故障排查指南
    針對越來多的Kubernetes容器雲,對Kubernetes集群的故障排查卻成了一個棘手問題。本文蟲蟲給大家以直觀圖示方式介紹如何排查Kubernetes的故障。該篇是系列文章續——故障排查篇。概述上一篇,我們介紹了Kubernetes三個關鍵組件入口、服務和Pods之間如何連接,以及相關配置關鍵點。
  • 網絡故障排查方法有哪些
    網絡故障排查方法有哪些 2019年10月14日 13:53作者:王偉銘編輯:王偉銘文章出處:泡泡網原創   1.
  • 根伺服器是什麼?dns伺服器故障如何解決?
    全國頂級域名根伺服器故障 大量網站無法訪問  1月21日消息,今日15點10分左右,國內訪問通用頂級根域名伺服器出現異常,部分國內用戶無法訪問.com域名網站。目前故障已開始恢復。  故障發生後,所有通用頂級域名在境內的訪問有問題,目前原因未明,可能的原因有二,一是根出現問題,二是國內環節出問題。  18:52:金山毒霸安全專家表示,國內曾經兩次發生過根域名故障,一次是2013年07月06日,上海聯通DNS設備發生故障,導致2G、3G的手機用戶無法上網;另一次是2013年08月25日,.CN根域名伺服器全線故障。
  • DNS伺服器發生故障怎麼解決 DNS故障處理方法
    單位網絡出現訪問故障,經排查,是DNS訪問出現了問題。在這種情況下,將「首選DNS伺服器」中當地ISP提供的DNS伺服器地址改為公眾DNS,臨時解決了網絡故障。打開電腦IE瀏覽器,發現IE無法瀏覽網頁了。測試區域網內的常用網頁,卻沒有問題,能訪問內網的伺服器。
  • 伺服器常見的故障問題以及維修方法
    伺服器常見的故障問題以及維修方法但凡涉及到網絡的地方都會用到伺服器用戶在使用網絡打開網站的時候,如果伺服器良好運轉,就可以正常訪問。如果伺服器出現什麼問題,能夠觸碰到伺服器的給予的一些反饋信號,那麼伺服器都有哪些問題,伺服器又該如何維修呢?伺服器的使用方式有兩種,租用和託管。不管是哪種方式,伺服器的維護都是交給IDC服務商的專業人員做的。首先,機房的室內維護。
  • 伺服器常見的故障排除方法
    進入資訊時代,各種行業對數據的安全和技術要求也越來越高,,同時也遇到了各種各樣的伺服器故障問題,雖然能夠接到伺服器廠商的支持,但是往往耗時耗工(特別是有些不能夠立即判斷和解決的問題),造成了企業不必要的損失,近日颶風科技挽風將針對一些常見的伺服器故障現象和解決方法跟管理者分享一下,以便更好的更快的進行故障處理和排查
  • 串口伺服器的常見異常情況有哪些,如何進行排查
    打開APP 串口伺服器的常見異常情況有哪些,如何進行排查 飛暢科技 發表於 2020-12-19 10:00:33 串口伺服器就像一臺帶CPU、實時作業系統和TCP/IP協議的微型電腦,方便在串口和網絡設備中傳輸數據。
  • windows伺服器被黑客攻擊後排查步驟
    常見的應急響應事件分類:web入侵:網頁掛馬、主頁篡改、Webshell系統入侵:病毒木馬、勒索軟體、遠控後門網絡攻擊:DDOS攻擊、DNS劫持、ARP欺騙針對常見的攻擊事件,結合工作中應急響應事件分析和解決的方法,總結了一些Window伺服器入侵排查的思路。
  • Proxmox VE 超融合集群磁碟故障排查
    故障表現Web管理後臺發現告警,如下圖所示: Pve40這個節點的某個盤問題排查ssh登錄pve40這個機器所在的系統,執行df –h查看磁碟掛接情況,得到如下輸出: 通過掛接點名稱(ceph-13)與故障osd的id相對照,可以準確無誤的判斷出物理磁碟/dev/sdc出現了故障。
  • 伺服器12種基本故障及排查方法
    HUB等設備的網線接口,在與終端或伺服器連接後,如果終端或伺服器啟動及配置正常,其指示燈會亮(注意指示燈顏色是否正常,參考設備說明書),如果指示燈不亮,說明設備有故障;C. 網卡部件是否接插到位無翹起,網卡上金手指是否氧化;D. 網線或交換機等設備周圍是否有幹擾。4) 主機外觀檢查:A. 檢查機箱內是否有異物造成短路;B.
  • 電腦主機不亮故障的排查方法
    主機點不亮多半是一些硬體的小毛病,但是多種問題均有可能導致無法正常開機,需要逐一去排查。下面小編教大家幾招,自己就能處理好主機不亮的問題,下次遇到類似的毛病就可以自己排查了。(強烈建議不要拆開電源自行檢修)  故障原因:開關鍵問題、跳線故障、BIOS問題  有一種情況是主板燈亮,說明電源有輸出,但是還是無法啟動,這個需要排查的東西比較多,但首先沒有進入主板開機自檢,有可能是開關鍵以及BIOS的問題。
  • 如何排查U盤壞道 U盤故障檢測軟體【推薦】
    如何排查U盤壞道?   出現壞道除了硬碟本身質量以及老化的原因外,還有很大程度上是由於平時使用不當造成的。硬碟壞道根據其性質可以分為邏輯壞道和物理壞道兩種,簡單來說,邏輯壞道是由於一些軟體或者使用不當造成的,這種壞道可以使用軟體修復。
  • 中小企業網絡故障排查方式
    運維是為了方便更快的解決用戶故障,快速解決故障,節省用戶時間。如果我們遇到網絡問題,應該最快的方式來排查其根源,及時修復。一、從故障範圍來區分1、單個終端網絡故障重點排查:1、查看網路屬性設置;2、查看系統、防火牆軟體;3、查看網線;4、檢查網卡;5、重新安裝系統;2、同一交換機下的網絡故障 重點排查:1、 檢查該交換機;2、檢查交換機與上一層交換機連接的埠;3、同一Vlan網絡故障 重點排查:1、 檢查Vlan設置; 2、檢查該Vlan是否存在APR病毒;4、整體網絡網絡故障
  • 伺服器使用過程中硬碟故障的常見表現
    伺服器使用過程中硬碟故障的常見表現伺服器硬碟作為伺服器的核心數據倉庫,所有用戶數據以及軟體都存在於此,它的穩定與安全與否直接決定著伺服器數據安全。伺服器每時每刻都需要對數據進行記錄和讀取,而這個過程也對伺服器的硬碟有著很大的聯繫,硬碟就是伺服器的一個主要存儲空間,存儲著伺服器中的所有數據,但是硬碟所出現故障的機率同樣非常高。下面我們就詳細介紹一下伺服器硬碟出現故障的一些常見表現,如果有這些情況出現時,可以針對硬碟進行相關的排查。通常來說,硬碟發生故障前會有一系列的表現:1、故障提示。