功能問題,通過日誌,單步調試相對比較好定位。
性能問題,例如線上伺服器CPU100%,如何找到相關服務,如何定位問題代碼,更考驗技術人的功底。
58到家架構部,運維部,58速運技術部聯合進行了一次線上服務CPU問題排查實戰演練,同學們反饋有收穫,特將實戰演練的試題和答案公布出來,希望對大家也有幫助。
題目
某伺服器上部署了若干tomcat實例,即若干垂直切分的Java站點服務,以及若干Java微服務,突然收到運維的CPU異常告警。
問:如何定位是哪個服務進程導致CPU過載,哪個線程導致CPU過載,哪段代碼導致CPU過載?
步驟一、找到最耗CPU的進程
工具:top
方法:
執行top -c ,顯示進程運行信息列表
鍵入P (大寫p),進程按照CPU使用率排序
圖示:
如上圖,最耗CPU的進程PID為10765
步驟二:找到最耗CPU的線程
工具:top
方法:
圖示:
如上圖,進程10765內,最耗CPU的線程PID為10804
步驟三:將線程PID轉化為16進位
工具:printf
方法:printf 「%x\n」 10804
圖示:
如上圖,10804對應的16進位是0x2a34,當然,這一步可以用計算器。
之所以要轉化為16進位,是因為堆棧裡,線程id是用16進位表示的。
步驟四:查看堆棧,找到線程在幹嘛
工具:pstack/jstack/grep
方法:jstack 10765 | grep 『0x2a34』 -C5 --color
圖示:
如上圖,找到了耗CPU高的線程對應的線程名稱「AsyncLogger-1」,以及看到了該線程正在執行代碼的堆棧。
希望對經常進行線上CPU問題排查的同學有幫助,如果有更好的實踐,也歡迎分享。
想要印象深刻,請大家務必線上實操練習喲。
如果有收穫,幫轉哈。
相關文章:
常見線上操作Linux命令實戰
Linux追查線上問題常用命令
一分鐘awk夠用
一分鐘sed夠用
58到家技術部