小亦平台會持續給大家科普一些運維過程中可能會用到的的應急手冊內容,運維朋友們可以在往期文章中查看更多案例。
OP001 收集系統日誌
操作步驟:
在系統上執行以下命令收集完整系統信息:
sosreport -a
命令執行完成後,系統會在/var/tmp/目錄下生成sosreport-hostname.tar.xz格式的壓縮文件
檢查關鍵系統日誌文件內容:
/var/log/message # 系統主日誌
/var/log/mcelog # 硬件錯誤日誌(特別是內存相關錯誤)
查看歷史性能數據(sar報告存儲在/var/log/sa/目錄):
sar -q -f /var/log/sa/saX 查看歷史系統負載情況
sar -u -f /var/log/sa/saX 查看歷史CPU使用率
sar -b -f /var/log/sa/saX 查看歷史磁盤讀寫IO統計
sar -S -f /var/log/sa/saX 查看歷史swap空間使用率
sar -r -f /var/log/sa/saX 查看歷史內存使用情況
sar -n DEV -f /var/log/sa/saX 查看歷史網絡流量數據
注意:saX中的X需替換為具體日期數字(如sa01表示當月1日的數據)
OP002 整體CPU使用情況
操作步驟:
在系統上執行top命令查看實時CPU狀態:
top
關鍵指標判斷標準:
- 當us(用户空間)+sy(系統空間)的CPU佔用總和大於60%時,表明系統CPU負載較高,需要進一步排查具體原因
- 如果us單獨佔用超過60%,應重點檢查業務應用程序的CPU使用是否合理
- 正常情況下sy值應維持在10%左右,若持續高於10%,需排查系統進程異常情況
OP003 使用CPU前10進程
操作步驟:
執行以下命令查看CPU佔用最高的10個進程:
ps -eo pcpu,pmem,pid,ppid,user,stat,args | sort -k 1 -r | head -11
重點關注列説明:
- %CPU:進程的CPU使用百分比
- COMMAND: 進程對應的執行命令
- PID:進程的唯一標識符
查看指定進程及其線程的詳細CPU使用情況(示例為PID=1的進程):
pidstat -u -t -p 1 1
OP004 系統負載使用情況
操作步驟:
通過top命令查看系統負載狀態:
top
負載判斷標準:
- load average值應低於系統邏輯CPU核心數(邏輯CPU數查詢命令:# grep processor /proc/cpuinfo |wc -l)
- 若load average持續高於邏輯CPU數,表明系統過載,需立即排查
負載值含義分析(load average: 4.10, 3.39, 2.21):
- 第一個值(4.10):過去1分鐘的平均負載
- 第二個值(3.39):過去5分鐘的平均負載
- 第三個值(2.21):過去15分鐘的平均負載
趨勢判斷:
- 若三個數值基本一致,表明系統負載平穩
- 若1分鐘值遠小於15分鐘值,説明近期負載呈下降趨勢
- 若1分鐘值遠大於15分鐘值,説明近期負載呈上升趨勢
OP005 系統IO使用情況
操作步驟:
通過top命令查看基礎IO狀態:
top
使用iostat命令獲取詳細IO統計:
iostat
關鍵指標:
- 重點關注%iowait數據情況,該值表示CPU等待IO操作的時間佔比
- 當iowait持續高於5%時,表明存在IO瓶頸,需結合OP006進一步排查
OP006 進程IO使用情況
操作步驟:
使用iotop命令查看進程級IO使用情況:
iotop
關鍵字段説明:
- IO列:實時顯示進程當前的IO讀寫速率
- COMMAND列:執行IO操作的任務名稱
此命令可直觀定位高IO消耗的進程,是診斷IO性能問題的有效工具
點擊即刻前往小亦知識庫查看Linux應急手冊完整版:https://www.ces-xiaoyi.com.cn/?wework_cfm_code=MjWnDNB5G5npSi...
運維工作中遇到難題?立即提交工單:https://www.ces-xiaoyi.com.cn/#/workOrder?marketing_code=arti... 小亦平台工程師火速響應,助您快速修復故障!