Linux操作系统故障应急场景及对应排查方法

news2026/5/20 10:43:18

001：系统CPU负载高并触发监控报警

005	查看系统CPU使用情况,，确认CPU数量，确认系统负载，确认CPU高对系统的影响
006	定位占用CPU资源最多的进程，根据进程判断是应用进程还是系统进程还是第三方工具进程。
014	查看系统主要日志：在messages日志中是否有关于软、硬件的报错信息。
005	通过监控或者系统查看CPU使用高的时间
011	确认其他资源信息情况，IO/内存/内核

002：系统内存使用率高并触发监控报警

通过堡垒机使用root用户登录主机，执行sosreport命令保存现场信息
查看系统内存使用情况
定位占用内存资源较多的进程
判断是否有僵尸进程
查看系统主要日志

003：使用率高并长时间持续

通过堡垒机使用root用户登录主机，执行sosreport命令保存现场信息
查看系统I/O使用情况
定位占用I/O资源较多的进程
查看系统主要日志
应急处置结束。

004：Agent心跳超时

通过堡垒机使用root用户登录主机，执行sosreport命令保存现场信息
判断主机通讯状况
主机网卡是否存在丢包现象
主机路由设置是否正确
网卡配置参数是否正确
系统日志是否有明显报错

005：主机路由表丢失

006：通讯异常并报网卡故障

场景描述：主机通讯中断或有延迟、丢包现象，系统日志中有关于网卡的报错信息。

启动条件：系统日志中有网卡报错信息
现场保护：ifconfig、messages、dmesg日志

通过堡垒机使用root用户登录主机，执行sosreport命令保存现场信息
判断主机通讯状况
主机网卡是否存在丢包现象
系统日志是否有明显报错
网卡驱动是否正常加载
网卡配置信息是否正确
bond主备网卡切换
搜集系统信息

007：与相关连业务系统通讯异常

现场保护：ifconfig、route、messages、dmesg

008：群集系统服务异常

现场保护：使用sosreport命令收集系统信息。

022	查看双机状态及共享资源
014	系统日志是否有明显报错 result of stop operation for VIP on
024	尝试将集群服务切换到备机
025	如果群集切换失败，则考虑手工先行恢复系统服务，并首先关闭群集各节点Cluster服务。
026	如果群集切换失败，且短时间内无法解决，则先行手工恢复系统集群服务
027	收集系统信息

009：群集双机发生切换

启动条件：当群集双机发生切换期间，会造成服务中断，以及Server IP无响应，通常会触发集中监控报警。

现场保护：执行sosreport命令收集系统信息。

022	查看双机状态及共享资源
014	查看系统日志信息
024	如果群集切换后系统服务异常，则尝试将集群服务切换到指定节点

009：群集双机切换失败

022	查看双机状态及共享资源
014	系统日志是否有明显报错
024	尝试将集群服务切换到指定节点
025	如果群集切换失败，则考虑手工先行恢复系统服务，并首先关闭群集各节点Cluster服务。
026	如果群集切换失败，且短时间内无法解决，则先行手工恢复系统集群服务

010：主机挂起

现场保护：这种情况下，通常日志系统（syslog）已经不再记录信息，只能对主机执行重启操作；对于配置了kdump的主机，可以手工触发vmcore(echo c > /proc/sysrq-trigger)。

grep crashkernel /proc/cmdline

systemctl status kdump

/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore

011：主机自动重启

现场保护：收集sosreport信息；如果主机配置了kdump，则保留vmcore文件。

使用root用户登录主机，执行sosreport -a命令保存现场信息收集系统日志，查看/var/crash/是否有vmcore日志

012：主机宕机

使用root用户登录主机，执行sosreport -a命令保存现场信息收集系统日志，查看/var/crash/是否有vmcore日志

013：主机宕机并自动重启失败

现场保护：查看主机硬件是否有报错信息；得到授权后之后启动主机，并在控制台观察启动过程中是否有报错信息；如果主机无法正常启动，则根据主机启动报错信息进行修复。待主机启动完毕后，使用root用户收集sosreport信息；如果主机配置了kdump，则保留vmcore文件。

028	根据主机控制台信息，得到行员授权后尝试进入单用户模式进行修复
029	如果系统在单用户模式下无法修复，则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机
014	查看系统日志信息
012	检查文件系统信息
013	查看PV、VG、LV信息
015	查看网络通讯状况
017	查看主机路由设置

014: swap交换分区使用率

现场保护：使用sosreport命令收集系统信息

使用top命令调整查看(使用热键f,根据方向键移动到SWAP行，选中按d, ESC退出编辑，即可查看)
定位占用swap资源较多的进程
判断是否有僵尸进程
查看系统主要日志

015：NTP服务状态异常

检查NTP同步状态：ntpq -p 或者 chronyc sources -v
检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files
检查NTP配置文件：cat /etc/ntp.conf 或者 cat /etc/chrony.conf
查看NTP的offset详细信息：ntptime或者chronyc tracking -v
查看系统主要日志
重启NTP服务：service ntpd restart 或者 systemctl restart chronyd