001:系统CPU负载高并触发监控报警
005 | 查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响 | |
006 | 定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。 | |
014 | 查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。 | |
005 | 通过监控或者系统查看CPU使用高的时间 | |
011 | 确认其他资源信息情况,IO/内存/内核 |
002:系统内存使用率高并触发监控报警
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
查看系统内存使用情况 | |
定位占用内存资源较多的进程 | |
判断是否有僵尸进程 | |
查看系统主要日志 |
003:使用率高并长时间持续
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
查看系统I/O使用情况 | |
定位占用I/O资源较多的进程 | |
查看系统主要日志 | |
应急处置结束。 |
004:Agent心跳超时
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
判断主机通讯状况 | |
主机网卡是否存在丢包现象 | |
主机路由设置是否正确 | |
网卡配置参数是否正确 | |
系统日志是否有明显报错 |
005:主机路由表丢失
判断主机通讯状况 | |
主机网卡是否存在丢包现象 | |
主机路由设置是否正确 | |
系统日志是否有明显报错 |
006:通讯异常并报网卡故障
场景描述:主机通讯中断或有延迟、丢包现象,系统日志中有关于网卡的报错信息。
启动条件:系统日志中有网卡报错信息 | ||||
现场保护:ifconfig、messages、dmesg日志 |
通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息 | |
判断主机通讯状况 | |
主机网卡是否存在丢包现象 | |
系统日志是否有明显报错 | |
网卡驱动是否正常加载 | |
网卡配置信息是否正确 | |
bond主备网卡切换 | |
搜集系统信息 |
007:与相关连业务系统通讯异常
现场保护:ifconfig、route、messages、dmesg
015 | 判断主机通讯状况 | |
016 | 主机网卡是否存在丢包现象 | |
014 | 系统日志是否有明显报错 | |
019 | 网卡驱动是否正常加载 | |
020 | 网卡配置信息是否正确 |
008:群集系统服务异常
现场保护:使用sosreport命令收集系统信息。
022 | 查看双机状态及共享资源 | |
014 | 系统日志是否有明显报错 result of stop operation for VIP on | |
024 | 尝试将集群服务切换到备机 | |
025 | 如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。 | |
026 | 如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务 | |
027 | 收集系统信息 |
009:群集双机发生切换
启动条件: 当群集双机发生切换期间,会造成服务中断,以及Server IP无响应,通常会触发集中监控报警。
现场保护:执行sosreport命令收集系统信息。
022 | 查看双机状态及共享资源 | |
014 | 查看系统日志信息 | |
024 | 如果群集切换后系统服务异常,则尝试将集群服务切换到指定节点 |
009:群集双机切换失败
022 | 查看双机状态及共享资源 | |
014 | 系统日志是否有明显报错 | |
024 | 尝试将集群服务切换到指定节点 | |
025 | 如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。 | |
026 | 如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务 |
010:主机挂起
现场保护:这种情况下,通常日志系统(syslog)已经不再记录信息,只能对主机执行重启操作;对于配置了kdump的主机,可以手工触发vmcore(echo c > /proc/sysrq-trigger)。
grep crashkernel /proc/cmdline
systemctl status kdump
/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore
014 | 查看系统日志信息 | |
002 | 手工重启主机 | |
004 | 若手工重启主机失败,可强制重启主机。 | |
014 | 主机启动后,检查系统日志是否有报错信息。 | |
027 | 搜集系统信息 |
011:主机自动重启
现场保护:收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。
使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志
014 | 查看系统日志信息 | |
012 | 检查文件系统信息 | |
013 | 查看PV、VG、LV信息 | |
015 | 查看网络通讯状况 | |
017 | 查看主机路由设置 | |
检查应用系统是否恢复 |
012:主机宕机
使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志
014 | 查看系统日志信息 | |
012 | 检查文件系统信息 | |
013 | 查看PV、VG、LV信息 | |
015 | 查看网络通讯状况 | |
017 | 查看主机路由设置 | |
检查应用系统是否恢复 |
013:主机宕机并自动重启失败
现场保护:查看主机硬件是否有报错信息;得到授权后之后启动主机,并在控制台观察启动过程中是否有报错信息;如果主机无法正常启动,则根据主机启动报错信息进行修复。待主机启动完毕后,使用root用户收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。
028 | 根据主机控制台信息,得到行员授权后尝试进入单用户模式进行修复 | |
029 | 如果系统在单用户模式下无法修复,则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机 | |
014 | 查看系统日志信息 | |
012 | 检查文件系统信息 | |
013 | 查看PV、VG、LV信息 | |
015 | 查看网络通讯状况 | |
017 | 查看主机路由设置 |
014: swap交换分区使用率
现场保护:使用sosreport命令收集系统信息
使用top命令调整查看(使用热键f,根据方向键移动到SWAP行,选中按d, ESC退出编辑,即可查看) | |
定位占用swap资源较多的进程 | |
判断是否有僵尸进程 | |
查看系统主要日志 |
015:NTP服务状态异常
检查NTP同步状态:ntpq -p 或者 chronyc sources -v | |
检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files | |
检查NTP配置文件:cat /etc/ntp.conf 或者 cat /etc/chrony.conf | |
查看NTP的offset详细信息:ntptime或者chronyc tracking -v | |
查看系统主要日志 | |
重启NTP服务:service ntpd restart 或者 systemctl restart chronyd |
016:文件系统监控告警
现场保护:使用sosreport命令收集系统信息
012 | 检查文件系统状态: #df -h #df -ih #mount #cat /etc/fstab | |
014 | 查看系统主要日志 |