高效运维新选择:Shell 脚本自动化生成可视化 Linux 系统健康报告
1. 为什么需要自动化系统健康报告每次登录服务器手动检查系统状态的日子该结束了。想象一下你管理着几十台Linux服务器每天要重复执行相同的命令查看CPU、内存、磁盘使用情况这种重复劳动不仅效率低下还容易遗漏关键指标。我管理服务器集群时就深有体会直到开始使用Shell脚本自动化生成可视化报告工作效率提升了至少3倍。自动化健康报告的核心价值在于把零散的系统信息整合成结构化的可视化文档。传统方式需要依次执行top、free -h、df -h等命令而脚本可以一次性收集所有关键指标生成包含以下核心信息的HTML报告系统基本信息OS版本、内核版本、运行时间、硬件配置CPU型号、内存大小、磁盘空间、实时性能指标CPU/内存/磁盘使用率、负载情况、安全配置SSH设置、防火墙状态以及网络信息IP地址、活跃网卡。对于运维团队来说这种报告最实用的场景是日常巡检和故障排查。上周我们有个服务突然响应变慢通过对比前后两天的自动化报告立刻发现是磁盘空间不足导致的而这个问题在传统检查方式下很容易被忽略。报告还特别适合向上级汇报系统状态毕竟漂亮的HTML表格比黑底白字的命令行输出直观多了。2. 基础脚本框架搭建我们先从最基础的脚本框架开始。创建一个名为system_report.sh的文件用chmod x赋予执行权限。这个脚本的核心逻辑分为三部分收集系统信息、生成HTML报告、输出状态标记。下面是最简框架#!/bin/bash REPORT_FILEsystem_report_$(date %Y%m%d%H%M).html generate_html_header() { cat $REPORT_FILE EOF html head titleLinux系统健康报告/title style body { font-family: Arial, sans-serif; } .ok { background: #d4edda; } .warning { background: #fff3cd; } .critical { background: #f8d7da; } /style /head body h1$(hostname) 系统状态报告/h1 p生成时间: $(date)/p EOF } generate_html_footer() { cat $REPORT_FILE EOF /body /html EOF } # 主执行流程 generate_html_header # 这里添加信息收集函数 generate_html_footer echo 报告已生成: $REPORT_FILE这个框架已经包含了关键元素动态生成带时间戳的报告文件名、基本的HTML结构和CSS样式。样式表中定义了三种状态颜色绿色表示正常ok、黄色表示警告warning、红色表示严重critical。实际使用时我们会用这些颜色高亮显示异常指标。建议将脚本放在/usr/local/bin目录下这样任何位置都可以直接执行。我习惯为每类信息创建单独的函数比如get_cpu_info()、get_memory_usage()等这样后期维护更方便。曾经有个项目因为所有逻辑都写在一起修改时差点引发灾难这个教训让我深刻理解了模块化的重要性。3. 核心信息采集实现现在我们来填充具体的系统信息采集功能。首先是CPU和内存信息这是判断系统负载的关键指标get_cpu_info() { local cpu_cores$(grep -c processor /proc/cpuinfo) local cpu_model$(grep model name /proc/cpuinfo | head -1 | cut -d: -f2 | sed s/^ //) local load_avg$(uptime | awk -F load average: {print $2}) cat $REPORT_FILE EOF h2CPU信息/h2 table trth参数/thth值/thth状态/th/tr trtd型号/tdtd$cpu_model/tdtd classok正常/td/tr trtd核心数/tdtd$cpu_cores/tdtd classok正常/td/tr trtd15分钟负载/tdtd$load_avg/td EOF # 负载状态判断 local load_status$(echo $load_avg | awk -v cores$cpu_cores { if ($1 cores*2) print critical; else if ($1 cores) print warning; else print ok; }) echo td class\$load_status\$load_status/td/tr/table $REPORT_FILE }内存和磁盘信息的采集也很重要特别是交换空间(swap)的使用情况get_memory_info() { local mem_total$(free -h | awk /Mem/{print $2}) local mem_used$(free -h | awk /Mem/{print $3}) local mem_percent$(free | awk /Mem/{printf(%.1f), $3/$2*100}) local swap_total$(free -h | awk /Swap/{print $2}) local swap_used$(free -h | awk /Swap/{print $3}) cat $REPORT_FILE EOF h2内存信息/h2 table trth类型/thth总量/thth已用/thth使用率/thth状态/th/tr trtd物理内存/tdtd$mem_total/tdtd$mem_used/td td$mem_percent%/td EOF # 内存状态判断 local mem_statusok [ ${mem_percent%.*} -gt 90 ] mem_statuscritical [ ${mem_percent%.*} -gt 70 ] mem_statuswarning echo td class\$mem_status\$mem_status/td/tr $REPORT_FILE echo trtd交换空间/tdtd$swap_total/tdtd$swap_used/td $REPORT_FILE if [ $swap_used ! 0B ]; then echo td colspan\2\ class\warning\警告: 使用了交换空间/td/tr $REPORT_FILE else echo td colspan\2\ class\ok\正常/td/tr $REPORT_FILE fi echo /table $REPORT_FILE }磁盘检查需要特别注意根分区(/)的使用情况这是最常见的问题点get_disk_info() { cat $REPORT_FILE EOF h2磁盘信息/h2 table trth挂载点/thth文件系统/thth总大小/thth已用/thth使用率/thth状态/th/tr EOF df -hT | awk NR1 {print $7,$1,$3,$4,$5,$6} | while read mount fs size used percent avail; do percent_num${percent%\%} statusok [ $percent_num -gt 90 ] statuscritical [ $percent_num -gt 80 ] statuswarning echo trtd$mount/tdtd$fs/tdtd$size/tdtd$used/td $REPORT_FILE echo td$percent/tdtd class\$status\$status/td/tr $REPORT_FILE done echo /table $REPORT_FILE }4. 高级功能扩展基础信息采集完成后我们可以添加更多实用功能。安全配置检查是运维最关心的部分之一check_security() { cat $REPORT_FILE EOF h2安全配置/h2 table trth检查项/thth当前设置/thth推荐值/thth状态/th/tr EOF # SSH Root登录检查 local root_login$(grep ^PermitRootLogin /etc/ssh/sshd_config | awk {print $2}) [ -z $root_login ] root_loginyes # 默认值 if [ $root_login yes ]; then echo trtdSSH Root登录/tdtd允许/tdtd禁止/tdtd class\critical\危险/td/tr $REPORT_FILE else echo trtdSSH Root登录/tdtd禁止/tdtd禁止/tdtd class\ok\安全/td/tr $REPORT_FILE fi # 密码认证检查 local pass_auth$(grep ^PasswordAuthentication /etc/ssh/sshd_config | awk {print $2}) [ -z $pass_auth ] pass_authyes # 默认值 if [ $pass_auth yes ]; then echo trtdSSH密码认证/tdtd启用/tdtd禁用/tdtd class\warning\警告/td/tr $REPORT_FILE else echo trtdSSH密码认证/tdtd禁用/tdtd禁用/tdtd class\ok\安全/td/tr $REPORT_FILE fi # 防火墙状态检查 if command -v ufw /dev/null; then local firewall_status$(ufw status | grep Status: active) elif command -v firewall-cmd /dev/null; then local firewall_status$(firewall-cmd --state 21 | grep running) fi if [ -n $firewall_status ]; then echo trtd防火墙状态/tdtd运行中/tdtd运行中/tdtd class\ok\安全/td/tr $REPORT_FILE else echo trtd防火墙状态/tdtd未运行/tdtd运行中/tdtd class\critical\危险/td/tr $REPORT_FILE fi echo /table $REPORT_FILE }网络连接和监听端口信息对于排查异常非常有用get_network_info() { cat $REPORT_FILE EOF h2网络信息/h2 h3IP地址/h3 table trth接口/ththIP地址/ththMAC地址/th/tr EOF ip -o addr show | awk $3 inet || $3 inet6 | while read iface family addr rest; do mac$(ip link show $iface | awk /link\/ether/{print $2}) echo trtd$iface/tdtd$addr/tdtd$mac/td/tr $REPORT_FILE done echo /table $REPORT_FILE # 监听端口 cat $REPORT_FILE EOF h3监听端口/h3 table trth协议/thth端口/thth服务/ththPID/程序/th/tr EOF ss -tulnp | awk NR1 {print $1,$5,$7} | while read proto port service; do port_num$(echo $port | awk -F: {print $NF}) service_name$(grep $port_num/ /etc/services | head -1 | awk {print $1}) [ -z $service_name ] service_nameunknown echo trtd$proto/tdtd$port_num/tdtd$service_name/tdtd${service##*:}/td/tr $REPORT_FILE done echo /table $REPORT_FILE }5. 定时任务与报告分发让脚本定期自动运行才能真正解放双手。使用crontab设置每天凌晨2点运行# 编辑当前用户的crontab crontab -e # 添加以下内容假设脚本路径为/usr/local/bin/system_report.sh 0 2 * * * /usr/local/bin/system_report.sh生成的报告可以通过多种方式分发。最简单的办法是用Python内置HTTP服务器临时共享# 在报告所在目录执行Python 3 python3 -m http.server 8000 # 然后就可以通过浏览器访问 http://服务器IP:8000/system_report_20230801_0200.html对于团队协作我推荐将报告发送到Slack或邮件列表。以下是邮件发送示例send_email() { local report_file$1 local recipientteamexample.com local subject$(hostname) 系统健康报告 $(date %Y-%m-%d) mutt -s $subject -a $report_file -- $recipient EOF 您好附件是今日系统健康报告请查收。 此邮件为自动发送请勿直接回复。 EOF } # 在主函数最后调用 send_email $REPORT_FILE记得先安装mutt邮件客户端(yum/apt install mutt)并配置好SMTP。如果公司有内部IM工具也可以调用它们的Webhook API发送通知。我在实际项目中集成了飞书机器人每次报告生成后自动推送到运维群组。6. 可视化增强技巧基础的表格已经能清晰展示信息但我们可以做得更专业。以下是几个提升报告视觉效果的方法添加状态图标在CSS中添加字体图标库如Font Awesome用直观的图标代替文字状态style import url(https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.0.0/css/all.min.css); .ok-icon::before { content: \f058; color: #28a745; } .warning-icon::before { content: \f06a; color: #ffc107; } .critical-icon::before { content: \f057; color: #dc3545; } /style添加趋势图表虽然纯HTML无法实现动态图表但可以用ASCII艺术图展示简单趋势# 在报告中添加CPU使用率趋势 echo pre $REPORT_FILE top -bn1 | head -5 | tail -3 | awk {printf CPU%d: %3d%% [, NR-1, $9; for(i0;i$9/2;i)printf ; printf ]\n} $REPORT_FILE echo /pre $REPORT_FILE响应式设计添加媒体查询让报告在手机上也易读style media (max-width: 600px) { table, th, td { display: block; } th { position: absolute; top: -9999px; } tr { border: 1px solid #ddd; margin-bottom: 10px; } td { border: none; position: relative; padding-left: 50%; } td:before { position: absolute; left: 6px; content: attr(data-label); } } /style添加历史对比在报告中显示与昨日数据的差异# 假设昨天的报告还在 yesterday_report$(find . -name system_report_$(date -d yesterday %Y%m%d)*.html | head -1) if [ -f $yesterday_report ]; then # 提取昨天的内存使用率 yesterday_mem$(grep 内存使用率 $yesterday_report | awk -F[] {print $5} | tr -d %) today_mem$(free | awk /Mem/{printf %.1f, $3/$2*100}) diff_mem$(echo $today_mem - $yesterday_mem | bc) echo p内存使用率变化: $REPORT_FILE if [ $(echo $diff_mem 0 | bc) -eq 1 ]; then echo span stylecolor:red${diff_mem}%/span (比昨天高) $REPORT_FILE else echo span stylecolor:green${diff_mem}%/span (比昨天低) $REPORT_FILE fi echo /p $REPORT_FILE fi7. 实战经验与避坑指南在实际部署过程中我总结了几个关键注意事项权限问题脚本需要读取/proc、/sys等系统信息建议以root权限运行。如果使用普通用户需要配置sudo权限# 在/etc/sudoers.d/下添加文件 User_Alias MONITOR_USERS user1, user2 Cmnd_Alias MONITOR_CMDS /usr/bin/df, /usr/bin/free, /usr/bin/uptime MONITOR_USERS ALL(root) NOPASSWD: MONITOR_CMDS性能影响避免在脚本中使用高开销命令。曾经有个脚本每5分钟运行一次vmstat 10 5导致系统负载明显升高。应该选择轻量级命令或者降低采集频率。错误处理关键命令要检查执行结果。例如if ! df -h /dev/null 21; then echo trtd colspan3 classcritical错误: 无法获取磁盘信息/td/tr $REPORT_FILE return 1 fi日志记录添加简单的日志功能记录脚本运行情况LOG_FILE/var/log/system_report.log log() { echo $(date %Y-%m-%d %H:%M:%S) - $1 $LOG_FILE } log 开始生成系统报告 # ...脚本主体... log 报告生成完成: $REPORT_FILE安全性报告可能包含敏感信息要做好访问控制设置正确的文件权限chmod 640 $REPORT_FILE使用HTTPS访问报告添加基础认证到HTTP服务器定期清理历史报告find /path/to/reports -type f -mtime 7 -delete跨平台兼容不同Linux发行版的命令输出可能有差异。例如获取IP地址信息时# 兼容多种方式获取IP if command -v ip /dev/null; then ip_addr$(ip addr show | grep inet | awk {print $2}) elif command -v ifconfig /dev/null; then ip_addr$(ifconfig | grep inet | awk {print $2}) else ip_addr未知 fi遇到最棘手的问题是在Alpine Linux上运行时发现它使用musl libc而不是glibc很多命令参数都不一样。解决方案是为特殊环境添加条件判断if [ -f /etc/alpine-release ]; then # Alpine Linux特有处理 mem_total$(free -m | awk /Mem/{print $2}) else # 标准Linux处理 mem_total$(free -m | awk /Mem/{print $2}) fi
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2427815.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!