Shell脚本自动化监控:用curl的-w参数批量检查网站健康状态(附完整脚本)
Shell脚本自动化监控用curl的-w参数批量检查网站健康状态最近在维护公司十几个微服务时我发现手动检查每个接口状态简直是一场噩梦。直到重新审视了curl的-w参数才意识到这个被低估的功能能带来怎样的效率革命。本文将分享如何用Shell脚本打造一个轻量级但功能完备的网站监控系统。1. 监控需求分析与设计思路当服务规模超过5个时传统的人工检查就变得不可持续。我们需要的监控系统应该具备批量处理能力支持同时检查数十个URL关键指标采集包括但不限于HTTP状态码、响应时间、DNS解析时间异常识别机制对非200状态码、超长响应时间等情况进行标记通知功能发现异常时能及时告警日志记录保留历史数据供后续分析curl的-w参数配合格式化输出可以完美满足这些需求。下面是一个基础监控指标的采集模板curl -o /dev/null -s -w \ HTTP状态码: %{http_code}\n\ DNS解析时间: %{time_namelookup}秒\n\ TCP连接时间: %{time_connect}秒\n\ SSL握手时间: %{time_appconnect}秒\n\ 首字节时间: %{time_starttransfer}秒\n\ 总响应时间: %{time_total}秒\n\ https://example.com2. 核心监控脚本开发2.1 基础脚本框架我们先构建一个可扩展的脚本框架#!/bin/bash # 配置部分 URL_LIST(https://api.service1.com https://app.service2.com/health) TIMEOUT5 # 超时时间(秒) ALERT_THRESHOLD2 # 响应时间告警阈值(秒) # 结果存储 declare -A STATUS_CODES declare -A RESPONSE_TIMES declare -A ALERTS # 监控函数 monitor_url() { local url$1 local result$(curl -o /dev/null -s -L -w \ %{http_code}\ %{time_total}\ --connect-timeout $TIMEOUT $url) local status_code${result:0:3} local response_time${result:3} STATUS_CODES[$url]$status_code RESPONSE_TIMES[$url]$response_time # 异常检测逻辑 if [[ $status_code -ne 200 ]] || (( $(echo $response_time $ALERT_THRESHOLD | bc -l) )); then ALERTS[$url]Status: $status_code, Time: ${response_time}s fi }2.2 高级功能实现批量处理与并发控制# 并发监控控制 MAX_CONCURRENT5 current_jobs0 for url in ${URL_LIST[]}; do monitor_url $url ((current_jobs)) if [[ $current_jobs -ge $MAX_CONCURRENT ]]; then wait -n ((current_jobs--)) fi done wait结果可视化输出# 结果展示函数 display_results() { echo ┌──────────────────────────────────────┬────────────┬──────────────┐ echo │ URL │ 状态码 │ 响应时间(s) │ echo ├──────────────────────────────────────┼────────────┼──────────────┤ for url in ${!STATUS_CODES[]}; do printf │ %-36s │ %-10s │ %-12s │\n \ ${url:0:36} \ ${STATUS_CODES[$url]} \ ${RESPONSE_TIMES[$url]} done echo └──────────────────────────────────────┴────────────┴──────────────┘ # 告警信息 if [[ ${#ALERTS[]} -gt 0 ]]; then echo -e \n\033[31m⚠️ 发现异常:\033[0m for alert in ${!ALERTS[]}; do echo - ${alert}: ${ALERTS[$alert]} done fi }3. 生产环境增强功能3.1 告警通知集成邮件通知示例send_alert() { local subject[监控告警] 服务异常检测 local body检测时间: $(date)\n\n异常列表:\n for alert in ${!ALERTS[]}; do body - $alert: ${ALERTS[$alert]}\n done echo -e $body | mail -s $subject ops-teamcompany.com }飞书机器人集成notify_via_feishu() { local webhookhttps://open.feishu.cn/open-apis/bot/v2/hook/xxx local content{\msg_type\:\text\,\content\:{\text\:\[监控告警]检测到异常:\\n for alert in ${!ALERTS[]}; do content - $alert: ${ALERTS[$alert]}\\n done content\}} curl -X POST -H Content-Type: application/json -d $content $webhook }3.2 历史日志记录log_results() { local log_file/var/log/url_monitor/$(date %Y-%m-%d).log local timestamp$(date %Y-%m-%d %H:%M:%S) { echo [$timestamp] 监控结果: for url in ${!STATUS_CODES[]}; do echo - $url: ${STATUS_CODES[$url]}, ${RESPONSE_TIMES[$url]}s done if [[ ${#ALERTS[]} -gt 0 ]]; then echo [$timestamp] 告警信息: for alert in ${!ALERTS[]}; do echo - $alert: ${ALERTS[$alert]} done fi } $log_file }4. 高级监控策略4.1 响应时间趋势分析analyze_response_trend() { local url$1 local current_time${RESPONSE_TIMES[$url]} local avg_time$(calculate_average $url) # 如果当前响应时间超过平均值的150%触发告警 if (( $(echo $current_time $avg_time * 1.5 | bc -l) )); then ALERTS[$url]响应时间突增: ${current_time}s (平均: ${avg_time}s) fi } calculate_average() { local url$1 local log_file/var/log/url_monitor/response_times.log # 从日志中提取最近10次响应时间计算平均值 grep $url $log_file | tail -n 10 | awk {sum$NF} END {print sum/NR} }4.2 可用性统计报表generate_availability_report() { local report_file/var/log/url_monitor/weekly_report_$(date %Y-%m-%d).txt echo 服务可用性周报 ($(date %Y-%m-%d)) $report_file echo $report_file for url in ${URL_LIST[]}; do local total_checks$(grep -c $url /var/log/url_monitor/*.log) local success_checks$(grep $url /var/log/url_monitor/*.log | grep -c 200,) local availability$(echo scale2; $success_checks * 100 / $total_checks | bc) echo -e \n服务: $url $report_file echo 检查次数: $total_checks $report_file echo 成功次数: $success_checks $report_file echo 可用性: ${availability}% $report_file done # 发送报表 mail -s 服务可用性周报 ops-teamcompany.com $report_file }5. 实际部署建议定时任务配置# 每5分钟执行一次监控 */5 * * * * /opt/scripts/url_monitor.sh /var/log/url_monitor/cron.log 21日志轮转配置/etc/logrotate.d/url_monitor/var/log/url_monitor/*.log { daily rotate 30 compress missingok notifempty create 640 root adm }性能优化技巧使用curl --parallel进行并行请求需要curl 7.66.0对内部服务使用--resolve跳过DNS查询设置合理的--connect-timeout和--max-time安全注意事项将敏感URL存储在配置文件中而非脚本内使用chmod 600保护包含认证信息的脚本对告警通知内容进行脱敏处理
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2498497.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!