DAMO-YOLO手机检测系统健康检查脚本:curl+shell自动化巡检
DAMO-YOLO手机检测系统健康检查脚本curlshell自动化巡检1. 项目背景与需求在实际生产环境中手机检测系统的稳定运行至关重要。这个基于DAMO-YOLO和TinyNAS技术的检测系统虽然具有小、快、省的特点专门适配手机端低算力、低功耗场景但仍然需要定期检查服务状态。传统的手动检查方式效率低下特别是在需要监控多个服务实例时。我们需要一个自动化的健康检查方案能够快速发现问题并及时告警。2. 健康检查脚本设计思路2.1 检查维度设计一个完整的健康检查应该覆盖以下关键维度服务可用性Web服务是否正常响应服务性能响应时间是否在可接受范围内资源使用内存、CPU使用率是否正常模型功能检测功能是否正常工作2.2 技术方案选择我们选择curlshell的组合方案原因如下轻量级无需安装额外依赖系统自带工具灵活性可以定制各种检查逻辑易集成可以轻松集成到现有的监控系统中3. 完整健康检查脚本实现3.1 基础环境检查脚本#!/bin/bash # phone_detection_healthcheck.sh # 配置参数 SERVER_IPlocalhost PORT7860 TIMEOUT10 LOG_FILE/tmp/phone_detection_health.log # 颜色输出定义 RED\033[0;31m GREEN\033[0;32m YELLOW\033[1;33m NC\033[0m # No Color # 日志函数 log() { echo $(date %Y-%m-%d %H:%M:%S) - $1 | tee -a $LOG_FILE } # 检查服务端口是否监听 check_port() { if nc -z -w $TIMEOUT $SERVER_IP $PORT 2/dev/null; then log ${GREEN}✓ 端口 $PORT 监听正常${NC} return 0 else log ${RED}✗ 端口 $PORT 未监听${NC} return 1 fi } # 检查HTTP服务可用性 check_http() { local start_time$(date %s%N) local response$(curl -s -o /dev/null -w %{http_code} \ --connect-timeout $TIMEOUT \ http://$SERVER_IP:$PORT || echo 000) local end_time$(date %s%N) local response_time$((($end_time - $start_time)/1000000)) if [ $response 200 ]; then log ${GREEN}✓ HTTP服务正常 (响应时间: ${response_time}ms)${NC} return 0 else log ${RED}✗ HTTP服务异常 (状态码: $response)${NC} return 1 fi }3.2 功能测试脚本# 测试检测功能 test_detection() { # 创建一个简单的测试图片 local test_image/tmp/test_image.jpg convert -size 100x100 xc:white -pointsize 12 -fill black -draw text 10,50 Test $test_image 2/dev/null # 使用curl测试检测功能 local response$(curl -s -X POST \ -F image$test_image \ http://$SERVER_IP:$PORT/detect \ --connect-timeout $TIMEOUT) if echo $response | grep -q detection_result; then log ${GREEN}✓ 检测功能正常${NC} # 解析检测结果 local phone_count$(echo $response | jq -r .detection_result.phone_count 2/dev/null) if [ -n $phone_count ]; then log 检测到手机数量: $phone_count fi return 0 else log ${RED}✗ 检测功能异常${NC} return 1 fi } # 检查系统资源使用情况 check_resources() { # 查找服务进程 local pid$(ps aux | grep phone-detection | grep -v grep | awk {print $2}) if [ -z $pid ]; then log ${RED}✗ 未找到服务进程${NC} return 1 fi # 检查内存使用 local memory_mb$(ps -o rss -p $pid | awk {printf %.1f, $1/1024}) local cpu_percent$(ps -o %cpu -p $pid) log 进程内存使用: ${memory_mb}MB log 进程CPU使用: ${cpu_percent}% # 设置阈值警告 if (( $(echo $memory_mb 500 | bc -l) )); then log ${YELLOW} 内存使用较高${NC} fi if (( $(echo $cpu_percent 80 | bc -l) )); then log ${YELLOW} CPU使用较高${NC} fi return 0 }3.3 完整检查流程# 主检查函数 main_check() { log 开始手机检测系统健康检查 log local overall_status0 # 执行各项检查 check_port if [ $? -ne 0 ]; then overall_status1 log ${RED}端口检查失败跳过后续检查${NC} return $overall_status fi check_http if [ $? -ne 0 ]; then overall_status1 fi test_detection if [ $? -ne 0 ]; then overall_status1 fi check_resources if [ $? -ne 0 ]; then overall_status1 fi # 总结报告 log if [ $overall_status -eq 0 ]; then log ${GREEN} 所有检查项通过 - 系统健康${NC} else log ${RED} 发现异常 - 请检查系统状态${NC} fi return $overall_status } # 执行主检查 main_check exit $?4. 自动化巡检方案4.1 定时任务配置将健康检查脚本设置为定时任务实现自动化巡检# 编辑crontab crontab -e # 添加以下行每5分钟检查一次 */5 * * * * /path/to/phone_detection_healthcheck.sh # 或者每小时检查一次但记录详细日志 0 * * * * /path/to/phone_detection_healthcheck.sh /var/log/phone_detection_health.log 214.2 告警集成方案#!/bin/bash # healthcheck_with_alert.sh # 执行健康检查 /path/to/phone_detection_healthcheck.sh check_result$? # 如果检查失败发送告警 if [ $check_result -ne 0 ]; then # 这里可以集成各种告警方式 # 示例发送邮件 echo 手机检测系统健康检查失败请及时处理 | mail -s 系统告警 adminexample.com # 或者调用webhook curl -X POST -H Content-Type: application/json \ -d {text:手机检测系统异常} \ https://your-webhook-url.com # 记录告警时间 echo $(date) - 系统异常告警已发送 /var/log/system_alerts.log fi5. 高级监控功能5.1 性能趋势监控#!/bin/bash # performance_monitor.sh # 记录性能指标到时间序列数据库 log_performance_metrics() { local timestamp$(date %s) local memory_usage$(ps aux | grep phone-detection | grep -v grep | awk {print $6/1024}) local cpu_usage$(ps aux | grep phone-detection | grep -v grep | awk {print $3}) # 可以输出到文件或发送到监控系统 echo $timestamp,memory_usage,$memory_usage /var/log/performance_metrics.csv echo $timestamp,cpu_usage,$cpu_usage /var/log/performance_metrics.csv # 或者使用curl发送到监控API # curl -X POST -d metricmemory_usagevalue$memory_usagetimestamp$timestamp \ # http://monitoring-system.com/api/metrics }5.2 批量节点检查#!/bin/bash # multi_node_check.sh # 节点列表 NODES(node1:7860 node2:7860 node3:7860) # 并行检查多个节点 check_all_nodes() { local pids() local results() for node in ${NODES[]}; do { local node_ip${node%:*} local node_port${node#*:} # 执行单个节点检查 if curl -s --connect-timeout 5 http://$node_ip:$node_port /dev/null; then results($node:healthy) else results($node:unhealthy) fi } pids($!) done # 等待所有检查完成 for pid in ${pids[]}; do wait $pid done # 输出结果 echo 节点健康检查结果: for result in ${results[]}; do echo $result done }6. 实际应用建议6.1 检查频率建议根据实际业务需求建议设置不同的检查频率生产环境每5-10分钟检查一次测试环境每小时检查一次开发环境每天检查一次6.2 阈值配置建议根据系统实际情况调整告警阈值# 在脚本开头配置阈值 MEMORY_THRESHOLD500 # MB CPU_THRESHOLD80 # % RESPONSE_TIME_THRESHOLD1000 # ms6.3 日志管理建议# 添加日志轮转配置 # 在 /etc/logrotate.d/phone_detection 中添加 /var/log/phone_detection_health.log { daily rotate 7 compress missingok notifempty }7. 总结通过这个curlshell自动化巡检方案我们可以实现全面监控覆盖服务可用性、性能、资源使用等关键指标及时告警发现问题立即通知减少系统停机时间历史记录保留检查日志便于问题排查和趋势分析灵活扩展可以轻松添加新的检查项或集成到现有监控系统这个方案特别适合基于DAMO-YOLO的手机检测系统帮助维护人员快速掌握系统状态确保检测服务的稳定运行。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2522793.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!