Python爬虫监控程序设计思路

news2025/6/5 23:36:26

最近因为爬虫程序太多,想要为Python爬虫设计一个监控程序,主要功能包括一下几种:

1、监控爬虫的运行状态(是否在运行、运行时间等)

2、监控爬虫的性能(如请求频率、响应时间、错误率等)

3、资源使用情况(CPU、内存、网络等)

4、异常捕获与告警(当爬虫出现异常时能够及时通知)

在这里插入图片描述

要为Python爬虫创建一个监控程序,根据上面思路我们可以按照以下步骤实现,涵盖运行状态、性能指标、异常告警和可视化:

核心监控功能设计

  1. 运行状态监控

    • 心跳检测:定期记录爬虫存活状态
    • 进程检查:验证爬虫进程是否运行中
  2. 性能指标监控

    • 请求统计:成功/失败请求计数
    • 数据处理:已抓取/解析的项目数
    • 资源使用:CPU/内存占用
    • 时效指标:请求响应时间、运行时长
  3. 异常告警

    • 错误捕获:网络异常、解析失败等
    • 阈值告警:连续失败/资源超限
    • 通知渠道:邮件/Slack/钉钉
  4. 数据持久化

    • 存储日志:运行日志和错误日志
    • 记录指标:时间序列数据库存储

实现方案代码示例

1. 基础监控类 (monitor.py)
import time
import logging
import psutil
from prometheus_client import start_http_server, Counter, Gauge, Histogram

class SpiderMonitor:
    def __init__(self, spider_name):
        self.spider_name = spider_name
        self.start_time = time.time()
        
        # 初始化监控指标
        self.requests_total = Counter(f'{spider_name}_requests_total', 'Total requests')
        self.requests_failed = Counter(f'{spider_name}_requests_failed', 'Failed requests')
        self.items_scraped = Counter(f'{spider_name}_items_scraped', 'Items scraped')
        self.memory_usage = Gauge(f'{spider_name}_memory_usage', 'Memory usage (MB)')
        self.request_latency = Histogram(f'{spider_name}_request_latency', 'Request latency (seconds)')
        
        # 启动指标服务器
        start_http_server(8000)
        logging.basicConfig(filename=f'{spider_name}.log', level=logging.INFO)

    def record_request(self, success=True, latency=0):
        self.requests_total.inc()
        if not success:
            self.requests_failed.inc()
        if latency > 0:
            self.request_latency.observe(latency)
    
    def record_item(self, count=1):
        self.items_scraped.inc(count)
    
    def update_resources(self):
        process = psutil.Process()
        self.memory_usage.set(process.memory_info().rss / 1024 / 1024)  # MB
    
    def log_error(self, error):
        logging.error(f"[{time.ctime()}] ERROR: {error}")
    
    def uptime(self):
        return time.time() - self.start_time
2. 爬虫集成示例 (my_spider.py)
import requests
from monitor import SpiderMonitor

class MySpider:
    def __init__(self):
        self.monitor = SpiderMonitor("my_spider")
        self.session = requests.Session()
    
    def crawl(self, url):
        start = time.time()
        try:
            response = self.session.get(url, timeout=10)
            response.raise_for_status()
            
            # 处理数据
            items = self.parse(response)
            self.monitor.record_item(len(items))
            
            self.monitor.record_request(success=True, latency=time.time()-start)
            return items
        
        except Exception as e:
            self.monitor.record_request(success=False)
            self.monitor.log_error(f"URL: {url} - Error: {str(e)}")
            return []
    
    def parse(self, response):
        # 解析逻辑
        return [{"data": "sample"}]
    
    def run(self):
        while True:
            self.crawl("https://example.com/data")
            self.monitor.update_resources()
            time.sleep(5)

if __name__ == "__main__":
    spider = MySpider()
    spider.run()
3. 独立监控进程 (monitor_daemon.py)
import time
import subprocess
import smtplib
from email.mime.text import MIMEText

def check_heartbeat(spider_name):
    """检查最近15分钟是否有活动日志"""
    try:
        with open(f"{spider_name}.log") as f:
            logs = f.readlines()[-100:]
            return any(time.time() - get_log_time(line) < 900 for line in logs)
    except FileNotFoundError:
        return False

def get_log_time(log_line):
    # 从日志行提取时间戳
    timestamp_str = log_line.split("]")[0][1:]
    return time.mktime(time.strptime(timestamp_str))

def send_alert(subject, message):
    """发送邮件告警"""
    msg = MIMEText(message)
    msg['Subject'] = f"[SPIDER ALERT] {subject}"
    msg['From'] = 'monitor@example.com'
    msg['To'] = 'admin@example.com'
    
    with smtplib.SMTP('smtp.example.com') as server:
        server.send_message(msg)

def monitor_daemon():
    spider_name = "my_spider"
    consecutive_failures = 0
    
    while True:
        if not check_heartbeat(spider_name):
            consecutive_failures += 1
            if consecutive_failures >= 3:
                send_alert("Spider Down", 
                          f"{spider_name} has been inactive for 45+ minutes")
        else:
            consecutive_failures = 0
        
        time.sleep(300)  # 每5分钟检查一次

if __name__ == "__main__":
    monitor_daemon()

监控系统部署方案

  1. 指标可视化

    • 使用Prometheus收集指标(默认端口8000)
    • 配置Grafana仪表盘展示:
      • 请求成功率 = (1 - requests_failed/requests_total) * 100
      • 内存使用趋势图
      • 最近1小时错误日志
  2. 告警配置

    # Prometheus alert.rules
    groups:
    - name: spider_alerts
      rules:
      - alert: HighFailureRate
        expr: rate(my_spider_requests_failed[5m]) / rate(my_spider_requests_total[5m]) > 0.1
        for: 10m
        labels:
          severity: critical
        annotations:
          description: "超过10%的请求失败"
    
  3. 进程管理

    • 使用Supervisor管理进程:
    [program:my_spider]
    command=python /path/to/my_spider.py
    autostart=true
    autorestart=true
    stderr_logfile=/var/log/spider.err.log
    

高级功能扩展

  1. 分布式监控

    • 使用Redis共享监控数据:
    import redis
    r = redis.Redis()
    r.incr('global_requests_count')
    
  2. 网页状态面板

    # 添加Flask状态页
    from flask import Flask
    app = Flask(__name__   
    @app.route('/status')
    def status():
        return {
            "uptime": monitor.uptime(),
            "items": monitor.items_scraped._value.get()
        }
    
  3. 云服务集成

    • 错误跟踪:Sentry
    • 日志管理:ELK Stack
    • 云监控:Datadog/Prometheus Cloud

监控仪表盘示例 (Grafana)

  1. 核心面板

    • 请求成功率 (百分比)
    • 每分钟请求量
    • 内存/CPU使用曲线
    • 最近错误列表
  2. 报警阈值

    • 成功率 < 95% (警告)
    • 内存 > 500MB (警告)
    • 1小时无活动 (严重)

这种监控方案提供实时性能跟踪、自动告警和可视化展示,能有效提升爬虫的稳定性和可维护性。最终我们可根据实际需求调整监控粒度和告警阈值。如有任何疑问可以留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2398788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【HarmonyOS 5】Laya游戏如何鸿蒙构建发布详解

【HarmonyOS 5】Laya游戏如何鸿蒙构建发布详解 一、前言 LayaAir引擎是国内最强大的全平台引擎之一&#xff0c;当年H5小游戏火的时候&#xff0c;腾讯入股了腊鸭。我还在游戏公司的时候&#xff0c;17年曾经开发使用腊鸭的H5小游戏&#xff0c;很怀念当年和腊鸭同事一起解决…

【鱼皮-用户中心】笔记

任务&#xff1a;完整了解做项目的思路&#xff0c;接触一些企业及的开发技术 title 企业做项目流程需求分析技术选型 计划一一、前端初始化1. **下载node.js**2. **安装yarn**3. **初始化 Ant Design Pro 脚⼿架&#xff08;关于更多可进入官网了解&#xff09;**4. **开启Umi…

交错推理强化学习方法提升医疗大语言模型推理能力的深度分析

核心概念解析 交错推理:灵活多变的思考方式 交错推理(Interleaved Reasoning)是一种在解决复杂问题时,不严格遵循单一、线性推理路径,而是交替、灵活应用多种推理策略的方法。这种思维方式与人类专家在处理复杂医疗问题时的思考模式更为接近,表现为一种动态、适应性强的…

SpringBatch+Mysql+hanlp简版智能搜索

资源条件有限&#xff0c;需要支持智搜的数据量也不大&#xff0c;上es搜索有点大材小用了&#xff0c;只好写个简版mysql的智搜&#xff0c;处理全文搜素&#xff0c;支持拼音搜索&#xff0c;中文分词&#xff0c;自定义分词断词&#xff0c;地图范围搜索&#xff0c;周边搜索…

go语言基础|slice入门

slice slice介绍 slice中文叫切片&#xff0c;是go官方提供的一个可变数组&#xff0c;是一个轻量级的数据结构&#xff0c;功能上和c的vector&#xff0c;Java的ArrayList差不多。 slice和数组是有一些区别的&#xff0c;是为了弥补数组的一些不足而诞生的数据结构。最大的…

使用 HTML + JavaScript 实现可拖拽的任务看板系统

本文将介绍如何使用 HTML、CSS 和 JavaScript 创建一个交互式任务看板系统。该系统支持拖拽任务、添加新任务以及动态创建列,适用于任务管理和团队协作场景。 效果演示 页面结构 HTML 部分主要包含三个默认的任务列(待办、进行中、已完成)和一个用于添加新列的按钮。 <…

统信 UOS 服务器版离线部署 DeepSeek 攻略

日前&#xff0c;DeepSeek 系列模型因拥有“更低的成本、更强的性能、更好的体验”三大核心优势&#xff0c;在全球范围内备受瞩目。 本次&#xff0c;我们为大家提供了在统信 UOS 服务器版 V20&#xff08;AMD64 或 ARM64 架构&#xff09;上本地离线部署 DeepSeek-R1 模型的…

美尔斯通携手北京康复辅具技术中心开展公益活动,科技赋能助力银龄健康管理

2025 年 5 月 30 日&#xff0c;北京美尔斯通科技发展股份有限公司携手北京市康复辅具技术中心&#xff0c;在朝阳区核桃园社区开展 “全国助残日公益服务” 系列活动。活动通过科普讲座、健康检测与科技体验&#xff0c;将听力保健与心脏健康服务送至居民家门口&#xff0c;助…

Redis Stack常见拓展

Redis JSON RedisJSON 是 Redis Stack 提供的模块之一&#xff0c;允许你以 原生 JSON 格式 存储、检索和修改数据。相比传统 Redis Hash&#xff0c;它更适合结构化文档型数据&#xff0c;并支持嵌套结构、高效查询和部分更新。 #设置⼀个JSON数据,其中$表示JSON数据的根节点…

Linux 驱动之设备树

Linux 驱动之设备树 参考视频地址 【北京迅为】嵌入式学习之Linux驱动&#xff08;第七期_设备树_全新升级&#xff09;_基于RK3568_哔哩哔哩_bilibili 本章总领 1.设备树基本知识 什么是设备树&#xff1f; ​ Linux之父Linus Torvalds在2011年3月17日的ARM Linux邮件列表…

12、企业应收账款(AR)全流程解析:从发票开具到回款完成

在商业活动中&#xff0c;现金流如同企业的命脉&#xff0c;而应收管理则是维系这条命脉正常运转的重要保障。许多企业由于对应收账款缺乏有效管理&#xff0c;常常面临资金周转困难的问题。实践证明&#xff0c;建立科学的应收管理体系能够显著提升资金回笼效率&#xff0c;为…

【notepad++】如何设置notepad++背景颜色?

如何设置notepad背景颜色&#xff1f; 设置--语言格式设置 勾选使用全局背景色 例如选择护眼色---80&#xff0c;97&#xff0c;205&#xff1b;

使用 C++/OpenCV 制作跳动的爱心动画

使用 C/OpenCV 制作跳动的爱心动画 本文将引导你如何使用 C 和 OpenCV 库创建一个简单但有趣的跳动爱心动画。我们将通过绘制参数方程定义的爱心形状&#xff0c;并利用正弦函数来模拟心跳的缩放效果。 目录 简介先决条件核心概念 参数方程绘制爱心动画循环模拟心跳效果 代码…

在Oxygen编辑器中使用DeepSeek

罗马尼亚公司研制开发的Oxygen编辑器怎样与国产大模型结合&#xff0c;这是今年我在tcworld大会上给大家的分享&#xff0c;需要ppt的朋友请私信联系 - 1 - Oxygen编辑器中的人工智能助手 Oxygen编辑器是罗马尼亚的Syncro Soft公司开发的一款结构化文档编辑器。 它是用来编写…

一、基础环境配置

一、虚拟机 主&#xff1a;192.168.200.200 从&#xff1a;192.168.200.201 从&#xff1a;192.168.200.202 二、docker docker基础搭建&#xff0c;有不会的自行百度。 1.目录结构 /opt/software&#xff1a;软件包/opt/module&#xff1a;解压包&#xff0c;自定义脚本…

论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING

Flow Matching 论文 扩散模型&#xff1a;根据中心极限定理&#xff0c;对原始图像不断加高斯噪声&#xff0c;最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布&#xff0c;形成离散的马尔科夫链。再通过逐步去噪得到原始图像。 Flow matching 采取…

SQL Views(视图)

目录 Views Declaring Views Example: View Definition Example: Accessing a View Advantages of Views Triggers on Views Interpreting a View Insertion&#xff08;视图插入操作的解释&#xff09; The Trigger Views A view is a relation defined in terms of…

「卫星百科」“绿色守卫”高分六号

高分六号&#xff08;GF-6&#xff09;是中国高分辨率对地观测系统&#xff08;高分专项&#xff09;的重要组成卫星&#xff0c;于2018年6月2日成功发射。高分六号卫星凭借其高时空分辨率、红边波段、宽覆盖能力&#xff0c;在农业、生态、灾害等领域提供了重要的数据支撑。本…

秋招Day12 - 计算机网络 - IP

IP协议的定义和作用&#xff1f; IP协议用于在计算机网络中传递数据包&#xff0c;定义了数据包的格式和处理规则&#xff0c;确保数据能够从一个设备传递到另一个设备&#xff0c;中间可能经过多个不同的设备&#xff08;路由器&#xff09;。 IP协议有哪些作用&#xff1f;…

【前端】CSS面试八股

网上现有资料已经很丰富了&#xff0c;我挑了些自己押面试题时总结过的来写。 Q&#xff1a;回流和重绘 A&#xff1a; 回流reflow&#xff1a;计算元素的几何&#xff0c;引发layout重绘repaint&#xff1a;更新元素可见样式&#xff0c;引发paint 回流的成本比重绘高得多&…