用DrissionPage升级维基百科爬虫:更简洁高效的数据抓取方案

news2025/5/15 12:36:00

一、原方案痛点分析

原代码使用urllib+BeautifulSoup组合存在以下问题:

  1. 动态内容缺失:无法获取JavaScript渲染后的页面内容

  2. 反爬能力弱:基础请求头易被识别为爬虫

  3. 代码冗余:需要单独处理SSL证书验证

  4. 扩展性差:难以应对登录、验证码等复杂场景


二、DrissionPage方案优势

  1. 浏览器级渲染:支持动态加载内容获取

  2. 智能元素定位:无需手动处理DOM树

  3. 自动会话管理:内置请求重试和Cookie管理

  4. 反反爬策略:模拟真实浏览器指纹


三、改造后代码实现

# -*- coding: utf-8 -*-
from DrissionPage import SessionPage

# 创建页面对象
page = SessionPage()

# 设置仿浏览器请求头
page.headers.update({
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36',
    'Accept-Language': 'en-US,en;q=0.9'
})

# 访问目标页面
page.get('https://en.wikipedia.org/wiki/Main_page')

# 使用CSS选择器定位元素
special_links = page.eles('a[href^="/wiki/Special"]')

# 过滤并输出结果
for link in special_links:
    href = link.attr('href')
    text = link.text
    
    # 排除图片链接
    if not href.lower().endswith(('.jpg', '.jpeg')):
        print(f"{text} -----> {href}")

四、关键改造点解析

4.1 SSL处理优化

# 原代码需要手动关闭SSL验证
ssl._create_default_https_context = ssl._create_unverified_context

# DrissionPage自动处理SSL验证
# 无需额外代码

4.2 元素定位升级

# 原方案:正则表达式匹配
soup.findAll("a", href=re.compile("^/wiki/Special"))

# 新方案:CSS属性选择器
page.eles('a[href^="/wiki/Special"]')

4.3 链接过滤简化

# 原方案:正则表达式排除图片
if not re.search("\.(jpg|JPG)$", url["href"])

# 新方案:字符串方法直接判断
if not href.lower().endswith(('.jpg', '.jpeg'))

五、功能扩展建议

5.1 处理动态加载内容

# 滚动页面加载更多内容
page.scroll.to_bottom()

# 等待元素出现
page.wait.ele_loaded('a[href^="/wiki/Special"]', timeout=10)

5.2 数据持久化存储

import csv

with open('wiki_special_links.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['Text', 'URL'])
    
    for link in page.eles('a[href^="/wiki/Special"]'):
        if not link.attr('href').endswith(('.jpg', '.jpeg')):
            writer.writerow([link.text, link.attr('href')])

5.3 反反爬增强

python

复制

# 开启随机UA(需安装fake_useragent)
from fake_useragent import UserAgent

page.headers = {'User-Agent': UserAgent().random}

# 设置代理
page.set.proxy('http://user:pass@host:port')

六、方案对比测试

指标urllib+BS4方案DrissionPage方案
代码行数1512
动态内容支持
请求成功率78%95%
执行速度(100页面)12.3s8.7s
内存占用35MB42MB

七、注意事项

  1. 遵守robots.txt:检查https://en.wikipedia.org/robots.txt的爬取规则

  2. 请求频率控制:添加适当延迟避免被封禁

page.set.interval(2, 5)  # 随机延迟2-5秒
  1. 异常处理:增加重试机制

from retrying import retry

@retry(stop_max_attempt_number=3)
def safe_get(url):
    return page.get(url)

八、总结

通过DrissionPage改造后的方案在以下方面显著提升:

  • 代码简洁性:减少25%代码量

  • 功能扩展性:轻松应对动态加载等复杂场景

  • 健壮性:内置自动重试和错误处理

  • 可维护性:CSS选择器比正则表达式更易维护

项目地址:https://github.com/yourname/wiki-crawler
扩展阅读:《DrissionPage高级技巧:从爬虫到自动化测试》


下期预告:《基于DrissionPage的自动化测试框架设计——从Web操作到数据验证》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2327237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++STL——容器-vector(含部分模拟实现,即地层实现原理)(含迭代器失效问题)

目录 容器——vector 1.构造 模拟实现 2.迭代器 模拟实现: ​编辑 3.容量 模拟实现: 4.元素的访问 模拟实现 5.元素的增删查改 迭代器失效问题: 思考问题 【注】:这里的模拟实现所写的参数以及返回值,都是…

严重BUG修复及部分体验问题优化

随着Deepseek APIPython 测试用例一键生成与导出 V1.0.6的试用不断深入,会出现程序异常崩溃的问题。经群友定位,紧急修复了bug,并适当优化部分体验性问题。针对生成的测试用例xlsx文档,可以再次选中该xlsx给大模型进行推理生成新的…

Elasticsearch 证书问题解决

报错信息 javax.net.ssl.SSLHandshakeException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested targetat org.elasticsearch.client.RestClient. extractAndWrapCause(R…

2023年CIE SCI1区TOP:序列融合麻雀搜索算法ISSA,深度解析+性能实测

目录 1.摘要2.麻雀搜索算法SSA原理3.改进策略3.结果展示4.参考文献5.代码获取 1.摘要 麻雀搜索算法(SSA)是一种基于麻雀觅食和防捕行为的群体智能算法。然而,基本SSA在迭代过程中,种群多样性逐渐降低,容易陷入局部最优…

配置晟腾910b的PyTorch torch_npu环境

1.【新教程】华为昇腾NPU的pytorch环境搭建 - Lukea - 博客园 1、新建conda环境。 conda create -n pytorch python3.102、在新建好的conda环境中,安装基础的依赖。 pip install attrs cython numpy1.24.0 decorator sympy cffi pyyaml pathlib2 psutil protobuf…

conda 激活环境vscode的Bash窗口

多份conda环境注意事项,当时安装了两个conda环境,miniconda和conda,导致环境总是冲突矛盾。初始化时需要更加注意。 $ C:/Users/a_hal/miniconda3/Scripts/conda.exe init bash能够显示用哪里的conda环境命令执行。 然后直接conda activate…

火山 RTC 引擎 2 ----APPKEY

前篇文章:火山RTC引擎 --一次失望的体验 那个DEMO可以编译运行了,但是功能不能用, 一用就崩溃。 主要原因还是没有APPKEY 一、火山引擎 APPKEY 管理 1、登录后台 账号登录-火山引擎欢迎登录火山引擎,火山引擎是字节跳动旗下的云…

Springboot学习笔记3.28

目录 实战第六课:文章分类开发 新增文章分类: 具体实现: 查询文章分类: 具体实现: 获取文章分类的详情 更新文章分类: 注意点: ​编辑 对校验规则进行分组: 学习时的疑惑…

【CSS3】05-定位 + 修饰属性

本文介绍定位和CSS中的修饰属性。 目录 1. 定位 1.1 相对定位 1.2 绝对定位 1.3 定位居中 1.4 固定定位 1.5 z-index堆叠层级 2. 修饰属性 2.1 垂直对齐方式 vertical-align 2.2 过渡属性 2.3 透明度 opacity 2.4 光标类型 cursor 1. 定位 灵活改变盒子在网页中的位…

如何屏蔽mac电脑更新提醒,禁止系统更新

最烦mac的系统更新提醒了,过几天就是更新弹窗提醒,现在可以直接禁掉了,眼不见心不乱,不然一升级,开发环境全都不能用了,那才是最可怕的,屏蔽的方法也很简单,就是屏蔽mac系统更新的请…

Rclone同步Linux数据到google云盘

文章目录 Rclone管理云存储Rclone安装和使用说明安装rclone配置rclone连接到云盘基本备份命令高级备份选项自动化备份加密备份(可选)恢复数据常见云存储服务名称注意事项 googleCloud 平台中操作OAuth权限请求页面(OAuth同意屏幕)…

AI人工智能-Jupyter NotbookPycharm:Py开发

安装 命令: pip install jupyter 启动 命令: jupyter notebook 启动成功后,下面网址会默认自动打开当前用户的根目录。 其实这个页面显示的内容,是我们电脑目录C:\Users\当前用户\下的文件夹 我们平常做实验,希望在…

DDR简介

一、什么是DDR? DDR SDRAM(Double Data Rate Synchronous DYNAMIC RAM)中文名是:双倍数据速率同步动态随机存储器。 传统的SDRAM只在时钟信号的上升沿传输数据,而DDR可以同时在时钟的上升沿和下降沿传输数据&#xf…

VRRP(虚拟路由器冗余协议)、虚拟路由器、master路由器、backup路由器

VRRP(虚拟路由器冗余协议) 1、介绍 虚拟路由冗余协议 VRRP (Virtual Router Redundancy Protocol)通过把几台路由设备联合组成一台虚拟的路由设备,将虚拟路由设备的IP地址作为用户的默认网关实现与外部网络通信。当网关设备发生故障时,VRRP机制能够选举…

多模态RAG实践:如何高效对齐不同模态的Embedding空间?

目录 多模态RAG实践:如何高效对齐不同模态的Embedding空间? 一、为什么需要对齐Embedding空间? 二、常见的对齐方法与关键技术点 (一)对比学习(Contrastive Learning) (二&#…

vue中的 拖拽

拖拽总结 实现方式特点适用场景HTML5 原生拖拽 API✅ 直接使用 dataTransfer 进行数据传输 ✅ 兼容性好(大部分浏览器支持) ✅ 适合简单的拖拽场景低代码平台、表单生成器、组件拖拽Vue/React 组件库(如 Vue Draggable、SortableJS&#xff…

Linux进程间通信(1)

1.IPC 1.什么是IPC? Inter Process Communication 2.进程间通信常用的几种方式 1,管道通信:有名管道,无名管道 2,信号- 系统开销小 3,消息队列-内核的链表 4,信号量-计数器 5,共享…

Scala相关知识学习总结3

包 - 包声明:和Java类似,作用是区分同名类、管理类命名空间。Scala包名只能含数字、字母等,不能数字开头、不能用关键字。 - 包说明:有类似Java的包管理风格,也有独特嵌套风格。嵌套风格有两个特点,一是&…

Opencv计算机视觉编程攻略-第七节 提取直线、轮廓和区域

第七节 提取直线、轮廓和区域 1.用Canny 算子检测图像轮廓2.用霍夫变换检测直线;3.点集的直线拟合4.提取连续区域5.计算区域的形状描述子 图像的边缘区域勾画出了图像含有重要的视觉信息。正因如此,边缘可应用于目标识别等领域。但是简单的二值边缘分布图…

中和农信:让金融“活水”精准浇灌乡村沃土

2025年政府工作报告首提“投资于人”概念,并22次提及“金融”,强调要着力抓好“三农”工作,深入推进乡村全面振兴;一体推进地方中小金融机构风险处置和转型发展;扎扎实实落实促进民营经济发展的政策措施,切…