Puppeteer 浏览器自动化操作工具

news2026/2/25 21:43:27

pyppeteer 是 Python 版本的 Puppeteer，而 Puppeteer 是由 Google 开发的一个 Node.js 库，用于控制 Chrome 或 Chromium 浏览器。pyppeteer 允许你通过 Python 代码自动化操作浏览器，实现网页爬取、自动化测试、生成截图或 PDF 等功能。

核心功能

网页自动化操作：模拟用户在浏览器中的各种行为（点击、输入、滚动等）。
网页内容爬取：获取动态渲染的网页内容（如 JavaScript 加载的数据）。
生成截图/PDF：将网页保存为图片或 PDF 文件。
性能分析：分析网页加载性能，生成性能报告。
自动化测试：模拟用户交互，测试网页功能。

与其他工具的对比

工具	语言	特点
Selenium	多语言	需要浏览器驱动（如 ChromeDriver），功能全面但配置复杂。
BeautifulSoup	Python	仅处理静态 HTML，无法解析动态内容。
Scrapy	Python	高效的爬虫框架，但无法处理 JavaScript 渲染的内容。
pyppeteer	Python	直接控制浏览器，无需额外驱动，适合处理复杂动态页面。

基本使用流程

1. 安装

pip install pyppeteer

首次运行时，pyppeteer 会自动下载 Chromium 浏览器（约 100MB）。

2. 简单示例：打开网页并截图

import asyncio
from pyppeteer import launch

async def main():
    # 启动浏览器
    browser = await launch()
    # 创建新页面
    page = await browser.newPage()
    # 导航到目标 URL
    await page.goto('https://example.com')
    # 截图
    await page.screenshot({'path': 'example.png'})
    # 关闭浏览器
    await browser.close()

# 运行异步函数
asyncio.get_event_loop().run_until_complete(main())

3. 示例：爬取动态内容

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://example.com')
    
    # 等待特定元素加载完成
    await page.waitForSelector('.dynamic-content')
    
    # 获取元素文本
    content = await page.querySelectorEval('.dynamic-content', 'el => el.textContent')
    print(content)
    
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

高级用法

1. 模拟用户交互

# 点击按钮
await page.click('button.login')

# 输入文本
await page.type('input[name="username"]', 'your_username')

# 提交表单
await page.keyboard.press('Enter')

2. 处理弹窗

page.on('dialog', lambda dialog: asyncio.ensure_future(handle_dialog(dialog)))

async def handle_dialog(dialog):
    print(dialog.message)
    await dialog.accept()  # 或 .dismiss()

3. 执行 JavaScript 代码

# 执行 JS 函数
result = await page.evaluate('() => window.innerWidth')
print(f"浏览器宽度: {result}px")

# 获取元素属性
attr = await page.querySelectorEval('img', 'el => el.src')

4. 生成 PDF

await page.pdf({'path': 'page.pdf', 'format': 'A4'})

注意事项

异步编程：pyppeteer 基于 asyncio，所有操作都是异步的，需熟悉 async/await 语法。
性能考虑：启动浏览器开销较大，建议批量处理任务。
反爬机制：频繁请求可能触发网站反爬策略，可设置随机 User-Agent 或延时。
资源释放：确保调用 browser.close() 释放浏览器资源。

应用场景

网页爬虫：抓取动态渲染的内容（如单页应用）。
自动化测试：模拟用户行为，测试网站功能。
生成报告：将网页内容导出为 PDF 或图片。
监控网站：定期检查网站内容变化。
性能优化：分析页面加载时间，识别性能瓶颈。

Puppeteer 浏览器自动化操作工具

核心功能

与其他工具的对比

基本使用流程

1. 安装

2. 简单示例：打开网页并截图

3. 示例：爬取动态内容

高级用法

1. 模拟用户交互

2. 处理弹窗

3. 执行 JavaScript 代码

4. 生成 PDF

注意事项

应用场景

相关工具

相关文章

cmd里可以使用npm,vscode里使用npm 报错

JAVA开发工具延长方案

CSS 浮动（Float）及其应用

CC53.【C++ Cont】一维前缀和

YouTube视频字幕转成文章算重复内容吗？

网络学习-利用reactor实现http请求（六）

【IC_Design】跨时钟域的寄存器更新后锁存

Java微服务架构：Spring Cloud全栈指南，附最新Demo源码，可独立运行！

使用LLaMA-Factory微调ollama中的大模型（一）------家用电脑安装LLaMA-Factory工具

支持向量机（SVM）：分类与回归的数学之美

人工智能+：职业价值的重构与技能升级

JVM部分内容

python-leetcode 68.有效的括号

NLP学习路线图（四）：Python编程语言

Serverless爬虫架构揭秘：动态IP、冷启动与成本优化

从单体到分布式：深入解析Data Mesh架构及其应用场景与价值

AI大模型ms-swift框架实战指南（十三）：Agent智能体能力构建指南

LLM最后怎么输出值解码语言模型：从权重到概率的奥秘

Leetcode百题斩-回溯

超小多模态视觉语言模型MiniMind-V 训练