Python爬虫实战:手把手教你如何采集SaaS 定价页历史版本采集!

news2026/3/19 15:05:24
㊗️本期内容已收录至专栏《Python爬虫实战》持续完善知识体系与项目实战建议先订阅收藏后续查阅更方便㊙️本期爬虫难度指数⭐⭐ (中级)福利一次订阅后专栏内的所有文章可永久免费看持续更新中保底1000(篇)硬核实战内容。全文目录 开篇语0️⃣ 前言Preface1️⃣ 摘要Abstract2️⃣ 背景与需求Why3️⃣ 合规与注意事项必写4️⃣ 技术选型与整体流程What/How5️⃣ 环境准备与依赖安装可复现6️⃣ 核心实现请求层Fetcher7️⃣ 核心实现解析层Parser8️⃣ 数据存储与导出Storage9️⃣ 运行方式与结果展示必写 常见问题与排错老手的坑1️⃣1️⃣ 进阶优化极其加分的工程化操作1️⃣2️⃣ 总结与延伸阅读 文末✅ 专栏持续更新中建议收藏 订阅✅ 互动征集✅ 免责声明 开篇语哈喽各位小伙伴们你们好呀我是【喵手】。运营社区 C站 / 掘金 / 腾讯云 / 阿里云 / 华为云 / 51CTO欢迎大家常来逛逛一起学习一起进步我长期专注Python 爬虫工程化实战主理专栏 《Python爬虫实战》从采集策略到反爬对抗从数据清洗到分布式调度持续输出可复用的方法论与可落地案例。内容主打一个“能跑、能用、能扩展”让数据价值真正做到——抓得到、洗得净、用得上。专栏食用指南建议收藏✅ 入门基础环境搭建 / 请求与解析 / 数据落库✅ 进阶提升登录鉴权 / 动态渲染 / 反爬对抗✅ 工程实战异步并发 / 分布式调度 / 监控与容错✅ 项目落地数据治理 / 可视化分析 / 场景化应用专栏推广时间如果你想系统学爬虫而不是碎片化东拼西凑欢迎订阅专栏《Python爬虫实战》一次订阅后专栏内的所有文章可永久免费阅读持续更新中。订阅后更新会优先推送按目录学习更高效0️⃣ 前言Preface 各位搞数据、做产研的兄弟姐妹们大家好今天我们要做一个极具商业价值的项目用 Python (requestsBeautifulSoupSQLite) 搭建一个自动化的 SaaS 定价监控雷达。我们会定期抓取目标网站的 Pricing 页面把所有的价格、套餐和权益存入数据库。 读完这篇你能获得掌握**时间序列数据Time-Series Data**的采集与本地 SQLite 数据库存储方案。学会提取复杂定价卡片Pricing Cards中的嵌套逻辑周期、价格、功能清单。获得一套可直接部署在服务器上的“防涨价/竞品降价监控”自动化代码骨架。1️⃣ 摘要Abstract本文将开发一个面向 SaaS 软件定价页的周期性监控爬虫。利用requests定期获取静态定价页 HTML通过BeautifulSoup精准抽取套餐名、价格、计费周期与权益列表。数据将附带时间戳scrape_date并持久化至 SQLite 数据库中最终支持导出为saas_pricing_tracker.csv供进一步的历史版本对比Diff与价格趋势分析。2️⃣ 背景与需求Why 为什么要长期监控定价知己知彼竞品搞促销了涨价了削减免费版权益了第一时间感知。成本预算控制对于依赖几十个 SaaS 工具的初创公司记录历史价格能精准预测明年的 IT 支出。防 A/B 测试杀熟很多 SaaS 会根据地理位置或时间做价格 A/B 测试长期采集能戳破这些“小把戏”。 目标字段清单精准入库Product(产品名)如 “Notion”, “Slack”。Plan_Name(套餐名)如 “Free”, “Pro”, “Enterprise”。Price(价格)提取纯数字如9.99特殊值如 “Contact Us” 需容错。Billing_Cycle(计费周期)如 “Monthly”, “Annually”按月/按年。Features(功能点)通常是卡片下方的打勾列表List存为 JSON 字符串。Scrape_Date(抓取日期)核心用于做历史对比的基准维度。3️⃣ 合规与注意事项必写商业竞争归商业咱们写代码的必须干干净净‍♂️频率极低近乎无感定价页不需要高频抓取一天或一周跑一次就足够了。对目标服务器完全没有压力。尊重 Robots 协议检查/robots.txt。绝大部分 SaaS 极其渴望搜索引擎收录他们的定价页所以通常是完全开放的。不触碰私有协议我们只抓取无需登录、公开展示的“标准刊例价”。如果遇到企业版需要填写表单才能看价格的咱们中立跳过绝不恶意提交假表单去刺探。4️⃣ 技术选型与整体流程What/How️ 选型Requests BeautifulSoup SQLite对于历史记录型项目CSV 其实不太好用每次追加还要考虑去重和比对。Python 自带的轻量级关系型数据库sqlite3简直是神仙搭配无需安装一个单文件就能执行复杂的 SQL 比对查询。 整体执行流程[触发执行] Cron / 任务计划每天定时唤醒 Python 脚本 ⬇️ [采集解析] 请求 Pricing 页面 ➡️ 抽取 3~4 个价格卡片 (Plan Cards) ⬇️ [数据清洗] 分离货币符号、提取纯数字价格将 Features 列表转为 JSON ⬇️ [时间戳入库] 附加 today()执行 INSERT INTO 写入 SQLite 数据库 ⬇️ [对比导出] 选出昨日与今日数据进行 Diff导出 CSV 或画出图表5️⃣ 环境准备与依赖安装可复现推荐 Python 3.9。sqlite3和json是内置库无需安装。 依赖安装pipinstallrequests beautifulsoup4 pandas matplotlib 项目结构saas_monitor_project/ ├── pricing_spider.py # 爬虫与入库逻辑 ├── pricing_history.db # SQLite 数据库自动生成 └── exports/ # 存放导出的 CSV 或图表6️⃣ 核心实现请求层Fetcher就算一天只请求一次也得伪装好。因为很多 SaaS 用了 Cloudflare 防护裸奔的requests会被直接拦截。importrequestsfromrequests.adaptersimportHTTPAdapterfromurllib3.util.retryimportRetrydefget_html(url):带基础防拦截的请求sessionrequests.Session()# 模拟真实浏览器增加一些看似玄学的 Header实测有效减少 403session.headers.update({User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36,Accept:text/html,application/xhtmlxml,application/xml;q0.9,image/avif,image/webp,*/*;q0.8,Accept-Language:en-US,en;q0.5# 尽量拿英文报价})retriesRetry(total3,backoff_factor2,status_forcelist[403,429,500,502,503,504])session.mount(https://,HTTPAdapter(max_retriesretries))try:respsession.get(url,timeout15)resp.raise_for_status()returnresp.textexceptExceptionase:print(f❌ 目标站点防守严密或宕机 [{url}]:{e})returnNone7️⃣ 核心实现解析层Parser这里我们要处理一个经典的前端结构卡片Cards。(注以下选择器基于常见的 Bootstrap/Tailwind 定价卡片编写实战中需按F12对照目标网站修改)frombs4importBeautifulSoupimportjsonfromdatetimeimportdatetime TARGET_PRODUCTMockSaaS_Prodefparse_pricing_cards(html):ifnothtml:return[]soupBeautifulSoup(html,html.parser)plans_data[]# 假设每个价格档位包裹在 classpricing-card 的 div 中cardssoup.select(.pricing-card)today_strdatetime.now().strftime(%Y-%m-%d)forcardincards:try:# 1. 套餐名 (Pro / Team / Enterprise)plan_namecard.select_one(.plan-title).text.strip()# 2. 价格 (需要剔除 $ 符号和额外文本)price_rawcard.select_one(.price-amount).text.strip()# 简单清洗只保留数字和点如果是 Custom 联系销售则设为 -1price.join(cforcinprice_rawifc.isdigit()orc.)ifprice_rawelse-1.0pricefloat(price)ifpriceelse-1.0# 3. 计费周期 (/month or /year)cycle_tagcard.select_one(.billing-cycle)billing_cyclecycle_tag.text.strip().replace(/,)ifcycle_tagelseMonthly# 4. 权益点 (把所有打勾的 li 文本提取出来)feature_itemscard.select(ul.features-list li)features[li.text.strip()forliinfeature_itemsifli.text.strip()]plans_data.append({Product:TARGET_PRODUCT,Plan_Name:plan_name,Price:price,Billing_Cycle:billing_cycle,Features:json.dumps(features,ensure_asciiFalse),# 转为 JSON 字符串存入 DBScrape_Date:today_str})exceptExceptionase:print(f⚠️ 解析单个卡片时发生异常:{e})continuereturnplans_data8️⃣ 数据存储与导出Storage这里展现真正的工程实力我们用 SQLite 建表通过复合主键防止同一天重复抓取。importsqlite3importpandasaspdimportos DB_NAMEpricing_history.dbdefinit_db():初始化 SQLite 数据库与表结构connsqlite3.connect(DB_NAME)cursorconn.cursor()# 创建表注意联合唯一索引 (Product, Plan_Name, Scrape_Date) 防止当天重复插入cursor.execute( CREATE TABLE IF NOT EXISTS saas_pricing ( id INTEGER PRIMARY KEY AUTOINCREMENT, product TEXT, plan_name TEXT, price REAL, billing_cycle TEXT, features TEXT, scrape_date TEXT, UNIQUE(product, plan_name, scrape_date) ) )conn.commit()conn.close()defsave_to_db(data_list):将当天的抓取结果写入数据库ifnotdata_list:returninit_db()connsqlite3.connect(DB_NAME)cursorconn.cursor()success_count0foritemindata_list:try:cursor.execute( INSERT INTO saas_pricing (product, plan_name, price, billing_cycle, features, scrape_date) VALUES (?, ?, ?, ?, ?, ?) ,(item[Product],item[Plan_Name],item[Price],item[Billing_Cycle],item[Features],item[Scrape_Date]))success_count1exceptsqlite3.IntegrityError:# 捕获 UNIQUE 约束异常说明今天已经抓过了print(f⏭️{item[Plan_Name]}今日数据已存在自动跳过。)conn.commit()conn.close()print(f 数据库入库完成成功新增{success_count}条记录。)defexport_to_csv():导出全部历史数据为带有英文文件名的 CSVconnsqlite3.connect(DB_NAME)dfpd.read_sql_query(SELECT * FROM saas_pricing ORDER BY scrape_date DESC, price ASC,conn)conn.close()os.makedirs(exports,exist_okTrue)export_pathos.path.join(exports,saas_pricing_tracker.csv)# 严格使用英文文件名df.to_csv(export_path,indexFalse,encodingutf-8-sig)print(f 历史完整数据已导出至:{export_path})9️⃣ 运行方式与结果展示必写主控逻辑。每次运行都会拉取最新网页并记录“快照”。# 假设的目标 URLTARGET_URLhttps://mock-saas-company.com/pricingdefmain():print(f SaaS 定价雷达启动目标探测:{TARGET_URL})# 1. 抓取与解析htmlget_html(TARGET_URL)pricing_dataparse_pricing_cards(html)ifpricing_data:print(f✅ 成功捕获{len(pricing_data)}个价格档位。)# 2. 持久化入库save_to_db(pricing_data)# 3. 导出最新 CSVexport_to_csv()else:print( 抓取失败或页面结构发生变动)if__name____main__:# main()pass 输出的 CSV 示例 (saas_pricing_tracker.csv)productplan_namepricebilling_cyclefeaturesscrape_dateMockSaaS_ProStarter15.0Monthly[3 Users, 10GB Storage]2023-11-01MockSaaS_ProBusiness49.0Monthly[10 Users, Custom Domain]2023-11-01MockSaaS_ProBusiness59.0Monthly[10 Users, Custom Domain]2023-11-05(注意看这里11月5日涨价了) 常见问题与排错老手的坑价格是通过 JS 切换的按月/按年按钮病因很多网站点击“按年付费”DOM 里的价格会通过 JS 动态变成打折价。解法不要头铁去模拟点击。直接在 HTML 源码或者script typeapplication/json里搜索通常包含了完整价目表的数据源。如果实在不行上Playwright控制无头浏览器点击。杀熟/按 IP 定价Geo-Pricing病因同样的 SaaS你用美国 IP 和印度 IP 访问价格可能差一倍。解法如果在跨国企业做竞调务必在requests里绑定固定区域的代理 IP (proxies{https: ...})确保时间序列的数据是在同一地理维度对比的。HTML 抓到空壳返回 403 Cloudflare 盾解法放弃单纯的requests改用curl_cffi或tls_client它们能完美伪装浏览器的 TLS 指纹轻松穿透 CF 盾。1️⃣1️⃣ 进阶优化极其加分的工程化操作我们来点“黑科技”利用 Python 生成一张高大上的历史价格趋势图Price Trend Chart。注意图表元素必须严格使用英文标签importpandasaspdimportmatplotlib.pyplotaspltimportsqlite3defplot_price_trend():绘制 SaaS 价格变动趋势图 (English Labels Required)connsqlite3.connect(DB_NAME)# 读取数据并转换日期格式dfpd.read_sql_query(SELECT plan_name, price, scrape_date FROM saas_pricing WHERE price 0,conn)df[scrape_date]pd.to_datetime(df[scrape_date])# 画图配置plt.figure(figsize(10,6))forplanindf[plan_name].unique():plan_datadf[df[plan_name]plan].sort_values(scrape_date)# 英文绘图标签plt.plot(plan_data[scrape_date],plan_data[price],markero,labelfPlan:{plan})plt.title(SaaS Historical Pricing Trend Analysis,fontsize16)plt.xlabel(Scrape Date (Timeline),fontsize12)plt.ylabel(Price in USD ($),fontsize12)plt.legend()plt.grid(True,linestyle--,alpha0.6)# 保存图片并使用英文命名plt.savefig(exports/saas_pricing_trend_chart.png,bbox_inchestight)print( Trend Chart generated successfully at: exports/saas_pricing_trend_chart.png)conn.close()配合 Linux 的crontab例如0 9 * * * python3 pricing_spider.py你就有了一个每天上午 9 点自动收集情报并绘图的机器人1️⃣2️⃣ 总结与延伸阅读 顺利收工通过这个项目我们不仅掌握了爬虫的基本功更学习了如何将“非结构化的网页”转换为**“具备时间序列特征的 SQLite 资产”**。这种长期跟踪思维是初级数据搬运工向高级数据工程师跨越的必经之路。接下来你可以尝试接入Server酱或企业微信机器人写一段 SQL每次入库后判断今日价格 ! 昨日价格如果成立立刻给你发一条“⚠️ 警告竞争对手 X 悄悄改价格了” 简直不要太帅 文末好啦以上就是本期的全部内容啦如果你在实践过程中遇到任何疑问欢迎在评论区留言交流我看到都会尽量回复咱们下期见小伙伴们在批阅的过程中如果觉得文章不错欢迎点赞、收藏、关注哦三连就是对我写作道路上最好的鼓励与支持❤️✅ 专栏持续更新中建议收藏 订阅墙裂推荐订阅专栏 《Python爬虫实战》本专栏秉承着以“入门 → 进阶 → 工程化 → 项目落地”的路线持续更新争取让每一期内容都做到✅ 讲得清楚原理✅ 跑得起来代码✅ 用得上场景✅ 扛得住工程化想系统提升的小伙伴强烈建议先订阅专栏 《Python爬虫实战》再按目录大纲顺序学习效率十倍上升✅ 互动征集想让我把【某站点/某反爬/某验证码/某分布式方案】等写成某期实战评论区留言告诉我你的需求我会优先安排实现(更新)哒~⭐️ 若喜欢我就请关注我叭更新不迷路⭐️ 若对你有用就请点赞支持一下叭给我一点点动力⭐️ 若有疑问就请评论留言告诉我叭我会补坑 更新迭代✅ 免责声明本文爬虫思路、相关技术和代码仅用于学习参考对阅读本文后的进行爬虫行为的用户本作者不承担任何法律责任。使用或者参考本项目即表示您已阅读并同意以下条款合法使用 不得将本项目用于任何违法、违规或侵犯他人权益的行为包括但不限于网络攻击、诈骗、绕过身份验证、未经授权的数据抓取等。风险自负 任何因使用本项目而产生的法律责任、技术风险或经济损失由使用者自行承担项目作者不承担任何形式的责任。禁止滥用 不得将本项目用于违法牟利、黑产活动或其他不当商业用途。使用或者参考本项目即视为同意上述条款,即 “谁使用谁负责” 。如不同意请立即停止使用并删除本项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2426745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…