Python爬虫实战:手把手教你如何采集SaaS 定价页历史版本采集!
㊗️本期内容已收录至专栏《Python爬虫实战》持续完善知识体系与项目实战建议先订阅收藏后续查阅更方便㊙️本期爬虫难度指数⭐⭐ (中级)福利一次订阅后专栏内的所有文章可永久免费看持续更新中保底1000(篇)硬核实战内容。全文目录 开篇语0️⃣ 前言Preface1️⃣ 摘要Abstract2️⃣ 背景与需求Why3️⃣ 合规与注意事项必写4️⃣ 技术选型与整体流程What/How5️⃣ 环境准备与依赖安装可复现6️⃣ 核心实现请求层Fetcher7️⃣ 核心实现解析层Parser8️⃣ 数据存储与导出Storage9️⃣ 运行方式与结果展示必写 常见问题与排错老手的坑1️⃣1️⃣ 进阶优化极其加分的工程化操作1️⃣2️⃣ 总结与延伸阅读 文末✅ 专栏持续更新中建议收藏 订阅✅ 互动征集✅ 免责声明 开篇语哈喽各位小伙伴们你们好呀我是【喵手】。运营社区 C站 / 掘金 / 腾讯云 / 阿里云 / 华为云 / 51CTO欢迎大家常来逛逛一起学习一起进步我长期专注Python 爬虫工程化实战主理专栏 《Python爬虫实战》从采集策略到反爬对抗从数据清洗到分布式调度持续输出可复用的方法论与可落地案例。内容主打一个“能跑、能用、能扩展”让数据价值真正做到——抓得到、洗得净、用得上。专栏食用指南建议收藏✅ 入门基础环境搭建 / 请求与解析 / 数据落库✅ 进阶提升登录鉴权 / 动态渲染 / 反爬对抗✅ 工程实战异步并发 / 分布式调度 / 监控与容错✅ 项目落地数据治理 / 可视化分析 / 场景化应用专栏推广时间如果你想系统学爬虫而不是碎片化东拼西凑欢迎订阅专栏《Python爬虫实战》一次订阅后专栏内的所有文章可永久免费阅读持续更新中。订阅后更新会优先推送按目录学习更高效0️⃣ 前言Preface 各位搞数据、做产研的兄弟姐妹们大家好今天我们要做一个极具商业价值的项目用 Python (requestsBeautifulSoupSQLite) 搭建一个自动化的 SaaS 定价监控雷达。我们会定期抓取目标网站的 Pricing 页面把所有的价格、套餐和权益存入数据库。 读完这篇你能获得掌握**时间序列数据Time-Series Data**的采集与本地 SQLite 数据库存储方案。学会提取复杂定价卡片Pricing Cards中的嵌套逻辑周期、价格、功能清单。获得一套可直接部署在服务器上的“防涨价/竞品降价监控”自动化代码骨架。1️⃣ 摘要Abstract本文将开发一个面向 SaaS 软件定价页的周期性监控爬虫。利用requests定期获取静态定价页 HTML通过BeautifulSoup精准抽取套餐名、价格、计费周期与权益列表。数据将附带时间戳scrape_date并持久化至 SQLite 数据库中最终支持导出为saas_pricing_tracker.csv供进一步的历史版本对比Diff与价格趋势分析。2️⃣ 背景与需求Why 为什么要长期监控定价知己知彼竞品搞促销了涨价了削减免费版权益了第一时间感知。成本预算控制对于依赖几十个 SaaS 工具的初创公司记录历史价格能精准预测明年的 IT 支出。防 A/B 测试杀熟很多 SaaS 会根据地理位置或时间做价格 A/B 测试长期采集能戳破这些“小把戏”。 目标字段清单精准入库Product(产品名)如 “Notion”, “Slack”。Plan_Name(套餐名)如 “Free”, “Pro”, “Enterprise”。Price(价格)提取纯数字如9.99特殊值如 “Contact Us” 需容错。Billing_Cycle(计费周期)如 “Monthly”, “Annually”按月/按年。Features(功能点)通常是卡片下方的打勾列表List存为 JSON 字符串。Scrape_Date(抓取日期)核心用于做历史对比的基准维度。3️⃣ 合规与注意事项必写商业竞争归商业咱们写代码的必须干干净净♂️频率极低近乎无感定价页不需要高频抓取一天或一周跑一次就足够了。对目标服务器完全没有压力。尊重 Robots 协议检查/robots.txt。绝大部分 SaaS 极其渴望搜索引擎收录他们的定价页所以通常是完全开放的。不触碰私有协议我们只抓取无需登录、公开展示的“标准刊例价”。如果遇到企业版需要填写表单才能看价格的咱们中立跳过绝不恶意提交假表单去刺探。4️⃣ 技术选型与整体流程What/How️ 选型Requests BeautifulSoup SQLite对于历史记录型项目CSV 其实不太好用每次追加还要考虑去重和比对。Python 自带的轻量级关系型数据库sqlite3简直是神仙搭配无需安装一个单文件就能执行复杂的 SQL 比对查询。 整体执行流程[触发执行] Cron / 任务计划每天定时唤醒 Python 脚本 ⬇️ [采集解析] 请求 Pricing 页面 ➡️ 抽取 3~4 个价格卡片 (Plan Cards) ⬇️ [数据清洗] 分离货币符号、提取纯数字价格将 Features 列表转为 JSON ⬇️ [时间戳入库] 附加 today()执行 INSERT INTO 写入 SQLite 数据库 ⬇️ [对比导出] 选出昨日与今日数据进行 Diff导出 CSV 或画出图表5️⃣ 环境准备与依赖安装可复现推荐 Python 3.9。sqlite3和json是内置库无需安装。 依赖安装pipinstallrequests beautifulsoup4 pandas matplotlib 项目结构saas_monitor_project/ ├── pricing_spider.py # 爬虫与入库逻辑 ├── pricing_history.db # SQLite 数据库自动生成 └── exports/ # 存放导出的 CSV 或图表6️⃣ 核心实现请求层Fetcher就算一天只请求一次也得伪装好。因为很多 SaaS 用了 Cloudflare 防护裸奔的requests会被直接拦截。importrequestsfromrequests.adaptersimportHTTPAdapterfromurllib3.util.retryimportRetrydefget_html(url):带基础防拦截的请求sessionrequests.Session()# 模拟真实浏览器增加一些看似玄学的 Header实测有效减少 403session.headers.update({User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36,Accept:text/html,application/xhtmlxml,application/xml;q0.9,image/avif,image/webp,*/*;q0.8,Accept-Language:en-US,en;q0.5# 尽量拿英文报价})retriesRetry(total3,backoff_factor2,status_forcelist[403,429,500,502,503,504])session.mount(https://,HTTPAdapter(max_retriesretries))try:respsession.get(url,timeout15)resp.raise_for_status()returnresp.textexceptExceptionase:print(f❌ 目标站点防守严密或宕机 [{url}]:{e})returnNone7️⃣ 核心实现解析层Parser这里我们要处理一个经典的前端结构卡片Cards。(注以下选择器基于常见的 Bootstrap/Tailwind 定价卡片编写实战中需按F12对照目标网站修改)frombs4importBeautifulSoupimportjsonfromdatetimeimportdatetime TARGET_PRODUCTMockSaaS_Prodefparse_pricing_cards(html):ifnothtml:return[]soupBeautifulSoup(html,html.parser)plans_data[]# 假设每个价格档位包裹在 classpricing-card 的 div 中cardssoup.select(.pricing-card)today_strdatetime.now().strftime(%Y-%m-%d)forcardincards:try:# 1. 套餐名 (Pro / Team / Enterprise)plan_namecard.select_one(.plan-title).text.strip()# 2. 价格 (需要剔除 $ 符号和额外文本)price_rawcard.select_one(.price-amount).text.strip()# 简单清洗只保留数字和点如果是 Custom 联系销售则设为 -1price.join(cforcinprice_rawifc.isdigit()orc.)ifprice_rawelse-1.0pricefloat(price)ifpriceelse-1.0# 3. 计费周期 (/month or /year)cycle_tagcard.select_one(.billing-cycle)billing_cyclecycle_tag.text.strip().replace(/,)ifcycle_tagelseMonthly# 4. 权益点 (把所有打勾的 li 文本提取出来)feature_itemscard.select(ul.features-list li)features[li.text.strip()forliinfeature_itemsifli.text.strip()]plans_data.append({Product:TARGET_PRODUCT,Plan_Name:plan_name,Price:price,Billing_Cycle:billing_cycle,Features:json.dumps(features,ensure_asciiFalse),# 转为 JSON 字符串存入 DBScrape_Date:today_str})exceptExceptionase:print(f⚠️ 解析单个卡片时发生异常:{e})continuereturnplans_data8️⃣ 数据存储与导出Storage这里展现真正的工程实力我们用 SQLite 建表通过复合主键防止同一天重复抓取。importsqlite3importpandasaspdimportos DB_NAMEpricing_history.dbdefinit_db():初始化 SQLite 数据库与表结构connsqlite3.connect(DB_NAME)cursorconn.cursor()# 创建表注意联合唯一索引 (Product, Plan_Name, Scrape_Date) 防止当天重复插入cursor.execute( CREATE TABLE IF NOT EXISTS saas_pricing ( id INTEGER PRIMARY KEY AUTOINCREMENT, product TEXT, plan_name TEXT, price REAL, billing_cycle TEXT, features TEXT, scrape_date TEXT, UNIQUE(product, plan_name, scrape_date) ) )conn.commit()conn.close()defsave_to_db(data_list):将当天的抓取结果写入数据库ifnotdata_list:returninit_db()connsqlite3.connect(DB_NAME)cursorconn.cursor()success_count0foritemindata_list:try:cursor.execute( INSERT INTO saas_pricing (product, plan_name, price, billing_cycle, features, scrape_date) VALUES (?, ?, ?, ?, ?, ?) ,(item[Product],item[Plan_Name],item[Price],item[Billing_Cycle],item[Features],item[Scrape_Date]))success_count1exceptsqlite3.IntegrityError:# 捕获 UNIQUE 约束异常说明今天已经抓过了print(f⏭️{item[Plan_Name]}今日数据已存在自动跳过。)conn.commit()conn.close()print(f 数据库入库完成成功新增{success_count}条记录。)defexport_to_csv():导出全部历史数据为带有英文文件名的 CSVconnsqlite3.connect(DB_NAME)dfpd.read_sql_query(SELECT * FROM saas_pricing ORDER BY scrape_date DESC, price ASC,conn)conn.close()os.makedirs(exports,exist_okTrue)export_pathos.path.join(exports,saas_pricing_tracker.csv)# 严格使用英文文件名df.to_csv(export_path,indexFalse,encodingutf-8-sig)print(f 历史完整数据已导出至:{export_path})9️⃣ 运行方式与结果展示必写主控逻辑。每次运行都会拉取最新网页并记录“快照”。# 假设的目标 URLTARGET_URLhttps://mock-saas-company.com/pricingdefmain():print(f SaaS 定价雷达启动目标探测:{TARGET_URL})# 1. 抓取与解析htmlget_html(TARGET_URL)pricing_dataparse_pricing_cards(html)ifpricing_data:print(f✅ 成功捕获{len(pricing_data)}个价格档位。)# 2. 持久化入库save_to_db(pricing_data)# 3. 导出最新 CSVexport_to_csv()else:print( 抓取失败或页面结构发生变动)if__name____main__:# main()pass 输出的 CSV 示例 (saas_pricing_tracker.csv)productplan_namepricebilling_cyclefeaturesscrape_dateMockSaaS_ProStarter15.0Monthly[3 Users, 10GB Storage]2023-11-01MockSaaS_ProBusiness49.0Monthly[10 Users, Custom Domain]2023-11-01MockSaaS_ProBusiness59.0Monthly[10 Users, Custom Domain]2023-11-05(注意看这里11月5日涨价了) 常见问题与排错老手的坑价格是通过 JS 切换的按月/按年按钮病因很多网站点击“按年付费”DOM 里的价格会通过 JS 动态变成打折价。解法不要头铁去模拟点击。直接在 HTML 源码或者script typeapplication/json里搜索通常包含了完整价目表的数据源。如果实在不行上Playwright控制无头浏览器点击。杀熟/按 IP 定价Geo-Pricing病因同样的 SaaS你用美国 IP 和印度 IP 访问价格可能差一倍。解法如果在跨国企业做竞调务必在requests里绑定固定区域的代理 IP (proxies{https: ...})确保时间序列的数据是在同一地理维度对比的。HTML 抓到空壳返回 403 Cloudflare 盾解法放弃单纯的requests改用curl_cffi或tls_client它们能完美伪装浏览器的 TLS 指纹轻松穿透 CF 盾。1️⃣1️⃣ 进阶优化极其加分的工程化操作我们来点“黑科技”利用 Python 生成一张高大上的历史价格趋势图Price Trend Chart。注意图表元素必须严格使用英文标签importpandasaspdimportmatplotlib.pyplotaspltimportsqlite3defplot_price_trend():绘制 SaaS 价格变动趋势图 (English Labels Required)connsqlite3.connect(DB_NAME)# 读取数据并转换日期格式dfpd.read_sql_query(SELECT plan_name, price, scrape_date FROM saas_pricing WHERE price 0,conn)df[scrape_date]pd.to_datetime(df[scrape_date])# 画图配置plt.figure(figsize(10,6))forplanindf[plan_name].unique():plan_datadf[df[plan_name]plan].sort_values(scrape_date)# 英文绘图标签plt.plot(plan_data[scrape_date],plan_data[price],markero,labelfPlan:{plan})plt.title(SaaS Historical Pricing Trend Analysis,fontsize16)plt.xlabel(Scrape Date (Timeline),fontsize12)plt.ylabel(Price in USD ($),fontsize12)plt.legend()plt.grid(True,linestyle--,alpha0.6)# 保存图片并使用英文命名plt.savefig(exports/saas_pricing_trend_chart.png,bbox_inchestight)print( Trend Chart generated successfully at: exports/saas_pricing_trend_chart.png)conn.close()配合 Linux 的crontab例如0 9 * * * python3 pricing_spider.py你就有了一个每天上午 9 点自动收集情报并绘图的机器人1️⃣2️⃣ 总结与延伸阅读 顺利收工通过这个项目我们不仅掌握了爬虫的基本功更学习了如何将“非结构化的网页”转换为**“具备时间序列特征的 SQLite 资产”**。这种长期跟踪思维是初级数据搬运工向高级数据工程师跨越的必经之路。接下来你可以尝试接入Server酱或企业微信机器人写一段 SQL每次入库后判断今日价格 ! 昨日价格如果成立立刻给你发一条“⚠️ 警告竞争对手 X 悄悄改价格了” 简直不要太帅 文末好啦以上就是本期的全部内容啦如果你在实践过程中遇到任何疑问欢迎在评论区留言交流我看到都会尽量回复咱们下期见小伙伴们在批阅的过程中如果觉得文章不错欢迎点赞、收藏、关注哦三连就是对我写作道路上最好的鼓励与支持❤️✅ 专栏持续更新中建议收藏 订阅墙裂推荐订阅专栏 《Python爬虫实战》本专栏秉承着以“入门 → 进阶 → 工程化 → 项目落地”的路线持续更新争取让每一期内容都做到✅ 讲得清楚原理✅ 跑得起来代码✅ 用得上场景✅ 扛得住工程化想系统提升的小伙伴强烈建议先订阅专栏 《Python爬虫实战》再按目录大纲顺序学习效率十倍上升✅ 互动征集想让我把【某站点/某反爬/某验证码/某分布式方案】等写成某期实战评论区留言告诉我你的需求我会优先安排实现(更新)哒~⭐️ 若喜欢我就请关注我叭更新不迷路⭐️ 若对你有用就请点赞支持一下叭给我一点点动力⭐️ 若有疑问就请评论留言告诉我叭我会补坑 更新迭代✅ 免责声明本文爬虫思路、相关技术和代码仅用于学习参考对阅读本文后的进行爬虫行为的用户本作者不承担任何法律责任。使用或者参考本项目即表示您已阅读并同意以下条款合法使用 不得将本项目用于任何违法、违规或侵犯他人权益的行为包括但不限于网络攻击、诈骗、绕过身份验证、未经授权的数据抓取等。风险自负 任何因使用本项目而产生的法律责任、技术风险或经济损失由使用者自行承担项目作者不承担任何形式的责任。禁止滥用 不得将本项目用于违法牟利、黑产活动或其他不当商业用途。使用或者参考本项目即视为同意上述条款,即 “谁使用谁负责” 。如不同意请立即停止使用并删除本项目。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2426745.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!