Python 爬虫高级实战:AI 智能解析复杂网页内容

news2026/5/9 19:39:57
前言现代网页大量采用 JavaScript 动态渲染、异步接口混淆、HTML 结构碎片化、标签无规律嵌套、反爬混淆节点、加密参数嵌入页面等设计传统爬虫依赖 Xpath、BeautifulSoup 固定节点定位的解析方式极易因页面小幅改版直接失效部分网站采用乱序 class 名、随机 id、无语义标签、布局伪装节点人工编写解析规则耗时久、维护成本极高、通用性极差。AI 智能解析复杂网页内容依托大语言模型与网页语义理解能力脱离固定 XPath、CSS 选择器依赖基于网页全文文本与 DOM 结构做语义抽取、字段识别、结构化整理、自动适配页面改版能够智能提取标题、时间、作者、正文、价格、规格、列表数据等核心字段适配混乱结构、动态渲染、混淆布局的复杂网页实现一套解析逻辑适配多站点、免人工频繁改规则是高阶爬虫架构中替代传统规则解析的核心能力。本文覆盖网页预处理、DOM 精简降噪、本地大模型私有化部署、API 大模型调用、AI 结构化数据抽取、复杂列表智能解析、分页内容批量提取、解析结果校验、缓存降本、爬虫与 AI 解析全链路封装实战附带完整可运行代码、分层原理拆解、配置模板与生产级优化方案无需人工写选择器即可完成复杂网页数据抓取。本文涉及核心工具与官方文档超链接可直接跳转查阅LangChain 官方文档大模型应用开发编排框架BeautifulSoup4 官方文档网页 DOM 清洗与精简Ollama 官方文档本地私有化大模型一键部署工具Requests 官方文档网页源码请求基础库Llama 3 模型介绍轻量开源大解析模型OpenAI 接口文档通用大模型标准调用协议一、复杂网页传统解析痛点与 AI 解析优势1.1 传统固定规则解析核心痛点网页轻微改版、节点顺序变动、class/id 随机生成解析规则直接失效页面标签嵌套混乱、无统一语义结构人工编写 XPath 成本极高动态渲染网页 DOM 冗余节点多筛选目标字段难度大多同类型站点结构不一致无法复用解析代码每个站点单独维护规则混淆标签、广告节点、空节点干扰严重传统规则难以精准过滤。1.2 AI 智能解析核心优势语义化抽取不依赖标签位置基于文本语义自动识别标题、正文、时间、价格等字段结构自适应页面小幅改版不影响解析效果无需频繁修改代码规则多站点通用同一套提示词与解析逻辑适配同行业数十个异构网页自动降噪智能过滤广告、导航栏、底部冗余、空节点、混淆无用文本结构化输出直接返回 JSON 标准格式数据无需二次拆分处理私有化部署本地开源大模型离线解析无接口调用费用、无数据外泄风险。1.3 AI 爬虫解析整体流程爬虫请求获取网页原始 HTMLDOM 清洗、去冗余、过滤广告、精简节点文本构造标准化解析提示词传入精简后网页内容调用本地 / 云端大模型做语义抽取解析返回 JSON 结构化数据数据校验、格式清洗、入库存储增加缓存机制相同网页避免重复调用大模型降低耗时与资源消耗。二、环境依赖安装与基础组件准备2.1 安装 Python 依赖库bash运行pip install requests beautifulsoup4 langchain ollama json5json5兼容大模型返回非严格 JSON 格式自动容错解析langchain统一封装大模型调用、提示词模板、输出解析器ollama本地大模型一键调用客户端beautifulsoup4网页 DOM 清洗、降噪、精简文本。2.2 Ollama 本地大模型部署Ollama 支持 Linux/Windows/macOS 全平台无需复杂环境配置一条命令即可部署开源大模型适配网页文本解析场景。安装 Ollama 服务并启动后台进程拉取轻量解析专用模型bash运行ollama pull llama3:8b验证模型可用bash运行ollama run llama3:8b本地模型部署完成后默认提供本地接口地址Python 代码可直接调用完全离线运行无需外网。三、网页 DOM 清洗与精简降噪核心实现3.1 清洗原理原始网页 HTML 包含大量脚本标签、样式标签、广告模块、导航栏、侧边栏、空标签、注释内容直接送入大模型会造成文本冗余、上下文浪费、解析精度下降、Token 消耗过高。需要提前做 DOM 预处理只保留正文相关节点剔除无关噪声。3.2 网页清洗精简完整工具类代码python运行from bs4 import BeautifulSoup import re class HtmlCleaner: # 需移除的无用标签 REMOVE_TAGS [script, style, iframe, noscript, header, footer, nav, aside] # 广告、冗余关键词匹配 NOISE_KEYWORDS [广告, 推荐, 版权所有, 返回顶部, 关注我们, 公众号] staticmethod def clean_html(html_text: str) - str: 网页HTML清洗、去冗余、精简正文 soup BeautifulSoup(html_text, html.parser) # 移除指定无用标签 for tag in HtmlCleaner.REMOVE_TAGS: for item in soup.find_all(tag): item.decompose() # 移除包含噪声关键词的节点 for text in HtmlCleaner.NOISE_KEYWORDS: for item in soup.find_all(stringre.compile(text)): if item.parent: item.parent.decompose() # 获取纯文本并去除多余换行与空格 raw_text soup.get_text(separator , stripTrue) clean_text re.sub(r\s, , raw_text) return clean_text3.3 代码原理解析批量移除脚本、样式、导航、页脚等与正文无关的固定标签从结构上降噪通过关键词匹配广告、版权、推广类文本节点直接删除父节点提取纯文本内容合并多余空格与换行压缩文本体积精简后文本体积可压缩至原 HTML 的 10%~20%大幅降低大模型 Token 消耗提升解析准确率与响应速度。四、AI 智能解析核心封装本地大模型版4.1 解析提示词模板设计固定结构化输出要求强制大模型返回标准 JSON指定需要抽取的字段适配新闻、资讯、商品、文章类通用网页。python运行from langchain.prompts import PromptTemplate from langchain.llms import Ollama from langchain.output_parsers import StructuredOutputParser, ResponseSchema # 定义需要抽取的字段规则 response_schemas [ ResponseSchema(nametitle, description网页文章标题), ResponseSchema(namepublish_time, description发布时间无则填空字符串), ResponseSchema(nameauthor, description作者信息无则填空字符串), ResponseSchema(namecontent, description文章正文完整内容), ResponseSchema(namesource, description来源站点名称无则填空字符串) ] # 输出解析器 output_parser StructuredOutputParser.from_response_schemas(response_schemas) format_instructions output_parser.get_format_instructions() # 构造提示词模板 prompt_template PromptTemplate( template你是专业网页数据解析专家根据下面网页精简文本抽取指定字段严格按照JSON格式输出不要多余解释、不要markdown格式。\n{format_instructions}\n网页内容{web_text}, input_variables[web_text], partial_variables{format_instructions: format_instructions} )4.2 大模型调用与结构化解析完整代码python运行class AiSpiderParser: def __init__(self, model_namellama3:8b): # 初始化本地Ollama大模型 self.llm Ollama(modelmodel_name, temperature0.1) self.prompt prompt_template self.parser output_parser def parse_web_content(self, clean_web_text: str): AI智能解析网页精简文本返回结构化字典 # 拼接提示词 prompt_value self.prompt.format_prompt(web_textclean_web_text) # 调用大模型 result self.llm(prompt_value.to_string()) # 解析为结构化字典 data self.parser.parse(result) return data4.3 全链路整合爬虫请求 清洗 AI 解析python运行import requests class ComplexAiSpider: def __init__(self): self.cleaner HtmlCleaner() self.ai_parser AiSpiderParser() self.headers { User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 } def get_html(self, url: str) - str: 请求网页源码 resp requests.get(url, headersself.headers, timeout15) resp.raise_for_status() resp.encoding resp.apparent_encoding return resp.text def run(self, url: str): # 1. 获取网页源码 html self.get_html(url) # 2. DOM清洗精简 clean_text self.cleaner.clean_html(html) # 3. AI智能解析 res_data self.ai_parser.parse_web_content(clean_text) return res_data if __name__ __main__: spider ComplexAiSpider() url 待解析复杂网页地址 data spider.run(url) print(data)4.4 核心原理解析temperature 设置为 0.1降低大模型随机性保证每次解析结果稳定一致固定提示词强制只返回 JSON禁止多余文字描述便于程序直接解析入库LangChain 结构化输出解析器自动容错兼容大模型微小格式偏差整套流程完全脱离 XPath、CSS 选择器仅依赖文本语义完成字段抽取网页结构改版、标签随机变化时无需修改代码AI 自动适配解析逻辑。五、云端大模型通用适配改造5.1 适配思路只需替换底层 LLM 为 OpenAI 兼容接口提示词、清洗逻辑、解析流程完全不用改动实现本地 / 云端模型无缝切换。仅需更换模型初始化方式其余业务代码完全复用适配阿里云、腾讯云、各类开源兼容接口大模型。六、复杂列表类网页 AI 解析扩展6.1 业务场景商品列表、新闻列表、榜单分页等多条目网页传统解析需要循环定位列表项AI 可一次性识别所有列表条目输出数组结构化数据。只需修改提示词字段规则定义输出为列表数组格式大模型自动拆分每条数据批量抽取标题、链接、价格、简介等信息无需人工遍历节点。七、生产级优化缓存、限流、容错与校验7.1 解析缓存机制对已解析过的网页 URL 做本地缓存或 Redis 缓存短时间内重复爬取直接返回缓存结果无需重复调用大模型节省 Token、降低耗时、减少硬件资源占用。7.2 异常容错处理增加大模型调用超时捕获、JSON 解析失败重试、字段缺失默认填充避免单条网页解析异常导致整个爬虫中断。7.3 结果数据校验对标题、时间、正文做长度校验、格式校验过滤 AI 幻觉生成的无效内容保证入库数据质量。7.4 批量并发控制限制同时调用大模型的并发数量防止本地模型算力打满、接口限流封禁适配大规模批量爬虫解析场景。八、AI 爬虫与原有云原生架构融合8.1 对接 Docker 容器化将包含 AI 解析的爬虫项目打包进 Docker 镜像内置 Ollama 模型或对接外部模型服务实现容器一键部署。8.2 对接 K8s 集群编排在 K8s 中单独部署大模型服务 Pod爬虫服务通过内网接口调用解析能力实现算力隔离、弹性扩容、统一管控。8.3 对接监控告警将 AI 解析失败率、调用耗时、模型异常纳入 Prometheus 监控指标解析成功率过低、模型服务离线自动触发告警。8.4 对接定时任务定时爬虫采集网页后自动送入 AI 解析流程实现定时爬取 AI 智能解析 自动入库全流程无人值守。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2598483.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…