更多内容请见: 爬虫和逆向教程-专栏介绍和目录
文章目录
-
- 一、lxml 概述
-
- 1.1 lxml 介绍
- 1.2 安装和第一个案例
- 1.3 性能优化技巧
- 二、XML处理
-
- 2.1 解析XML
- 2.2 访问元素
- 2.3 遍历XML树
- 2.4 修改XML
- 2.5 写入XML
- 三、HTML处理
-
- 3.1 解析HTML
- 3.2 XPath查询
- 3.3 CSS选择器
- 四、高级功能
-
- 4.1 使用命名空间
- 4.2 创建和修改XML
- 4.3 解析大型文件
- 4.4 智能修复损坏的HTML
- 4.5 提取纯文本内容
- 4.6 预编译XPath表达式
- 4.7 高效的迭代方法
- 五、常见问题解决
-
- 5.1 编码问题
- 5.2 不完整HTML处理
- 5.3 处理特殊字符
- 六、实战案例
-
- 6.1 解析RSS订阅
- 6.2 网页数据提取
- 6.3 构建XML文档
一、lxml 概述
1.1 lxml 介绍
lxml是Python中一个高性能的XML和HTML处理库,它基于C语言编写的libxml2和libxslt库,因此速度飞快,而且API设计得相当友好,特别适合各种结构化数据的处理工作。
github地址: https://github.com/lxml/lxml/
1.2 安装和第一个案例
pip install lxml
导入常用模块
from lxml