一、系统定义与技术架构
1.1 系统定义
本系统是基于 Python 开发的电商数据采集与分析工具,旨在通过模拟用户行为实现淘宝平台 50 系列显卡(以 RTX 5060 Ti 为例)销售数据的自动化获取、清洗、分析及可视化。核心功能包括:
- 自动登录:通过 Selenium 模拟浏览器操作完成账号验证(含滑块验证码破解)。
- 数据采集:爬取商品标题、价格、销量、店铺名称等核心字段,支持前 21 页分页爬取。
- 反爬防护:集成代理池、请求头随机化、动态休眠等策略规避平台反爬机制。
- 数据处理:实现数据清洗、去重、统计分析及词云可视化。