淘宝 + 京东商品评论批量采集教程
「技术、数据、接口、系统问题欢迎沟通」在电商运营、竞品分析、市场调研里商品评论是最值钱的一手用户数据—— 能直接看出产品痛点、用户口碑、真实需求。但手动一条条复制效率低到没法用更满足不了批量、高频次采集的需求。这篇文章不讲虚的直接用 Python 带你写两套可直接运行的评论采集脚本京东免登录、淘宝需抓包兼顾实用性、合规性、稳定性新手跟着复制就能跑通。一、前期准备环境 合规必看1. 技术栈简单好上手语言Python 3.8网络请求requests数据解析json结果保存pandas直接导出 Excel反爬策略请求头伪装、请求间隔、Cookie 登录2. 安装依赖打开终端运行一行命令即可bash运行pip install requests pandasAI写代码3. 合规提醒非常重要只采集公开评论不碰用户隐私控制请求频率别把平台服务器打崩代码仅限学习使用禁止用于商业侵权、恶意爬虫。二、京东商品评论采集最简单免登录京东公开评论不需要登录直接调用接口就能拿数据最适合新手入门。采集步骤拿到商品 ID链接里的数字构造评论接口请求 → 解析 → 翻页 → 存 Excel完整可运行代码python运行import requestsimport pandas as pdimport time# 调用前可通过API测试控制台校验参数与返回格式# 测试控制台http://console.open.onebound.cn/console/?iRookie# 你只需要改这里 goods_id 100012345678 # 京东商品IDtotal_page 5 # 要爬几页# headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36,Referer: https://item.jd.com/}comment_list []def get_jd_comments(page):url fhttps://club.jd.com/comment/productPageComments.action?productId{goods_id}score0sortType5page{page}pageSize10try:res requests.get(url, headersheaders, timeout10)res.raise_for_status()data res.json()comments data.get(comments, [])for item in comments:comment_list.append({商品ID: goods_id,用户名: item.get(nickname, ),评论内容: item.get(content, ).replace(\n, ).replace(\r, ),评分: item.get(score, ),评论时间: item.get(creationTime, ),点赞数: item.get(usefulVoteCount, 0)})print(f第{page}页采集完成{len(comments)}条)except Exception as e:print(f第{page}页失败{e})if __name__ __main__:print(开始采集京东商品评论…)for page in range(1, total_page 1):get_jd_comments(page)time.sleep(2) # 必须加延时df pd.DataFrame(comment_list)df.to_excel(f京东商品{goods_id}评论.xlsx, indexFalse)print(f采集完成共 {len(comment_list)} 条已保存Excel)AI写代码三、淘宝商品评论采集需登录抓包即可淘宝评论接口必须登录态才能访问只需要一步浏览器抓包拿到 Cookie复制进去就能跑。抓 Cookie 步骤30 秒搞定Chrome 打开淘宝并登录进入商品页 → F12 → Network刷新 → 筛选 XHR → 找到 comment 开头的接口复制请求头里的 Cookie 整段完整可运行代码python运行import requestsimport pandas as pdimport time# 调用前可通过API测试控制台校验参数与返回格式# 测试控制台http://console.open.onebound.cn/console/?iRookie# 改这里就行 goods_id 688123456789 # 淘宝商品IDtotal_page 5 # 爬取页数cookie 你的淘宝Cookie # 粘贴你抓到的Cookie# headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36,Referer: https://item.taobao.com/,Cookie: cookie}comment_list []def get_tb_comments(page):url fhttps://rate.taobao.com/feedRateList.htm?auctionNumId{goods_id}currentPageNum{page}pageSize20try:res requests.get(url, headersheaders, timeout10)text res.text.strip().strip(())data eval(text)comments data.get(comments, [])for item in comments:comment_list.append({商品ID: goods_id,用户名: item.get(user, {}).get(nick, ),评论内容: item.get(content, ).replace(\n, ).replace(\r, ),评分: item.get(score, ),评论时间: item.get(date, ),商品规格: item.get(auction, {}).get(sku, )})print(f第{page}页采集完成{len(comments)}条)except Exception as e:print(f第{page}页失败{e})if __name__ __main__:print(开始采集淘宝商品评论…)for page in range(1, total_page 1):get_tb_comments(page)time.sleep(3) # 淘宝反爬更严延时更长df pd.DataFrame(comment_list)df.to_excel(f淘宝商品{goods_id}评论.xlsx, indexFalse)print(f采集完成共 {len(comment_list)} 条已保存Excel)AI写代码四、关键优化让脚本更稳定防封必备电商平台都有反爬直接硬跑容易被限制加这几招稳定性直接拉满请求延时京东 2 秒、淘宝 3 秒别贪快。随机 UA推荐python运行from fake_useragent import UserAgentua UserAgent()headers[User-Agent] ua.randomAI写代码IP 代理大批量采集必须用代理池。异常重试网络波动不会直接中断更健壮。五、采集来的评论能用来干什么竞品分析抓同款差评优化自己产品口碑监控统计好评率、差评率用户调研提取关键词看用户真正关心什么运营优化改主图、改详情、优化售后话术这些数据比你猜 100 次都管用。六、最后总结这篇文章直接给了你两套可直接运行的采集代码京东免登录新手秒上手淘宝抓 Cookie 即可跑核心思路就是调用官方接口 伪装请求头 控制频率 保存 Excel比解析网页快 10 倍以上。最后再提醒一次技术是工具用途看自己请一定合规使用尊重平台规则。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2551907.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!