豆瓣图书评论数据分析与可视化

news2025/7/28 8:13:26

【题目描述】豆瓣图书评论数据爬取。以《平凡的世界》、《都挺好》等为分析对象,编写程序爬取豆瓣读书上针对该图书的短评信息,要求:

(1)对前3页短评信息进行跨页连续爬取;

(2)爬取的数据包含用户名、短评内容、评论时间、评分和点赞数(有用数);

(3)能够根据选择的排序方式(热门或最新)进行爬取,并分别针对热门和最新排序,输出前10位短评信息(包括用户名、短评内容、评论时间、评分和点赞数)。

(4)根据点赞数的多少,按照从多到少的顺序将排名前10位的短评信息输出;

(5附加)结合中文分词和词云生成,对前3页的短评内容进行文本分析:按照词语出现的次数从高到低排序,输出前10位排序结果;并生成一个属于自己的词云图形。

1. 抓取获取<<都挺好>>短评的 url

https://book.douban.com/subject/20492971/comments/?start=20&limit=20&status=P&sort=score
分析url

  • subject/20492971:书籍ID为20492971
  • comments/:评论页面
  • start=20:从第20条评论开始显示(分页参数)
  • limit=20:每页显示20条评论
  • status=P:只显示已发布的评论(P代表Published)
  • sort=score:按点赞量排序

经分析 sort=time 为按时间排序 (最新) - 需要登录豆瓣

2. 获取headers 和 Cookie
在爬取豆瓣等反爬机制较严格的网站时,​​模拟浏览器行为​​ 是关键。以下是补全的爬虫策略,包括 ​​请求头设置、Cookies、延迟控制、代理IP​​ 等关键点:

关键反爬策略​​:

  • 必须配置完整的请求头(Headers)和Cookies
  • 建议使用代理IP池(特别是大规模爬取时)
  • 合理设置请求间隔(本示例未展示,但生产环境建议添加)

分享一个好用的网站 

Convert curl commands to Python 

它可以将 cURL 命令快速转换为 Python、JavaScript、PHP 等多种语言的代码,非常适合爬虫开发时快速生成请求模板。

使用方法 :  以cURL(bash)格式复制 , 复制到网站

复制到curl command , 下方会自动生成代码 , 可以选择不同的语言

有了cookies 和 headers 剩下的就是爬虫的基本功了


    代码:

    import matplotlib
    import requests
    from lxml import etree
    import jieba
    from collections import Counter
    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体为 SimHei
    matplotlib.rcParams['axes.unicode_minus'] = False    # 正确显示负号
    cookies = {
        # 你的cookies
    }
    
    headers = {
        # 你的headers
    }
    # proxies = {
    #     # 可以配置一个代理池
    #     # 'http': 'http://120.25.1.15:7890',
    #     # 'https': 'http://120.25.1.15:7890',
        
    # }
    
    def get_comment(page, sort_type, comment_list):
        url = f'https://book.douban.com/subject/20492971/comments/?start={page * 20}&limit=20&sort={sort_type}&status=P'
        response = requests.get(url, cookies=cookies, headers=headers)
        response.encoding = 'utf-8'
        tree = etree.HTML(response.text)
        li_list = tree.xpath('//*[@id="comments"]/div[1]/ul/li')
        for li in li_list:
            try:
                like_count = li.xpath('./div[2]/h3/span[1]/span/text()')[0].strip()
                name = li.xpath('./div[2]/h3/span[2]/a[1]/text()')[0].strip()
                score = li.xpath('./div[2]/h3/span[2]/span/@title')[0].strip()
                time = li.xpath('./div[2]/h3/span[2]/a[2]/text()')[0].strip()
                comment = li.xpath('./div[2]/p/span/text()')[0].strip()
                comment_list.append({
                    'name': name,
                    'score': score,
                    'time': time,
                    'like_count': like_count,
                    'comment': comment
                })
            except Exception:
                continue
        print(f'第{page + 1}页爬取成功')
    
    def analyze_text(comment_list):
        all_text = ''.join([c['comment'] for c in comment_list])
        words = jieba.lcut(all_text)
    
        # 去除常见无意义词(可根据需要扩展)
        stop_words = set(['的', '了', '和', '是', '我', '也', '就', '都', '很', '在', '有', '不', '人'])
        words = [word for word in words if len(word) > 1 and word not in stop_words]
    
        # 统计词频
        word_counts = Counter(words)
        top_words = word_counts.most_common(10)
    
        print("词频前10名:")
        for i, (word, count) in enumerate(top_words, 1):
            print(f"{i}. {word}:{count} 次")
    
        # 生成词云
        wc = WordCloud(
            font_path='simhei.ttf',  # 确保有中文字体
            background_color='white',
            width=800,
            height=600
        ).generate_from_frequencies(word_counts)
    
        plt.figure(figsize=(10, 6))
        plt.imshow(wc, interpolation='bilinear')
        plt.axis('off')
        plt.title("豆瓣短评词云", fontsize=18)
        plt.show()
        wc.to_file("wordcloud.png")
    
    def main():
        choice = input("请输入查看类型(1:热门评论,2:最新评论):")
        if choice == '1':
            sort_type = 'score'
        elif choice == '2':
            sort_type = 'time'
        else:
            print("无效输入,默认使用热门评论。")
            sort_type = 'score'
    
        comment_list = []
        for i in range(3):
            get_comment(i, sort_type, comment_list)
    
        # 展示前10条评论
        print("\n前10条评论:\n")
        for i, c in enumerate(comment_list[:10], 1):
            print(f"{i}. {c['name']} | {c['score']} | {c['time']} | 赞:{c['like_count']}\n评论:{c['comment']}\n")
    
        # 分析评论文本
        analyze_text(comment_list)
    
    if __name__ == '__main__':
        main()
    

    需要替换为你的

    安装包的命令

    # 基础请求与解析库
    pip install requests lxml jieba
    
    # 词云与数据分析库
    pip install wordcloud matplotlib

    完成 

    技术要点解析

    1. ​反爬对策​​:

      • 使用真实浏览器的Headers和Cookies
      • 建议添加随机延迟(time.sleep(random.uniform(1,3)))
      • 重要项目建议使用代理IP池
    2. ​数据解析技巧​​:

      • 使用lxml的XPath定位元素
      • 健壮的异常处理(网络超时、元素不存在等)
      • 数据清洗(去除空白字符等)
    3. ​文本分析优化​​:

      • 扩展停用词表提升分析质量
      • 可考虑添加自定义词典(jieba.load_userdict())
      • 词云可调整参数:背景色、最大词汇数、遮罩形状等

    本项目展示了从数据爬取到分析可视化的完整流程,读者可根据实际需求进行扩展。建议在遵守豆瓣Robots协议的前提下合理使用爬虫技术,注意控制请求频率,避免对目标网站造成负担。

    提醒 : 大规模爬取会被豆瓣封ip

    ​声明​​:本教程仅用于学习交流,请勿用于商业用途或大规模爬取,尊重网站的数据版权。

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405848.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    Vue ④-组件通信 || 进阶语法

    组件三大部分 template&#xff1a;只有能一个根元素 style&#xff1a;全局样式(默认)&#xff1a;影响所有组件。局部样式&#xff1a;scoped 下样式&#xff0c;只作用于当前组件 script&#xff1a;el 根实例独有&#xff0c;data 是一个函数&#xff0c;其他配置项一致…

    从入门到实战:AI学习路线全解析——避坑指南

    分享一下阿里的人工智能学习路线,为感兴趣系统学习的小伙伴们探路。 一、谁适合学这门AI课程?五类人群的精准定位 无论你是零基础小白还是职场转型者,这套系统化课程都能为你量身定制成长路径: 零基础爱好者(无编程/数学背景) 课程提供Python和数学前置学习建议,先补基…

    uniapp实现的简约美观的星级评分组件

    采用 uniapp 实现的一款简约美观的星级评分模板&#xff0c;提供丝滑动画效果&#xff0c;用户可根据自身需求进行自定义修改、扩展&#xff0c;纯CSS、HTML实现&#xff0c;支持web、H5、微信小程序&#xff08;其他小程序请自行测试&#xff09; 可到插件市场下载尝试&#x…

    AWS Elastic Beanstalk + CodePipeline(Python Flask Web的国区CI/CD)

    目标 需要使用AWS Elastic Beanstalk 部署一个Python的Flask Web应用&#xff0c;并且使用CodePipeline作为CI/CD工作流。 eb部署图 前提 假设你已经有一个能够正常运行的Python的Flask Web应用项目代码&#xff0c;而且需要对已有Flask工程做一些调整。由于AWS Elastic Bea…

    多线程语音识别工具

    软件介绍 本文介绍一款支持大厂接口的语音转文字工具&#xff0c;具备免配置、免费使用的特点。 软件特性 该工具是一款完全免费的桌面端应用程序&#xff0c;部署于开源社区平台&#xff0c;其核心优势在于整合了多家技术供应商的接口资源。 操作方式 用户只需将音频…

    DiMTAIC 2024 数字医学技术及应用创新大赛-甲状腺B超静态及动态影像算法赛-参赛项目

    参赛成绩 项目介绍 去年参加完这个比赛之后&#xff0c;整理了项目文件和代码&#xff0c;虽然比赛没有获奖&#xff0c;但是参赛过程中自己也很有收获&#xff0c;自己一个人搭建了完整的pipeline并基于此提交了多次提高成绩&#xff0c;现在把这个项目梳理成博客&#xff0c…

    window安装docker\docker-compose

    安装前配置 打开控制面板,参照下图打开“启动或关闭windows功能”,Hyper-V 和容器需要启用 程序和功能 启动或关闭windows功能 勾选Hyper-V 安装路径配置 Docker在Windows上的默认安装路径为C:\Program Files\Docker。 以管理员身份运行CMD在D盘,dev文件夹下创建Docker文…

    Jenkins的学习与使用(CI/CD)

    文章目录 前言背景CI/CDJenkins简介Jenkins特性 安装Jenkins工作流程&#xff08;仅供参考&#xff09;安装maven和其他插件新建任务任务源码管理配置maven配置git&#xff08;非必需&#xff09; 尝试手动构建jar包可能遇到的错误 发布到远程服务器前置清理工作构建触发器git钩…

    使用WPF的Microsoft.Xaml.Behaviors.Wpf中通用 UI 元素事件

    Nuget下载之后记得要先引用下面的 xmlns:i"http://schemas.microsoft.com/xaml/behaviors" <!-- 鼠标事件 --> <i:EventTrigger EventName"MouseEnter"/> <!-- 鼠标进入 --> <i:EventTrigger EventName"MouseLeave"/&g…

    Centos7.6图文安装mysql8.4详细步骤记录

    1 前提条件 1.1 关闭数据库服务器的防火墙 # 关闭数据库服务器的防火墙 systemctl stop firewalld systemctl disable firewalld 1.2 关闭SELinux # 编辑 /etc/selinux/configvi /etc/selinux/config#内容更改为disabledSELINUXdisabled 1.3 卸载系统自身带的mysql&#…

    AI短视频创富营

    课程内容&#xff1a; 相关资料 【第一章】前期准备 001.【涨粉技巧】新账号如何快速涨粉?_ev(1).mp4 002.【带贷权限】如何开通账号带贷权限?(1).mp4 003.【费用缴纳】如何缴纳账号保证金?_ev(1).mp4 004.【账号检测】如何检测账号是否限流?(1).mp4 005.【风险规避…

    spring中的@RabbitListener注解详解

    基本用法主要属性1. queues / queueNames2. containerFactory3. id4. concurrency5. ackMode6. priority7. bindings 高级特性1. 消息转换器2. 手动确认3. 条件监听4. 错误处理 配置监听容器工厂注意事项完整示例循环依赖解决1. 使用 Setter 注入2. 使用 Lazy 注解3. 重构代码结…

    MySQL-运维篇

    运维篇 日志 错误日志 错误日志是 MySQL 中最重要的日志之一&#xff0c;它记录了当 mysqld 启动和停止时&#xff0c;以及服务器在运行过程中发生任何严重错误时的相关信息当数据库出现任何故障导致无法正常使用时&#xff0c;建议首先查看此日志。 该日志是默认开启的&am…

    深度优先算法学习

    1: 从 1点出发到 15点 #include <stdio.h>#define MAX_NODES 100typedef struct {int node_id;int *nextNodes;int nextNodesSize; } Node;// 假设我们有一个节点数组&#xff0c;全局保存了所有节点 Node nodes[MAX_NODES];void dfs(int node_id) {Node *node &n…

    前端技能包

    ES6 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><script>// 变量定义var a1;let b5; // 现在使用let 定义变量// 对象解构let person{&quo…

    【笔记】PyCharm 使用问题反馈与官方进展速览

    #工作记录 https://youtrack.jetbrains.com/issue/IJPL-190308 【笔记】记一次PyCharm的问题反馈_the polyglot context is using an implementation th-CSDN博客 【笔记】与PyCharm官方沟通解决开发环境问题-CSDN博客 与 JetBrains 官方沟通记录&#xff08;PyCharm 相关问题…

    操作系统期末版

    文章目录 概论处理机管理进程线程处理机调度生产者消费者问题 死锁简介死锁的四个必要条件解决死锁的方法 存储管理链接的三种方式静态链接装入时动态链接运行时链接 装入内存的三种方式绝对装入可重定位装入动态运行时装入 覆盖交换存储管理方式连续分配**分段存储管理方式***…

    自然语言处理——语言模型

    语言模型 n元文法参数估计数据平滑方法加1法 神经网络模型提出原因前馈神经网络&#xff08;FNN&#xff09;循环神经网络 n元文法 大规模语料库的出现为自然语言统计处理方法的实现提供了可能&#xff0c;统计方法的成功应用推动了语料库语言学的发展。 语句 &#x1d460; …

    数据库管理与高可用-MySQL高可用

    目录 #1.1什么是MySQL高可用 1.1.1MySQL主主复制keepalivedhaproxy的高可用 1.1.2优势 #2.1MySQL主主复制keepalivedhaproxy的实验案例 1.1什么是MySQL高可用 MySQL 高可用是指通过技术手段确保 MySQL 数据库在面临硬件故障、软件错误、网络中断、人为误操作等异常情况时&…

    免费工具-微软Bing Video Creator

    目录 引言 一、揭秘Bing Video Creator 二、轻松上手&#xff1a;三步玩转Bing Video Creator 2.1 获取与访问&#xff1a; 2.2 创作流程&#xff1a; 2.3 提示词撰写技巧——释放AI的想象力&#xff1a; 三、核心特性详解&#xff1a;灵活满足多样化需求 3.1 双重使用模…