AI加Python的文本数据情感分析流程效果展示与代码实现

news2025/7/17 3:05:22

本文所使用数据来自于梯田景区评价数据。

一、数据预处理

数据清洗

去除重复值、空值及无关字符(如表情符号、特殊符号等)。
提取中文文本,过滤非中文字符。
统一文本格式(如全角转半角、繁体转简体)。
中文分词与去停用词
使用 jieba 分词工具进行分词。
加载自定义词典(如景点名“多依树”“老虎嘴”等专有名词)。
去除通用停用词(如“的”“了”)和自定义停用词(如“同程”“门票”)。

情感标签分类

统计情感分布(好评、中评、差评占比)。
若数据不均衡,采用过采样(SMOTE)或调整类别权重。

二、可视化分析

词云生成

全局词云:所有评论文本的词频统计。
分情感词云:分别生成好评、中评、差评的词云,对比关键词差异。
工具:WordCloud + matplotlib。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

高频词条形图

按词频排序,展示Top 20高频词。
分情感统计高频词(如好评中的“壮观”“方便”,差评中的“堵车”“贵”)。

情感分布饼图

可视化好评、中评、差评的比例。

三、特征工程

文本向量化

TF-IDF:提取文本的TF-IDF特征,生成词-文档矩阵。
Word2Vec:训练词向量模型,获取语义特征。
BERT(可选):使用预训练模型提取深度语义特征。

情感标签编码

将“好评”“中评”“差评”映射为数值标签(如0,1,2)。

四、数据建模

分类模型(情感预测)

模型选择:逻辑回归、随机森林、SVM、LSTM(深度学习)。
输入:TF-IDF向量 + 情感标签。
输出:预测情感类别,评估准确率、F1值。
在这里插入图片描述

主题模型(LDA)

提取评论文本中的潜在主题,分析用户关注点(如“交通”“门票价格”“风景”)。
结合情感标签,统计不同主题的情感倾向。
在这里插入图片描述

情感强度分析

使用情感词典(如BosonNLP)计算每条评论的情感强度值。
分析不同情感类别的强度分布(如差评是否情绪更强烈)。

五、关键分析方向

好评驱动因素

高频词:方便、壮观、震撼、自驾、日出。
潜在主题:取票便捷、风景优美、天气影响。

差评改进点

高频词:堵车、贵、管理差、服务态度。
潜在主题:交通拥堵、门票性价比、配套设施不足。

中评矛盾点

高频词:一般、季节、不值。
潜在主题:景色依赖天气、性价比争议。
完整代码如下:

import pandas as pd
import re
import jieba
import jieba.analyse
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
# 在文件顶部导入matplotlib后添加字体配置
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'SimHei'  # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题
from wordcloud import WordCloud
from collections import Counter

# 数据预处理函数
def preprocess_text(text):
    # 去非中文字符(保留中文标点)
    text = re.sub(r'[^\u4e00-\u9fa5,。!?;:、]', '', str(text))
    # 合并重复标点
    text = re.sub(r'([,。!?;:、])\1+', r'\1', text)
    return text.strip()

# 加载自定义词典(需要用户提供路径)
jieba.load_userdict('custom_dict.txt')  # 请替换为实际词典路径

# 加载停用词(需要用户提供路径)
def load_stopwords(path):
    with open(path, 'r', encoding='utf-8') as f:
        return set([line.strip() for line in f])
stopwords = load_stopwords('stopwords.txt')  # 请替换为实际停用词路径

# 中文分词处理
def chinese_segment(text):
    # 确保输入为字符串
    if not isinstance(text, str):
        text = str(text)
    words = jieba.lcut(text)
    return [w for w in words if w not in stopwords and len(w) > 1]

# 生成词云函数
# 修改生成词云函数中的字体路径
def generate_wordcloud(text, title):
    wordcloud = WordCloud(
        font_path='C:/Windows/Fonts/simhei.ttf',  # 使用绝对路径确保找到字体
        background_color='white',
        width

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2325041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker启动nacos+redis+seata

docker启动nacos 最新版本的nacos需要再启动的时候设置mysql的一些属性,【也可以先启动nacos,再到配置文件中找到application.yml设置mysql的一些属性】。 1.如果直接启动nacos设置的mysql我们需要确定两个容器的ip都是一样的。 查看mysql容器中的ip命令…

从 select 到 epoll:拆解 I/O 多路复用的演进与实战

目录 一、引言:为什么需要 I/O 多路复用? 二、select 1.函数介绍 2.原理 3.样例代码 4.优缺点总结 三、poll 1.函数介绍 2.样例代码 3.优缺点总结 四、epoll 1.函数介绍 2.原理 3.LT和ET两种工作模式 4.优缺点总结 五、核心机制对比&…

【力扣hot100题】(017)矩阵置零

还是挺简单的&#xff0c;使用哈希表记录需要置换的行列即可&#xff0c;这样就可以避免重复节省时间。 class Solution { public:void setZeroes(vector<vector<int>>& matrix) {unordered_set<int> row;unordered_set<int> line;for(int i0;i&l…

One Commander 3,文件管理新体验

One Commander 3 是一款集多功能于一体 Windows 10/11的文件管理工具&#xff0c;其设计目的在于为用户带来多元化的操作体验。这款工具通过支持多栏界面布局&#xff0c;让用户能够迅速且高效地组织和管理文件。此外&#xff0c;它还提供了多主题选项和多种图标集&#xff0c;…

非手性分子发光有妙招:借液晶之力,实现高不对称圆偏振发光

*本文只做阅读笔记分享* 一、圆偏振发光研究背景与挑战 圆偏振发光&#xff08;CPL&#xff09;材料在3D显示、光电器件等领域大有用处&#xff0c;衡量它的一个重要指标是不对称发光因子&#xff08;glum&#xff09;。早期CPL材料的glum值低&#xff0c;限制了实际应用。为…

YOLOv8+ Deepsort+Pyqt5车速检测系统

该系统通过YOLOv8进行高效的目标检测与分割&#xff0c;结合DeepSORT算法完成目标的实时跟踪&#xff0c;并利用GPU加速技术提升处理速度。系统支持模块化设计&#xff0c;可导入其他权重文件以适应不同场景需求&#xff0c;同时提供自定义配置选项&#xff0c;如显示标签和保存…

【干货】前端实现文件保存总结

⚠️⚠️文前推荐一下&#x1f449; 前端必备工具推荐网站(图床、API和ChatAI、智能AI简历、AI思维导图神器等实用工具): 站点入口&#xff1a;http://luckycola.com.cn/ 前端实现文件保存实现总结 在Web开发中&#xff0c;文件下载是常见的交互需求。本文将系统总结前端实现文…

并发编程之FutureTask.get()阻塞陷阱:深度解析线程池CPU飚高问题排查与解决方案

FutureTask.get方法阻塞陷阱&#xff1a;深度解析线程池CPU飚高问题排查与解决方法 FutureTask.get()方法阻塞陷阱&#xff1a;深度解析线程池CPU飚高问题排查与解决方法1、情景复现1.1 线程池工作原理1.2 业务场景模拟1.3 运行结果1.4 发现问题&#xff1a;线程池没有被关闭1.…

在Ubuntu中固定USB设备的串口号

获取设备信息 lsusb # 记录设备的Vendor ID和Product ID&#xff08;例如&#xff1a;ID 0403:6001&#xff09;# 获取详细属性&#xff08;替换X和Y为实际设备号&#xff09; udevadm info -a /dev/ttyUSBX 结果一般如下 创建udev规则文件 sudo gedit /etc/udev/rules.d/us…

javaSE————文件IO(2)、

文件内容的读写——数据流 我们对于文件操作使用流对象Stream来操作&#xff0c;什么是流对象呢&#xff0c;水流是什么样的&#xff0c;想象一下&#xff0c;水流的流量是多种的&#xff0c;可以流100ml&#xff0c;也可以流1ml&#xff0c;流对象就和水流很像&#xff0c;我…

前端常问的宏观“大”问题详解(二)

JS与TS选型 一、为什么选择 TypeScript 而不是 JavaScript&#xff1f; 1. 静态类型系统&#xff1a;核心优势 TypeScript 的静态类型检查能在 编译阶段 捕获类型错误&#xff08;如变量类型不匹配、未定义属性等&#xff09;&#xff0c;显著减少运行时错误风险。例如&…

智慧电力:点亮未来能源世界的钥匙

在科技日新月异的今天&#xff0c;电力行业正经历着前所未有的变革。智慧电力&#xff0c;作为这一变革的核心驱动力&#xff0c;正逐步改变着我们对电力的认知和使用方式。它不仅是电力行业的一次技术革新&#xff0c;更是推动社会可持续发展、实现能源高效利用的重要途径。 智…

架构师面试(二十三):负载均衡

问题 今天我们聊微服务相关的话题。 大中型微服务系统中&#xff0c;【负载均衡】是一个非常核心的组件&#xff1b;在微服务系统的不同位置对【负载均衡】进行了实现&#xff0c;下面说法正确的有哪几项&#xff1f; A. LVS 的负载均衡一般通过前置 F5 或是通过 VIP keepa…

NSSCTF(MISC)—[justCTF 2020]pdf

相应的做题地址&#xff1a;https://www.nssctf.cn/problem/920 binwalk分离 解压文件2AE59A.zip mutool 得到一张图片 B5F31内容 B5FFD内容 转换成图片 justCTF{BytesAreNotRealWakeUpSheeple}

坚持“大客户战略”,昂瑞微深耕全球射频市场

北京昂瑞微电子技术股份有限公司&#xff08;简称“昂瑞微”&#xff09;是一家聚焦射频与模拟芯片设计的高新技术企业。随着5G时代的全面到来&#xff0c;智能手机、智能汽车等终端设备对射频前端器件在通信频率、多频段支持、信道带宽及载波聚合等方面提出了更高需求&#xf…

LiteDB 数据库优缺点分析与C#代码示例

LiteDB 是一个轻量级的 .NET NoSQL 嵌入式数据库,完全用 C# 开发,支持跨平台(Windows、Linux、MacOS),并提供类似于 MongoDB 的简单 API。它以单文件形式存储数据,类似于 SQLite,支持事务和 ACID 特性,确保数据的一致性和可靠性。 优缺点分析 优点: 轻量级与嵌入式:…

Linux系统中快速安装docker

1 查看是否安装docker 要检查Ubuntu是否安装了Docker&#xff0c;可以使用以下几种方法&#xff1a; 方法1&#xff1a;使用 docker --version 命令 docker --version如果Docker已安装&#xff0c;输出会显示Docker的版本信息&#xff0c;例如&#xff1a; Docker version …

CP15 协处理器

ARMv7-A 一共支持 16 个协处理器&#xff0c;编号从 CP0~CP15。这里仅对CP15进行描述。 1、ARMv7-A 协处理器 ARMv7-A 处理器除了标准的 R0~R15&#xff0c;CPSR&#xff0c;SPSR 以外&#xff0c;由于引入了 MMU、TLB、Cache 等内容&#xff0c;ARMv7-A 使用协处理器来对这些…

网络运维学习笔记(DeepSeek优化版)026 OSPF vlink(Virtual Link,虚链路)配置详解

文章目录 OSPF vlink&#xff08;Virtual Link&#xff0c;虚链路)配置详解1. 虚链路核心特性2. 基础配置命令3. 状态验证命令3.1 查看虚链路状态3.2 验证LSDB更新 4. 关键技术要点4.1 路径选择机制4.2 虚链路的链路优化 5. 环路风险案例 OSPF vlink&#xff08;Virtual Link&a…

【区块链安全 | 第十六篇】类型之值类型(三)

文章目录 函数类型声明语法转换成员合约更新时的值稳定性示例 函数类型 函数类型是函数的类型。函数类型的变量可以通过函数进行赋值&#xff0c;函数类型的参数可以用来传递函数并返回函数。 函数类型有两种类型&#xff1a;内部函数和外部函数。 内部函数只能在当前合约内调…