ChatGPT时代情感分析还存在吗?一份真实调查

news2025/5/20 0:47:41

34a7020a0a095fdee4c75d5001ae6853.jpeg

深度学习自然语言处理 原创
作者:qazw

引言

最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是在zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子,但是哪种LLM适用于SA任务依然是不清晰的。

36b92662df88cdcaa0ed99bbeb57f186.png

论文:Sentiment Analysis in the Era of Large Language Models: A Reality Check
地址:https://arxiv.org/pdf/2305.15005.pdf
代码:https://github.com/DAMO-NLP-SG/LLM-Sentiment

这篇工作调查了LLM时代情感分析的研究现状,旨在帮助SA研究者们解决以下困惑:

  • LLM在各种情感分析任务中的表现如何?

  • 与在特定数据集上训练的小模型(SLM)相比,LLM在zero-shot和few-shot方面的表现如何?

  • 在LLM时代,当前的SA评估实践是否仍然适用?

实验

实验设置

1、调查任务和数据集

该工作对多种的SA任务进行了广泛调查,包括以下三种类型任务:情感分类(SC)、基于方面的情感分析(ABSA)和主观文本的多面分析(MAST)。c6d8431468035e7e77ac42d76c291f47.png

2、基线模型

Large Language Models (LLMs)  LLM将直接用于SA任务的推理而没有特定的训练,本文从Flan模型家族中选取了两个模型,分别是Flan-T5(XXL版本,13B)和Flan-UL2(20B)。同时,采用了GPT-3.5家族两个模型,包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003,175B)。为了正确性预测,这些模型的温度设置为0。

Small Language Models (SLMs)  本文采用T5(large版本,770M)作为SLM。模型训练包括全训练集的方式和采样部分数据的few-shot方式,前者训练epoch为3而后者为100。采用Adam优化器并设置学习率为1e-4,所有任务的batch大小设置为4。为了稳定对比,为SLM构造3轮不同随机seed的训练,并采用其平均值作为结果。

3、Prompting策略

b66eace49ca8e20c9e9030d9e0cffa72.png
SC,ABSA,和MAST的提示实例。虚线框为few-shot设置,在zero-shot设置时删除。

为了评估LLM的通用能力,本文为不同模型采用相对一致的的propmts,这些propmts满足简单清晰直接的特性。对于zero-shot学习,propmt只包含任务名、任务定义和输出格式三个必要组件,而对于few-shot学习,将为每个类增加k个实例。

实验结果

1、Zero-shot结果
7e51adc356928d1b8901de5d94b4f581.png对于LLM,直接将其用于测试集上进行结果推理。对于SLM,先将其在完整训练集上fine-tuned然后再用于测试,从上图结果中可以观测到:

LLM在简单SA任务上表现出强大的zero-shot性能  从表中结果可以看到LLM的强大性能在SC和MAST任务上,而不需要任何的前置训练。同时也能观察到任务稍微困难一点,比如Yelp-5(类目增多)和,LLM就比fine-tuned模型落后很多。

更大的模型不一定导致更好的性能  从表中结果可以看到LLM对于SC和MAST任务表现较好,而且不需要任何的前置训练。但是也能观察到任务稍微困难一点,比如Yelp-5(类目增多),LLM就比fine-tuned模型落后很多。

LLM难以提取细粒度的结构化情感和观点信息  从表中中间部分可以看出,Flan-T5和Flan-UL2在ABSA任务根本就不适用,而text-003和ChatGPT虽然取得了更好的结果,但是对于fine-tuned的SLM来说,依然是非常弱的。

RLHF可能导致意外现象  从表中可以观察到一个有趣现象,ChatGPT在检测仇恨、讽刺和攻击性语言方面表现不佳。即使与在许多其他任务上表现相似的text-003相比,ChatGPT在这三项任务上的表现仍然差得多。对此一个可能的解释是在ChatGPT的RLHF过程与人的偏好“过度一致”。这一发现强调了在这些领域进一步研究和改进的必要性。

2、Few-shot结果
5cbc0a3a6c6e9588d9fa079efa7bf826.png本文采用了手中K-shot的设置:1-shot, 5-shot, 和10-shot。这些采样的实例分别作为LLM上下文学习实例以及SLM的训练数据。可以有如下发现:

在不同的few-shot设置下,LLM超越SLM  在三种few-shot设置中,LLM几乎在所有情况下都始终优于SLM。这一优势在ABSA任务中尤为明显,因为ABSA任务需要输出结构化的情感信息,SLM明显落后于LLM,这可能是由于在数据有限的情况下学习这种模式会变得更加困难。

SLM通过增加shot在多数任务性能得到持续提升  随着shot数目的增加,SLM在各种SA任务中表现出实质性的提升。这表明SLM能有效利用更多的示例实现更好的性能。任务复杂性也可以从图中观察到,T5模型用于情感分类任务性能逐渐趋于平稳,然而对于ABSA和MAST任务,性能继续增长,这表明需要更多的数据来捕捉其基本模式。

LLM shots的增加对不同任务产生不同结果  增加shot数目对LLM的影响因任务而异。对于像SC这种相对简单的任务,增加shot收益并不明显。此外,如MR和Twitter等数据集以及立场和比较任务,甚至随着shot的增加,性能受到阻碍,这可能是由于处理过长的上下文误导LLM的结果。然而,对于需要更深入、更精确的输出格式的ABSA任务,增加few数目大大提高了LLM的性能。这表明更多示例并不是所有任务的灵丹妙药,需要依赖任务的复杂性。

SA能力评估再思考

呼吁更全面的评估  目前大多数评估往往只关注特定的SA任务或数据集,虽然这些评估可以为LLM的情感分析能力的某些方面提供有用见解,但它们本身并没有捕捉到模型能力的全部广度和深度。这种限制不仅降低了评估结果的总体可靠性,而且限制了模型对不同SA场景的适应性。因此,本文试图在这项工作中对广泛的SA任务进行全面评估,并呼吁在未来对更广泛的SA工作进行更全面的评估。

呼吁更自然的模型交互方式  常规情感分析任务通常为一个句子配对相应的情感标签。这种格式有助于学习文本与其情感之间的映射关系,但可能不适合LLM,因为LLM通常是生成模型。在实践中不同的写作风格产生LLM解决SA任务的不同方式,所以在评估过程中考虑不同的表达以反映更现实的用例是至关重要的。这确保评估结果反映真实世界的互动,进而提供更可靠的见解。

prompt设计的敏感性  如图所示,即使在一些简单的SC任务上,prompt的变化也会对ChatGPT的性能产生实质性影响。当试图公平、稳定地测试LLM的SA能力时,与prompt相关的敏感性也带来了挑战。当各种研究在一系列LLM中对不同的SA任务使用不同的prompt时,挑战被进一步放大。与prompt相关的固有偏见使采用相同prompt的不同模型的公平对比变得复杂,因为单个prompt可能并不适用于所有模型。

64a4f6be9a4869d81eba5e10ae0f8d4c.png

为了缓解上述评估LLM的SA能力时的局限性,本文提出了SENTIEVAL基准,用于在LLM时代进行更好的SA评估,并利用各种LLM模型进行了再评估,结果如图所示。43a5e51e38f5a4ca24d1aa422f5d61fe.png

总结

这项工作使用LLM对各种SA任务进行了系统评估,有助于更好地了解它们在SA问题中的能力。结果表明,虽然LLM在zero-shot下的简单任务中表现很好,但它们在处理更复杂的任务时会遇到困难。在few-shot下,LLM始终优于SLM,这表明它们在标注资源稀缺时的潜力。同时还强调了当前评估实践的局限性,然后引入了SENTIEVAL基准作为一种更全面、更现实的评估工具。

总体而言,大型语言模型为情感分析开辟了新的途径。虽然一些常规SA任务已经达到了接近人类的表现,但要全面理解人类的情感、观点和其他主观感受还有很长的路要走。LLM强大的文本理解能力为LLM时代情感分析探索之路提供了有效的工具和令人兴奋的研究方向。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/587281.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

结束了

阅读本文大概需要 1.29 分钟。 帅张读书会,结束了。 这里也简单记录一下这件事,毕竟是自己做了两年的产品。 经过两年的时间,自 2021 年 5 月 27 日至 2023 年 5 月 27 日,帅张读书会这个项目持续了两期,第二期现在结束…

配置wxworks6.9系统移植到xilinx zynq ps端

一,创建bootrom 打开打开Workbench,目录在C:\WindRiver\workbench-3.3\wrwb\platform\x86-win32\eclipse\eclipse-x86-win32 在菜单栏,点击 File->New->Project。The New Project Wizard opens。 在 VxWorks 6.x中,选择 Vx…

音乐驱动虚拟人——娱乐场景下虚拟人的AI驱动实践

元宇宙时代的娱乐场景下,通过高精度的AI驱动模型还原真人的歌舞表演,有着更低成本、更多创造性、精彩度、实时互动性的综合优势,是虚拟数字人驱动的最终形态。LiveVideoStackCon 2022北京站邀请到腾讯音乐天琴实验室计算机视觉负责人——董治…

动画图解程序?这个可视化运行环境太方便了

入门教程、案例源码、学习资料、读者群 请访问: python666.cn 大家好,欢迎来到 Crossin的编程教室 ! 了解代码的执行过程是编程的基本要求。 一个熟练的编程老手只需要用肉眼看着代码,就能对其运行的过程有所了解。然而对于刚接触…

权限维持-SSP-DLL 加载

前言 继续学习中,今天是权限维持的东西,大家永远不要忘记初心,要一起奋斗哦! 注:单机环境和域环境都可以使用 复现 一.进程注入lsass.exe 使用mimikatz将伪造的SSP注入内存,这样用户在注销重新登录的时候就…

机器学习库Scikit-learn

本文目录 3.1 背景知识3.2 Scikit-learn概述3.3 Scikit-learn主要用法 3.3.1 基本建模流程3.3.2 数据预处理3.3.3 监督学习算法3.3.4 无监督学习算法3.3.5 评价指标3.3.6 交叉验证及超参数调优3.4 Scikit-learn总结参考文献 Scikit-learn是基于NumPy、SciPy和Matplotlib的开源P…

全国流体力学盛会召开,飞桨AI4S携最新科研进展亮相西湖大学

‍‍‍‍ 5月20-21日,第四届全国智能流体力学研讨会暨第二届智能流体力学产业联合体大会在西湖大学召开。此次会议由中国力学学会、中国空气动力学会、《水动力学研究与进展》编委会、西湖大学、浙江大学、上海交通大学、中国船舶集团第七〇八研究所主办&#xff1b…

nsis制作windows安装包-修改安装目录读写权限

目录 1. 背景2. 使用AccessControl修改权限2.1 AccessControl下载安装2.2 修改脚本 1. 背景 使用nsis制作的windows安装包在安装时,将安装目录设置到非系统盘里,安装完成后一般不会出现读写权限的异常问题。但是,安装时选择在系统盘里安装&a…

envi随机森林分类5.3版本

在App Store中搜索随进森林工具,进行下载并重启envi软件 含有三个模块 Train Random Forest Model 1. Input Raster:输入影像。选择图像时不能进行空间、光谱裁剪或掩膜(ENVI 5.5及以上版本已经禁止显示这些按钮) 2. Random Sam…

无需租云服务器,Linux本地搭建web服务,并内网穿透发布公网访问

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 转载自cpolar文章:Linux CentOS本地搭建…

c++ 11标准模板(STL) std::map(八)

定义于头文件<map> template< class Key, class T, class Compare std::less<Key>, class Allocator std::allocator<std::pair<const Key, T> > > class map;(1)namespace pmr { template <class Key, class T, clas…

香港财经学院工商管理硕士(MBA)含金量

近年来&#xff0c;随着中国经济的崛起&#xff0c;越来越多的学生和从业人员开始关注MBA教育。在香港地区&#xff0c;香港财经学院的MBA项目备受瞩目&#xff0c;被誉为是该地区最具含金量的MBA项目之一。首先&#xff0c;香港财经学院作为一家优秀的商学院&#xff0c;在教学…

【C++系列P1】带上这篇基础小宝典,进发C++!(持续更新ing~)

​​​​​​​ 前言 大家好吖&#xff0c;欢迎来到 YY 滴 C系列 &#xff0c;热烈欢迎&#xff01;(持续更新ing~&#xff09;本章主要内容面向刚刚学完C语言&#xff0c;准备或正在接触C的老铁。而往往C奇多的小特性和知识点让铁铁们头晕晕脑涨涨&#xff0c;因而本章收纳了…

为什么北欧的顶级程序员数量远超中国?(续)

之前写过一篇文章《为什么北欧的顶级程序员数量远超中国&#xff1f;》&#xff0c;讲了北欧大神们开发的Linux、MySQL、Chrome V8、MineCraft、QT等优秀软件&#xff0c;分析了北欧有如此多顶级程序员的主要原因。 有位读者Ven 源 留言说&#xff0c;除了文章中教育优势&…

碳纤维单丝外径测试中的纳米分辨率激光衍射法解决方案

摘要&#xff1a;碳纤维单丝热膨胀系数是碳纤维复合材料设计、生产与可靠性和寿命评估的重要参数&#xff0c;本文针对单丝径向高温热膨胀系数测试这一难题提出了相应的解决方案。解决方案的核心内容是基于激光衍射法和高温辐射加热&#xff0c;并采用衍射轮廓拟合技术以及相应…

Dropout层的个人理解和具体使用

Dropout层的作用 dropout 能够避免过拟合&#xff0c;我们往往会在全连接层这类参数比较多的层中使用dropout&#xff1b;在训练包含dropout层的神经网络中&#xff0c;每个批次的训练数据都是随机选择&#xff0c;实质是训练了多个子神经网络&#xff0c;因为在不同的子网络中…

Linux常用命令——gzip命令

在线Linux命令查询工具 gzip 用来压缩文件 补充说明 gzip命令用来压缩文件。gzip是个使用广泛的压缩程序&#xff0c;文件经它压缩过后&#xff0c;其名称后面会多处“.gz”扩展名。 gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令&#xff0c;既方便又好…

Python过滤信息,如省位中包含广东、安徽、浙江这3个省份的话,就pass,怎么破?...

点击上方“Python爬虫与数据挖掘”&#xff0c;进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 但令心似金钿坚&#xff0c;天上人间会相见。 大家好&#xff0c;我是皮皮。 一、前言 前几天遇到了一个小问题&#xff0c;在做资料的时候&#xff0c…

7位专家齐聚openGauss Developer Day 2023云和恩墨专题论坛,共论数据库自主创新改造与技术发展...

5月26日&#xff0c;云和恩墨在「openGauss Developer Day 2023」主论坛上大放异彩&#xff08;←点此回顾主论坛精彩时刻&#xff09;&#xff0c;更是通过举办一场数据库技术创新与应用实践分论坛&#xff0c;力邀7位重量级嘉宾就数据库创新能力构建、行业应用实践和迁移替代…

SpringBoot配置文件的注入和读取

目录 1. 配置文件的作用 2. 两种配置文件的格式&#xff1a; 2.1 properties 基本语法&#xff1a; 2.1.1 写入 2.1.2 读取 执行原理 2.1.3 缺点分析 2.2 yml 基本语法&#xff1a; 2.2.1 写入&#xff08;非对象&#xff09; 2.2.3 配置对象 2.2.4 配置集合 多个配…