Sarcasm detection论文解析 |A2Text-Net:一种用于讽刺检测的新型深度神经网络

news2024/5/18 18:39:13

论文地址

论文地址:A2Text-Net: A Novel Deep Neural Network for Sarcasm Detection | IEEE Conference Publication | IEEE Xplore

github:lliyuan1117/A2Text-Net (github.com)

论文首页

A2Text-Net:一种用于讽刺检测的新型深度神经网络


📅出版年份:2019
📖出版期刊:
📈影响因子:
🧑文章作者:Liu Liyuan,Priestley Jennifer Lewis,Zhou Yiyun,Ray Herman E.,Han Meng


🔎摘要:

讽刺是一种常见的反讽形式,使用者通常使用相反的词语来表达自己的负面态度。预测讽刺是研究人类社会互动的重要组成部分。改进讽刺语言的分类有可能改进人类情感的其他方面(如品牌偏好、政治观点)。在面对面交流中,声音的变化、眼神的交流、身体的姿势等都为听众提供了发现讽刺的线索。然而,由于缺乏这些以人为中心的微妙线索,仅通过文本检测讽刺尤其具有挑战性。在这项研究中,我们采用了一种新的深度神经网络: A2Text-Net 来模仿面对面的语音,它整合了标点符号、语篇(POS)、数字、表情符号等辅助变量,以提高分类性能。实验结果证明,与传统的机器学习和深度学习算法相比,我们的 A2Text-Net 方法提高了分类性能。


🌐研究目的:

改进的讽刺检测支持更好地解释客户情绪、政治评论和通过社交媒体平台进行的信息交流。

📰研究背景:

在社交媒体和其他基于文本的环境中,讽刺检测成为一项艰巨的任务。仅从文本中很难对讽刺信息进行分类;缺少提供重要背景的线索。

🔬研究方法:


🔩模型架构:

A2Text-Net 共有三层。

第一层名为“假设检验层”

  • 旨在确定辅助变量是否适合添加到文本中。

  • “假设层”选择适当的辅助变量,添加到下一个“特征处理层”中。

第二层是“特征处理层”

  • 主要目的是将非结构化数据转换为结构化数据,并将文本特征与辅助特征连接起来。

  • 对于文本数据,词嵌入层可以训练每个词的参数,并将非结构化文本数据转换为结构化数据。

  • 在词嵌入层之后接着一个扁平化层,因为它可以减少词嵌入层的维度以满足下一层的输入维度要求。

  • 由于上下文向量和辅助变量具有不同的维度,因此不能同时充当神经网络的输入。

第三层“神经网络层”

  • 双通道数据、词嵌入输出和虚拟辅助变量将作为输入连接到第三层。

  • 应用反向传播深度神经网络。神经网络层的输入将是与文本的平坦层连接的词嵌入输出,以及我们第一层得到的辅助变量。


🧪实验:

📇 数据集:

  • 新闻标题数据集:该数据集包含从“Onion”和“HuffPost”网站收集的 26,709 个新闻标题。

  • Tweets 数据集 A:原始数据集由 Riloff 等人收集。我们收集了 1,956 条推文,其中 308 条是讽刺记录,1,648 条不是讽刺记录。

  • 推文数据集 B:数据集中有 54,931 条记录,其中 25,872 条被标记为讽刺推文,29,059 条被标记为非讽刺推文。

  • Reddit 数据集:该数据集包含 4,692 条 Reddit 评论。其中,2,346 条是讽刺记录,2,346 条不是讽刺记录。

数据预处理包括几个方面:单词标记化、所有文本小写、删除停用词和标点符号、雪词干法和词形还原

📏评估指标:

采用ROC AUC、召回率、精度和F1分数作为评价指标。

F1 分数是精确率和召回率的调和平均值。

5 折交叉验证来测试模型。

📉 优化器&超参数:

dropout率设置为0.2

两个隐藏层使用ReLu函数

输出层使用sigmoid函数对讽刺状态进行分类。

第一隐藏层有 64 个神经元,第二隐藏层有 32 个神经元。

与逻辑回归类似,“rmsprop”优化器用于寻找二元交叉熵目标函数的最优解。

💻 实验设备:

📊 消融实验:

📋 实验结果:

我们提出的 A2Text-Net 在三个数据集上具有最佳性能。

Tweets 数据集 A 是一个小型且不平衡的数据集,LSTM 在解决该数据集上的讽刺分类问题方面具有最佳性能。

显然,A2Text-Net 神经网络可以帮助 DNN 模型获得更好的分类结果。


🚩研究结论:

  • 本文提出了一种新颖的深度神经网络来检测讽刺,即“A2Text-Net”。

  • 实验结果表明,与其他基线模型相比,我们提出的方法可以获得出色的性能。

  • A2Text-Net 是一个合适的模型来检测讽刺,它允许我们添加更多相关的辅助特征,而不仅仅是使用文本特征。

  • 我们的 A2Text-Net 中的第三层可以适应任何其他深度学习模型,如果它们具有比深度神经网络更好的性能。


📝总结

💡创新点:

  • 采用了一种新的深度神经网络: A2Text-Net 来模仿面对面的语音,它整合了标点符号、语篇(POS)、数字、表情符号等辅助变量,以提高分类性能。

  • A2Text-Net框架使用辅助特征来改进模型选择,它将多个辅助数据与词嵌入的输出相结合。

  • 提出了两个辅助变量:标点符号和词性。可以使用统计假设检验来选择辅助变量,以改进讽刺的检测。

  • 训练了词嵌入模型,而不是使用预先训练的模型

⚠局限性:

🔧改进方法:

🖍️知识补充:

  • 词嵌入的主要目的是使用密集向量表示来表示单词和文档。

  • 在词嵌入层之后接着一个扁平化层,因为它可以减少词嵌入层的维度以满足下一层的输入维度要求。


💬讨论:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1642119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Gradle 进阶学习 之 build.gradle 文件

build.gradle 是什么? 想象一下,你有一个大型的乐高项目,你需要一个清单来列出所有的乐高积木和它们如何组合在一起。在软件开发中,build.gradle 就是这个清单,它告诉计算机如何构建(组合)你的软…

阿里低代码引擎学习记录

官网 一、关于设计器 1、从设计器入手进行低代码开发 设计器就是我们用拖拉拽的方法,配合少量代码进行页面或者应用开发的在线工具。 阿里官方提供了以下八个不同类型的设计器Demo: 综合场景Demo(各项能力相对完整,使用Fusion…

掌握JavaScript面向对象编程核心密码:深入解析JavaScript面向对象机制对象概念、原型模式与继承策略全面指南,高效创建高质量、可维护代码

ECMAScript(简称ES,是JavaScript的标准规范)支持面向对象编程,通过构造函数模拟类,原型链实现继承,以及ES6引入的class语法糖简化面向对象开发。对象可通过构造函数创建,使用原型链共享方法和属…

16、ESP32 Web

Web 服务器具有移动响应能力,可以使用本地网络上的任何设备作为浏览器进行访问。 示例功能: 构建 Web 服务器控制连接到 ESP32 的 LED在本地网络的浏览器上输入 ESP32 IP 地址访问 Web 服务器通过单击 Web 服务器上的按钮,更改 LED 状态 //…

C#语言基础

一、复杂数据类型 1. 枚举 1.1 基本概念 1.1.1 枚举是什么 枚举是一个被命名的整型常量的集合,一般用它来表示状态、类型等等 1.1.2 申明枚举和申明枚举变量 申明枚举和申明枚举变量是两个概念 申明枚举:相当于是创建一个自定义的枚举类型 申明枚…

C#实战—代码实现收发文件智能化

在信息化的今天,收发电子文档几乎是每个朋友都要经历的事情。比如班级学委和班长需要收发作业,企业管理者需要收发工作文件。但是!!! 每到要交结果时,往往会发现总会有一些人没有即使交上,50个…

【Leetcode每日一题】 综合练习 - 全排列 II(难度⭐⭐)(71)

1. 题目解析 题目链接:47. 全排列 II 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 2.算法原理 算法思路梳理 为了生成给定数组nums的全排列,同时避免由于重复元素导致的重复排列,我们可以遵…

面试中算法(2的整数次幂)

判断一个正整数是否是2的整数次幂(如16是2的4次方,返回true;18不是2的整数次幂,则返回false),要求性能尽可能高。 使用一个整型变量,让它从1开始不断乘以2,将每一次乘2的结果和 目标整数进行比较…

【python的魅力】:教你如何用几行代码实现文本语音识别

文章目录 引言一、运行效果二、文本转换为语音2.1 使用pyttsx32.2 使用SAPI实现文本转换语音2.3 使用 SpeechLib实现文本转换语音 三、语音转换为文本3.1 使用 PocketSphinx实现语音转换文本 引言 语音识别技术,也被称为自动语音识别,目标是以电脑自动将…

【网站项目】社区互助平台

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Object Desktop - Stardock 软件开发商系列套件

Windows 的一大优势在于可高度自定义,能让我们把它打造成一个最符合自己需求的工作和娱乐工具。 在桌面增强工具套件 Object Desktop 中,包含了 Stardock 旗下 10 款生产力和美化工具,可帮助我们打造出美观、实用、高效的 Windows 系统。 St…

Leetcode—163. 缺失的区间【简单】Plus

2024每日刷题&#xff08;126&#xff09; Leetcode—163. 缺失的区间 实现代码 class Solution { public:vector<vector<int>> findMissingRanges(vector<int>& nums, int lower, int upper) {int n nums.size();vector<vector<int>> an…

文件(夹)批量重命名数字、字母、日期、中文数字大写小写

首先&#xff0c;需要用到的这个工具&#xff1a; 度娘网盘 提取码&#xff1a;qwu2 蓝奏云 提取码&#xff1a;2r1z 目标是重命名下面5个文件&#xff08;也可以是文件夹等&#xff0c;任意&#xff09;&#xff0c;从大写中文数字“贰”开始 打开工具&#xff0c;找到“文…

SNR: Signal to Noise Ratio

https://www.xx.com/watch?vmyrZ_R6xIZA Fang, Y., Armin, A., Meredith, P. et al. Accurate characterization of next-generation thin-film photodetectors. Nature Photon 13, 1–4 (2019). https://doi.org/10.1038/s41566-018-0288-z Wang, F., Zhang, T., Xie, R. e…

[XYCTF新生赛]-PWN:fmt解析(scanf格式化字符串漏洞,任意地址写)

查看保护 查看ida 这里没什么好说的 完整exp&#xff1a; from pwn import* context(log_leveldebug) #pprocess(./fmt) premote(gz.imxbt.cn,20975) backdoor0x4012BEp.recvuntil(bgift: ) printf_addrint(p.recv(14),16) print(hex(printf_addr)) libcELF(./libc-2.31.so) …

【计算机网络】循环冗余校验:Cyclic Redundancy Check

1. 任务目标 利用循环冗余校验&#xff08;CRC&#xff09;检测错误。 循环冗余校验&#xff08;英语&#xff1a;Cyclic redundancy check&#xff0c;通称 CRC&#xff09;是一种根据网上数据包或计算机文件等数据产生简短固定位数校验码的一种散列函数&#xff0c;主要用来…

消息队列与信号量(基本概念及操作接口介绍)

一、消息队列 基本概念 System V消息队列是Unix系统中一种进程间通信&#xff08;IPC&#xff09;机制&#xff0c;它允许进程互相发送和接收数据块&#xff08;消息&#xff09; 操作系统可以在内部申请一个消息队列&#xff0c;可以让不同的进程向消息队列中发送数据块&…

Java中使用RediSearch进行高效数据检索

RediSearch是一款构建在Redis上的搜索引擎&#xff0c;它为Redis数据库提供了全文搜索、排序、过滤和聚合等高级查询功能。通过RediSearch&#xff0c;开发者能够在Redis中实现复杂的数据搜索需求&#xff0c;而无需依赖外部搜索引擎。本文将介绍如何在Java应用中集成并使用Red…

2024抖音直播带货-直播间拆解:抖店运营从入门到精通(56节课)

起号原理方式以及节点处理 类目的选择选品思路 付费流量投放原理 直播间进阶玩法 课程内容 直播间搭建标准自然起号(0-1)原理 方式 以及节点处理 老号重启(0-1)原理 方式 以及节点处理 账号在线人数稳定 原理 方式 以及节点处理 账号销售额放大 原理 方式 以及节点处理…