人工智能准备好进行多模态仇恨言论检测了吗？

news2026/4/1 3:47:33

摘要网络仇恨言论针对个人或群体的身份属性进行攻击传播迅速带来严重的社会风险。模因结合图像与文本的形式已成为传播仇恨言论的一种隐蔽载体其解读往往依赖文化背景知识。然而现有的多模态仇恨言论数据集存在标注粒度粗糙、缺乏与上下文语境整合的问题导致评估不精确、不完整。为弥补这一空白我们提出了一种智能体协同标注框架协调七个专用智能体生成层级化标签及其依据。基于该框架我们构建了M³多平台、多语言、多模态模因数据集包含从 X原Twitter、4chan 和微博收集的 2,455 个模因具有细粒度的仇恨标签和经人工验证的标注依据。对最先进的多模态大语言模型进行基准测试后发现这些模型难以有效利用帖子的上下文信息——上下文往往无法提升检测性能甚至使其下降。我们的发现揭示了这些模型在对嵌入真实语境中的模因进行推理时所面临的挑战并强调了构建感知上下文的多模态架构的必要性。我们的数据集和代码可在 https://github.com/mira-ai-lab/M3 获取。1 引言仇恨言论Guterres, 2019是指“任何形式的言语、文字或行为交流基于某人的身份即其宗教、族裔、国籍、种族、肤色、血统、性别或其他身份特征对其进行攻击或使用贬损、歧视性语言”。这类言论在网络平台上迅速传播对社会稳定构成严重威胁Velasquez 等2021。例如2019 年新西兰基督城清真寺枪击案以及同年美国得克萨斯州埃尔帕索的恐怖袭击事件。相关报告与研究Barnes, 2019; Ware, 2022表明作案者将网络模因融入其宣言或帖子中用以传播仇恨言论并与特定的网络亚文化群体产生共鸣从而煽动极端主义意识形态。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2470681.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！