虚假新闻检测数据集中的隐藏偏见

news2026/3/17 19:06:05

在2021年欧洲计算语言学协会EACL会议上我们的论文《虚假新闻检测数据集中的隐藏偏见》荣获最佳长篇论文提名。该论文研究了研究社区用于开发自动识别虚假新闻模型的数据集发现这些数据集存在偏见而这些偏见正是以往论文所报告的高准确率的主要原因。这表明基于这些数据集构建的模型在现实场景中将难以有效泛化。数据收集中的偏见创建虚假新闻数据集需要收集新闻文章及其对应的标签例如“可靠”或“不可靠”。事实核查网站如PolitiFact为单个文章分配标签虽准确但耗时且成本高导致数据集规模较小。另一种方法是给每个新闻网站如cnn.com分配一个可靠性评分这能轻松创建大规模数据集但会产生噪音标签。我们的研究考察了这两种方法网站级和文章级标注所构建数据集的偏见。关键词相关性带来的偏见以流行的FakeNewsNet数据集文章级标注为例我们训练了一个简单的逻辑回归模型仅基于关键词预测新闻的可靠性其准确率78%几乎与基于BERT的最先进模型81%相当。分析发现像“Brad”、“Pitt”等名人名字倾向于预测“不可靠”标签而“2018”、“season”等中性词则预测“可靠”标签。这表明模型可能只是捕捉到了主题词与“虚假新闻”标签之间的表面相关性例如数据集中的名人新闻多被标记为不可靠而非真正理解了内容的虚假性。这反映出数据集构成存在偏差主题词与标签之间存在强烈且不真实的关联。造成这种现象的部分原因是事实核查网站选择文章时的固有偏见另一部分原因则是在构建FakeNewsNet时作者使用搜索引擎检索全文可能导致原本的虚假内容被替换为可靠内容而标签未更新。网站分类带来的问题在考察使用网站级标签的NELA数据集时我们发现了更多问题。文献中报道的模型在该类数据集上准确率很高但我们发现大部分准确率归因于训练集和测试集中包含了来自相同网站的文章。这意味着模型可以忽略识别虚假内容的任务而只是简单地记住特定网站是可靠还是不可靠。我们通过一个“随机标签”实验证明了这一点将网站标签完全随机打乱使其不再代表网站的真实可靠性。结果发现使用这些随机标签训练的模型其准确率与使用真实标签训练的模型相比差距仅在2%以内。这表明模型实际上是在学习识别网站而非判断内容真伪这在实践中毫无用处因为网址本身就包含了网站名。我们还发现即使采用干净的训练/测试集网站划分也不足以衡量模型的泛化能力。模型性能的高低与训练集和测试集中网站的相似性密切相关相似度越高准确率越高。模型性能的深层偏差在使用合理划分训练集与测试集网站相似度低的数据集进行训练后我们分析了模型最容易出错的文章类型。结果发现模型在政治和世界新闻等主题上的表现最差而在体育和娱乐新闻上表现最好。新闻的真实性对所有主题都至关重要模型在政治等关键领域的表现不佳凸显了改进虚假新闻检测数据的紧迫性。改进建议我们的研究表明为确保模型性能的提升真正反映了其识别虚假新闻的能力研究社区需要在数据收集、数据集构建和实验设计方面做出多项改变。为此我们提供了最佳实践指南表格见原文并公开了所有代码基于Apache 2.0许可可在GitHub上获取希望以此推动虚假新闻建模、分析和数据质量的提升。FINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2420352.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！