2025_NIPS_RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content
一、文章主要内容REPLIQA 是一个专为评估大型语言模型(LLMs)在未见过的参考内容上表现而设计的问答数据集,核心解决现有基准数据集可能因数据泄露导致模型依赖记忆而非真实阅读理解能力的问题。数据集包含 17,954 份虚构参考文档和 89,770 个问答对,覆盖 17 个主题,分为 5 个拆分集,采用分阶段发布(2024 年 6 月至 2025 年 6 月)以降低泄露风险。通过对 18 个主流 LLMs 的基准测试发现,模型在 REPLIQA 上的表现显著低于现有数据集(如 TRIVIAQA),且更大模型未必在阅读理解任务中更优,部分小型模型反而表现更好。二、创新点数据无泄露设计:参考文档为人类创作的虚构内容,无真实世界对应信息,确保模型无法依赖预训练记忆答题,仅能通过提供的文档获取答案。分阶段发布策略:将数据集拆分为 5 个部分逐步释放,最大程度延缓数据被用于模型训练的风险,保障长期评估有效性。多维度评估体系:不仅测试问答准确性,还评估模型“拒绝回答无法解答问题”的能力和文档主题检索能力,全面反映模型阅读理解与信息利用能力。大规模基准测试:覆盖 18 个主流 LLMs,揭示模型在“依赖记忆”与“依赖上下文”任务中的性能差异,为模型选型提供参考。三、核心部分翻译(Markdown 格式)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2593657.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!