2025_NIPS_CGBENCH: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research
核心结论该文章提出临床遗传学领域的LLM评估基准CGBENCH,聚焦真实场景下的科学文献解读任务,揭示了现有模型在细粒度证据分析中的优势与不足,创新点集中在任务设计、数据来源和评估方法三方面。一、主要内容总结1. 研究背景与问题临床遗传学中,基因和变异注释是个性化医疗的核心,但传统人工方法耗时费力,且现有LLM基准多聚焦窄化任务,与真实科研场景脱节。现有LLM在科学文献解读中存在幻觉、证据强度误判等问题,缺乏针对临床遗传学复杂任务的评估工具。2. CGBENCH基准设计数据来源:基于NIH资助的ClinGen数据库,包含专家标注的基因/变异注释、证据准则和科学文献引用,确保数据真实性和权威性。核心任务:证据评分(E-Score):根据特定准则提取文献中的证据代码(分初级、次级、三级代码);证据验证(E-Ver):判断文献是否满足给定证据代码的要求;实验证据提取(GCI任务):从文献中提取结构化证据(类别、解释、评分及调整理由)。评估对象:8种LLM(含闭源/开源、推理型/非推理型),如GPT-4o、Deepseek-R1、o4-mini等。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2415016.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!