2025_NIPS_CELLVERSE: Do Large Language Models Really Understand Cell Biology?

news2026/4/7 10:52:53

一、文章主要内容总结该研究聚焦于大语言模型（LLMs）在细胞生物学领域的应用能力评估，核心贡献是构建了首个统一的语言中心型基准数据集CELLVERSE，并通过系统实验揭示了LLMs在单细胞分析任务中的表现与局限：背景与问题：现有单细胞分析方法存在缺乏统一性（需为不同多组学数据和任务设计专用模型）、用户友好性不足（依赖生物学专业知识和编程技能）、可解释性差（黑箱模型无法说明决策逻辑）三大痛点；而LLMs在科学领域的应用尚未针对单细胞分析开展全面评估。CELLVERSE基准构建：数据覆盖：整合4类单细胞多组学数据（scRNA-seq、CITE-seq、ASAP-seq、scATAC-seq），包含5个子数据集；任务设计：涵盖3个层级的核心单细胞分析任务，均转化为问答（QA）格式：细胞水平：细胞类型注释（CTA）；药物水平：药物反应预测（DRP）；基因水平：扰动分析（含扰动显著性分析PSA、扰动方向分析PDA）；数据转换：通过cell2sentence（将细胞基因表达转化为基因名称排序的自然语言句子）和基因调控网络（GRN，将基因间调控关系转化为可解释文本）实现多组学数据的语言化。实验设计与核心发现：评估对象：14个LLM（9个

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2492287.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！