2025_NIPS_CELLVERSE: Do Large Language Models Really Understand Cell Biology?
一、文章主要内容总结该研究聚焦于大语言模型(LLMs)在细胞生物学领域的应用能力评估,核心贡献是构建了首个统一的语言中心型基准数据集CELLVERSE,并通过系统实验揭示了LLMs在单细胞分析任务中的表现与局限:背景与问题:现有单细胞分析方法存在缺乏统一性(需为不同多组学数据和任务设计专用模型)、用户友好性不足(依赖生物学专业知识和编程技能)、可解释性差(黑箱模型无法说明决策逻辑)三大痛点;而LLMs在科学领域的应用尚未针对单细胞分析开展全面评估。CELLVERSE基准构建:数据覆盖:整合4类单细胞多组学数据(scRNA-seq、CITE-seq、ASAP-seq、scATAC-seq),包含5个子数据集;任务设计:涵盖3个层级的核心单细胞分析任务,均转化为问答(QA)格式:细胞水平:细胞类型注释(CTA);药物水平:药物反应预测(DRP);基因水平:扰动分析(含扰动显著性分析PSA、扰动方向分析PDA);数据转换:通过cell2sentence(将细胞基因表达转化为基因名称排序的自然语言句子)和基因调控网络(GRN,将基因间调控关系转化为可解释文本)实现多组学数据的语言化。实验设计与核心发现:评估对象:14个LLM(9个
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2492287.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!