斯坦福邱肖杰:自动化组学发现的可进化多智能体框架
摘要大型语言模型驱动的自主智能体系统与单细胞生物学的融合有望推动生物医学发现领域的范式转变。然而现有生物智能体系统基于单智能体架构构建要么功能单一、要么过于泛化仅适用于常规分析。本文介绍种可进化、隐私保护型多智能体框架PantheonOShttps://PantheonOS.stanford.edu旨在兼顾通用性与领域特异性。关键创新在于PantheonOS支持智能体代码进化通过进化最先进的批量校正算法和强化学习增强的基因面板选择算法实现超人类性能。PantheonOS可跨多个生物系统驱动科学发现在新型小鼠早期胚胎3D数据中揭示近-远端轴形成过程中Cer1-Nodal的不对称旁分泌抑制整合人类胎儿心脏多组学与全心脏数据揭示心脏病潜在分子程序自适应选择虚拟细胞模型预测心脏调控效应与扰动响应。综上PantheonOS为生物学及其他领域的科学发现向自进化人工智能系统驱动的未来奠定了基础。网站https://pantheonos.stanford.edu生态系统https://github.com/aristoteleoxiaojiestanford.edu#PantheonOS #多智能体框架 #自动化基因组学 #单细胞测序 #空间转录组学 #算法自进化 #强化学习 #基因面板设计 #虚拟细胞模型 #多组学整合结果PantheonOS可进化的分布式通用多智能体框架适用于自动化单细胞与空间基因组学分析图1PantheonOS用于自动化数据科学研究的可进化、分布式整合型多智能体系统适用于单细胞与空间基因组学分析(A) Pantheon的层金字塔架构从下至上依次为LLM接口与分布式网络第层、智能体 / 团队与工具集第层含可进化智能体、交互接口第层和应用第层组件。(B) 灵活的用户交互接口包括用于编码和上游分析的命令行接口CLI、用于任务监控和团队协作的Slack聊天机器人、内置Jupyter笔记本的网页版GUI支持交互式分析以及用于社区驱动的智能体系统组件含领域特异性技能、工具、智能体或智能体系统、向量知识库、GUI共享的Pantheon Store。(C) 核心架构工作流展示用户接口如何连接至智能体团队智能体团队利用工具、Pantheon-Evolve模块和分布式通信迭代优化软件包与智能体技能实现去中心化智能体系统。(D) Pantheon-Omics-Expert智能体团队包含负责协调与规划的Leader智能体、用于工作区设置和依赖管理的数据分析智能体、用于算法优化的进化智能体、用于生物学解释的生物学专家智能体、用于工具开发的编码智能体、用于文献检索的浏览智能体以及用于自动报告生成的报告智能体。(E) PantheonOS 支持的自动化基因组学数据分析上游端到端强化学习驱动的靶向空间转录组基因面板设计图2、关键单细胞基因组学算法如批量效应校正方法及本研究开发的靶向面板设计RL算法的进化图3、小鼠早期胚胎新3D数据集和人类胎儿心脏3D空间组学数据的全对话式多模态整合分析图5最终通过智能路由实现多种单细胞基础模型的统一访问图6推动虚拟细胞模型与人工智能智能体的整合。集成强化学习的全自动智能体基因面板设计流程性能优于传统方法图2Pantheon-omics支持免疫肿瘤学应用的强化学习驱动基因面板设计(A) 工作流概述指定面板需求的用户查询由Omics-Expert团队处理该团队采用整合强化学习算法见面板B的面板设计智能体技能生成并迭代优化基因面板最终输出格式规范的PDF报告。(B) 基因面板优化的强化学习算法架构展示全局状态编码器、智能体策略网络、评论者价值网络与环境组件之间的交互环境基于Leiden聚类的调整兰德指数ARI与真实聚类的对比结果作为奖励更新基因面板。(C) 肾脏数据集上的基准对比展示强化学习生成的种子面板在ARI、NMI和SI指标上优于传统方法。注全数据集的SI较低0.1396而强化学习方法的结果与之相当。(D) 全基因集与强化学习面板G500的UMAP可视化验证优化后面板可保留细胞类型区分能力。(E) 训练动态与探索性能。训练过程通过50个epoch的项指标表征每个epoch的奖励左上每个epoch开始时的评估奖励快照反映初始策略性能的固有方差最大奖励值0.496探索策略ε-贪心右上ε 探索概率从0.50指数衰减至30个epoch时的最小阈值0.20该策略在早期阶段优先进行随机环境遍历随后过渡到更具确定性的策略驱动方法面板大小|G|左下跟踪随时间变化的面板大小目标大小为500随着训练推进智能体维持目标大小的稳定性逐渐提升探索奖励右下探索步骤的总体性能实线代表平均奖励阴影区域代表奖励范围最小值 / 最大值表明平均探索质量逐步提升性能波动性逐渐缩小。(F) 不同方法基因面板的成对非排他性交集的Upset图量化选择方法之间的一致性。(G) 智能体生成的最终基因面板与传统方法在性能指标ARI、归一化互信息NMI和轮廓系数 SI上的对比。(H) 最终700个基因的肾脏免疫肿瘤学面板的功能架构按生物学先验分类。Pantheon-Evolve智能体代码进化改进批量校正与强化学习算法图3Pantheon-Evolve通过LLM引导的进化实现最先进生物信息学算法的自动化优化(A) 框架概述用户需求由Evo-Agent接口处理自动生成目标、评估函数和进化配置。系统采用MAP-Elites算法维护程序数据库以保持代码多样性进化循环通过采样父程序和参考精英生成突变上下文。两阶段突变流程中分析器智能体负责策略规划算法优化与工程优化随后突变器智能体执行代码修改生成子程序并纳入数据库。混合评估结合基于功能的指标准确性、速度与LLM驱动的代码评审生成综合适应度评分。(B) Harmony批量校正算法的进化轨迹展示不同进化变体的适应度提升曲线性能逐步改善。(C) 验证数据集20,000个细胞50个供体上的性能对比包括未校正数据、原始Harmony算法和种进化变体#125、#272指标涵盖批量混合度Mix和生物学结构保留度Bio评分。进化变体的混合度评分达0.964-0.967同时维持生物学结构Bio0.559-0.574。(D) Harmony进化的批量整合评分对比验证进化变体的批量混合效果提升Harmony变体的生物学结构保留评分表明进化后仍维持细胞类型区分能力Harmony变体的计算时间对比进化版本在保持质量的同时实现不同程度的执行速度优化。(E) 进化后的面板设计RL算法在ARI、NMI和SI指标上的性能对比「进化探索」和「进化优化」为不同进化目标下的结果。(F) 进化RL算法与原始算法的训练时间对比。PantheonOS自动化原肠胚形成早期对称性破缺分子与信号事件的3D空间图谱构建图4小鼠E6.0早期胚胎细胞类型、基因表达与信号传导的3D空间转录组图谱(A) OpenST空间转录组实验流程用于分析6个共包埋在线性阵列中的E6.0小鼠胚胎连续切片。(B) PantheonOS智能体计算分析流程概述(1) Pantheon Omics-Expert智能体自动处理FASTQ数据生成2D空间图谱(2) 结合连续HE图像和Spateo优化的人机协同3D重构(3) 智能体执行下游探索性任务如细胞类型、基因表达和旁分泌信号的空间量化分析。(C) TOME小鼠胚胎转录组图谱的单细胞 RNA-seq 参考数据 UMAP 可视化覆盖E5.5-E6.25。细胞按细胞类型注释着色左图胚胎内脏内胚层EmVE、外胚层Epi、胚外外胚层ExE、胚外内脏内胚层ExVE和壁内胚层PE外胚层标志物Pou5f1左中、ExE标志物S100a6右中和Hand1右图在外胚层UMAP嵌入中的表达。(D) 点图展示选定标志物基因在TOME参考数据各细胞类型中的表达。点大小表示表达该基因的细胞比例颜色强度代表平均表达水平。右侧条形图显示每种细胞类型的总细胞计数。(E) 采用Pantheon-Evolve-Harmony进化后的Harmony算法进行批量校正后本研究中6个E6.0胚胎的UMAP可视化。细胞按来源胚胎着色左图Pou5f1外胚层、S100a6和Hand1ExE的表达验证了整合数据集的预期谱系分离。(F) 采用Tangram对3个代表性胚胎切片的OpenST数据bin200分辨率进行空间解卷积。每个bin按预测的优势最高概率细胞类型着色顶部附带的组成条形图总结每种细胞类型的预测比例。空间排列重现了E6.0卵圆柱的预期组织架构ExE位于近侧区域外胚层位于远侧区域。(G) E6.0小鼠胚胎卵圆柱期的示意图展示细胞类型沿近-远端轴的空间分布图改编自Srinivas的研究。外胚层占据卵圆柱的远侧部分侧为胚胎内脏内胚层EmVE而胚外外胚层ExE和胚外内脏内胚层ExVE位于近侧区域。(H) 胚胎3的Tangram解卷积细胞类型比例和推测标志物基因表达的空间可视化。左图显示每个bin中预测的外胚层Epi和ExE比例右图展示Pou5f1外胚层标志物和S100a6ExE标志物的推测表达。(I) E6.0胚胎中Cer1-Nodal信号轴的空间分析。(i) Cer1和Nodal的空间平滑表达含计算得出的Cer1表达边界透明黑色平面(ii) Cer1红色和Nodal蓝色表达的双通道叠加含边界透明黑色平面(iii) Nodal表达与Nodal阳性细胞距Cer1高表达细胞距离的关系(iv) Nodal平均表达随距Cer1边界带符号距离的变化负值 ExE侧/Cer1结构域外正值 外胚层侧误差棒代表标准误(v) 小提琴图和箱线图对比个侧域正常阳性域N和正常阴性域N-的Cer1表达侧域由垂直于近-远端P-D边界ExE-外胚层界面构建的「盲」几何轴N定义P值通过Mann-Whitney U检验计算。Pantheon-omics整合人类胎儿心脏单细胞多组学与3D MERFISH数据探索先天性心脏病机制图5Pantheon-omics整合人类胎儿心脏单细胞多组学与3D MERFISH 数据受孕后12周探索先天性心脏病机制(A) 分析工作流多时间点单细胞多组学数据和3D MERFISH人类心脏数据通过非平衡最优传输映射整合用于下游3D全心脏转录组水平分析包括性别差异分析、细胞间通信、增强子激活模式和心脏病相关基因的推测表达。(B) 人类胎儿心脏单细胞数据集包含95,584个细胞和多个发育时间点的全基因组基因UMAP可视化按细胞类型着色含成纤维细胞、心肌细胞、内皮细胞和心内膜细胞。(C) 3D人类心脏MERFISH 数据集包含300万个细胞和238个基因在3D空间中可视化标注跨多个组织层的细胞类型。(D) 单细胞数据到空间数据的映射结果热图来源细胞类型行映射至目标空间细胞类型列支持标签转移和表达推测。热图中每个细胞的颜色对应多组学数据中单个细胞映射至空间图谱相应细胞类型的比例。(E) 3D心脏模型中预测细胞类型的空间可视化。(F) 扩张型心肌病、流出道畸形和家族性胸主动脉瘤/主动脉夹层相关基因的推测表达模式。(G) 瓣膜区域的横截面视图第16切片突出瓣膜相关细胞类型VIC瓣膜间质细胞红色5,799个细胞、vCM-LV-AV橙色1,034个细胞、vCM-RV-AV黄色370个细胞和ncCM-AVC样细胞粉色374个细胞。非瓣膜细胞以灰色显示。第16切片在所有53个组织切片中VIC富集度最高16.1%。(H) 瓣膜区域横截面第16切片中4个瓣膜缺陷相关基因的推测表达ELN与房间隔缺损ASD、瓣膜缺陷VD、新生变异DNV相关、FBN1与家族性胸主动脉瘤/主动脉夹层FTAAD、瓣膜缺陷VD、新生变异DNV相关、NOTCH2与房间隔缺损ASD、瓣膜缺陷VD、流出道畸形OTM相关和TBX20与房间隔缺损ASD、流出道畸形OTM、单心室疾病SVD相关。每个基因在瓣膜区域内呈现独特的空间表达模式ELN集中在血管平滑肌区域FBN1在结缔组织/成纤维细胞域NOTCH2和TBX20广泛分布于间充质和周细胞群。(I) 展示细胞间邻近模式的空间邻近富集矩阵。(J) 空间背景下鉴定的显著配体-受体对。(K) 细胞类型水平上RNA与ATAC模态的总信号对比标准化后。(L) 不同疾病类别中心脏病相关基因的推测ATAC信号。智能路由器自动化异构单细胞与空间分析任务的最优虚拟细胞模型选择图6智能单细胞基础模型路由器与调控网络预测(A) Pantheon-scFMRouter用于单细胞基础模型的智能体驱动路由系统。用户输入或多智能体团队请求经模型接口scFMToolset传递至智能路由器路由器通过模型注册中心检索模型权重与特性经多标准推理数据特征、任务需求、硬件适配选择最优模型在隔离的执行环境中运行输出嵌入结果、预测结果及溯源信息。(B) 模型注册中心22种模型涵盖发现类Tabula、UCE等和分析类scGPT、CellPLM等模型标注关键特性训练数据规模、支持模态、物种兼容性等。(C) 智能路由工作流数据特征分析物种、模态、基因ID格式→硬件感知GPU可用性、显存约束→约束过滤任务类型、物种适配→LLM 排序匹配用户意图与模型特性→输出带选择依据的排序结果。(D) 原始LLM与scFM路由器的性能对比原始LLMGPT-4o、GPT-5.2在模型选择准确率上表现较差而scFM路由器在种骨干LLM上均实现近100%的模型选择准确率和任务推理准确率。(E) 硅基扰动效应大小模型scGPT241个心脏病相关基因的敲除KO和过表达OE扰动后心肌结构基因MYH6、MYH7等表现出最大的嵌入变化与它们在心肌细胞特性和功能中的核心作用一致。(F) MYH6敲除扰动的流线型可视化房间隔心肌细胞ACM在MYH6敲除后表现出强烈的定向流动而心室心肌细胞VCM和成纤维细胞群向簇边界离心位移提示心肌细胞谱系的细胞状态不稳定。(G) PCW12胎儿心脏的基因调控网络基于Tabula硅基扰动14/18个调控关系正确网络捕获激活如MEF2C激活 NPPA平均表达变化44.0NR2F2激活TBX5和抑制如NKX2-5抑制MYH11表达变化-20.1TBX3抑制GJA5关系具有生物学一致性的方向和幅度。(H) 扰动epoch中的基因表达变化预测的表达变化在约3个epoch内收敛MEF2C→NPPA和NR2F2→TBX5表现出与激活一致的渐进上调而NKX2-5→MYH11和NR2F2→MYL2表现出与抑制一致的下调。(I) 调控网络扰动效应在3D胎儿心脏MERFISHPCW12中的空间映射MEF2C激活NPPA在心室和心房区域广泛上调红色NR2F2激活TBX5在特定心脏区域富集上调NKX2-5抑制MYH11和NR2F2抑制MYL2在心室心肌细胞密集区域呈空间限制性下调蓝色。详细总结思维导图mindmap层金字塔架构关键功能特性算法性能对比参考PantheonOS: An Evolvable Multi-Agent Framework for Automatic Genomics Discoveryhttps://www.biorxiv.org/content/10.64898/2026.02.26.707870v1.full260226PantheonOS.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2455295.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!