Nat Methods | 哈工大王亚东/程亮团队开发通用反卷积深度学习框架,实现转录组、蛋白质组、代谢组细胞数据精准解析
细胞丰度是指组织内各类细胞类型的比例分布其动态变化在器官发育、基因调控和疾病治疗等生物学过程中至关重要。尽管单细胞技术能直接解析细胞异质性但其成本较高、样本处理受限难以大规模应用于临床队列研究且大量珍贵的组织样本无法进行单细胞解离。因此如何将丰富的组织水平多组学数据推广至细胞层面成为探索细胞异质性的核心。反卷积算法能通过单细胞参考数据推断组织水平的细胞组成成为解析复杂生物系统细胞异质性的一种经济高效替代方案。但现有算法大多针对单一组学开发泛化性较差代谢组学甚至缺乏专有方法。目前开发通用反卷积框架面临组学数据特征差异、细胞类型不匹配、批次效应等技术挑战现有方法无法同时解决这些问题。针对上述挑战哈尔滨工业大学王亚东、程亮团队开发了一种基于深度学习的通用反卷积框架DECODE可适用于转录组、蛋白质组和代谢组数据并能在细胞水平无缝整合多样的多组学组织数据集。DECODE填补了代谢组学反卷积领域的空白在跨供体、跨疾病状态、跨平台等多种场景组学数据测试中其性能显著优于现有方法。此外该框架在实际应用场景中表现稳健在单细胞参考数据不完整时仍具高鲁棒性为大规模多组学研究向细胞水平解析提供了强大工具助力精准医学研究发展。相关内容以“DECODE: deep learning-based common deconvolution framework for various omics data”为题发表在Nature Methods。DECODE整合了对抗训练和对比学习技术通过四个阶段来实现跨多组学数据的精准反卷积。第一阶段基于单细胞数据生成带已知细胞比例的伪组织样本作为训练集第二阶段采用对抗训练策略通过编码器、判别器和反卷积模块的协同优化在保留生物学信号的前提下消除训练数据与目标数据间的批次效应第三阶段引入噪声添加与对比学习机制通过维度扩展模块、去噪模块处理分离噪声特征与纯化特征增强模型处理数据噪声和跨组学异质性的鲁棒性第四阶段提供两种推理路径针对单细胞参考与目标组织细胞类型是否匹配分别采用标准和相对反卷积路径输出每个样本的细胞丰度向量。图1.DECODE框架研究团队基于15个数据集设置了7种复杂实验场景涵盖跨供体、跨疾病、跨健康状态、跨数据集、空间转录组、多细胞类型解析及真实组织数据将DECODE与TAPE、MuSiC等11种主流反卷积方法进行对比以一致性相关系数CCC、均方根误差和皮尔逊相关系数为指标全面评估其反卷积性能。结果显示DECODE在多数核心场景中CCC值均居首位且具有高鲁棒性显著超越现有方法。在空间转录组分析中DECODE预测结果与真实细胞类型分布高度吻合在真实组织数据中仅Monaco数据集的均方根误差略高于部分方法其余关键指标其均超越所有对比方法。计算效率评估显示DECODE的峰值内存占用和运行时间处于合理水平具备良好的实际应用可行性。总之与主流方法的对比证实DECODE是目前适用于转录组和蛋白质组数据的最有效的反卷积方法。图2.DECODE在转录组学和蛋白质组学数据的反卷积性能组织水平代谢组数据在临床中应用广泛但由于特征数量少、细胞类型间代谢组图谱相似度高等其反卷积难度远高于转录组和蛋白质组。为此研究团队选取小鼠肝脏、小鼠骨髓和人类结直肠癌的单细胞代谢组数据集评估了DECODE性能。结果显示DECODE仅在小鼠肝脏数据集的CCC指标上略逊于MuSiC在其余数据集和指标上均显著优于所有对比方法其细胞比例预测值与真实值高度吻合能有效捕捉细胞间微弱的差异信号。DECODE首次实现代谢组数据的有效反卷积填补了该领域的技术空白。图3.DECODE在代谢组学数据的解卷积性能细胞状态如分化、活化、凋亡等可为细胞功能提供重要信息准确量化细胞状态丰度对理解器官发育、细胞分裂等生物过程至关重要。研究团队构建了单核细胞伪时间轨迹、细胞周期G1/S/G2期及黑色素瘤细胞药物相应0/1/3/5天等3个数据集对DECODE进行全面评估。结果显示在所有数据集上DECODE均取得最优性能能够有效反演拟时间轨迹、细胞周期及环境刺激引发的细胞状态动态变化。上述结果表明DECODE是一种适用于多组学数据、可解析多种细胞状态的反卷积方法。图4.DECODE在不同组学数据、细胞状态下的反卷积性能现实研究中单细胞参考数据常因样本制备、细胞解离等因素存在细胞类型缺失问题。研究团队在转录组、蛋白质组和代谢组数据中模拟了未知细胞类型引入、特征表达波动、系统性偏差及特征丢失等多重扰动场景系统评估了DECODE性能。结果显示该框架在多数指标与场景下均优于现有方法且是唯一在代谢组数据中保持可用性能的工具。在稳定性方面转录组、蛋白质组中DECOD与部分方法在某些稳定性指标上表现相当但始终维持最高反卷积精度。为验证DECODE在跨组学、多队列研究中的一致性研究团队利用外周血单核细胞PBMCCITE-seq数据集构建转录组和蛋白质组伪队列。结果显示DECODE显著优于其他方法跨组学性能高度一致可提供稳定、精准的细胞丰度估计。接下来研究团队将DECODE应用于人类乳腺癌和小鼠肝脏等真实多组学队列。在乳腺癌队列DECODE揭示了不同转移状态下细胞组成的变化与脑转移性乳腺癌组织和转移病灶相比非转移乳腺癌组织中T细胞、血管周样细胞丰度显著较高B细胞丰度显著较低。在小鼠肝脏队列中DECODE揭示不同饮食干预和疾病状态下的细胞组成变化与健康饮食相比非酒精性脂肪性肝炎NASH和西方饮食酒精WDA组中Kupffer细胞显著增加NASH组肝细胞显著减少。图5.DECODE在真实多组学队列中的应用综上所述DECODE是首个能够统一处理转录组、蛋白质组和代谢组数据的通用解卷积框架尤其填补了代谢组学领域的空白。通过将组织水平的分子信息与单细胞分辨率的细胞图谱相结合DECODE能够以经济、高效的方式系统性地揭示疾病进展、治疗响应等过程中的细胞动态为生物标志物发现、疾病机制研究及精准医学应用开辟了新的路径。参考文献Zhao, T., Liu, R., Sun, Y.et al.DECODE: deep learning-based common deconvolution framework for various omics data.Nat Methods(2026). https://doi.org/10.1038/s41592-026-03007-y·END·阅读推荐01科学狂人克莱格·文特尔创立AI基因组学公司DGI02樊荣团队基于成像和测序的空间多组学方法实现同一组织切片的单细胞空间转录组与蛋白质分析03迄今最大规模甲状腺疾病多祖先GWAS荟萃分析结果发布04谢澎涛等团队开发包含10亿参数的单细胞转录组学基础模型05Science最新研究揭示人类寿命的遗传贡献高达55%最全1000植物核基因组数据库IMP (点击图片直达)高颜值免费 SCI 在线绘图(点击图片直达)往期精品(点击图片直达文字对应教程)LinuxPythonR绘图NGS基础GEO高级生信自学生信书籍系列教程心得体会转录组经典宏基因组蛋白质组单细胞系列测序发展史免费在线画图色彩搭配图形排版图形解读ChIP-seqTCGAGSEAWGCNA海哥组学傻瓜系列文章写作CytoscapeExcelPPT机器学习公众号投稿联系陈同 chentong_biology163.com快点亮在看”吧
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2418942.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!