从81.7万细胞中解码“语法”:人类发育多组学图谱首次揭示调控序列的硬规则与软约束
论文信息标题Multiomics and deep learning dissect regulatory syntax in human development期刊/会议Nature发表时间25 February 2026论文链接https://doi.org/10.1038/s41586-026-10326-9从81.7万细胞中解码“语法”人类发育多组学图谱首次揭示调控序列的硬规则与软约束一句话速览斯坦福大学团队在《自然》杂志发布迄今最全面的人类胎儿发育多组学单细胞图谱覆盖12个器官、81.7万个细胞绘制了超过100万个调控元件。他们利用深度学习模型首次系统性地揭示了转录因子结合位点之间相互作用的“语法规则”——包括严格的间距取向要求硬规则和灵活的排列方式软约束并发现了一批普遍存在的抑制性调控基序。想象一下你手中有一本构建人体的“基因说明书”。这本说明书由30亿个字母碱基写成但其中真正指导细胞何时、何地、变成何种类型的“操作指南”只散布在基因组不到2%的区域里——这些就是调控序列。长久以来科学家们知道这些“操作指南”并非简单的单词转录因子结合位点堆砌它们之间存在着复杂的“语法”。就像“我吃饭”和“饭吃我”意思完全不同两个转录因子结合位点的间距、相对方向可能决定了这个调控元件是开启基因还是沉默基因。然而这套“语法规则”究竟是什么它在人类发育的数百种细胞类型中如何变化我们一直缺乏一张全景图。更棘手的是绝大多数人类复杂疾病如心脏病、哮喘的风险基因变异都落在这片非编码的“调控暗物质”区域。理解这些变异如何通过破坏“语法”导致疾病是精准医学的终极挑战之一。现在一项发表于《自然》的研究带来了突破。由斯坦福大学William J. Greenleaf、Anshul Kundaje和Illumina的Kyle K. H. Farh共同领导的研究团队构建了人类发育多组学图谱并利用深度学习模型首次大规模、系统性地解读了人类发育过程中调控序列的“语法逻辑”。背景与痛点调控序列的“语法之谜”在细胞分化的交响乐中转录因子是指挥家。它们通过识别DNA上特定的短序列基序并结合上去打开局部染色质启动或抑制基因表达。通常多个转录因子需要协同工作以实现精确的调控。这种协同作用有两种主流模型直接合作DNA介导转录因子之间像乐高积木一样通过物理相互作用紧紧结合在一起。这通常要求它们的结合位点在DNA上以固定的间距和方向排列就像插座和插头必须对准才能通电。这被称为“硬语法”。间接合作核小体介导转录因子不一定直接接触而是通过共同竞争或驱逐包裹DNA的核小体来打开染色质。这种情况下结合位点的排列可以相对灵活只要在一定范围内即可。这被称为“软语法”。问题在于我们之前的研究犹如“管中窥豹”。要么是使用混合了大量细胞类型的“批量”数据模糊了细胞特异性要么只聚焦于单个器官或单一的检测层面如只测染色质开放性或只测基因表达。我们缺少一个跨器官、多组学、单细胞分辨率的发育图谱来全景式地观察这些语法规则如何在不同的细胞类型中上演。此外如何从海量的DNA序列中自动、准确地找出这些规则传统方法依赖于预先已知的基序库和繁琐的实验验证难以应对人体内千变万化的上下文环境。核心方法用深度学习“破译”DNA语言研究团队首先构建了核心资源人类发育多组学图谱。他们利用SHARE-seq技术同时检测了来自12个人类胎儿器官孕10-23周共81.7万个单细胞的染色质可及性ATAC-seq和基因表达RNA-seq最终定义了203种细胞类型并绘制了超过103万个候选顺式调控元件。但这只是第一步。真正的创新在于他们如何解读这些数据。团队为189种细胞类型分别训练了名为ChromBPNet的深度卷积神经网络模型。这个模型的输入是一段2000多碱基对的DNA序列输出是预测的、碱基分辨率的染色质可及性图谱。你可以把它理解为一个“DNA序列编译器”给它一段序列它就能告诉你这段序列在特定细胞类型中有多大可能被打开可及以及打开的具体模式如转录因子结合留下的“足迹”。关键在于模型的“可解释性”。研究人员使用深度特征归因技术追溯是序列中的哪些核苷酸对“可及性”预测贡献最大。将这些高贡献区域聚类就能从头发现驱动染色质开放的序列模式——即调控基序。最终他们汇编了一部包含508个全新基序的“调控词典”其中大部分493个促进可及性而令人惊讶的是有15个基序被预测为降低可及性即起到抑制性作用。实验结果发现“硬语法”与“软语法”的广泛证据利用训练好的模型研究人员可以进行“虚拟实验”。他们系统性地测试了138对复合基序由两个基序组合而成探究两个基序在不同间距、不同方向排列时对可及性的联合影响是否大于单独作用之和即协同效应。结果他们发现了67对具有显著协同效应的基序对并清晰地将其分为两类硬语法规则Hard Syntax48对基序表现出严格的间距和方向偏好。例如一个由E-box和同源异型框Homeodomain位点组成的复合基序在间距为5个碱基、头尾相接的排列下协同效应最强。这与已知的“协调子”复合物结构完全吻合其精确间距对于稳定转录因子间的物理接触至关重要。这类规则通常意味着转录因子间存在直接的蛋白-蛋白相互作用。软语法规则Soft Syntax19对基序的协同效应在一个较宽的距离范围如20-150bp内都存在且效应随着距离增大而平缓衰减。这种灵活性符合核小体介导的间接协同模型可能提供了进化上的稳健性——即使序列发生一些变异调控功能仍得以保留。此外研究还证实了抑制性基序的普遍存在。像ZEB/SNAIL、BCL11A等已知转录抑制因子对应的基序在可及区域内部反而预测会降低局部可及性。它们倾向于位于核小体核心附近而非开放区域的正中心。意义与展望连接发育语法与疾病风险这项工作的意义远不止于绘制一张图谱。首先它提供了一个解码非编码基因组的强大框架。ChromBPNet模型不仅能发现基序还能定量预测任意DNA序列变异对染色质状态的影响。研究人员将这一能力应用于疾病研究。他们整合了超过13000项全基因组关联研究的精细定位数据发现许多与成人疾病如哮喘、冠心病相关的风险变异竟然落在胎儿特异性的可及调控元件中。例如一个与哮喘风险相关的变异rs113892147位于胎儿肺巨噬细胞一个活跃的增强子内破坏了促进开放的NRF1基序。模型预测风险等位基因会降低该元件的可及性。这提示某些成人疾病的风险可能源于生命早期关键细胞类型如免疫细胞的发育程序受到了细微干扰。另一个冠心病风险变异rs12740374则位于肌肉内皮细胞的一个抑制性ZEB/SNAIL基序中。风险等位基因破坏了这个抑制性基序并意外地创建了一个促进开放的C/EBP基序预测将增加可及性。这为血管内皮功能异常在冠心病中的作用提供了新的分子线索。其次这部“调控语法手册”是理解生命编程的基础。它揭示了细胞如何利用有限数量的转录因子通过排列组合和严格的语法规则创造出极其多样的基因表达程序从而构建出复杂的多细胞有机体。局限性与未来方向当然这项工作也有其边界。图谱覆盖的细胞类型虽广但尚未达到饱和更深入的采样将发现更多稀有细胞状态。深度学习模型主要捕捉直接影响染色质可及性的序列特征对于通过其他机制如远程染色质环化发挥作用的调控因子可能不敏感。此外所有的预测仍需在未来的湿实验中得到最终验证。这项研究如同一束强光照亮了非编码基因组这片曾经的“暗物质”区域。它告诉我们DNA序列不仅承载着信息更内嵌着一套精妙的空间语法。这套语法与转录因子共同编写了发育的程序而它的“错别字”变异则可能为未来的疾病埋下伏笔。从基础科学的角度我们终于开始像理解语言一样理解调控序列的逻辑。而从转化医学的角度这份图谱和模型为系统性地解读疾病风险变异、理解其作用的细胞类型和发育时期提供了前所未有的工具。最后留给读者一个思考这项研究揭示了许多胎儿期活跃、成年后关闭的调控元件与疾病相关。这是否意味着某些“成人病”的根源其实深植于我们生命最初数周或数月的发育蓝图之中如果未来可以通过基因编辑或表观遗传调控在早期修正这些“编程错误”是否能为疾病预防开辟全新的道路欢迎在评论区分享你的见解。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2507737.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!