从81.7万细胞中解码“语法”:人类发育多组学图谱首次揭示调控序列的硬规则与软约束

news2026/4/11 23:26:40
论文信息标题Multiomics and deep learning dissect regulatory syntax in human development期刊/会议Nature发表时间25 February 2026论文链接https://doi.org/10.1038/s41586-026-10326-9从81.7万细胞中解码“语法”人类发育多组学图谱首次揭示调控序列的硬规则与软约束一句话速览斯坦福大学团队在《自然》杂志发布迄今最全面的人类胎儿发育多组学单细胞图谱覆盖12个器官、81.7万个细胞绘制了超过100万个调控元件。他们利用深度学习模型首次系统性地揭示了转录因子结合位点之间相互作用的“语法规则”——包括严格的间距取向要求硬规则和灵活的排列方式软约束并发现了一批普遍存在的抑制性调控基序。想象一下你手中有一本构建人体的“基因说明书”。这本说明书由30亿个字母碱基写成但其中真正指导细胞何时、何地、变成何种类型的“操作指南”只散布在基因组不到2%的区域里——这些就是调控序列。长久以来科学家们知道这些“操作指南”并非简单的单词转录因子结合位点堆砌它们之间存在着复杂的“语法”。就像“我吃饭”和“饭吃我”意思完全不同两个转录因子结合位点的间距、相对方向可能决定了这个调控元件是开启基因还是沉默基因。然而这套“语法规则”究竟是什么它在人类发育的数百种细胞类型中如何变化我们一直缺乏一张全景图。更棘手的是绝大多数人类复杂疾病如心脏病、哮喘的风险基因变异都落在这片非编码的“调控暗物质”区域。理解这些变异如何通过破坏“语法”导致疾病是精准医学的终极挑战之一。现在一项发表于《自然》的研究带来了突破。由斯坦福大学William J. Greenleaf、Anshul Kundaje和Illumina的Kyle K. H. Farh共同领导的研究团队构建了人类发育多组学图谱并利用深度学习模型首次大规模、系统性地解读了人类发育过程中调控序列的“语法逻辑”。背景与痛点调控序列的“语法之谜”在细胞分化的交响乐中转录因子是指挥家。它们通过识别DNA上特定的短序列基序并结合上去打开局部染色质启动或抑制基因表达。通常多个转录因子需要协同工作以实现精确的调控。这种协同作用有两种主流模型直接合作DNA介导转录因子之间像乐高积木一样通过物理相互作用紧紧结合在一起。这通常要求它们的结合位点在DNA上以固定的间距和方向排列就像插座和插头必须对准才能通电。这被称为“硬语法”。间接合作核小体介导转录因子不一定直接接触而是通过共同竞争或驱逐包裹DNA的核小体来打开染色质。这种情况下结合位点的排列可以相对灵活只要在一定范围内即可。这被称为“软语法”。问题在于我们之前的研究犹如“管中窥豹”。要么是使用混合了大量细胞类型的“批量”数据模糊了细胞特异性要么只聚焦于单个器官或单一的检测层面如只测染色质开放性或只测基因表达。我们缺少一个跨器官、多组学、单细胞分辨率的发育图谱来全景式地观察这些语法规则如何在不同的细胞类型中上演。此外如何从海量的DNA序列中自动、准确地找出这些规则传统方法依赖于预先已知的基序库和繁琐的实验验证难以应对人体内千变万化的上下文环境。核心方法用深度学习“破译”DNA语言研究团队首先构建了核心资源人类发育多组学图谱。他们利用SHARE-seq技术同时检测了来自12个人类胎儿器官孕10-23周共81.7万个单细胞的染色质可及性ATAC-seq和基因表达RNA-seq最终定义了203种细胞类型并绘制了超过103万个候选顺式调控元件。但这只是第一步。真正的创新在于他们如何解读这些数据。团队为189种细胞类型分别训练了名为ChromBPNet的深度卷积神经网络模型。这个模型的输入是一段2000多碱基对的DNA序列输出是预测的、碱基分辨率的染色质可及性图谱。你可以把它理解为一个“DNA序列编译器”给它一段序列它就能告诉你这段序列在特定细胞类型中有多大可能被打开可及以及打开的具体模式如转录因子结合留下的“足迹”。关键在于模型的“可解释性”。研究人员使用深度特征归因技术追溯是序列中的哪些核苷酸对“可及性”预测贡献最大。将这些高贡献区域聚类就能从头发现驱动染色质开放的序列模式——即调控基序。最终他们汇编了一部包含508个全新基序的“调控词典”其中大部分493个促进可及性而令人惊讶的是有15个基序被预测为降低可及性即起到抑制性作用。实验结果发现“硬语法”与“软语法”的广泛证据利用训练好的模型研究人员可以进行“虚拟实验”。他们系统性地测试了138对复合基序由两个基序组合而成探究两个基序在不同间距、不同方向排列时对可及性的联合影响是否大于单独作用之和即协同效应。结果他们发现了67对具有显著协同效应的基序对并清晰地将其分为两类硬语法规则Hard Syntax48对基序表现出严格的间距和方向偏好。例如一个由E-box和同源异型框Homeodomain位点组成的复合基序在间距为5个碱基、头尾相接的排列下协同效应最强。这与已知的“协调子”复合物结构完全吻合其精确间距对于稳定转录因子间的物理接触至关重要。这类规则通常意味着转录因子间存在直接的蛋白-蛋白相互作用。软语法规则Soft Syntax19对基序的协同效应在一个较宽的距离范围如20-150bp内都存在且效应随着距离增大而平缓衰减。这种灵活性符合核小体介导的间接协同模型可能提供了进化上的稳健性——即使序列发生一些变异调控功能仍得以保留。此外研究还证实了抑制性基序的普遍存在。像ZEB/SNAIL、BCL11A等已知转录抑制因子对应的基序在可及区域内部反而预测会降低局部可及性。它们倾向于位于核小体核心附近而非开放区域的正中心。意义与展望连接发育语法与疾病风险这项工作的意义远不止于绘制一张图谱。首先它提供了一个解码非编码基因组的强大框架。ChromBPNet模型不仅能发现基序还能定量预测任意DNA序列变异对染色质状态的影响。研究人员将这一能力应用于疾病研究。他们整合了超过13000项全基因组关联研究的精细定位数据发现许多与成人疾病如哮喘、冠心病相关的风险变异竟然落在胎儿特异性的可及调控元件中。例如一个与哮喘风险相关的变异rs113892147位于胎儿肺巨噬细胞一个活跃的增强子内破坏了促进开放的NRF1基序。模型预测风险等位基因会降低该元件的可及性。这提示某些成人疾病的风险可能源于生命早期关键细胞类型如免疫细胞的发育程序受到了细微干扰。另一个冠心病风险变异rs12740374则位于肌肉内皮细胞的一个抑制性ZEB/SNAIL基序中。风险等位基因破坏了这个抑制性基序并意外地创建了一个促进开放的C/EBP基序预测将增加可及性。这为血管内皮功能异常在冠心病中的作用提供了新的分子线索。其次这部“调控语法手册”是理解生命编程的基础。它揭示了细胞如何利用有限数量的转录因子通过排列组合和严格的语法规则创造出极其多样的基因表达程序从而构建出复杂的多细胞有机体。局限性与未来方向当然这项工作也有其边界。图谱覆盖的细胞类型虽广但尚未达到饱和更深入的采样将发现更多稀有细胞状态。深度学习模型主要捕捉直接影响染色质可及性的序列特征对于通过其他机制如远程染色质环化发挥作用的调控因子可能不敏感。此外所有的预测仍需在未来的湿实验中得到最终验证。这项研究如同一束强光照亮了非编码基因组这片曾经的“暗物质”区域。它告诉我们DNA序列不仅承载着信息更内嵌着一套精妙的空间语法。这套语法与转录因子共同编写了发育的程序而它的“错别字”变异则可能为未来的疾病埋下伏笔。从基础科学的角度我们终于开始像理解语言一样理解调控序列的逻辑。而从转化医学的角度这份图谱和模型为系统性地解读疾病风险变异、理解其作用的细胞类型和发育时期提供了前所未有的工具。最后留给读者一个思考这项研究揭示了许多胎儿期活跃、成年后关闭的调控元件与疾病相关。这是否意味着某些“成人病”的根源其实深植于我们生命最初数周或数月的发育蓝图之中如果未来可以通过基因编辑或表观遗传调控在早期修正这些“编程错误”是否能为疾病预防开辟全新的道路欢迎在评论区分享你的见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2507737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…