基于单细胞多组学数据无监督构建基因调控网络

news2025/7/18 13:57:44

在单细胞分辨率下识别基因调控网络(GRNs,gene regulatory networks)一直是一个巨大的挑战,而单细胞多组学数据的出现为构建GRNs提供了机会。

来自:Unsupervised construction of gene regulatory network based on single-cell multi-omics data of colorectal cancer

目录

  • 前置内容
  • 背景介绍
  • 方法
    • 数据收集和组织
    • 细胞类型标注
    • 构建GRNs

前置内容

DNA没有功能。 它包含一组指令(instructions),这些指令必须先转化为RNA,然后再转化为蛋白质。在大多数情况下,我们可以将 RNA 视为 DNA 和蛋白质之间的信使(messenger)。DNA由包含如何制造蛋白质指令的基因组成。蛋白质负责在细胞中执行生物功能,例如代谢葡萄糖为细胞产生能量。一般来说,人体内的每种蛋白质都由一个基因编码。

  • 注意:基因不是蛋白质,而是DNA序列的一部分,可以编码蛋白质。基因是生物体内遗传信息的基本单位,包含了一系列的DNA序列,其中编码了蛋白质所需的氨基酸序列信息。基因通过转录作用,将DNA序列转录成RNA分子,然后再通过翻译作用,将RNA分子翻译成蛋白质。因此,基因可以被视为控制生物体内蛋白质合成的遗传信息的存储和传递的基本单位。

调控因子是指能够调控基因表达的蛋白质或其他分子。它们作为转录因子或其他类型的调控分子,可以结合到基因组的某些区域,例如启动子或增强子,来激活或抑制基因的转录。调控因子在细胞分化、发育和应对环境变化等生物学过程中发挥重要作用。在复杂的生物系统中,调控因子通常以复杂的网络形式相互作用,共同调控基因表达。

背景介绍

结直肠癌是威胁人类生命健康的主要癌症之一,在所有癌症中排名前五,发病率和死亡率仍在增长。然而,阐明生物分子之间复杂的调控关系对结直肠癌的治疗具有重要的研究意义。

基因调控网络GRN由调控因子(regulatory factors)和靶基因(target genes)组成。最常见的调控因子是转录因子(transcription factors),它可以通过控制复杂的细胞内相互作用来决定细胞的表型和命运。一旦调节过程发生变化,就会导致疾病出现。例如,如果AREG在GRN中高水平表达,则该组织很有可能是结直肠癌样本。因此,准确构建GRN可以有效地提高我们对驱动细胞类型和特定基因表达的调控机制的理解。


AREG是基因,虽然AREG编码的蛋白质可以作为一种信号分子参与调控,但在基因级别上,AREG本身是一个基因而不是调控因子。


在单细胞多组学数据中,同一组样本可以获得不同分子过程的全基因组数据,如转录组、表观基因组等组学数据。这些数据为单细胞分辨率下的疾病研究提供了多种模态信号,可以更准确、系统地分析临床疾病的发病机制,识别疾病的重要治疗靶点。

为了更好理解基因调控机制,近年来开发了多种算法得到GRNs。目前算法大多基于单一组学数据,然而现有研究表明,整合多种组学技术的数据可以显著提高医疗机构预测患者临床结果的准确性。基于多组学识别GRNs的研究比较少,比如LinkedSOMs,这些方法往往复杂度过高。因此,开发一种基于多组学数据的低复杂度策略对于探索GRNs至关重要。

方法

数据收集和组织

作者使用的所有数据集都是从具有相同基因集的公开数据库中下载的。scRNA-seq数据(GEND000035,2018年11月29日公开)来自Gene Expression Nebulas database,其中包含1150例人类结直肠癌癌症样本。scATAC-seq数据(GSE201336,2022年4月28日公开)来自Gene Expression Omnibus database,包含6例人类结直肠癌癌症样本。

对于scATAC-seq数据,Trimmomatic被用于移除低质量碱基,FastQC用于质量控制。应用Bowtie2将reads与参考基因组(hg19)进行对齐,所有样本的对齐率>92%。BedTools根据染色体的位置计算基因符号,scATAC-seq数据维度为8097×6,scRNA-seq数据维为8097×1150。其中,8097代表对齐的基因。

细胞类型标注

scATAC-seq提供了染色质可及性的信息,并揭示了单个细胞中基因的转录活性。直观地说,基因的转录活性和表达值之间的分布是一致的。在这项工作中,scATAC-seq和scRNA-seq从左到右连接,通过连接获得的多组学数据的维数为8097×1156。首先,去除在少于三个样本上表达的基因,和在少于200基因上表达的样本,记为 X ∈ R M × N X\in R^{M\times N} XRM×N,其中 M M M N N N代表基因和样本。 x j i x_{ji} xji代表第 j j j个基因处第 i i i个样本的表达值。使用下式进行标准化: l o g ( 10000 × ∑ j = 1 M L ( x j i ≠ 0 ) M ) log(10000\times\frac{\sum_{j=1}^{M}L_{(x_{ji}\neq 0)}}{M}) log(10000×Mj=1ML(xji=0))SingleR用于对标准化后的数据进行细胞类型注释。注释结果显示,大部分细胞是上皮细胞(epithelial cells),少数是星形胶质细胞(astrocytes)。上皮细胞用于随后的分析,星形胶质细胞被过滤掉,t-SNE可视化如图1A所示。
fig1

  • 图1A:样本的t-sne可视化。
  • 图1B:所有样本的CNV,颜色的变化表示CNV的degree,方框表示CNV更显著的区域。
  • 图1C:截取了五类样本的CNV得分分布,以及得分>500的样本进行下游分析。

CNV(copy number variation)是由基因组重排引起的,导致DNA片段拷贝的增加或丢失,这种现象在癌症中普遍存在。因此,使用inferCNV分析上皮细胞的CNV,分析结果如图1B所示。图中的黑框显示大多数细胞的拷贝数增加或减少,但少数细胞没有显著的CNV。因此,为了挑选具有显著拷贝的细胞,作者使用k-means将上皮细胞分为五个组,分析每组细胞的CNV分数。并过滤得分<500的样本。具体计算如下:

  • 数据被缩放为 [ − 1 , 1 ] [-1,1] [1,1] X ′ X' X,其中 x i m a x x_{i_{max}} ximax x i m i n x_{i_{min}} ximin分别是第 i i i个样本中所有基因表达的最小值和最大值, X i ′ = 2 × x j i − x i m i n x i m a x − x i m i n − 1 , i = 1... N , j = 1... M X'_{i}=2\times\frac{x_{ji}-x_{i_{min}}}{x_{i_{max}}-x_{i_{min}}}-1,i=1...N,j=1...M Xi=2×ximaxximinxjiximin1,i=1...N,j=1...M
  • 计算CNV: C N V i = s u m ( X i ′ ) 2 , i = 1... N CNV_{i}=sum(X_{i}')^{2},i=1...N CNVi=sum(Xi)2,i=1...N其中 C N V i CNV_{i} CNVi代表第 i i i个样本的CNV得分。这五组数据的CNV得分分布如图1C所示。其中,CNV得分<500的8个样本被认为是正常样本,其余497个样本被视为具有更显著拷贝数的样本。这497个样本的表达矩阵被提取用于下游GRN分析。

构建GRNs

构建GRN有两个主要步骤。首先,使用无监督人工神经网络自组织映射(SOM)将所有基因映射到不同的神经元(参考机器学习笔记本第三十三课一些经典的优化策略与神经网络变种),其中每个神经元代表一个基因集。SOM可以保存输入空间的拓扑结构,并将相似的基因映射在一起,从而确保这组基因的功能高度相似,这对于后续构建调控网络至关重要。其次,pySCENIC用于计算转录因子并调节每组基因。pySCENIC的创新之处在于引入转录因子基序序列,以验证通过统计方法推断的基因共表达网络,从而识别出由转录因子主导的高度可靠的GRN。


在TF-靶基因(转录因子-靶基因)图中,比如:
fig2

从数据上,它们都来自于scRNA-seq,三角形是一个节点,其实属于scRNA-seq中的某个基因,但在这个图中,它代表该基因编码的蛋白,这个蛋白是对靶基因有调控关系的转录因子。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/395866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣sql简单篇练习(二十四)

力扣sql简单篇练习(二十四) 1 各赛事的用户注册率 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 a 示例输入 b 示例输出 1.2 示例sql语句 SELECT contest_id,ROUND(count(*)/(SELECT count(user_id) FROM Users)*100,2) percentage FROM Register GROUP BY contes…

MQTT协议-使用CONNECT报文连接阿里云

使用网络调试助手发送CONNECT报文连接阿里云 参考&#xff1a;https://blog.csdn.net/daniaoxp/article/details/103039296 在前面文章介绍了如何组装CONNECT报文&#xff0c;以及如何计算剩余长度 CONNECT报文&#xff1a;https://blog.csdn.net/weixin_46251230/article/d…

【C语言】详解静态变量static

关键字static 在C语言中&#xff1a;static是用来修饰变量和函数的static主要作用为:1. 修饰局部变量-静态局部变量 2. 修饰全局变量-静态全局变量3. 修饰函数-静态函数在讲解静态变量之前&#xff0c;我们应该了解静态变量和其他变量的区别: 修饰局部变量 //代码1 #include &l…

OpenTelemetry 实现方案

OpenTelemetry 有很多种组合和实现方案&#xff0c;我们分别来了解一下 OpenTelemetry 在三种不同技术架构下的使用方式。 1、OpenTelemetry to 开源工具组合 作为经典的对各种遥测数据的处理架构&#xff0c;开源工具可将不同类型的数据存储在不同的平台&#xff0c;比如日志…

倒立摆建模

前言 系统由一辆具有动力的小车和安装在小车上的倒立摆组成&#xff0c;系统是不稳定&#xff0c;我们需要通过控制移动小车使得倒立摆保持平衡。 具体地&#xff0c;考虑二维情形如下图&#xff0c;控制力为水平力FFF&#xff0c;输出为角度θ\thetaθ以及小车的位置xxx。 力…

【WebRTC---序篇】(五)信令逻辑

关于信令的几个问题 信令发送的过程信令发送的时机:用户点connec按钮;选中connect按钮后,按回车键; Windows会分发给消息处理机制,而触发OnDefaultAction中调用Conduction的StartLogin; StartLogin里面会调用pcc_client(信令模块)的Connect; 如果是域名,进行域名解析,之后…

SQL注入——布尔盲注

目录 一&#xff0c;盲注的概念 二&#xff0c;盲注分类 三&#xff0c;注入方法的选择 四&#xff0c;关键函数 五&#xff0c;实例 一&#xff0c;盲注的概念 页面没有报错回显&#xff0c;不知道数据库具体返回值的情况下&#xff0c;对数据库中的内容进行猜解&#x…

【历史上的今天】3 月 8 日:游戏机之父诞辰;搜索技术理论之父出生;MIT 公开演示旋风计算机

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 3 月 8 日&#xff0c;在 1857 年的今天&#xff0c;美国纽约制衣和纺织女工举行了首次大型抗议活动。妇女节是纪念妇女权利运动的国际性节日。设立国际妇女节…

【打卡-Coggle竞赛学习2023年3月】对话意图识别

学习链接&#xff1a; https://coggle.club/blog/30days-of-ml-202303 ## Part1 内容介绍 本月竞赛学习将以对话意图识别展开&#xff0c;意图识别是指分析用户的核心需求&#xff0c;错误的识别几乎可以确定找不到能满足用户需求的内容&#xff0c;导致产生非常差的用户体验…

2.6 棋盘覆盖

在一个2*x2‘个方格组成的棋盘中&#xff0c;若怡有一个方格与其他方格不同&#xff0c;则称该方格为特殊方格&#xff0c;且称该棋盘为一特殊棋盘。显然&#xff0c;特殊方格在棋盘上出现的位置有 4种情形因而对任何k0&#xff0c;有4‘种特殊棋盘。图2-4 申的特殊棋益是12时 …

【项目设计】高并发内存池(七)[性能测试和提升]

&#x1f387;C学习历程&#xff1a;入门 博客主页&#xff1a;一起去看日落吗持续分享博主的C学习历程博主的能力有限&#xff0c;出现错误希望大家不吝赐教分享给大家一句我很喜欢的话&#xff1a; 也许你现在做的事情&#xff0c;暂时看不到成果&#xff0c;但不要忘记&…

初学JavaScript有困难?看过来,详细安排

你肯定没有尝试归纳&#xff0c;可以把每天学习的内容&#xff0c;用思维导图整理归类&#xff0c;这样看着就清晰多了。把基础入门做成5天的学习计划&#xff0c;其实很简单&#xff0c;你可以参考以下内容 第一天学习目标&#xff1a; 1. 理解变量是存储数据的“容器” 2.…

Linux -- 磁盘存储管理 分区类型(MBR,GPT)

首先呢&#xff0c;大家要清楚&#xff0c;在 Linux 上&#xff0c;分区类型有两种 &#xff1a;一种是MBR, 一种 GPT ~&#xff01;&#xff01;&#xff01;我们所谓的分区、分盘&#xff0c;其实是一回事儿。分区&#xff0c;就是对磁盘划分 逻辑边界&#xff0c; 注意是逻辑…

LAY-EXCEL导出excel并实现单元格合并

通过lay-excel插件实现Excel导出&#xff0c;并实现单元格合并&#xff0c;样式设置等功能。更详细描述&#xff0c;请去lay-excel插件文档查看&#xff0c;地址&#xff1a;http://excel.wj2015.com/_book/docs/%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B.html一、安装这里使用Vue…

带你感受一次JVM调优实战

本文分成两部分&#xff0c;先了解理论&#xff0c;然后再进行实战。 理论篇 1.1 调优目标 JVM调优的两大目标是&#xff1a; 提高应用程序的性能和吞吐量&#xff1a; 通过优化JVM的垃圾回收机制、调整线程池大小和优化代码&#xff0c;可以提高应用程序的性能和吞吐量。…

见证 2022re:Invent 大会及亚马逊云科技发展有感

文章目录&#x1f4cb;前言&#x1f3af;关于亚马逊云科技 re:Invent 全球大会&#x1f9e9;什么是亚马逊云科技 re:Invent 全球大会&#x1f9e9;回顾往届大会&#x1f3af;回顾2022亚马逊云科技 re:Invent 全球大会&#x1f9e9;前言&#x1f9e9;宣告大数据迈向 Serverless …

【Linux】进程间通信概念匿名管道

文章目录进程间通信介绍进程间通信的本质进程间通信的目的进程间通信的分类管道匿名管道匿名管道原理pipe函数匿名管道通信的4情况5特点读取堵塞写入堵塞写端关闭读端关闭总结进程间通信介绍 进程间通信简称IPC&#xff08;Interprocess communication&#xff09;:进程间通信…

【信息安全】快速了解密码的加密加盐处理

前言在开发的时候&#xff0c;有一些敏感信息是不能直接通过明白直接保存到数据库的。最经典的就是密码了。如果直接把密码以明文的形式入库&#xff0c;不仅会泄露用户的隐私&#xff0c;对系统也是极其的不厉&#xff0c;这样做是非常危险的。一、常规的登录认证&#xff08;…

MySQL实战之事务到底是隔离的还是不隔离的

1.前言 我们在MySQL实战之事务隔离&#xff1a;为什么你改了我还看不见讲过事务隔离级别的时候提到过&#xff0c;如果是可重复读隔离级别&#xff0c;事务T启动的时候会创建一个视图read-view,之后事务T执行期间&#xff0c;即使有其他事务修改了数据&#xff0c;事务T看到的…

MAC(m1)-VMWare Fushion安装Windows11

镜像下载地址:登录 账号:11360XXXXX@qq.com 密码:ZXXXSXX19XX 参考:VMware fusion虚拟机安装Win10系统的详细教程_IT大力水手的博客-CSDN博客_vmware fusion安装 uefi和bios有什么区别?uefi和bios的区别详细分析 _ 电脑系统城 设置密码