RNA-seq 详细教程:分析流程介绍(1)

news2025/8/12 12:41:20

学习目标

了解从 RNA 提取到获取基因表达矩阵, 既RNA-seq 分析的整个流程。

1. workflow

进行差异表达基因分析的前提是,获取代表基因表达水平的矩阵。因此在进行分析前,必须知道基因表达矩阵是如何产生的。

在本教程中,将会简要的介绍从原始测序读数到基因表达计数矩阵过程中,所采取的不同步骤。下图是整个分析过程的流程图。

RNA-seq workflow
RNA-seq workflow

2. RNA提取与文库制备

在对 RNA 进行测序前,必须从细胞环境中提取和分离出 RNA 制备成 cDNA 文库。下面将介绍涉及的许多步骤,其中还包括了质量检查,以确保获取高质量的 RNA

2.1. RNA富集

一旦使用 DNAse 处理(去除 DNA 序列)后,样本就会经历 mRNA 的富集(polyA 富集)或 rRNA 的去除。

通常,核糖体 RNA代表细胞中存在的大部分 RNA,而 mRNA (信使RNA)代表一小部分,在人类中约为 2%。因此,如果我们想要研究蛋白编码基因,就必须富集 mRNA 或 去除 rRNA。对于差异基因表达分析,最好对 Poly(A)+ 进行富集,除非目标是获取有关长链非编码 RNA 的信息,在这种情况下建议去除核糖体 RNA

  • RNA 质量检查

在开始 cDNA 文库制备之前,必须检查提取的 RNA 的完整性。传统上,通过查看核糖体 RNA 条带,通过凝胶电泳评估 RNA 的完整性;但这种方法既费时又不精确。已有的生物分析仪系统可以快速评估 RNA 完整性并计算 RNA 完整性值 (RIN),这有助于 RNA 质量的解释和重复。从本质上讲,RIN 提供了一种方法,可以以标准化的方式相互比较来自不同样本的 RNA 质量。

2.2. 碎片化

将剩余的 RNA 分子片段化(打断)。这是通过化学、酶促(例如 RNA 酶)或物理过程(例如机械剪切)完成的。然后对这些片段进行大小选择,仅保留 Illumina 测序仪最佳处理范围内的那些片段,即 150 到 300 bp 之间。

  • 片段质量检查

在进行片段选择后,应评估片段大小分布,确保它的分布是单峰的。

2.3. 反转录

可以通过创建 strand library 来保存有关片段源自哪条链的信息。最常用的方法是在第二条 cDNA 链的合成过程中加入 deoxy-UTP。一旦生成双链 cDNA 片段,序列接头就会连接到末端。(也可以在此步后进行片段大小选择)

2.4. PCR扩增

如果起始材料的量很低或要将 cDNA 分子的数量增加到足以进行测序的量,通常会对文库进行 PCR 扩增。尽可能少的进行扩增循环以,避免 PCR 扩展产生的技术影响。

Zeng and Mortavi, 2012
Zeng and Mortavi, 2012

3. 测序

cDNA 文库的测序将生成 reads (读数)。读数对应于文库中每个 cDNA 片段末端的核苷酸序列。可以选择对 cDNA 片段的单端(单端读取)或片段的两端(双端读取)进行测序。

Sequencing
Sequencing
  • SE :单端数据 > 只有 Read1
  • PE:双端数据 > Read1 + Read2
    • 结果可以是2个单独的 Fastq 文件,或者一个文件(包含两者)。

通常,单端测序就足够了,除非预期读数将匹配基因组上的多个位置(例如具有许多旁系同源基因的生物)、正在执行组装或用于可变剪切分析。请注意,双端通常要贵 2 倍。

3.1. 边合成边测序

Illumina 测序技术采用边合成边测序的方法。要更深入地探索边合成边测序,请观看Youtube channel[1]

Sequencing-by-synthesis
Sequencing-by-synthesis

下面对此步骤进行了简要说明:

  • Cluster growth(成簇扩增)

cDNA 文库中的 DNA 片段变性并与流通池杂交。然后每个片段被克隆扩增,形成一个双链 DNA 簇。此步骤以确保测序信号足够强,能明确检测每个片段的每个碱基。

Number of clusters ~= Number of reads

  • Sequencing(测序)

片段末端的测序是基于带有可逆终止子元素的荧光团标记的 dNTP。在每个测序循环中,一个碱基被整合到每个簇中并激发荧光。

  • Image acquisition(图像采集)

每个 dNTP 都有一个独特的信号,由相机捕获。

  • Base calling

然后,Base calling 程序将通过评估在许多测序周期中捕获的图像,为每个片段生成碱基序列,即读数。还将记录它的质量信息。

Number of sequencing cycles = Length of reads

4. 质控

从测序仪获得的原始读数存储为 FASTQ 文件。FASTQ 文件格式是下一代测序技术生成的序列读取的文件格式。

每个 FASTQ 文件都是一个文本文件,表示样本的序列读数。每个读取由 4 行表示,如下所示:

@HWI-ST330:304:H045HADXX:1:1101:1111:61397
CACTTGTAAGGGCAGGCCCCCTTCACCCTCCCGCTCCTGGGGGANNNNNNNNNNANNNCGAGGCCCTGGGGTAGAGGGNNNNNNNNNNNNNNGATCTTGG
+
@?@DDDDDDHHH?GH:?FCBGGB@C?DBEGIIIIAEF;FCGGI#########################################################
意义
1始终以“@”开头,是有关读取的信息
2实际的DNA序列
3始终以“+”开头,有时与第 1 行中的信息相同
4有一串代表质量分数的字符;必须具有与第 2 行相同的字符长度

FastQC 是常用的软件,它提供了一种对原始序列数据进行质量控制检查的简单方法。

主要功能包括:

  1. 提供快速概览,告诉您哪些区域可能存在问题
  2. 汇总图形和表格以快速评估您的数据
  3. 将结果导出为基于 HTML 的报告

5. 定量

一旦我们探索了原始读数的质量,就可以继续在转录水平上量化表达。此步骤的目标是确定每个读数来自哪个转录本以及与每个转录本相关的读数总数。

已发现对于分析中的此步骤最准确的工具称为轻量级比对工具,其中包括:

  • Kallisto [2]
  • Sailfish [3]
  • Salmon [4]

以上工具的工作方式都略有不同。然而,共同点是它们避免了读取的碱基到碱基基因组比对(base-to-base genomic alignment of the reads)。基因组比对是由旧的比对工具(如 STAR[5]HISAT2[6])执行的一个步骤。与这些工具相比,轻量级比对工具不仅可以更快地提供量化估计(通常快 20 倍以上),而且还有了准确性的提高。

本教程将使用从 Salmon 获得的表达估计值(通常称为“伪计数”)作为差异基因表达分析的起点。

Salmon
Salmon

6. 比对后质控

如上所述,差异基因表达分析将使用 Salmon 生成的转录本/基因伪计数。然而,要对测序数据进行一些基本的质量检查,将读数与整个基因组进行比对非常重要。STARHiSAT2 都能够执行此步骤并生成可用于 QC 的 BAM 文件。

Qualimap 工具在它们映射到的基因组区域的上下文中探索对齐读取的特征,从而提供数据质量的整体视图(作为 HTML 文件)。 Qualimap 评估的各种质量指标包括:

  • DNArRNA 污染
  • 5’-3’ 偏差
  • 覆盖偏差

7. 质控整合

在整个工作流程中,我们对数据执行了各种质量检查步骤。您需要对数据集中的每个样本执行此操作,确保这些指标在给定实验的样本中保持一致。应标记离群样本以供进一步调查或移除。

手动跟踪这些指标并浏览每个样本的多个 HTML 报告(FastQCQualimap)和日志文件(SalmonSTAR)既乏味又容易出错。MultiQC ,可聚合来自多个工具的结果并生成带有图表的单个 HTML 报告,以可视化和比较样品之间的各种 QC 指标。如有必要,对 QC指标的评估可能会导致在继续下一步之前移除样本。


一旦对所有样本执行了 QC,就可以开始使用 DESeq2 进行差异基因表达分析。

count_data
count_data

欢迎Star -> 学习目录

国内链接 -> 学习目录


参考资料

[1]

边合成边测序: https://www.youtube.com/watch?v=fCd6B5HRaZ8

[2]

Kallisto: https://pachterlab.github.io/kallisto/about

[3]

Sailfish: http://www.nature.com/nbt/journal/v32/n5/full/nbt.2862.html

[4]

Salmon: https://combine-lab.github.io/salmon/

[5]

STAR: https://academic.oup.com/bioinformatics/article/29/1/15/272537

[6]

HISAT2: https://daehwankimlab.github.io/hisat2/

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/33481.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于JAVA的鲜花店商城平台【数据库设计、源码、开题报告】

数据库脚本下载地址: https://download.csdn.net/download/itrjxxs_com/86427660 摘要 在互联网不断发展的时代之下,鲜花软件可以为鲜花企业带来更多的发展机会,让企业可以挖掘到更多的潜在用户,同时结合企业的优势就能够为用户…

【单目标优化求解】粒子群混沌混合蝴蝶优化算法求解最优目标问题(HPSOBOA)【含Matlab源码 1538期】

⛄一、遗传算法简介 1 算法的种群初始化 设D维搜索空间中,随机生成初始解的表达式为: 式中,Xi表示蝴蝶群体中第i只蝴蝶(i 1, 2, 3, …, N)空间位置,N表示初始解的个数;Lb, Ub分别表示搜索空间的上界和下界&#xff…

Linux vmware 编译模块失败。 Vmware player Unable to install all modules.

Vmware player Unable to install all modules. See log for details ubuntu下的vmware play经常会让更新模块。一起点击确认就可以正常编译更新。 而且一定要编译后才能打开虚拟机系统 但是奇怪的是,最近一次点击 更新,报错: 显示的英文…

STM32F103的FSMC模块驱动LCD屏幕

以下内容为对正点原子的STM32F103STM32F103STM32F103精英板的FSMCFSMCFSMC模块驱动LCDLCDLCD屏幕例程的学习。做一个记录来加强对模块的认知。 FSMCFSMCFSMC的全称是FlexiblestaticmemorycontrollerFlexible\quad static\quad memory\quad controllerFlexiblestaticmemory…

【Python+Appium】开展自动化测试(四)使用weditor进行元素定位

目录 前言 一,weditor的安装与使用 二,遇到的问题 结语 前言 上一篇我们讲到了如何通过编写一个简单的Python脚本完成了登录app的操作,如何断言,如何编写一条完整的用例。那么今天继续我们的自动化测试第四天,使用…

【Java进阶篇】第五章 集合(下)--Map集合

文章目录1、概述2、Map接口中的常用方法3、Map集合的遍历4、哈希表的数据结构5、Map集合的存取6、hashCode()和equals()的重写7、一些小零散的东西8、HashMap和Hashtable的区别9、Properties类10、TreeMap11、自定义类实现Comparable接口12、二叉树13、Comparator接…

Caffeine《一》

《Caffeine(Java顶级缓存组件)一》 提示: 本材料只做个人学习参考,不作为系统的学习流程,请注意识别!!! 《Caffeine(Java顶级缓存组件)》《Caffeine(Java顶级缓存组件)一》1. Caffeine缓存概念1.1 缓存的分…

【MyBatis】一、概述

框架 框架就是对通用代码的封装,提前写好了一堆接口和类,我们可以在做项目的时候直接引入这些接口和类,基于这些现有的接口和类进行开发,提高开发效率。 框架一般以jar包形式存在 三层架构 表现层(UI)&am…

数字化助力生产管理:计件工资管理系统

目前因市场经济的发展,企业为求发展同时为防止消极怠工的情况,常把员工工资与产量结合起来。为了增加工人的劳动积极性,秉持多劳多得的科学管理理念,许多生产类型企业均实现了计件工资制。所谓的计件工资制是指按照生产的合格品的…

python之opencv人脸识别快速体验

目录 1、灰度转换 2、引用opencv官方提供的人脸训练模型 3、绘制方框(用于框住人脸) 4、效果及完整代码: 5、检测多张人脸: 学习链接: 1、灰度转换 # 灰度转换gary cv.cvtColor(img,cv.COLOR_BGR2GRAY) 2、引…

图解:Elasticsearch 8.X 如何求解环比上升比例?

1、企业级Elasticsearch 8.X 实战问题 问题描述:有个聚合的需求,问下大家,一个索引中有时间字段 要求 计算本月和上月相比的环比上升比例?——来自GPVIP群 2、问题释义 2.1 啥叫环比? 环比是统计学术语&#xff0c…

LabVIEW使用Deskto pExecution Trace工具包

LabVIEW使用Deskto pExecution Trace工具包 可以使用桌面执行跟踪工具包来调试和优化大型LabVIEW应用程序,包括具有多个循环的应用程序、客户端-服务器架构、动态加载VI等。该工具包从本地或远程计算机桌面上运行的应用程序捕获执行事件,并在表窗格中显…

PCB layout有DRC为什么还要用CAM和DFM检查?

随着电子产品的高速发展,PCB生产中大量使用BGA、QFP、PGA和CSP等高集成度封装器件,PCB的复杂程度也大大增加,这对于PCB设计也提出了更高的要求。所以在PCB设计阶段,除了基础的电气性能之外,还需要考虑可制造性&#xf…

上游模式用于实验室用冷冻机压力和真空度的高精度控制

摘要:本文针对实验室用冷冻干燥机的真空度控制,提出了干燥过程中的真空度精密控制解决方案。解决方案主要是采用双真空计(电容真空计和皮拉尼真空计)测量干燥过程中的真空度变化,双通道PID真空度控制器一方面采集电容真…

MySQL数据库:2、MySQL的下载与安装、基本使用、系统服务制作

一、MySQL简介 ​ MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 二、安装与下载 1、下载流程 1、访问官方(www.mysql.com&#xf…

数据结构学习笔记(Ⅲ):栈和队列

目录 1 栈 1.1 栈的基本概念 1.定义 2.基本操作 ​1.2 栈道顺序存储实现 1.实现 2.基本操作 3.共享栈 1.3 栈的链式存储实现 2 队列 2.1 基本概念 1.定义 2.基本操作 2.2 队列的顺序实现 1.实现 2.基本操作 2.3 队列的链式实现 1.链式存储实现队列 2.基本操…

Selenium基础 —unittest单元测试框架

目录 (一)unittest基本简介 (二)unittest基本概念 1、unittest核心的四个概念 2、如何创建一个测试类 3、test fixture常用的四个方法 4、unittest编写测试方法(用例)规范 5、执行测试脚本 6、入门示例 7、结果说明 &am…

目标检测论文解读复现之十七:融合注意力机制的YOLOv5口罩检测算法

前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文&#xff0…

视频格式转换器下载哪个好?分享:3种TS到MP4的转换器

对于TS视频格式大家可能接触的比较少,我们先来认识下TS视频格式。 TS是日本高清摄像头拍摄下的视频格式,常用于记录实录片段,比如讲堂、演唱会、监控等等。TS和MP4不同的地方在于TS是一种抢先非高清版视频,其画质并不如MP4&#x…

华为十年架构师实战经验总结:大规模分布式系统架构与设计实战

前言 本篇是从程序员到首席架构师十多年职业生涯的实战经验总结,系统讲解构建大规模分布式系统的核心技术与实现方法,包含开源的Fourinone系统的设计与实现过程,手把手教你掌握分布式技术。 通过学习这个系统的实现方法与相关的理论&#x…