RNA-seq测序深度指南:从研究目的到数据量换算全解析
1. RNA-seq测序深度为什么它如此重要做RNA-seq实验的朋友们最常被问到的问题就是该测多少数据量。这个问题看似简单实际上直接关系到实验的成败。我见过太多人因为测序深度选择不当导致实验结果不理想既浪费了经费又耽误了时间。测序深度说白了就是每个样本要测多少数据。太少了低表达基因检测不到太多了又造成资源浪费。ENCODE联盟的建议很明确测序深度应该根据研究目的和样本特性来决定。比如你想比较两个样本的转录谱相似性30M双端reads可能就够了但要是想发现新转录本就得100-200M双端reads起步。这里有个常见的误区很多人只关注测多少G而忽略了reads数和读长。实际上数据量(Gb)reads数×读长×测序类型系数单端为1双端为2。比如50M双端150bp的reads换算成数据量就是150×2×50M15Gb。记住这个Gb是碱基数(Gbase)不是文件大小(GB)2. 不同研究目的对应的测序深度建议2.1 转录谱比较30M双端reads就够用如果你只是想比较两个polyA样本的基因表达差异ENCODE建议30M双端reads读长≥30nt就足够了。实测下来这样的数据量可以保证约20-25M reads能比对到参考基因组或已知转录组上。这里有个小技巧建库时选择polyA富集方法可以大幅提高有效数据比例。我做过一个实验用polyA富集后80%以上的reads都能比对到编码基因比rRNA去除法效率高多了。2.2 新转录本发现至少100-200M双端reads当研究目标升级为新转录本发现或isoform定量时游戏规则就变了。ENCODE给出的下限是100-200M双端reads读长≥76bp。为什么需要这么多主要有三个原因低丰度转录本需要足够覆盖度可变剪接分析需要跨外显子的reads新转录本验证需要多证据支持特别提醒lncRNA研究就属于这个范畴。去年我们团队做小鼠lncRNA项目时发现150M reads才能稳定检测到低表达的lncRNA。2.3 特殊RNA测序的注意事项除了常规mRNA测序其他RNA类型有特殊要求miRNA测序10M单端50bp reads足矣ChIP-seq20M单端50bp reads基本够用核糖体印记测序建议50M双端reads注意ENCODE的标准只适用于人和小鼠。如果你研究的是其他物种特别是那些基因组注释不完善的建议适当增加测序深度。3. 数据量换算从reads数到Gb的完整指南3.1 基础换算公式测序公司销售常说测多少G而实验人员更关心reads数。换算其实很简单数据量(Gb) reads数 × 读长(bp) × 测序类型系数其中单端测序系数1双端测序系数2举例说明50M双端150bp50M×150×215Gb20M单端50bp20M×50×11Gb3.2 实际案例解析去年我们实验室做了个鸡的转录组项目这里分享下真实数据目标新转录本发现选择100M双端150bp理论数据量100M×150×230Gb实际fastq文件大小约8GB压缩后有效数据比例85%这里有个重要概念区分GbGbase碱基总数用于评估测序深度GBGigabyte文件存储大小包含序列和质量值3.3 如何评估数据质量拿到数据后建议立即做以下检查用FastQC看原始数据质量用RSeQC评估比对情况检查有效数据比例经验之谈对于哺乳动物转录组压缩后的fastq文件大小应该在理论数据量的25-30%左右。如果偏离太多可能建库或测序有问题。4. 测序深度优化的实战技巧4.1 样本复杂度评估样本本身的复杂度直接影响测序深度需求。高复杂度样本如全组织比低复杂度样本如细胞系需要更多数据量。我常用的评估方法是先做个小规模测试测序10-15M reads分析饱和度曲线根据曲线拐点确定最终深度4.2 测序深度与重复数的权衡经费有限时是增加测序深度还是增加生物学重复根据我的经验差异表达分析优先增加重复数3-5个新转录本发现优先增加测序深度有个折中方案先做深度测序发现新转录本然后降低深度增加重复验证差异表达。4.3 特殊情况的处理遇到这些情况要特别注意低起始量样本建议增加测序深度补偿扩增偏差降解样本适当增加深度以提高有效数据量多物种混合样本深度需求可能翻倍去年我们处理过一批FFPE样本最终用了200M reads才达到普通组织150M reads的效果。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2460109.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!