ATAC-seq数据分析全流程解析:从原始数据到生物学洞察
1. ATAC-seq技术原理与实验设计ATAC-seq全称Assay for Transposase-Accessible Chromatin using sequencing是目前研究染色质开放性的黄金标准技术。我第一次接触这个技术是在2013年当时还在为ChIP-seq的抗体特异性问题头疼ATAC-seq的出现彻底改变了表观遗传学研究格局。1.1 染色质结构与技术原理想象染色体就像一根被压缩的弹簧ATAC-seq就是专门探测弹簧上松散部分的技术。核心在于Tn5转座酶这个分子剪刀它能特异性地切割开放染色质区域。实际操作中我们会把细胞裂解后立即加入Tn5酶这时酶会快速标记所有可接触的DNA区域。注意实验操作必须快速完成从细胞裂解到Tn5处理最好在10分钟内完成否则染色质结构可能发生变化。我实验室的标准protocol包含以下关键步骤细胞计数与裂解建议使用新鲜细胞Tn5转座反应37℃ 30分钟DNA纯化与PCR扩增文库质检推荐Agilent 2100 Bioanalyzer1.2 数据特征与质量指标拿到测序数据后首先要看几个关键指标插入片段分布健康样本会呈现明显的200bp周期特征这对应核小体的周期性排列线粒体DNA比例一般控制在20%以下过高可能提示细胞状态异常reads比对率人类数据建议80%小鼠70%这是我最近一个项目的实际数据质量报告指标样本1样本2标准总reads52M48M25M比对率85%82%80%FRiP0.350.410.3线粒体占比18%15%20%2. 上游数据分析实战2.1 原始数据质控与预处理拿到fastq文件后我习惯先用FastQC做初步质控。这里有个实用技巧用MultiQC整合所有样本的报告fastqc *.fastq.gz multiqc . -o multiqc_report常见的预处理步骤包括去除接头序列推荐Trim Galore过滤低质量readsPhred score 20去除过短reads25bp2.2 序列比对与处理我对比过几种比对工具最终选择Bowtie2作为主力工具。关键参数设置bowtie2 -x genome_index -1 sample_R1.fq -2 sample_R2.fq \ --very-sensitive -X 2000 -p 8 -S output.sam比对后需要执行几个关键操作去除线粒体reads节省后续分析资源去除ENCODE黑名单区域标记PCR重复Picard MarkDuplicates2.3 Peak calling与标准化MACS2是目前最常用的peak calling工具我的标准参数是macs2 callpeak -t treatment.bam -c control.bam \ -f BAMPE -g hs -n output --nomodel --shift -75 --extsize 150经验之谈对于人类数据建议设置-q值阈值0.01而非默认的0.05可以降低假阳性。标准化是很多新手容易忽略的环节。我推荐使用DESeq2进行跨样本标准化具体流程用featureCounts统计peak区域reads数构建DESeqDataSet对象执行rlog或vst变换3. 下游分析与生物学解读3.1 可视化技巧Deeptools是我的可视化利器。比如绘制TSS附近信号图computeMatrix reference-point -R tss.bed -S sample.bw \ -a 3000 -b 3000 -o matrix.gz plotHeatmap -m matrix.gz -out heatmap.pdf最近发现一个实用技巧用plotProfile时添加--perGroup参数可以自动按样本分组展示。3.2 Motif分析实战Homer的findMotifsGenome.pl确实强大但有几个注意事项输入文件需要是bed格式建议设置-size参数为200默认100可能太小对于大型数据集加上-mask参数加速分析我改进后的典型命令findMotifsGenome.pl peaks.bed hg38 output_dir \ -size 200 -mask -p 83.3 功能注释与通路分析Great在线工具http://great.stanford.edu是我做功能注释的首选。最近项目中发现几个使用技巧对于增强子分析建议选择Basal plus extension规则下载结果时选择Region-gene associations表格结合ChIP-seq数据时可以上传共同的peak文件做联合分析4. 进阶分析策略4.1 差异开放区域分析我习惯的差异分析流程用DiffBind读取peak集使用DESeq2进行差异分析用ChIPseeker进行注释R代码示例library(DiffBind) samples - dba(sampleSheetsample_info.csv) contrast - dba.contrast(samples, categoriesDBA_CONDITION) results - dba.analyze(contrast)4.2 多组学整合分析去年有个项目需要整合ATAC-seq和RNA-seq数据我开发了一套实用流程用GREAT预测peak关联基因取差异开放区域关联的差异表达基因用Cytoscape构建调控网络4.3 单细胞ATAC-seq衔接随着单细胞技术的发展传统ATAC-seq数据可以这样利用作为scATAC-seq的参考peak集用Signac包进行整合分析使用Cicero预测基因活性实际操作中我发现先做传统ATAC-seq再开展scATAC-seq能显著提高单细胞数据质量。这种策略特别适合珍贵临床样本研究。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2445113.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!