miRNA测序数据生信分析——第三讲,已知物种的生信分析实例
- miRNA测序数据生信分析——第三讲,已知物种的生信分析实例
 - 1. 下载测序数据
 - 2. 原始数据质控——软件fastqc
 - 3. 注释tRNA和rRNA,使用Rfam数据库——软件blast,Rfam_statistics.py脚本
 - 4. 注释miRNA,包括种类,序列及定量,靶基因和绘图
 - 4.1 鉴定,使用miRBase数据库——软件blast
 - 4.2 定量和miRNA序列提取——脚本miRBase_sequence.py
 - 4.3 miRNA靶基因,使用miRTarBase和miRDB数据库
 - 4.3.1 miRTarBase数据库——脚本miRTarBase_Target.py
 - 4.3.2 miRDB数据库——脚本miRDB_Target.py
 - 4.3.3 整合两个数据库——脚本Total_Target.py
 
- 4.4 绘制miRNA-靶基因互作图——软件Cytoscape
 
- 5. 总结
 
miRNA测序数据生信分析——第三讲,已知物种的生信分析实例
1. 下载测序数据
SRA号:DRR463940 单端测序 测序类型:miRNA-seq
 点击FASTQ,下载即可。文件DRR463940.fastq
 
2. 原始数据质控——软件fastqc
cd /home/zhaohuiyao/miRNA_seq/DRR463940/00Rawdata
 #质控
 /home/zhaohuiyao/Biosoft/general/FastQC/fastqc ./DRR463940.fastq
 #Read数目:311289;Read长度分布:8~136bp
 #查看质控下的每一个模块,都是可以理解的,判断不修剪
 /home/zhaohuiyao/Biosoft/seqkit fq2fa -w 0 ./DRR463940.fastq > ./DRR463940.fasta
3. 注释tRNA和rRNA,使用Rfam数据库——软件blast,Rfam_statistics.py脚本
这里需要的Rfam数据库数据是博文:miRNA测序数据生信分析——第二讲,数据库下载整理,中提到的1.2.2 用于注释ncRNA/sRNA测序中的tRNA和rRNA序列,整理的。
 为什么要做这一步呢?
 从第二步质控结果Read长度分布:8~136bp,判断虽然是miRNA测序,但是依旧有rRNA和tRNA混入。做这一步,可以看看混入占比。
cd /home/zhaohuiyao/miRNA_seq/DRR463940/01Rfam
 #只保留一个比对结果
 /home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/blastn -db /home/zhaohuiyao/Database/Rfam/Rfam -query …/00Rawdata/DRR463940.fasta -out DRR463940_Rfam.annotations -outfmt 6 -evalue 1e-5 -num_alignments 1 -num_threads 36
 #统计
 python ./Rfam_statistics.py -i ./DRR463940_Rfam.annotations -db1 /home/zhaohuiyao/Database/Rfam/family.txt -db2 /home/zhaohuiyao/Database/Rfam/Rfam.full_region -o ./
 
 #注意1:这里Subclass为ncRNA指在Rfam数据库中定义了Class但没有定义Subclass的ncRNA。注意2:可以看中重点比对结果出现在tRNA和rRNA,而其他注释类型少。
 #结果
 #总比对结果数目:98127条(98127/311289=31.52%)
 #tRNA比对结果数目:75446条(75446/311289=24.24%)
 #rRNA比对结果数目:4709条(4709/311289=1.51%)
4. 注释miRNA,包括种类,序列及定量,靶基因和绘图
测序物种已知,人类Homo sapiens(hsa)。且该物种在后续使用的miRBase、miRDB、miRTarbase数据库中都存在。
4.1 鉴定,使用miRBase数据库——软件blast
cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/
 grep “Homo sapiens” /home/zhaohuiyao/Database/miRBase/organisms.txt 
 
 #提取miRBase数据库中物种hsa的所有miRNA序列,制作物种特异数据库。
 grep -A 1 “hsa” /home/zhaohuiyao/Database/miRBase/mature.fa | grep -v “--” > /home/zhaohuiyao/Database/miRBase/hsa_mature.fa
 grep -c “>” /home/zhaohuiyao/Database/miRBase/hsa_mature.fa #2656个miRNA
 /home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/makeblastdb -in /home/zhaohuiyao/Database/miRBase/hsa_mature.fa -dbtype nucl -out /home/zhaohuiyao/Database/miRBase/hsa_mature
 #只保留一个比对结果
 cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/01miRBase
 /home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/blastn -task blastn-short -db /home/zhaohuiyao/Database/miRBase/hsa_mature -query /home/zhaohuiyao/miRNA_seq/DRR463940/00Rawdata/DRR463940.fasta -out DRR463940_miRBase.annotations -outfmt 6 -evalue 1e-5 -num_alignments 1
 #统计
 wc -l ./DRR463940_miRBase.annotations #66776条比对结果(66776/311289=21.45%)
 cut -f 2 ./DRR463940_miRBase.annotations | sort | uniq | wc -l #367种miRNA
4.2 定量和miRNA序列提取——脚本miRBase_sequence.py
cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/02Sequence_Quantity
 python ./miRBase_sequence.py -i …/01miRBase/DRR463940_miRBase.annotations -db /home/zhaohuiyao/Database/miRBase/hsa_mature.fa -o ./
 
 #两个结果文件:
 DRR463940_miRBase.annotations.fa和DRR463940_miRBase.annotations.readscount
 
 
4.3 miRNA靶基因,使用miRTarBase和miRDB数据库
#三个子目录miRTarBase/、miRDB/和Total/
4.3.1 miRTarBase数据库——脚本miRTarBase_Target.py
cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/03Target/miRTarBase
 #确保物种在miRTarBase数据库中
 grep “hsa” /home/zhaohuiyao/Database/miRTarBase/miRTarBase.organism
 
 python ./miRTarBase_Target.py -i …/…/02Sequence_Quantity/DRR463940_miRBase.annotations.readscount -db /home/zhaohuiyao/Database/miRTarBase/miRTarBase_MTI.txt -o ./
 #结果文件DRR463940_miRBase.annotations.miRTarBase
 
4.3.2 miRDB数据库——脚本miRDB_Target.py
cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/03Target/miRDB
 #确保物种在miRDB数据库中
 grep “hsa” /home/zhaohuiyao/Database/miRTarBase/miRDB.organism
 
 python ./miRDB_Target.py -i …/…/02Sequence_Quantity/DRR463940_miRBase.annotations.readscount -db /home/zhaohuiyao/Database/miRDB/miRDB_v6.0_prediction_result.txt.hsa -o ./
 
 #结果文件DRR463940_miRBase.annotations.miRDB
 
4.3.3 整合两个数据库——脚本Total_Target.py
#取两个数据库的并集,获得最终miRNA-Gene关系文件
 cd /home/zhaohuiyao/miRNA_seq/DRR463940/02miRNA/known/03Target/Total
 python ./Total_Target.py -db1 …/miRTarBase/DRR463940_miRBase.annotations.miRTarBase -db2 …/miRDB/DRR463940_miRBase.annotations.miRDB -o ./
 
 #结果文件DRR463940_miRBase.annotations.target
 
4.4 绘制miRNA-靶基因互作图——软件Cytoscape
因为这个互作关系很庞大,有351413条关系。因此绘制会比较难,我就单独提取了部分互作关系,进行绘图,在Windows下进行。绘图查看另一篇公众号文章:https://mp.weixin.qq.com/s/vbFAre601-9atwah9PMwUw查看
5. 总结
以上就是针对已知物种的miRNA分析。同时满足miRBase、miRTarBase和miRDB三个数据的物种,只有5种。因此针对未知的分析是重要的,而且在你时候的时候,可能会交叉使用。上面步骤中涉及了很多脚本,但都是很简单的文件内容提取比对。



















