8.windows ubuntu 子系统：karken2，bracken微生物物种注释

news2026/4/29 22:43:21

上次，我们对测序数据去了人源序列。接下来我们就要对去人源的reads进行微生物物种注释。

我们选择karken2和bracken。

首先是建立karken2的数据库，有多种方法。

方法一：kraken2-build --standard --threads 4 --db ./standardDB #时间太慢

方法二：直接下载官方提供的数据库（包括kraken2及bracken），解压即可
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_8gb_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20210517.tar.gz #时间太慢

# 方法3：手动构建数据库 #时间太慢
## step1 从 NCBI 下载分类文件
kraken2-build --download-taxonomy --db ./K2db
## step2 下载序列数据
kraken2-build --download-library UniVec_Core --threads 15 --db ./K2db
kraken2-build --download-library UniVec --threads 4 --15 ./K2db
## step3 构建数据库
kraken2-build --build --threads 4 --db ./K2db

前三种时间都比较慢，所以我不用。

第四种方法为在windows环境下登录官网https://benlangmead.github.io/aws-indexes/k2下载自己想要的数据库，官网中有诸多类型的数据库。

官网里面有很多已经做好的数据库。我们可以选择合适的使用。
我这里先下载 standard-8 数据库
#解压缩，kracken和bracken的数据就都好了。
tar -zxvf k2_standard_08gb_20231009.tar.gz

解压缩出来的是这些文件。

接下来就可以跑数据了。

kraken2 --threads 15 --paired --db /mnt/h/db/kraken2.db --report A1.kreport --output A1.kraken read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz

kraken2: 运行 Kraken 2 软件。
--threads 15: 指定使用的线程数为 15，即并行处理的线程数。
--paired: 表示输入的是 paired-end 测序数据。
--db /mnt/h/db/kraken2.db: 指定 Kraken 2 数据库的路径，即要用于比对和分类的数据库。
--report A1.kreport: 指定输出报告文件的名称为 A1.kreport，该报告包含了分类和注释的结果信息。
--output A1.kraken: 指定输出文件的名称为 A1.kraken，该文件包含了每个 reads 的分类结果。
read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz: 输入的 paired-end 测序数据文件，分别是第一端和第二端的 fastq 文件。

接下来就是bracken.

bracken -d /mnt/h/db/kraken2.db -i A1.kreport -o A1.bracken.S -w A1.bracken.S.kreport -l S -t 15

bracken: 运行 Bracken 软件。
-d /mnt/h/db/kraken2.db: 指定 Kraken 2 数据库的路径，即要用于物种丰度估计的数据库。
-i A1.kreport: 指定输入的 Kraken 2 分类报告文件，即 A1.kreport。
-o A1.bracken.S: 指定输出文件的名称为 A1.bracken.S，该文件包含了物种丰度的估计结果。
-w A1.bracken.S.kreport: 指定输出详细报告文件的名称为 A1.bracken.S.kreport，该文件包含了对每个分类水平的物种丰度估计结果。
-l S: 指定要进行物种丰度估计的分类水平为 species level（物种水平）。
-t 15: 指定使用的线程数为 15，即并行处理的线程数。