orthofinder结果文件实操指南:从Orthogroups.GeneCount.tsv到发表级韦恩图
OrthoFinder结果深度解析从数据到发表级可视化刚跑完OrthoFinder看着满屏的.tsv和.txt文件是不是有点无从下手那种感觉我太懂了就像拿到一份藏宝图却不知道关键线索藏在哪里。OrthoFinder的分析结果远不止是一堆统计数字它是一座连接比较基因组学和进化生物学的桥梁关键在于你如何解读和呈现。今天我们就抛开那些笼统的概述直接切入核心手把手带你拆解最重要的结果文件用Python进行数据清洗生成可以直接放进论文里的韦恩图并探讨物种树文件在后续分析中的高级玩法。无论你是要比较三五个近缘物种还是处理数十个跨纲目的基因组这套流程都能让你对结果了如指掌。1. 核心结果文件体系全解构运行结束后在输出目录通常是OrthoFinder/Results_XXX/里文件琳琅满目。对于大多数研究问题我们只需要聚焦几个核心文件它们分别讲述了不同的故事。Orthogroups/Orthogroups.GeneCount.tsv无疑是皇冠上的明珠。这个制表符分隔的文件其行是直系同源群Orthogroup列是物种。单元格内的数字代表该基因家族在该物种中包含的基因成员数量。一个为零的单元格意味着该物种在这个特定的基因家族中没有检测到同源基因。这个文件是进行基因家族比较、扩张收缩分析、乃至功能富集分析的基石。注意Orthogroups.GeneCount.tsv文件的第一列是OrthogroupID最后一列Total是该基因家族在所有分析物种中的基因总数。中间的各列才是你输入的各个物种。除了基因计数文件同目录下的Orthogroups/Orthogroups.tsv也极具价值。它详细列出了每个Orthogroup中包含的具体基因ID。当你需要追溯某个特定基因属于哪个家族或者想提取某个家族的所有基因序列进行下游分析时这个文件就是你的基因“户口本”。另一个至关重要的文件藏在Species_Tree/目录下SpeciesTree_rooted.txt。这是OrthoFinder基于单拷贝直系同源基因推断出的、带有根节点的物种系统发育树格式通常是Newick。这棵树的质量通常很高因为它基于大量的基因信息。它不仅是展示进化关系的图表更是后续许多分析如CAFE分析基因家族扩张收缩、祖先状态重建所必需的进化框架。对于想要深入探究基因树与物种树不一致基因树冲突的研究者Gene_Trees/目录下的每个基因家族对应的树文件就是宝藏。而MultipleSequenceAlignments/目录则存放了用于构建物种树的单拷贝直系同源基因的多序列比对文件是进行正选择分析或深度进化研究的起点。理解每个文件的用途是有效利用OrthoFinder结果的第一步。接下来我们将把最具可视化潜力的Orthogroups.GeneCount.tsv转化为直观的图形。2. 数据清洗与转换从GeneCount到韦恩图输入直接从OrthoFinder输出的Orthogroups.GeneCount.tsv无法被大多数韦恩图工具如Jvenn、InteractiVenn直接识别。这些工具通常需要的是每个物种所特有的基因或基因家族的列表而不是计数矩阵。因此我们需要一个数据转换步骤将计数矩阵转换为布尔矩阵存在/不存在再提取出每个物种的Orthogroup ID列表。虽然网上能找到一些转换脚本但自己写一个更灵活也能应对各种特殊情况。下面是一个增强版的Python脚本它不仅能完成转换还增加了去空值和基础统计功能。#!/usr/bin/env python3 orthogroup_count_to_list.py 将OrthoFinder生成的Orthogroups.GeneCount.tsv文件 转换为适合Jvenn等韦恩图工具的输入格式。 import pandas as pd import argparse import sys def main(input_file, output_prefixspecies_lists, min_count1): 参数: input_file: Orthogroups.GeneCount.tsv文件路径 output_prefix: 输出文件前缀每个物种的列表将保存为 {output_prefix}_{species}.txt min_count: 判定一个基因家族“存在”于某物种的最小基因数阈值默认为1。 # 读取文件注释行以#开头 try: df pd.read_csv(input_file, sep\t, comment#) except FileNotFoundError: print(f错误找不到文件 {input_file}) sys.exit(1) # 检查必要的列 if Orthogroup not in df.columns: print(错误输入文件必须包含 Orthogroup 列。) sys.exit(1) # 识别物种列排除Orthogroup和Total species_columns [col for col in df.columns if col not in [Orthogroup, Total]] if not species_columns: print(错误未在文件中找到物种数据列。) sys.exit(1) print(f识别到 {len(species_columns)} 个物种: {, .join(species_columns)}) # 为每个物种生成基因家族列表 for species in species_columns: # 根据阈值判断存在性并提取Orthogroup ID # 使用 .loc 避免链式索引警告 present_orthogroups df.loc[df[species] min_count, Orthogroup].tolist() # 生成输出文件名 output_filename f{output_prefix}_{species.replace( , _)}.txt # 写入文件每行一个Orthogroup with open(output_filename, w) as f: for og in present_orthogroups: f.write(f{og}\n) print(f 已为物种 {species} 生成列表包含 {len(present_orthogroups)} 个基因家族。文件已保存至: {output_filename}) # 可选生成一个汇总统计文件 summary_data [] for species in species_columns: count (df[species] min_count).sum() summary_data.append({Species: species, Orthogroups_Count: count, Total_Genes: df[species].sum()}) summary_df pd.DataFrame(summary_data) summary_file f{output_prefix}_summary.tsv summary_df.to_csv(summary_file, sep\t, indexFalse) print(f\n汇总统计已保存至: {summary_file}) print(summary_df.to_string(indexFalse)) if __name__ __main__: parser argparse.ArgumentParser(description转换Orthogroups.GeneCount.tsv为韦恩图输入列表。) parser.add_argument(input_file, help输入的Orthogroups.GeneCount.tsv文件路径) parser.add_argument(-o, --output, defaultspecies_lists, help输出文件的前缀 (默认: species_lists)) parser.add_argument(-c, --min_count, typeint, default1, help判定存在的最小基因数 (默认: 1)) args parser.parse_args() main(args.input_file, args.output, args.min_count)这个脚本的使用非常简单。假设你的文件在当前目录只需在终端执行python orthogroup_count_to_list.py Orthogroups.GeneCount.tsv -o my_project执行后你会得到一系列my_project_物种名.txt文件每个文件包含该物种拥有的所有Orthogroup ID。此外还有一个my_project_summary.tsv文件快速展示了各物种的基因家族数量和基因总数方便你在论文材料方法部分引用。物种 (Species)基因家族数 (Orthogroups_Count)基因总数 (Total_Genes)Arabidopsis_thaliana15, 34227, 655Oryza_sativa18, 56741, 229Zea_mays19, 02139, 847Solanum_lycopersicum16, 89835, 112有了这些纯净的列表文件我们就可以进入可视化阶段了。3. 发表级韦恩图绘制超越Jvenn的进阶策略获得物种基因家族列表后Jvenn 是一个快速上手的在线工具。但要想制作发表级图表我们通常需要更精细的控制和可重复的流程。这里我推荐使用 R 语言的VennDiagram或ggVennDiagram包它们能无缝集成到你的分析流程中并生成矢量图。首先在R中读取我们刚刚生成的列表文件# 安装并加载必要的包 # install.packages(VennDiagram) # install.packages(ggVennDiagram) # 或这个语法更现代 library(VennDiagram) library(readr) # 读取物种列表 ath - read_lines(my_project_Arabidopsis_thaliana.txt) osa - read_lines(my_project_Oryza_sativa.txt) zma - read_lines(my_project_Zea_mays.txt) # 使用VennDiagram包基础但稳定 venn.plot - venn.diagram( x list(Athaliana ath, Osativa osa, Zmay zma), filename NULL, # 不直接保存到文件先存为对象 category.names c(A. thaliana, O. sativa, Z. mays), output TRUE, # 以下为美化参数 fill c(#E69F00, #56B4E9, #009E73), # 设置颜色 alpha 0.5, # 透明度 cex 1.5, # 集合名字体大小 cat.cex 1.5, # 物种标签字体大小 cat.dist c(0.05, 0.05, 0.03), # 物种标签距离 cat.pos c(-30, 30, 180), # 物种标签位置 margin 0.1 ) # 使用grid包绘制并保存为PDF矢量图 library(grid) pdf(High_Quality_Venn.pdf, width8, height8) grid.draw(venn.plot) dev.off()如果你喜欢更美观、语法更一致的ggplot2风格ggVennDiagram是更好的选择library(ggVennDiagram) library(ggplot2) # 准备列表 my_list - list(Athaliana ath, Osativa osa, Zmay zma) # 绘制并美化 p - ggVennDiagram(my_list, label_alpha 0, # 区域标签背景透明 category.names c(Arabidopsis, Oryza, Zea)) scale_fill_gradient(low white, high firebrick) # 填充色梯度 scale_color_manual(values c(black, black, black)) # 边框色 theme_void() # 空白主题 theme(legend.position none, plot.title element_text(hjust 0.5, size16)) labs(title Conserved and Specific Orthogroups) # 保存 ggsave(Publication_Venn_ggplot2.pdf, p, width10, height8, dpi300)对于超过4个物种的比较韦恩图会变得异常复杂。这时UpSet图是更优的可视化方案。它能清晰展示任意组合的交集大小。# 安装并加载UpSetR包 # install.packages(UpSetR) library(UpSetR) library(plyr) # 将列表转换为适合UpSetR的矩阵 list_input - list(Athaliana ath, Osativa osa, Zmay zma) matrix_input - fromList(list_input) rownames(matrix_input) - unique(unlist(list_input)) # 绘制UpSet图 pdf(Orthogroup_UpSet_Plot.pdf, width12, height8) upset(matrix_input, nsets 3, number.angles 30, point.size 3.5, line.size 2, mainbar.y.label Orthogroup Intersection Size, sets.x.label Orthogroups per Species, text.scale c(1.8, 1.5, 1.5, 1.2, 1.8, 1.2)) dev.off()通过这些方法你得到的将不再是简单的截图而是可随意缩放、修改、并符合期刊要求的矢量图形文件。4. 物种树文件的深度应用场景SpeciesTree_rooted.txt这个文件的价值常常被低估。它不仅仅是一张展示进化关系的图片更是一个强大的分析坐标轴。首先最直接的应用是美化与注释。使用FigTree、iTOL或 R 的ggtree包你可以轻松地定制这棵树的样式并添加物种分类信息、基因家族数量、基因组大小等作为注释。# 使用ggtree进行基础绘制和注释 library(ggtree) library(ape) # 读取Newick格式的物种树 species_tree - read.tree(Species_Tree/SpeciesTree_rooted.txt) # 基础绘图 p - ggtree(species_tree, branch.lengthnone, ladderizeTRUE) # 不按分支长度并排序 geom_tiplab(size4, offset0.2) # 添加物种标签 geom_treescale(x0, y1) # 添加比例尺 xlim(0, 10) # 限制x轴范围以美观 # 假设你有一个包含物种信息的数据框例如基因家族数 species_info - data.frame( species c(Ath, Osa, Zma, Sly), family_count c(15342, 18567, 19021, 16898) ) # 将数据框的行名设置为物种名与树梢标签匹配 rownames(species_info) - species_info$species # 将数据关联到树并绘制热图 p2 - gheatmap(p, species_info[, family_count, dropFALSE], offset2, width0.1, colnames_offset_y 0.2) scale_fill_viridis_c(nameGene Families) # 使用viridis色系 ggsave(Annotated_Species_Tree.pdf, p2, width9, height7)其次这棵树是进行基因家族进化动力学分析如CAFE的强制输入。CAFE软件需要这棵有根树来模拟基因家族在进化历史中的扩张与收缩事件。你可以直接使用OrthoFinder生成的这棵树因为它基于大量数据通常比单个标记基因构建的树更可靠。再者用于共进化与相关性分析。在研究基因家族数量变化与特定性状如抗病性、代谢产物含量的关系时你需要考虑物种间的系统发育关系以避免伪相关。SpeciesTree_rooted.txt提供的进化关系可以用于计算系统发育独立对比PIC或者在构建模型时作为随机效应如在phylolm或MCMCglmm包中。最后作为基因树冲突分析的基准。你可以将Gene_Trees/目录下的单个基因树与这个物种树进行比较使用DendroPy或ETE3工具包计算Robinson-Foulds距离等指标从而识别在进化过程中经历特殊选择压力或存在水平基因转移的基因家族。# 使用ETE3进行树比较的简单示例 from ete3 import Tree # 加载物种树和某个基因树 species_tree Tree(Species_Tree/SpeciesTree_rooted.txt, format1) gene_tree Tree(Gene_Trees/OG0001234_tree.txt, format1) # 确保两棵树的叶节点名称一致可能需要修剪 # 这里假设已经一致 # 计算Robinson-Foulds距离 rf, max_rf, common_leaves, parts_t1, parts_t2, d_t1, d_t2 species_tree.robinson_foulds(gene_tree) print(fRobinson-Foulds 距离: {rf}) print(f最大可能距离: {max_rf}) print(f标准化RF距离 (RF/最大): {rf/max_rf:.3f})将物种树整合到你的下游分析流程中能让你的研究从简单的“描述有哪些不同”深入到“解释为什么不同”的机制层面。5. 实战案例解析三种植物的抗病基因家族演化让我们通过一个虚构但贴近实际的案例把前面所有技术串联起来。假设我们研究了拟南芥Ath、水稻Osa和玉米Zma三个物种重点关注一类重要的抗病基因家族——NBS-LRR基因。首先我们运行了OrthoFinder得到了所有基因家族。接着我们根据功能注释或Pfam域预测从Orthogroups.tsv中筛选出所有包含NBS-LRR基因的Orthogroup ID。假设我们得到了一个列表nbs_lrr_ogs.txt。第一步我们从Orthogroups.GeneCount.tsv中提取这些特定家族的信息。# 使用grep和awk命令行工具快速提取 head -1 Orthogroups.GeneCount.tsv NBS_LRR.count.tsv grep -f nbs_lrr_ogs.txt Orthogroups.GeneCount.tsv NBS_LRR.count.tsv第二步使用我们之前编写的Python脚本为这三个物种生成NBS-LRR基因家族的韦恩图输入列表。python orthogroup_count_to_list.py NBS_LRR.count.tsv -o NBS_LRR -c 1第三步用R生成发表级的UpSet图因为三个物种的交集关系用UpSet图展示组合更清晰。ath_nbs - read_lines(NBS_LRR_Ath.txt) osa_nbs - read_lines(NBS_LRR_Osa.txt) zma_nbs - read_lines(NBS_LRR_Zma.txt) library(ComplexHeatmap) # UpSet图另一种实现功能强大 library(circlize) list_all - list(Athalianaath_nbs, Osativaosa_nbs, Zmayszma_nbs) m - make_comb_mat(list_all) # 绘制精美的UpSet图 pdf(NBS_LRR_UpSet_ComplexHeatmap.pdf, width10, height6) UpSet(m, top_annotation upset_top_annotation(m, add_numbersTRUE), right_annotation upset_right_annotation(m, add_numbersTRUE)) dev.off()第四步结合物种树分析NBS-LRR基因家族的扩张模式。我们计算每个物种的NBS-LRR基因总数并将其作为性状映射到物种树上。# 计算每个物种的NBS-LRR基因总数需从Orthogroups.tsv和基因计数文件综合计算此处简化 # 假设我们已经得到一个数据框 nbs_stats nbs_stats - data.frame( species c(Ath, Osa, Zma), nbs_gene_count c(150, 450, 320), # 示例数据 genome_size_mb c(135, 389, 2300) # 基因组大小作为对照 ) # 绘制带有条形图注释的系统发育树 library(ggtree) library(ggstance) # 用于绘制水平条形图 tree - read.tree(Species_Tree/SpeciesTree_rooted.txt) p_tree - ggtree(tree) geom_tiplab() # 将条形图数据与树对齐 p_bar - facet_plot(p_tree, panelNBS-LRR Gene Count, datanbs_stats, geomgeom_barh, # 水平条形图 aes(xnbs_gene_count), statidentity, width0.6) theme_tree2() # 再添加一个基因组大小的条形图面板 p_final - facet_plot(p_bar, panelGenome Size (Mb), datanbs_stats, geomgeom_barh, aes(xgenome_size_mb), statidentity, width0.6, fillsteelblue) ggsave(NBS_LRR_Evolution_Profile.pdf, p_final, width12, height8)通过这个流程我们不仅展示了三个物种间NBS-LRR基因家族的分布异同UpSet图还将这种数量差异置于它们的进化背景物种树中进行解读并对照了基因组大小的影响。这样的分析叙事从数据到可视化再到生物学解释形成了一个完整、有说服力的证据链。OrthoFinder的结果文件夹远不是一个分析的终点而是一座数据金矿的入口。关键在于掌握将原始数据文件转化为特定生物学问题答案的工具和思路。从Orthogroups.GeneCount.tsv到清晰的韦恩图从SpeciesTree_rooted.txt到进化解读每一步都需要细致的处理和恰当的呈现。我自己的经验是在生成任何图表之前花时间彻底理解每个输出文件的结构和含义往往能帮你省去后面大量的返工时间。当你把这些技巧融入你的常规分析流程你会发现比较基因组学的故事可以讲得如此清晰和深入。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2408472.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!