完整进行一次共线性分析

news2025/5/11 14:47:39

(随便找个基因家族)

1.数据收集

使用水稻、拟南芥、玉米三种作物进行示例

可以直接去ensemble去找最标准的基因组fasta文件和gff文件。

2.预处理数据

这里对于fasta和gff数据看情况要不要过滤掉线粒体叶绿体的基因,数据差异非常大,这里要自己写脚本处理一下

不同脚本:.....

import pandas as pd

f_gff = pd.read_csv("Arabidopsis_thaliana.TAIR10.61.v3.gff3", sep="	", comment="#", header=None)

#不保留叶绿体 线粒体基因
f_gff = f_gff[f_gff[0].apply(lambda x: isinstance(x, int))]
f_gff[0] = f_gff[0].astype(str)

f_gff[0] = 'Chr' + f_gff[0]#加上Chr前缀
f_gff.to_csv("Arabidopsis_thaliana.TAIR10.61.v4.gff3", sep="	", header=None, index=False)
import pandas as pd

f_gff = pd.read_csv("osa1_r7.all_models.v3.gff3", sep="	", comment="#", header=None)
f_gff = f_gff[f_gff[0].str.match(r'Chr\d+')]
f_gff.to_csv("osa1_r7.all_models.v4.gff3", sep="	", header=None, index=False)

然后:

#依次对数据进行预处理> 此处为linux虚拟机 conda环境下
——————————————————————————————————————————————————————————————————————
1.先对gff进行预处理,这里先用tbtools做了修复(gxf fix),然后这里再uniq去除一下冗余转录本:
python -m jcvi.formats.gff uniq  --type=mRNA data/Arabidopsis/Arabidopsis_thaliana.TAIR10.61.v2.gff3 -o data/Arabidopsis/Arabidopsis_thaliana.TAIR10.61.v3.gff3 

python -m jcvi.formats.gff uniq  --type=mRNA data/maize/b73_fixed.gff3 -o data/maize/b73_v3.gff3 


python -m jcvi.formats.gff uniq  --type=mRNA data/rice/osa1_r7.all_models2.gff3 -o data/rice/osa1_r7.all_models.v3.gff3 

————————————————————————————————————————————————————————————————————————
#然后转bed 为了保险再primary_only一下、这里的指令肯定是要自己调整的,比如我的玉米gff里面gene没有Name字段,就要改成ID

python -m jcvi.formats.gff bed --type=mRNA --key=transcript_id --primary_only data/Arabidopsis/Arabidopsis_thaliana.TAIR10.61.v3.gff3 -o data/Arabidopsis/Arabidopsis_thaliana.TAIR10.61.bed

python -m jcvi.formats.gff bed --type=gene --key=ID --primary_only data/maize/b73_v2.gff3  -o data/maize/b73.bed

python -m jcvi.formats.gff bed --type=gene --key=Name --primary_only data/rice/osa1_r7.all_models.v3.gff3  -o data/rice/osa1_r7.all_models.bed

——————————————————————————————————————————————————————————————————————————

到这里就获得了三个物种的bed文件

#最后一步要准备所有物种的cds,可以从官网下载,但是如果gff和fasta都没有问题了,也可以用tbtools直接提取,好像更不容易出错

总之 你最后要整理这些文件:

并保持cds和bed中的名称一致

3.开始

#这里需要依赖
conda install bioconda::last


先尝试两个物种间的情况


#分别计算
#太严格基本匹配不到
python -m jcvi.compara.catalog ortholog maize Arabidopsis --cscore=.99 --no_strip_names

#先使用这个把
python -m jcvi.compara.catalog ortholog maize Arabidopsis --no_strip_names 

python -m jcvi.compara.catalog ortholog maize rice --no_strip_names --exclude EXCLUDE

 这里生成.simple文件

python -m jcvi.compara.synteny screen --minspan=30 --simple maize.Arabidopsis.anchors maize.Arabidopsis.anchors.new 


python -m jcvi.compara.synteny screen --minspan=30 --simple maize.rice.anchors maize.rice.anchors.new 

然后这里最终需要的是3个文件:

1.layout_2_1:

# y, xstart, xend, rotation, color, label, va,  bed
 .6,     .1,    .8,       0,      , maize, top, maize.bed
 .4,     .1,    .8,       0,      , Arabidopsis, top, Arabidopsis.bed
# edges
e, 0, 1, maize.Arabidopsis.anchors.simple

2.seqids_2_1

chr1,chr2,chr3,chr4,chr5,chr6,chr7,chr8,chr9,chr10
1,2,3,4,5

3.maize.Arabidopsis.anchors.simple

python -m jcvi.graphics.karyotype seqids_2_1 layout_2_1

python -m jcvi.graphics.karyotype --basepair seqids_2_3 layout_2_3

还没写完

——————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2373200.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMQ--基础篇

RabbitMQ 简介:RabbitMQ 是一种开源的消息队列中间件,你可以把它想象成一个高效的“邮局”。它专门负责在不同应用程序之间传递消息,让系统各部分能松耦合地协作 优势: 异步处理:比如用户注册后,主程序将发…

Quorum协议原理与应用详解

一、Quorum 协议核心原理 基本定义 Quorum 是一种基于 读写投票机制 的分布式一致性协议,通过权衡一致性(C)与可用性(A)实现数据冗余和最终一致性。其核心规则为: W(写成功副本数) …

vue搭建+element引入

vue搭建element 在使用Vue.js开发项目时,经常会选择使用Element UI作为UI框架,因为它提供了丰富的组件和良好的设计,可以大大提高开发效率。以下是如何在Vue项目中集成Element UI的步骤: 1. 创建Vue项目 如果你还没有创建Vue项…

食物数据分析系统vue+flask

食物数据分析系统 项目概述 食物数据分析系统是一个集食物营养成分查询、对比分析和数据可视化于一体的Web应用。系统采用前后端分离架构,为用户提供食物营养信息检索、食物对比和营养分析等功能,帮助用户了解食物的营养成分,做出更健康的饮…

SPDK NVMe of RDMA 部署

使用SPDK NVMe of RDMA 实现多NVMe设备共享 一、编译、安装spdk 1.1、下载 1.1.1 下载spdk源码 首先,我们需要从GitHub上克隆SPDK的源码仓库。打开终端,输入以下命令: git clone -b v22.01 https://github.com/spdk/spdk.git cd spdk1.1.2…

【Redis】缓存和分布式锁

🔥个人主页: 中草药 🔥专栏:【中间件】企业级中间件剖析 一、缓存(Cache) 概述 Redis最主要的应用场景便是作为缓存。缓存(Cache)是一种用于存储数据副本的技术或组件,…

OpenLayers 精确经过三个点的曲线绘制

OpenLayers 精确经过三个点的曲线绘制 根据您的需求,我将提供一个使用 OpenLayers 绘制精确经过三个指定点的曲线解决方案。对于三个点的情况,我们可以使用 二次贝塞尔曲线 或 三次样条插值,确保曲线精确通过所有控制点。 实现方案 下面是…

大模型微调指南之 LLaMA-Factory 篇:一键启动LLaMA系列模型高效微调

文章目录 一、简介二、如何安装2.1 安装2.2 校验 三、开始使用3.1 可视化界面3.2 使用命令行3.2.1 模型微调训练3.2.2 模型合并3.2.3 模型推理3.2.4 模型评估 四、高级功能4.1 分布训练4.2 DeepSpeed4.2.1 单机多卡4.2.2 多机多卡 五、日志分析 一、简介 LLaMA-Factory 是一个…

GLPK(GNU线性规划工具包)介绍

GLPK全称为GNU Linear Programming Kit(GNU线性规划工具包),可从 https://sourceforge.net/projects/winglpk/ 下载源码及二进制库,最新版本为4.65。也可从 https://ftp.gnu.org/gnu/glpk/ 下载,仅包含源码,最新版本为5.0。 GLPK是…

PCB设计实践(十三)PCB设计中差分线间距与线宽设置的深度解析

一、差分信号的基本原理与物理背景 差分信号技术通过两条等幅反相的传输线实现信号传输,其核心优势体现在电磁场耦合的对称性上。根据麦克斯韦方程组的对称解原理,两条线产生的电磁场在远场区域相互抵消,形成以下特性: 1. 共模噪…

2025python学习笔记

一.Python语言基础入门 第一章 01.初识Python Python的起源: 1989年,为了打发圣诞节假期,Gudio van Rossum吉多范罗苏姆(龟叔)决心开发一个新的解释程序(Python维形)1991年,第一个…

【并发编程】基于 Redis 手写分布式锁

目录 一、基于 Redis 演示超卖现象 1.1 Redis 超卖现象 1.2 超卖现象解决方案 二、Redis 的乐观锁机制 2.1 原生客户端演示 2.2 业务代码实现 三、单机部署 Redis 实现分布式锁 3.1 分布式锁的演变和升级 3.2 setnx 实现分布式锁 3.2.1 递归调用实现分布式锁 3.2.2 循…

Jsp技术入门指南【十二】自定义标签

Jsp技术入门指南【十二】自定义标签 前言一、什么是标签二、标签的类型有哪些?1. 空标签2. 带有属性的标签3. 带主体的标签 三、自定义标签的部件3.1 自定义标签的四步骤3.2 标签处理程序3.3 自定义标签的开发及使用步骤第一步:创建标签助手类第二步&…

Java—— 泛型详解

泛型概述 泛型是JDK5中引入的特性&#xff0c;可以在编译阶段约束操作的数据类型&#xff0c;并进行检查。 泛型的格式&#xff1a;<数据类型> 注意&#xff1a;泛型只能支持引用数据类型。 泛型的好处 没有泛型的时候&#xff0c;可以往集合中添加任意类型的数据&#x…

GPT-4o, GPT 4.5, GPT 4.1, O3, O4-mini等模型的区别与联系

大模型时代浪潮汹涌,作为其中的领军者,OpenAI 其推出的系列模型以强大的能力深刻影响着整个行业,并常常成为业界其他公司对标和比较的基准。因此,深入了解 OpenAI 的大模型,不仅是为了使用它们,更是为了理解当前大模型的能力边界和发展趋势,这对于我们评估和选择其他各类…

Kubernetes生产实战(十二):无工具容器网络连接数暴增指南

当线上容器突然出现TCP连接数暴涨&#xff0c;而容器内又没有安装任何调试工具时&#xff0c;如何快速定位问题&#xff1f;本文将分享一套经过大型互联网公司验证的排查方案&#xff0c;涵盖从快速应急到根因分析的全流程。 一、快速锁定问题容器 查看pod 连接数方式&#x…

MySQL的Order by与Group by优化详解!

目录 前言核心思想&#xff1a;让索引帮你“排好序”或“分好组”Part 1: ORDER BY 优化详解1.1 什么是 Filesort&#xff1f;为什么它慢&#xff1f;1.2 如何避免 Filesort&#xff1f;—— 利用索引的有序性1.3 EXPLAIN 示例 (ORDER BY) Part 2: GROUP BY 优化详解2.1 什么是…

软件测试——用例篇(3)

目录 一、设计测试用例的具体方法 1.1等价类 1.1.1等价类概念介绍 1.1.2等价类分类 1.2边界值 1.2.1边界值分析法 1.2.2边界值分类 1.3正交法 1.3.1正交表 1.3.2正交法设计测试用例步骤 1.4判定表法 1.4.1判定表 1.4.2判定表方法设计测试用例 1.5 场景法 1.6错误…

在 Win11 下安装 Wireshark 的详细步骤

目录 一、了解 Wireshark1. 作用和功能2. 使用步骤 二、下载安装包三、运行安装包四、使用 Wireshark1. 抓包2. 窗口介绍3. 过滤器&#xff08;显示 / 捕获过滤器&#xff09;4. 保存过滤后的报文1&#xff09;显示过滤器表达式&#xff08;了解&#xff09;2&#xff09;过滤表…

AI编程: 使用Trae1小时做成的音视频工具,提取音频并识别文本

背景 在上个月&#xff0c;有网页咨询我怎么才能获取视频中的音频并识别成文本&#xff0c;我当时给他的回答是去问一下AI&#xff0c;让AI来给你答案。 他觉得我在敷衍他&#xff0c;大骂了我一顿&#xff0c;大家觉得我的回答对吗&#xff1f; 小编心里委屈&#xff0c;我…