RFdiffusion 安装后别急着关!手把手带你解读生成的 .pdb 和 .trb 文件,并接入 ProteinMPNN 完成设计
RFdiffusion 实战进阶从骨架生成到完整蛋白质设计的全流程解析当你第一次看到 RFdiffusion 生成的 .pdb 文件时可能会感到既兴奋又困惑——那些蓝色的骨架线条代表着什么如何将这些抽象的结构转化为具有生物功能的蛋白质本文将带你深入理解 RFdiffusion 的输出结果并完整演示如何将其与 ProteinMPNN 结合实现从骨架设计到序列预测的全流程。1. 理解 RFdiffusion 的输出文件运行 RFdiffusion 后你会得到三类核心文件.pdb、.trb 和 inpaint_seq。这些文件共同构成了蛋白质设计的起点理解它们的结构和含义至关重要。1.1 .pdb 文件蛋白质骨架的3D蓝图.pdb (Protein Data Bank) 文件是结构生物学中最常用的格式之一。RFdiffusion 生成的 .pdb 文件包含以下关键信息ATOM 1 N ALA A 1 8.470 11.282 10.745 1.00 0.00 N ATOM 2 CA ALA A 1 9.354 10.183 10.745 1.00 0.00 C ATOM 3 C ALA A 1 10.804 10.589 10.745 1.00 0.00 C ATOM 4 O ALA A 1 11.470 9.693 10.745 1.00 0.00 ON、CA、C、O代表蛋白质骨架的四个关键原子氮、α碳、碳和氧坐标值每行第7-14、15-22、23-30列分别对应X、Y、Z坐标残基类型虽然显示为ALA但实际上 RFdiffusion 并未预测具体氨基酸类型提示使用 PyMOL 查看 .pdb 文件时输入show cartoon命令可以更清晰地观察蛋白质的二级结构特征。1.2 .trb 文件隐藏的元数据宝库.trb 文件是一个 Python pickle 格式的文件包含了 RFdiffusion 运行过程中的丰富元数据。我们可以用以下代码加载并查看其内容import pickle with open(example.trb, rb) as f: trb_data pickle.load(f) print(trb_data.keys()) # 查看包含哪些数据字段典型 .trb 文件包含的关键信息字段名数据类型描述contigdict包含蛋白质长度和结构域信息inpaint_seqdict序列修复相关的参数sampling_infodict扩散模型采样过程的详细信息lossfloat模型训练的损失值timingsdict各阶段运行时间统计1.3 inpaint_seq 文件序列修复的中间结果这个文件记录了 RFdiffusion 在序列修复模式下的中间输出对于理解模型如何处理特定序列区域非常有价值。文件格式通常为1 A S 2 A E 3 A L ...其中每行代表一个残基位置包含位置编号、链标识符和预测的氨基酸类型在标准模式下这些预测不可靠。2. 可视化与分析生成的结构2.1 使用 PyMOL 进行本地可视化PyMOL 是蛋白质结构分析的金标准工具。安装后conda install -c schrodinger pymol可以通过以下命令序列进行基础分析# 启动 PyMOL 后执行的命令 load example.pdb show cartoon color blue, all set ray_opaque_background, off ray 1200,1200 png example.png进阶分析技巧使用measure distance命令检查关键原子间距ramp_spectrum命令可显示B因子或其它属性的颜色渐变align命令可比较不同设计的结构相似性2.2 在线工具快速查看对于不想安装本地软件的用户以下在线工具非常实用Protein Imager(https://3dproteinimaging.com/protein-imager/)直接上传 .pdb 文件即可支持简单的旋转和缩放操作MolViewer* (https://molstar.org/viewer/)更专业的在线查看器支持多种渲染风格和测量工具3. 从骨架到序列ProteinMPNN 集成指南RFdiffusion 生成的只是蛋白质骨架要获得有功能的蛋白质我们需要预测具体的氨基酸序列。ProteinMPNN 是目前最先进的序列预测工具之一。3.1 准备 ProteinMPNN 环境首先克隆 ProteinMPNN 仓库并安装依赖git clone https://github.com/dauparas/ProteinMPNN.git cd ProteinMPNN conda create -n proteinmpnn python3.9 conda activate proteinmpnn pip install torch1.12.1cu113 torchvision0.13.1cu113 torchaudio0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113 pip install -r requirements.txt注意ProteinMPNN 对 PyTorch 版本要求严格建议使用指定版本以避免兼容性问题。3.2 准备输入文件创建一个包含 RFdiffusion 输出的 .pdb 文件列表的 JSON 文件// inputs.json { pdb_paths: [design_1.pdb, design_2.pdb], chain_ids: [A, A] }3.3 运行序列预测使用以下命令进行序列预测python protein_mpnn_run.py \ --pdb_paths_json inputs.json \ --out_folder outputs \ --num_seq_per_target 5 \ --sampling_temp 0.1 \ --seed 42关键参数说明参数类型默认值描述num_seq_per_targetint1每个设计生成的序列数量sampling_tempfloat0.1控制序列多样性的温度参数seedintNone随机种子确保结果可重复3.4 解析输出结果ProteinMPNN 会为每个输入 .pdb 生成多个序列预测保存在outputs/seqs目录中。文件格式示例design_1_seq_0 MSEVQKLADVYRELVQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLGLELQKLG
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2448959.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!