马普所:生命蛋白质宇宙聚类
摘要将生命之树中的数十亿蛋白质进行关联分析仍是比较生物圈基因组学与人工智能驱动结构预测领域的核心难题。本文提出种级联式超快速聚类方法DIAMOND DeepClust可实现行星尺度的蛋白质空间组织支持万亿级序列分析同时在低序列一致性条件下保持聚类灵敏度。本研究将190亿条生物圈蛋白质序列聚为5.44亿个非单例簇实验证明该DeepClust数据库可提升AlphaFold2的蛋白质结构预测效果。hdrost001dundee.ac.uk#DIAMOND #DeepClust #蛋白质宇宙 #蛋白质序列聚类 #级联聚类 #地球生物基因组计划 #蛋白质结构预测基准测试图1DIAMOND DeepClust、MMseqs2 与FLSHclust聚类性能基准测试展示NCBI NR数据库约5.46亿条蛋白质序列的深度聚类计算基准采用双向覆盖准则无特殊说明时不设置序列一致性阈值。a) 64核服务器上NR数据库及递增规模子样本的聚类耗时单位天。b) 与a) 一致仅展示耗时小于1天的工具单位小时。c) 基于Pfam结构域架构压缩NCBI NR数据库时1.5亿条注释输入序列的灵敏度与精度分布。d) 将同一Pfam族系中不同家族视为等效时的聚类灵敏度。e) 各工具生成的簇数量箱线内横线为中位数箱边为第25、75百分位数须线为4分位距1.5倍内的极值。实验研究图2DIAMOND DeepClust聚类的蛋白质宇宙与现有数据库的关联特征展示190亿条序列数据集中簇规模≥3的代表序列在不同查询覆盖度阈值下可基于现有数据库完成注释的比例样本量100万条代表序列。数据190亿条蛋白质序列的聚类结果https://objectstore.hpccloud.mpcdf.mpg.de/deepclust/index.html代码DIAMOND DeepClust地址https://github.com/bbuchfink/diamond基准测试、数据分析与绘图https://github.com/drostlab/deepclust-data适配ColabFold使用本实验数据库https://github.com/drostlab/deepclust_colabfold从Parquet文件提取序列https://github.com/drostlab/deepclust_dataretrieval详细总结思维导图性能基准测试NCBI NR库5.46亿序列参考Nat Methods. 2026 Mar 24. doi: 10.1038/s41592-026-03030-z.Clustering the protein universe of life using DIAMOND DeepClust260324DeepClust.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2503673.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!