论文学习:《通过基于元学习的图变换探索冷启动场景下的药物-靶标相互作用预测》

news2025/5/17 13:35:56

原文标题:Exploring drug-target interaction prediction on cold-start scenarios via meta-learning-based graph transformer

原文链接:https://www.sciencedirect.com/science/article/pii/S1046202324002470


药物-靶点相互作用(DTI)预测通常是从已知的药物-靶点相互作用中预测潜在的未观察到的相互作用。

传统的方法通过生物实验发现药物靶标相互作用,准确但往往费时费力。

基于网络的方法可以无缝地组织和利用异构的生物数据,但在处理冷启动问题下的DTI预测时仍然存在差距。


冷启动场景需要预测新的药物或靶点与现有的靶点或药物之间是否存在潜在的相互作用

冷启动场景下的药物-靶标相互作用预测可以分为两类:

( i )冷启动药物任务,即预测新药物与已知靶标之间的相互作用;

( ii )冷目标任务,预测新靶点与已知药物之间的相互作用。

下图展示了一个冷启动场景下药物-靶标相互作用( DTI )预测的实例。

基于网络的DTI预测方法在缓解冷启动场景中需要考虑以下问题:

1.现有的方法都是面向设计具有足够药物-靶标相互作用情况的模型架构。因此,一旦没有在训练集(冷启动场景)中呈现,这些方法将无法很好地进行DTI预测。

2.大多数方法倾向于优先考虑1跳邻居信息,往往忽略了对长距离依赖关系的提取。虽然GNNs堆叠具有利用远程节点信息的能力,但也可能面临挑战,如过平滑问题。

本文提出了一个基于图变换的元学习框架MGDTI ( Meta-learning based Graph Transformer for Drug-Target Interaction Prediction简称Meta - learning),用于处理DTI预测中的冷启动问题。目标是增强模型的泛化能力,并有效地捕获长程依赖关系。

问题解决方案
模型泛化能力差通过元学习的方式对模型进行训练,使其能够快速适应冷药物任务和冷目标任务。
药物-药物和靶标-靶标相互作用的稀缺性结合了药物-药物结构相似性和靶标-靶标结构相似性,利用相似度矩阵作为额外信息来缓解交互的稀缺性。
过度平滑采用节点邻居采样方法为每个节点生成上下文序列,然后将这些序列输入到图转换器中,通过上下文聚合来捕获局部结构信息。

相关工作

药物靶标作用关系预测

DTI被描述为药物分子与靶点(通常是蛋白质)的结合,其中药物与靶点相互作用以治疗疾病。提高DTI预测的准确性可能会导致更快的药物开发。

大多数传统方法通常是耗时耗力的。

基于对接的方法需要目标物的三维结构;

基于配体的方法利用已知的相互作用配体的规则进行预测来预测DTI。

基于网络的方法使用基于图的技术来表征药物和靶点的属性来预测DTIs。

DTINet从异构网络中学习药物和靶标的慢维特征向量,然后找到从药物空间到靶标空间的最优投影并预测相互作用。

IMCHGAN采用两级GAT策略从多个网络中学习药物和靶标的潜在特征表示,并使用归纳矩阵补全预测DTI。

HGAN基于注意力机制和扩散技术,捕获生物异构图中复杂的结构和丰富的语义,用于DTI预测。

MOVE通过跨视图对比表示学习整合多源信息进行DTI预测。

图Transformer

Transformer是一种广泛应用于处理序列数据的深度学习框架。它依赖于自注意力机制来捕获输入序列中的依赖关系。

图Transformer是为处理图结构数据而量身定做的Transformer的变体。它扩展了Transformer架构,能够有效地对图中节点之间的关系进行建模,从而能够更好地对图数据进行学习和推理。

图Transformer可以缓解基于消息传递的GNN模型的局限性(如过度平滑、过度压扁等)。Transformers主要是将图结构信息融入到Transformer架构中,对图结构数据进行泛化

GraphTrans,GraphiT结合GNNs来捕获局部结构信息。

一些研究提出在图转换器中加入图和结构编码来补充拓扑信息。

HINormer提出的异构信息网络上的图转换器利用局部结构编码器和异构编码器进行节点表示学习。

方法

MGDTI主要由3个部分组成:( 1 )图增强模块;( 2 )局部图结构编码器;( 3 )图形转换器模块

图增强模块

为了解决冷启动问题,MGDTI分别在药物和靶标内部补充具有结构相似性的额外信息。对于每个药物v∈D,选择与药物v结构相似度最高的前5个药物(不含自身),并在DTN中添加5条边。对于每个目标v′∈T,也做同样的处理。对图进行增强后,得到新的DTN图G′。

局部图结构编码器

在该模块中,MGDTI利用局部图结构编码器学习节点的嵌入,以充分捕获DTN′的局部结构信息。对于每个节点v∈V,MGDTI随机初始化其在d维隐空间中的嵌入。此外,将所有节点的嵌入进行聚合,形成嵌入矩阵H(0)∈R|v|×d。图卷积网络( Graph Convolutional Network,GCN )因其消息传递机制能有效捕获局部结构信息而被广泛应用于图表示学习。形式上,对于L层输出:

式中:H(l)为第l层的特征表示。这里,~A = A + IN 是添加了自连接的无向图G'的邻接矩阵,其中IN是单位矩阵,~D是~A的度矩阵。~D-1/2 ~A~D-1/2 表示规范化的邻接矩阵,W(l)是l层可训练的权重矩阵。经过l层GCN后,得到节点的新嵌入H。

图Transformer模块

在该模块中,旨在通过图Transformer模块从长距离依赖中捕获信息,以防止过度平滑。

该模型将固定数量(n)的节点v的邻居节点采样为一个邻域序列Sv,其嵌入作为Transformer编码器的输入。对于节点v首先对自身进行采样,然后优先将其1跳节点采样到邻域序列Sv中。如果|Sv|<n,则从它的2跳邻居中采样,以此类推,直到|Sv| = n。

形式上,节点v的邻域序列Sv记为Sv = [ v , v1 , ... , vn-1 ],因此邻域序列的嵌入记为HSv = [ Hv , Hv1 , ... , Hvn - 1]∈R n×d。Transformer因其优秀的序列学习能力而被广泛应用于不同领域。标准变换层由多头自注意力模块( MSA )和前馈网络( FFN )两个主要部件组成MGDTI中删除了FFN,因此我们只简单介绍MSA的简单性。

MSA允许模型并行地学习多组注意力权重,以提取来自不同子空间的特征,并将它们融合在一起,以增强模型的表示能力。对于节点v的邻域序列嵌入,MSA首先通过三个参数矩阵WQ,WK,WV和将输入HSv投影到查询空间,键空间和值空间(分别用Q , K , V表示),从而学习到一组他们的注意力权重Attention

然后将注意力权重计算为:

在HSv上计算两个独立的自注意力,得到两组注意力权重Attention1,Attention2,并将其串联和线性变换得到MSA输出

其中WM是一个可学习的参数。

之后,MSA的输出将连接到层归一化(LN)和残差连接

对于Transformer编码器,j层表示为:

其中 H0 = HSv。

经过j层Transformer后,Transformer编码器的最终输出表示为" HSv∈R n×d "。

对于节点v,我们用~HSv[0]作为其新的嵌入。经过图变换模块后,MGDTI可以根据邻域序列不同位置之间的接近程度来学习节点特征。值得注意的是,在更新节点对药物节点和目标节点的嵌入时,我们使用了不同的图变换模块。此时,MGDTI分别得到了药物节点的嵌入Zv = ~HSv[0]和目标节点的嵌入Zv′= ~HSv′[0]。

预测模块

MGDTI将Zv和Zv′级联作为预测模块的输入,构成3层MLP。MLP的输出是一个预测分数,表示DTI的概率,记为:

我们将DTI预测任务转换为二分类任务,并使用二分类交叉熵损失

y是真实值,^y是预测值

元学习训练

为了解决冷启动场景下的数据不平衡问题,我们使用元学习来训练模型参数。

给定一个带有随机初始化模型参数θ的模型Fθ,元学习的核心思想是针对不同的任务学习最优参数θ*,从而快速适应新任务。首先,对于每个epoch,将训练集随机划分为支持集{Xp,Yp}和查询集{Xq,Yq}。并且每次都将模型参数θ复制为^θ,通过更新支撑集损失Lp来更新θ:

然后使用参数^θ对查询集进行训练,得到查询集Liq的损失。我们重复上述步骤k次,得到平均损失均值Lmean,计算为:

并利用其对模型的原始参数θ进行优化:

其中α和β是超参数,通常分别称为局部更新学习率和全局更新学习率。

实验

数据集预处理

为了反映冷启动场景下的药物-靶点相互作用预测,对数据集采用了不同的实验拆分策略。将冷启动任务分为两类,冷药物任务和冷目标任务。

以冷药物任务为例,首先将药物分为10份,进行10折交叉验证。对于每一个折叠,将其中的一个部分作为冷药物,其余的九个部分作为现有药物。对于每个冷药物,屏蔽了一定比率的边,包括网络中的药物-药物相互作用和药物-靶标相互作用,以创建冷药物场景。为了模拟已知DTI显著少于未知DTI的现实场景,设置了1:1、1:5和1:10三种负采样率,分别表示相同负样本数比正样本数,5倍负样本数比正样本数,10倍负样本数比正样本数。然后,对于每个折叠,使用药物-靶标相互作用的掩码边和负样本的负采样率编号(也就是说,冷药物与靶点之间没有相互作用)作为测试集,使用网络中的未掩码边和负样本的负采样率编号作为训练集。

为了评估模型在不同冷药物场景下的表现,设置了不同的掩码率0.5、0.7、0.9和1.0来模拟冷药物学习到了多少信息。对于冷目标任务,做了与上面相同的工作。

评价指标

为了评估MGDTI的有效性,使用了两个广泛使用的指标:受试者工作特征曲线下面积( AUC )和精确率-召回率曲线下面积( AUPR )。这两个评价指标常用于评估模型在不同领域中的性能,可以全面地了解模型区分正例和负例的能力( AUC ),以及在不同召回率水平下的精度( AUPR )。评价指标的得分越高,表明性能越好

有效性

为了评估模型的性能,在数据集上进行了10折交叉验证,并计算了10折结果的平均值。在不同负采样率的冷启动DTI预测任务上将MGDTI与基线进行了比较。冷药物任务的结果汇总在表中,而冷目标任务的结果如图所示。在表中,加粗的值表示该度量的最佳性能。并对本实验中各模型的预测结果进行了统计分析,通过图展示了十折交叉验证中各折的AUC和AUPR结果。

不同负采样率下冷药物MGDTI与基线结果的比较。

总的来说,在冷药物任务和冷目标任务上,MGDTI在大多数实验条件下都取得了最好的结果。而对于其他实验条件,MGDTI达到次优。特别地,当掩码速率为1.0时,MGDTI相对于其他基线取得了显著的优势。根据结果,可以得出结论,MGDTI比其他基线更适合处理冷启动场景。此外,当负采样率增加时,MGDTI也保持了优异的性能,证明了模型的鲁棒性。

对所提MGDTI与基线在不同负采样率冷目标上的AUC和AUPR性能进行统计分析。

随着掩码率的增加,所有模型的AUC和AUPR都有一定程度的下降。基于网络的方法需要聚集邻居的信息才能得到药物和靶点的表示,但在冷启动场景下,冷药物和冷靶点在网络中的相互作用信息很少或几乎没有,这将极大地限制DTI预测的性能。具体来说,随着掩蔽率的增加,冷目标任务的实验结果比冷目标任务下降更明显

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十八、TCP多线程、多进程并发服务器

1、TCP多线程并发服务器 服务端&#xff1a; #include<stdio.h> #include <arpa/inet.h> #include<stdlib.h> #include<string.h> #include <sys/types.h> /* See NOTES */ #include <sys/socket.h> #include <pthread.h>…

AIGC-文生图与图生图

在之前的文章中&#xff0c;我们知道了如何通过Web UI和Confy UI两种SD工具来进行图片生成&#xff0c;今天进一步地讲解其中的参数用处及如何调节。 文生图 参数详解 所谓文生图&#xff0c;就是通过文字描述我们想要图片包含的内容。初学的话&#xff0c;还是以Web UI为例…

量化交易 - 聚宽joinquant - 多因子入门研究 - 源码开源

先看一下我们的收益&#xff1a; JoinQuant直达这里看看 下面讲解原理和代码。 目录 一、是否为st 二、是否停牌 三、市值小、roe大 四、编写回测代码 今天来研究一下多因子回测模型&#xff0c;这里以‘市值’、‘roe’作为例子。 几个标准&#xff1a;沪深300里选股&am…

FPGA 37 ,FPGA千兆以太网设计实战:RGMII接口时序实现全解析( RGMII接口时序设计,RGMII~GMII,GMII~RGMII 接口转换 )

目录 前言 一、设计流程 1.1 需求理解 1.2 模块划分 1.3 测试验证 二、模块分工 2.1 RGMII→GMII&#xff08;接收方向&#xff0c;rgmii_rx 模块&#xff09; 2.2 GMII→RGMII&#xff08;发送方向&#xff0c;rgmii_tx 模块&#xff09; 三、代码实现 3.1 顶层模块 …

上篇:《排序算法的奇妙世界:如何让数据井然有序?》

个人主页&#xff1a;strive-debug 排序算法精讲&#xff1a;从理论到实践 一、排序概念及应用 1.1 基本概念 **排序**&#xff1a;将一组记录按照特定关键字&#xff08;如数值大小&#xff09;进行递增或递减排列的操作。 1.2 常见排序算法分类 - **简单低效型**&#xff…

红宝书第三十四讲:零基础学会单元测试框架:Jest、Mocha、QUnit

红宝书第三十四讲&#xff1a;零基础学会单元测试框架&#xff1a;Jest、Mocha、QUnit 资料取自《JavaScript高级程序设计&#xff08;第5版&#xff09;》。 查看总目录&#xff1a;红宝书学习大纲 一、单元测试是什么&#xff1f; 就像给代码做“体检”&#xff0c;帮你检查…

CST1019.基于Spring Boot+Vue智能洗车管理系统

计算机/JAVA毕业设计 【CST1019.基于Spring BootVue智能洗车管理系统】 【项目介绍】 智能洗车管理系统&#xff0c;基于 Spring Boot Vue 实现&#xff0c;功能丰富、界面精美 【业务模块】 系统共有三类用户&#xff0c;分别是&#xff1a;管理员用户、普通用户、工人用户&…

HTTP:五.WEB服务器

web服务器 定义:实现提供资源或应答的提供者都可以谓之为服务器!web服务器工作内容 接受建立连接请求 接受请求 处理请求 访问报文中指定的资源 构建响应 发送响应 记录事务处理过程 Web应用开发用到的一般技术元素 静态元素:html, img,js,Css,SWF,MP4 动态元素:PHP,…

0基础 | 硬件滤波 C、RC、LC、π型

一、滤波概念 &#xff08;一&#xff09;滤波定义 滤波是将信号中特定波段频率滤除的操作&#xff0c;是抑制和防止干扰的重要措施。通过滤波器实现对特定频率成分的筛选&#xff0c;确保目标信号的纯净度&#xff0c;提升系统稳定性。 &#xff08;二&#xff09;滤波器分…

图论基础理论

在我看来&#xff0c;想要掌握图的基础应用&#xff0c;仅需要三步走。 什么是图&#xff08;基本概念&#xff09;、图的构造&#xff08;打地基&#xff09;、图的遍历方式&#xff08;应用的基础&#xff09; 只要能OK的掌握这三步、就算图论入门了&#xff01;&#xff0…

企业级低代码平台的架构范式转型研究

在快速迭代的数字时代&#xff0c;低代码平台如同一股清流&#xff0c;悄然成为开发者们的新宠。 它利用直观易用的拖拽式界面和丰富的预制组件&#xff0c;将应用程序的开发过程简化到了前所未有的程度。通过封装复杂的编程逻辑和提供强大的集成能力&#xff0c;低代码平台让…

怎么免费下载GLTF/GLB格式模型文件,还可以在线编辑修改

​ 现在非常流行glb格式模型&#xff0c;和gltf格式文件&#xff0c;可是之类模型网站非常非常少 1&#xff0c;咱们先直接打开http://glbxz.com 官方glb下载网站 glbxz.com 2 可以搜索&#xff0c;自己想要的模型关键词 3&#xff0c;到自己想下载素材页面 4&#xff0c;…

大模型到底是怎么产生的?一文揭秘大模型诞生全过程

前言 大模型到底是怎么产生的呢? 本文将从最基础的概念开始,逐步深入,用通俗易懂的语言为大家揭开大模型的神秘面纱。 大家好,我是大 F,深耕AI算法十余年,互联网大厂核心技术岗。 知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。 【专栏介绍】: 欢迎关注《…

2025年3月 Scratch图形化三级 真题解析 中国电子学会全国青少年软件编程等级考试

2025年3月Scratch图形化编程等级考试三级真题试卷 一、选择题 第 1 题 默认小猫角色&#xff0c;scratch运行程序后&#xff0c;下列说法正确的是&#xff1f;&#xff08; &#xff09; A.小猫的颜色、位置在一直变化 B.小猫在舞台中的位置在一直变化&#xff0c;颜色…

【贪心之摆动序列】

题目&#xff1a; 分析&#xff1a; 这里我们使用题目中给的第二个实例来进行分析 题目中要求我们序列当中有多少个摆动序列&#xff0c;摆动序列满足一上一下&#xff0c;一下一上&#xff0c;这样是摆动序列&#xff0c;并且要输出摆动序列的最长长度 通过上面的图我们可以…

0x25广度优先搜索+0x26广搜变形

1.一般bfs AcWing 172. 立体推箱子 #include<bits/stdc.h> using namespace std; int n,m; char s[505][505]; int vis[3][505][505]; int df[3][4]{{1,1, 2,2},{0,0,1,1}, {0,0,2,2}}; int dx[3][4]{{0,0,1,-2},{0,0,1,-1},{2,-1,0,0}}; int dy[3][4]{{1,-2,0,0},{2,…

java面向对象02:回顾方法

回顾方法及加深 定义方法 修饰符 返回类型 break&#xff1a;跳出switch和return的区别 方法名 参数列表 package com.oop.demo01;//Demo01类 public class Demo01 {//main方法public static void main(String[] args) {}/*修饰符 返回值类型 方法名(...){//方法体return…

数据结构day05

一 栈的应用&#xff08;括号匹配&#xff09; 各位同学大家好&#xff0c;在之前的小结中&#xff0c;我们学习了栈和队列这两种数据结构&#xff0c;那从这个小节开始&#xff0c;我们要学习几种栈和队列的典型应用。这个小节中&#xff0c;我们来看一下括号匹配问题&#xf…

windows中搭建Ubuntu子系统

windows中搭建虚拟环境 1.配置2.windows中搭建Ubuntu子系统2.1windows配置2.1.1 确认启用私有化2.1.2 将wsl2设置为默认版本2.1.3 确认开启相关配置2.1.4重启windows以加载更改配置 2.2 搭建Ubuntu子系统2.2.1 下载Ubuntu2.2.2 迁移位置 3.Ubuntu子系统搭建docker环境3.1安装do…

ImgTool_0.8.0:图片漂白去底处理优化工具

ImgTool_0.8.0 是一款专为Windows设计的‌免费、绿色便携式图片处理工具‌&#xff0c;支持 Windows 7/8/10/11 系统‌。其核心功能为‌漂白去底‌&#xff0c;可高效去除扫描件或手机拍摄图片中的泛黄、灰底及阴影&#xff0c;同时提供智能纠偏、透视校正等辅助功能&#xff0…