原文标题:Exploring drug-target interaction prediction on cold-start scenarios via meta-learning-based graph transformer
原文链接:https://www.sciencedirect.com/science/article/pii/S1046202324002470
药物-靶点相互作用(DTI)预测通常是从已知的药物-靶点相互作用中预测潜在的未观察到的相互作用。
传统的方法通过生物实验发现药物靶标相互作用,准确但往往费时费力。
基于网络的方法可以无缝地组织和利用异构的生物数据,但在处理冷启动问题下的DTI预测时仍然存在差距。
冷启动场景需要预测新的药物或靶点与现有的靶点或药物之间是否存在潜在的相互作用。
冷启动场景下的药物-靶标相互作用预测可以分为两类:
( i )冷启动药物任务,即预测新药物与已知靶标之间的相互作用;
( ii )冷目标任务,预测新靶点与已知药物之间的相互作用。
下图展示了一个冷启动场景下药物-靶标相互作用( DTI )预测的实例。
基于网络的DTI预测方法在缓解冷启动场景中需要考虑以下问题:
1.现有的方法都是面向设计具有足够药物-靶标相互作用情况的模型架构。因此,一旦没有在训练集(冷启动场景)中呈现,这些方法将无法很好地进行DTI预测。
2.大多数方法倾向于优先考虑1跳邻居信息,往往忽略了对长距离依赖关系的提取。虽然GNNs堆叠具有利用远程节点信息的能力,但也可能面临挑战,如过平滑问题。
本文提出了一个基于图变换的元学习框架MGDTI ( Meta-learning based Graph Transformer for Drug-Target Interaction Prediction简称Meta - learning),用于处理DTI预测中的冷启动问题。目标是增强模型的泛化能力,并有效地捕获长程依赖关系。
问题 | 解决方案 |
模型泛化能力差 | 通过元学习的方式对模型进行训练,使其能够快速适应冷药物任务和冷目标任务。 |
药物-药物和靶标-靶标相互作用的稀缺性 | 结合了药物-药物结构相似性和靶标-靶标结构相似性,利用相似度矩阵作为额外信息来缓解交互的稀缺性。 |
过度平滑 | 采用节点邻居采样方法为每个节点生成上下文序列,然后将这些序列输入到图转换器中,通过上下文聚合来捕获局部结构信息。 |
相关工作
药物靶标作用关系预测
DTI被描述为药物分子与靶点(通常是蛋白质)的结合,其中药物与靶点相互作用以治疗疾病。提高DTI预测的准确性可能会导致更快的药物开发。
大多数传统方法通常是耗时耗力的。
基于对接的方法需要目标物的三维结构;
基于配体的方法利用已知的相互作用配体的规则进行预测来预测DTI。
基于网络的方法使用基于图的技术来表征药物和靶点的属性来预测DTIs。
DTINet从异构网络中学习药物和靶标的慢维特征向量,然后找到从药物空间到靶标空间的最优投影并预测相互作用。
IMCHGAN采用两级GAT策略从多个网络中学习药物和靶标的潜在特征表示,并使用归纳矩阵补全预测DTI。
HGAN基于注意力机制和扩散技术,捕获生物异构图中复杂的结构和丰富的语义,用于DTI预测。
MOVE通过跨视图对比表示学习整合多源信息进行DTI预测。
图Transformer
Transformer是一种广泛应用于处理序列数据的深度学习框架。它依赖于自注意力机制来捕获输入序列中的依赖关系。
图Transformer是为处理图结构数据而量身定做的Transformer的变体。它扩展了Transformer架构,能够有效地对图中节点之间的关系进行建模,从而能够更好地对图数据进行学习和推理。
图Transformer可以缓解基于消息传递的GNN模型的局限性(如过度平滑、过度压扁等)。Transformers主要是将图结构信息融入到Transformer架构中,对图结构数据进行泛化。
GraphTrans,GraphiT结合GNNs来捕获局部结构信息。
一些研究提出在图转换器中加入图和结构编码来补充拓扑信息。
HINormer提出的异构信息网络上的图转换器利用局部结构编码器和异构编码器进行节点表示学习。
方法
MGDTI主要由3个部分组成:( 1 )图增强模块;( 2 )局部图结构编码器;( 3 )图形转换器模块
图增强模块
为了解决冷启动问题,MGDTI分别在药物和靶标内部补充具有结构相似性的额外信息。对于每个药物v∈D,选择与药物v结构相似度最高的前5个药物(不含自身),并在DTN中添加5条边。对于每个目标v′∈T,也做同样的处理。对图进行增强后,得到新的DTN图G′。
局部图结构编码器
在该模块中,MGDTI利用局部图结构编码器学习节点的嵌入,以充分捕获DTN′的局部结构信息。对于每个节点v∈V,MGDTI随机初始化其在d维隐空间中的嵌入。此外,将所有节点的嵌入进行聚合,形成嵌入矩阵H(0)∈R|v|×d。图卷积网络( Graph Convolutional Network,GCN )因其消息传递机制能有效捕获局部结构信息而被广泛应用于图表示学习。形式上,对于L层输出:
式中:H(l)为第l层的特征表示。这里,~A = A + IN 是添加了自连接的无向图G'的邻接矩阵,其中IN是单位矩阵,~D是~A的度矩阵。~D-1/2 ~A~D-1/2 表示规范化的邻接矩阵,W(l)是l层可训练的权重矩阵。经过l层GCN后,得到节点的新嵌入H。
图Transformer模块
在该模块中,旨在通过图Transformer模块从长距离依赖中捕获信息,以防止过度平滑。
该模型将固定数量(n)的节点v的邻居节点采样为一个邻域序列Sv,其嵌入作为Transformer编码器的输入。对于节点v首先对自身进行采样,然后优先将其1跳节点采样到邻域序列Sv中。如果|Sv|<n,则从它的2跳邻居中采样,以此类推,直到|Sv| = n。
形式上,节点v的邻域序列Sv记为Sv = [ v , v1 , ... , vn-1 ],因此邻域序列的嵌入记为HSv = [ Hv , Hv1 , ... , Hvn - 1]∈R n×d。Transformer因其优秀的序列学习能力而被广泛应用于不同领域。标准变换层由多头自注意力模块( MSA )和前馈网络( FFN )两个主要部件组成。MGDTI中删除了FFN,因此我们只简单介绍MSA的简单性。
MSA允许模型并行地学习多组注意力权重,以提取来自不同子空间的特征,并将它们融合在一起,以增强模型的表示能力。对于节点v的邻域序列嵌入,MSA首先通过三个参数矩阵WQ,WK,WV和将输入HSv投影到查询空间,键空间和值空间(分别用Q , K , V表示),从而学习到一组他们的注意力权重Attention
然后将注意力权重计算为:
在HSv上计算两个独立的自注意力,得到两组注意力权重Attention1,Attention2,并将其串联和线性变换得到MSA输出:

之后,MSA的输出将连接到层归一化(LN)和残差连接。
对于Transformer编码器,j层表示为:

经过j层Transformer后,Transformer编码器的最终输出表示为" HSv∈R n×d "。
对于节点v,我们用~HSv[0]作为其新的嵌入。经过图变换模块后,MGDTI可以根据邻域序列不同位置之间的接近程度来学习节点特征。值得注意的是,在更新节点对药物节点和目标节点的嵌入时,我们使用了不同的图变换模块。此时,MGDTI分别得到了药物节点的嵌入Zv = ~HSv[0]和目标节点的嵌入Zv′= ~HSv′[0]。
预测模块
MGDTI将Zv和Zv′级联作为预测模块的输入,构成3层MLP。MLP的输出是一个预测分数,表示DTI的概率,记为:
我们将DTI预测任务转换为二分类任务,并使用二分类交叉熵损失:

元学习训练
为了解决冷启动场景下的数据不平衡问题,我们使用元学习来训练模型参数。
给定一个带有随机初始化模型参数θ的模型Fθ,元学习的核心思想是针对不同的任务学习最优参数θ*,从而快速适应新任务。首先,对于每个epoch,将训练集随机划分为支持集{Xp,Yp}和查询集{Xq,Yq}。并且每次都将模型参数θ复制为^θ,通过更新支撑集损失Lp来更新θ:
然后使用参数^θ对查询集进行训练,得到查询集Liq的损失。我们重复上述步骤k次,得到平均损失均值Lmean,计算为:
并利用其对模型的原始参数θ进行优化:
其中α和β是超参数,通常分别称为局部更新学习率和全局更新学习率。
实验
数据集预处理
为了反映冷启动场景下的药物-靶点相互作用预测,对数据集采用了不同的实验拆分策略。将冷启动任务分为两类,冷药物任务和冷目标任务。
以冷药物任务为例,首先将药物分为10份,进行10折交叉验证。对于每一个折叠,将其中的一个部分作为冷药物,其余的九个部分作为现有药物。对于每个冷药物,屏蔽了一定比率的边,包括网络中的药物-药物相互作用和药物-靶标相互作用,以创建冷药物场景。为了模拟已知DTI显著少于未知DTI的现实场景,设置了1:1、1:5和1:10三种负采样率,分别表示相同负样本数比正样本数,5倍负样本数比正样本数,10倍负样本数比正样本数。然后,对于每个折叠,使用药物-靶标相互作用的掩码边和负样本的负采样率编号(也就是说,冷药物与靶点之间没有相互作用)作为测试集,使用网络中的未掩码边和负样本的负采样率编号作为训练集。
为了评估模型在不同冷药物场景下的表现,设置了不同的掩码率0.5、0.7、0.9和1.0来模拟冷药物学习到了多少信息。对于冷目标任务,做了与上面相同的工作。
评价指标
为了评估MGDTI的有效性,使用了两个广泛使用的指标:受试者工作特征曲线下面积( AUC )和精确率-召回率曲线下面积( AUPR )。这两个评价指标常用于评估模型在不同领域中的性能,可以全面地了解模型区分正例和负例的能力( AUC ),以及在不同召回率水平下的精度( AUPR )。评价指标的得分越高,表明性能越好。
有效性
为了评估模型的性能,在数据集上进行了10折交叉验证,并计算了10折结果的平均值。在不同负采样率的冷启动DTI预测任务上将MGDTI与基线进行了比较。冷药物任务的结果汇总在表中,而冷目标任务的结果如图所示。在表中,加粗的值表示该度量的最佳性能。并对本实验中各模型的预测结果进行了统计分析,通过图展示了十折交叉验证中各折的AUC和AUPR结果。

总的来说,在冷药物任务和冷目标任务上,MGDTI在大多数实验条件下都取得了最好的结果。而对于其他实验条件,MGDTI达到次优。特别地,当掩码速率为1.0时,MGDTI相对于其他基线取得了显著的优势。根据结果,可以得出结论,MGDTI比其他基线更适合处理冷启动场景。此外,当负采样率增加时,MGDTI也保持了优异的性能,证明了模型的鲁棒性。

随着掩码率的增加,所有模型的AUC和AUPR都有一定程度的下降。基于网络的方法需要聚集邻居的信息才能得到药物和靶点的表示,但在冷启动场景下,冷药物和冷靶点在网络中的相互作用信息很少或几乎没有,这将极大地限制DTI预测的性能。具体来说,随着掩蔽率的增加,冷目标任务的实验结果比冷目标任务下降更明显。