2025_NIPS_Generalizable Insights for Graph Transformers in Theory and Practice
文章核心总结与创新点主要内容本文聚焦图Transformer(GT)领域理论与实践的脱节问题,提出通用距离Transformer(GDT)架构,基于标准注意力机制整合近年GT关键进展。通过理论分析证明GDT的表达能力与广义距离魏斯费勒-莱曼算法(GD-WL)等价,同时系统研究了位置编码(PE)对模型性能的影响。在涵盖800多万个图、2.7亿个令牌的大规模数据集上(涉及分子性质预测、目标检测、代码摘要等多领域)开展实验,验证了GDT在图/节点/边级任务、少样本迁移和规模外推中的有效性,最终提炼出GT设计、训练和推理的通用见解。创新点提出GDT架构:兼容标准Transformer实现,能捕获MPNN、多数GT及传统Transformer,支持节点/边级令牌化,可灵活整合绝对/相对PE和边特征。理论突破:首次证明标准注意力机制的GDT可模拟GD-WL,将模型表达能力与PE选择解耦,建立了PE的精细表达能力层级(如RRWP优于RWSE,SPE至少与LPE和RRWP相当)。大规模实证验证:在多领域大尺度数据集上评估,发现PE效率差异显著但预测性能差距较小,且GDT具有强少样本迁移能力和规模外推性。通用见解提炼:明确了GT设计中PE选择、模型缩放、注意力机制等关键因素的影响,为通用图模型开发提供理论与实践指导。翻译部分(Markdown格式)Abstract
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2433020.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!