2025_NIPS_G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning

news2026/4/3 18:58:26

文章核心总结与创新点核心内容本文针对大型语言模型（LLMs）在图推理任务中表现有限的问题，提出了一种基于强化学习（RL）的方法G1。通过在大规模合成图论任务数据集Erdős上训练，G1显著提升了LLMs的图推理能力，且在未见过的任务、领域和图编码方案中表现出强泛化性，同时不损害通用推理能力。实验证明，3B参数的G1模型性能可超越72B参数的Qwen2.5-72B-Instruct，7B参数的G1模型能与OpenAI o3-mini等先进推理模型比肩。核心创新点首次将强化学习框架应用于提升LLMs的图推理能力，通过规则化奖励信号实现高效训练。构建了目前最大规模、最全面的图论数据集Erdős，包含50种不同难度的任务、10万条训练数据和5千条测试数据，均源自真实世界图结构。验证了RL训练的泛化价值：模型在 unseen 图任务、真实世界节点分类/链路预测任务中表现优异，且通用推理能力（数学、多领域理解）未受损害。提出了“预训练LLMs已蕴含潜在图理解能力，RL可有效激发”的核心观点，为通用图推理模型提供了数据高效、可扩展的训练路径。翻译部分（Markdown格式）Abstract尽管大型语言模型（LLMs）已取得显著进展，但它们在图相关任务中的表现仍存在明显局限，这阻碍了真正通用人工智能模型的发展。以往的尝试（包括预训练图基础模型或采用有监督

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2479774.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！