2025_NIPS_G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning
文章核心总结与创新点核心内容本文针对大型语言模型(LLMs)在图推理任务中表现有限的问题,提出了一种基于强化学习(RL)的方法G1。通过在大规模合成图论任务数据集Erdős上训练,G1显著提升了LLMs的图推理能力,且在未见过的任务、领域和图编码方案中表现出强泛化性,同时不损害通用推理能力。实验证明,3B参数的G1模型性能可超越72B参数的Qwen2.5-72B-Instruct,7B参数的G1模型能与OpenAI o3-mini等先进推理模型比肩。核心创新点首次将强化学习框架应用于提升LLMs的图推理能力,通过规则化奖励信号实现高效训练。构建了目前最大规模、最全面的图论数据集Erdős,包含50种不同难度的任务、10万条训练数据和5千条测试数据,均源自真实世界图结构。验证了RL训练的泛化价值:模型在 unseen 图任务、真实世界节点分类/链路预测任务中表现优异,且通用推理能力(数学、多领域理解)未受损害。提出了“预训练LLMs已蕴含潜在图理解能力,RL可有效激发”的核心观点,为通用图推理模型提供了数据高效、可扩展的训练路径。翻译部分(Markdown格式)Abstract尽管大型语言模型(LLMs)已取得显著进展,但它们在图相关任务中的表现仍存在明显局限,这阻碍了真正通用人工智能模型的发展。以往的尝试(包括预训练图基础模型或采用有监督
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2479774.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!