直播预告!从 Depth Scaling 到 Width Scaling,聊聊 WideSeek-R1:通过 MARL 探索大模型的广度扩展
DeepSeek-R1 的成功证明深度扩展Depth Scaling在复杂逻辑推理中具有巨大潜力。但当任务从“深推理”转向“广信息”——如汇总全球头部科技公司多维财务数据——单一大模型往往受限于多轮检索带来的上下文干扰与串行效率瓶颈。论文WideSeek-R1: Exploring Width ScalingforBroad Information Seeking via Multi-Agent Reinforcement Learning链接https://arxiv.org/abs/2602.04634代码https://github.com/RLinf/RLinf/tree/main/examples/agent/wideseek_r1为此清华大学与Infinigence AI的研究团队提出了“广度扩展”Width Scaling这一互补范式。基于 Lead-agent-Subagent 的分层多智能体架构WideSeek-R1 通过多智能体强化学习实现端到端训练具备灵活调度与高效并发能力。实验结果显示4B 参数的 WideSeek-R1 在⼴度搜索任务上的表现不仅看⻬ 671B 参数的 DeepSeek-R1 单智能体更⼤幅超越了同参数规模的基线模型。3月24日周二晚8点青稞Talk 第115期RLinf开发者、中国科学技术大学少年班本科生徐哲轩将直播分享《WideSeek-R1通过多智能体 RL 探索大模型的广度扩展》。分享嘉宾直博清华大学电子系导师汪玉教授RLinf开发者研究方向强化学习多智能体。主题提纲从 Depth Scaling 到 Width ScalingWideSeek-R1通过多智能体 RL 探索大模型的广度扩展1、从 DeepSeek-R1 看深度扩展的极限2、“广度扩展”新的 Scaling Law 范式3、WideSeek-R1基于MARL的分层多智能体架构4、未AMA Ask Me Anything直播时间3月24日周二20:00 - 21:00如何观看Talk 将在青稞社区【视频号青稞 AI、Bilibili青稞 AI】上进行进行直播欢迎预约观看Bilibili 直播间https://live.bilibili.com/32145701
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2439984.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!