CoMAM：让多智能体记忆系统学会“团队协作“的强化学习框架

news2026/5/15 3:57:35

图解CoMAM让多智能体记忆系统学会团队协作的强化学习框架开篇导读你有没有想过为什么和AI对话久了它还是记不住你的偏好上下文窗口限制是根本原因——LLM只能看到有限的历史对话。为了解决这个问题研究者们设计了记忆系统用多个智能体协作管理长期对话历史然后按需检索。但问题随之而来这些记忆智能体各自为战分别被优化却没人保证它们合起来效果好。就像一支球队每个球员单练都很强但上场配合一塌糊涂。来自中国科技大学的研究团队在论文《Collaborative Multi-Agent Optimization for Personalized Memory System》CoMAM中提出了一个优雅的解法把多个记忆智能体的执行过程建模为马尔可夫决策过程MDP用协作强化学习联合优化并通过自适应贡献分配让每个智能体的局部改进与全局目标对齐。核心结果在 PersonaMem 基准上CoMAM 相比最强基线提升最高16.7%跨 32K、128K、1M 三种上下文长度设置全面领先。论文背景为什么记忆系统需要协作优化现有记忆系统的架构一个典型的多智能体记忆系统由三类智能体组成提取智能体Extraction Agent从原始对话历史中抽取细粒度记忆关键事件、事实画像智能体Profile Agent将细粒度记忆进一步抽象为粗粒度用户画像偏好、行为模式检索智能体Retrieval Agent根据用户查询检索相关记忆生成个性化回答Figure 1左图展示三个智能体在训练过程中奖励的变化曲线右图对比独立优化与联合优化在不同上下文长度下的全局性能差距联合优化最高提升 12%。独立优化的根本缺陷现有方法如 Memory-R1、Mem-α的做法是分别用强化学习或提示工程优化各智能体的局部任务。这看似合理却存在根本问题局部最优 ≠ 全局最优。提取智能体可能抽取了大量细节但这些细节并不是检索智能体真正需要的画像智能体总结的偏好也未必符合回答特定查询的需求。各智能体的独立策略在联合推理时产生冲突导致全局性能下降。如图所示联合优化相比独立优化在 32K/128K/1M 三种上下文长度下分别提升了 12%、7.7%、8.2%。核心挑战为什么联合优化很难Figure 2左侧展示智能体的异构性与异步执行问题右侧展示局部目标与全局目标对齐的难题。论文明确指出联合优化面临两大挑战挑战 1异构性与异步性Heterogeneity Asynchrony三个智能体的配置完全不同提取智能体周期性处理历史对话检索智能体在收到查询时才激活。它们的参数空间离散、结构复杂难以端到端优化。挑战 2局部-全局对齐Local-Global Alignment要促进协作需要让智能体的局部改进与全局目标对齐。但如果简单地把全局奖励平均分给各智能体会导致功劳不清——贡献大的智能体和贡献小的拿一样的奖励优化信号模糊。CoMAM 框架详解Figure 3CoMAM 框架全貌。左侧展示三个智能体的 MDP 轨迹采样中间展示局部与全局奖励右侧展示自适应贡献分配计算最终奖励的过程。CoMAM 提出两个核心机制来解决上述挑战机制一执行轨迹 MDP 正则化CoMAM 将三个智能体的异步执行过程建模为一个顺序马尔可夫决策过程MDP步骤状态动作智能体s₀ → s₁原始对话历史 H抽取细粒度记忆 MfExtraction Agents₁ → s₂细粒度记忆 Mf抽象粗粒度画像 McProfile Agents₂ → s₃多粒度记忆 M 查询 q检索记忆并生成回答 pRetrieval Agent通过 MDP 建模智能体间的依赖关系被嵌入状态转移——前一个智能体的输出直接成为下一个的输入使所有智能体能够在同一训练轨迹中同步更新解决了异构性和异步性问题。每个智能体都有对应的局部任务奖励提取智能体信息覆盖率F1 得分衡量与ground-truth证据的匹配程度画像智能体抽象合理性冻结 LLM 评分检索智能体检索精度覆盖率精确率加权全局奖励统一为查询回答准确率是否与ground-truth完全匹配。机制二自适应贡献分配仅靠 MDP 还不够——全局奖励如何分配给各智能体是关键。CoMAM 提出用NDCG归一化折扣累积增益衡量每个智能体局部奖励与全局奖励的排名一致性vnNDCG(σ(Rlocal,n),σ(Rglobal))v_n \text{NDCG}(\sigma(R_{\text{local},n}), \sigma(R_{\text{global}}))vnNDCG(σ(Rlocal,n),σ(Rglobal))一致性高的智能体其局部表现与全局表现高度相关获得更大的全局奖励权重wnexp⁡(vn)∑n′exp⁡(vn′)w_n \frac{\exp(v_n)}{\sum_{n} \exp(v_{n})}wn∑n′exp(vn′)exp(vn)最终每个智能体的优化奖励为rfinal,n(i)rn(i)wn⋅r3(i)r^{(i)}_{\text{final},n} r^{(i)}_n w_n \cdot r^{(i)}_3rfinal,n(i)rn(i)wn⋅r3(i)这一设计不需要手动设置权重完全由智能体的实际贡献动态决定。实验结果主实验全面超越 SOTATable 1在 PersonaMem 基准上CoMAMOurs对比所有基线的查询回答准确率。加粗为最优下划线为次优。在 PersonaMem 基准跨 32K、128K、1M 三种上下文长度Qwen 和 Llama 两个模型家族上CoMAM 全面领先对比类别代表方法最大差距无记忆系统Base、RAG18~30%提示工程记忆CAM、MemoryBank14~22%RL记忆独立优化Memory-R1、Mem18.5~16.7%最值得注意的是CoMAM 相比最强的 RL 基线Memory-R1、Mem1仍有显著优势说明联合优化带来的协作增益是真实且稳健的。细粒度分析7种查询类型全面领先Figure 4在 PersonaMem 的 7 种个性化查询类型上CoMAM橙色相比 Base、RAG、CAM、Memory-R1 的详细表现对比32K/128K/1M 三个设置。7 种查询类型覆盖了从回忆用户分享的事实到跨场景泛化的各类个性化需求。CoMAM 在所有类型上均表现最优尤其在需要细节记忆Type 1和抽象偏好理解Type 6的任务上优势明显——这正是多粒度记忆设计的价值体现。消融实验每个设计都不可缺消融1三个智能体缺一不可移除任意一个智能体提取/画像/检索都会导致显著性能下降2~8%验证了三类记忆的互补性。此外有智能体但不训练的变体同样明显弱于 CoMAM说明 RL 优化本身是必要的。消融2MDP 正则化是关键策略32K128K1M独立 RL0.570.610.59MDP RLCoMAM0.640.700.66MDP 联合优化相比独立 RL 提升 4~9%验证了将执行轨迹建模为 MDP 的有效性。消融3自适应分配固定权重纯局部/全局奖励Figure 5左图展示 CoMAM 对分配权重的敏感性自适应权重始终优于任何固定权重右图展示不同分配策略对三个智能体局部任务表现的影响。自适应权重不仅提升了全局性能还同步提升了每个智能体的局部任务表现——自适应分配引导智能体以有利于整体系统的方式优化局部策略。训练效率联合优化还带来了额外的效率优势智能体并行训练总收敛步数大幅减少例如 128K 设置独立优化 790 步 vs 联合优化 350 步且推理延迟不受训练范式影响。与现有方法的核心区别维度现有方法CoMAM优化范式独立优化分阶段训练联合优化端到端 MDP 轨迹策略设计共享策略 or 独立单阶段异构策略序列 MDP奖励分配纯全局奖励 or 等权分配基于 NDCG 一致性的自适应分配协作方式隐式训练后组合显式状态转移嵌入依赖局限性与未来方向论文坦诚地指出两点局限智能体任务范围有限当前框架仅包含提取/画像/检索三类智能体记忆修改、去重等高级能力尚未纳入。静态 MDP 正则化当前训练时的 MDP 为静态顺序结构推理时智能体以不同频率异步运行构建智能体周期性运行检索智能体按需激活。未来可探索更灵活的动态 MDP 以更好地模拟实际部署场景。总结CoMAM 提供了一个简洁而有力的答案来解决多智能体记忆系统如何协作优化的问题MDP 正则化将异构异步的智能体执行统一到一条可微的训练轨迹解决异构性问题自适应贡献分配用 NDCG 量化每个智能体对全局目标的贡献自动分配公平的优化信号解决局部-全局对齐问题协同增效联合优化不仅提升全局性能还强化了各智能体的局部专业能力这一思路的价值不止于记忆系统——任何需要多个专业智能体协作完成复杂任务的场景多步推理、工具调用、检索增强生成都可以从这种把异构协作建模为 MDP 自适应信用分配的范式中获益。论文信息Collaborative Multi-Agent Optimization for Personalized Memory System中国科技大学上海人工智能实验室Preprint 2026。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2418851.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！