【LLM】多智能体系统 Why Do Multi-Agent LLM Systems Fail?

news2025/7/24 11:10:25

note

  • 构建一个成功的 MAS,不仅仅是提升底层 LLM 的智能那么简单,它更像是在构建一个组织。如果组织结构、沟通协议、权责分配、质量控制流程设计不当,即使每个成员(智能体)都很“聪明”,整个系统也可能像一个管理混乱的公司一样,效率低下、错误频出,甚至彻底崩溃。

文章目录

  • note
  • 一、Why Do Multi-Agent LLM Systems Fail?
    • 多智能体MAS
  • 二、五种主流的agent框架及其实际表现
    • 三大失败类别
      • 类别一:规范与系统设计失败
      • 类别二:智能体间协作失调
      • 类别三:任务验证与终止失败
  • 三、改进方法
    • 1.战术性方法 :
    • 2.结构性方法:
  • Reference

一、Why Do Multi-Agent LLM Systems Fail?

《Why Do Multi-Agent LLM Systems Fail?》(https://arxiv.org/pdf/2503.13657),通过对对5种流行MAS框架、150多个对话轨迹的分析,经过6位专业标注,确定3类共14种故障模式。

在这里插入图片描述

多智能体MAS

多智能体系统 (MAS):
这是由多个 LLM 智能体组成的集合。这些智能体被设计成可以相互沟通、协调,共同完成一个更大的目标。设计 MAS 的初衷是为了利用“分工协作”的力量,例如:

  • 任务分解: 将复杂任务拆分成小块,交给专门的智能体处理。
  • 并行处理: 多个智能体同时工作,提高效率。
  • 上下文隔离/专业化: 每个智能体专注于自己的领域,避免信息过载,提升专业度。
  • 多样化推理/讨论: 不同智能体可能提出不同见解,通过讨论或辩论产生更好的解决方案。

论文中研究的 MAS 系统(如 MetaGPT, ChatDev, HyperAgent, AppWorld, AG2)就模拟了软件公司、研究团队等协作模式。例如,ChatDev 模拟一个软件开发公司,包含 CEO、CTO、程序员、测试员等不同角色的 AI 智能体,它们通过对话来完成软件开发任务。

二、五种主流的agent框架及其实际表现

在这里插入图片描述
几个框架的实际表现:
在这里插入图片描述
AG2(https://github.com/ag2ai/ag2),用于构建代理并管理它们的交互。使用此框架,可以构建各种灵活的对话模式,整合工具使用并自定义终止策略。

三大失败类别

类别一:规范与系统设计失败

类别一:规范与系统设计失败 (Specification and System Design Failures, 占总失败的 37.17%)

FM-1.1: 不遵从任务规范 (Disobey task specification, 15.2%):
FM-1.2: 不遵从角色规范 (Disobey role specification, 1.57%):
FM-1.3: 步骤重复 (Step repetition, 11.5%):
FM-1.4: 对话历史丢失 (Loss of conversation history, 2.36%):
FM-1.5: 不清楚终止条件 (Unaware of termination conditions, 6.54%):

类别二:智能体间协作失调

类别二:智能体间协作失调 (Inter-Agent Misalignment, 占总失败的 31.41%)

FM-2.1: 对话重置 (Conversation reset, 5.50%):
FM-2.2: 未能请求澄清 (Fail to ask for clarification, 2.09%):
FM-2.3: 任务偏离 (Task derailment, 5.50%):
FM-2.4: 信息隐瞒 (Information withholding, 6.02%):
FM-2.5: 忽略其他智能体输入 (Ignored other agent’s input, 4.71%):
FM-2.6: 推理-行动不匹配 (Reasoning-action mismatch, 7.59%):

类别三:任务验证与终止失败

类别三:任务验证与终止失败 (Task Verification and Termination, 占总失败的 31.41%)

FM-3.1: 过早终止 (Premature termination, 8.64%):
FM-3.2: 无验证或验证不完整 (No or incomplete verification, 9.16%):
FM-3.3: 验证不正确 (Incorrect verification, 13.61%):

三、改进方法

在这里插入图片描述

1.战术性方法 :

这些是相对直接、针对特定失败模式的“小修小补”。例如:

  • 改进提示 (Prompt Engineering): 给出更清晰的任务指令和角色定义
  • 优化智能体拓扑/沟通模式: 改变智能体之间的连接方式和对话规则 (如从线性流程变为循环反馈,或加入专门的协调者)。
  • 加入自我验证/重试机制: 让智能体在完成任务后自查,或在遇到不一致时尝试重新沟通 (Appendix E.5)。
  • 多数投票/重采样: 多次运行或让多个智能体给出答案,选择最一致的结果。

研究者们在两个案例(AG2-MathChat 和 ChatDev, Sec 6)中尝试了这些战术方法。结果显示:这些方法确实能带来一些改进(例如,改进后的 ChatDev 在 ProgramDev 任务上的准确率从 25% 提升到 40.6%),但效果有限且不稳定。对于 AG2,改进提示在 GPT-4 上效果显著,但在 GPT-4o 上,新拓扑结构反而效果不佳。这说明这些“头痛医头,脚痛医脚”的方法,并不能根治所有问题。

2.结构性方法:

这些是更根本、更系统性的变革,旨在从基础架构层面提升 MAS 的鲁棒性和可靠性。这通常需要更深入的研究和更复杂的实现。

  • 强大的验证机制: 设计通用的、跨领域的验证框架(不仅仅是代码测试,可能涉及逻辑验证、事实核查、QA 标准等)。论文特别强调了验证的重要性,认为它是抵御失败的“最后一道防线”,但构建通用验证机制极具挑战。
  • 标准化沟通协议: 定义清晰的、结构化的智能体间通信语言和格式,减少歧义,实现类似计算机网络协议那样的可靠交互。
  • 不确定性量化: 让智能体能够评估并表达自己对信息或结论的“置信度”,在低置信度时主动寻求更多信息或采取更保守的行动。
  • 增强的记忆和状态管理: 改进智能体记录、检索和利用长期/短期记忆的方式,确保上下文连贯性。
  • 基于强化学习的协作训练: 通过奖励期望的行为(如有效沟通、遵守角色、成功协作)和惩罚不良行为,来“训练”智能体学会更好地团队合作。

这些结构性方法被认为是未来解决 MAS 失败问题的关键,但它们也带来了新的研究挑战。

Reference

[1] Multi-Agent多智能体为什么会失效?R1类推理模型训练及推理的2个有趣实验结论

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS 定位:原理 + 场景 + 示例全解析

一. 什么是CSS定位? CSS中的position属性用于设置元素的定位方式,它决定了元素在页面中的"定位行为" 为什么需要定位? 常规布局(如 display: block)适用于主结构 定位适用于浮动按钮,弹出层,粘性标题等场景帮助我们精确控制元素在页面中的位置 二. 定位类型全…

如何在没有 iTunes 的情况下备份 iPhone

我可以在没有 iTunes 的情况下将 iPhone 备份到电脑吗?虽然 iTunes 曾经是备份 iPhone 的主要方法,但它并不是 iOS 用户唯一的备份选项。您可以选择多种方便的替代方案来备份 iPhone,无需使用 iTunes。您可以在这里获得更灵活、更人性化的备份…

如何把 Mac Finder 用得更顺手?——高效文件管理定制指南

系统梳理提升 Mac Finder 体验的实用设置与技巧,助你用更高效的方式管理文件。文末引出进阶选择 Path Finder。 阅读原文请转到:https://jimmysong.io/blog/customize-finder-for-efficiency/ 作为一个用 Mac 多年的用户,我始终觉得 Finder 虽…

手拉手处理RuoYi脚手架常见文问题

若依前后端分离版开发入门 基础环境:JDK1.8mysqlRedisMavenVue 取消登录验证码 后端 修改ruoyi-ui项目中的login.vue 在ruoyi-ui项目>src>views中找到login.vue文件 1、注释验证码展示及录入部分 2、 注释code必填校验,默认验证码开关为false …

使用柏林噪声生成随机地图

简单介绍柏林噪声 柏林噪声(Perlin Noise)是一种由 Ken Perlin 在1983年提出的梯度噪声(Gradient Noise)算法,用于生成自然、连续的随机值。它被广泛用于计算机图形学中模拟自然现象(如地形、云层、火焰等…

C++课设:实现简易文件加密工具(凯撒密码、异或加密、Base64编码)

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、初识文件加密:为什么需要…

H_Prj06_03 8088单板机串口读取8088ROM复位内存

1.8088CPU复位时,CSFFFFH,IP0000H,因此在ROM的逻辑地址FFFF:0000(FFF0H)处一般要防止一个长跳转指令LJMP(机器码位EAH) 2.写一个完整的8086汇编程序,通过查询方式检测串口接收符串‘r’&#x…

构建 MCP 服务器:第 3 部分 — 添加提示

这是我们构建 MCP 服务器的四部分教程的第三部分。在第一部分中,我们使用基本资源创建了第一个MCP 服务器;在第二部分中,我们添加了资源模板并改进了代码组织。现在,我们将进一步重构代码并添加提示功能。 什么是 MCP 提示&#…

基于React + FastAPI + LangChain + 通义千问的智能医疗问答系统

📌 文章摘要: 本文详细介绍了如何在前端通过 Fetch 实现与 FastAPI 后端的 流式响应通信,并支持图文多模态数据上传。通过构建 multipart/form-data 请求,配合 ReadableStream 实时读取 AI 回复内容,实现类似 ChatGPT…

C# 中替换多层级数据的 Id 和 ParentId,保持主从或父子关系不变

在C#中替换多层级数据的Id和ParentId,同时保持父子关系不变,可以通过以下步骤实现: 创建旧Id到新Id的映射:遍历所有节点,为每个旧Id生成唯一的新Id,并存储在字典中。 替换节点的Id和ParentId:…

PG 分区表的缺陷

简介 好久没发文,是最近我实在不知道写点啥。随着国产化进程,很多 oracle 都在进行迁移,最近遇到了一个分区表迁移之后唯一性的问题。oracle 数据库中创建主键或者唯一索引,不需要引用分区键,但是 PG 就不行&#xff…

从Copilot到Agent,AI Coding是如何进化的?

编程原本是一项具有一定门槛的技能,但借助 AI Coding 产品,新手也能写出可运行的代码,非专业人员如业务分析师、产品经理,也能在 AI 帮助下直接生成简单应用。 这一演变对软件产业产生了深远影响。当 AI 逐步参与代码生成、调试乃…

Qt(part 2)1、Qwindow(菜单栏,工具栏,状态栏),铆接部件,核心部件 ,2、添加资源文件 3、对话框

1、Qwindow tips:1,首先为什么创建出的对象基本都是指针形式,个人觉得是对象树的原因(自动释放内存),指针来访问成员函数->的形式。2,菜单栏只能一个的,放窗口基本Set&#xff0c…

【图片识别Excel】批量提取图片中的文字,图片设置识别区域,识别后将文字提取并保存Excel表格,基于WPF和OCR识别的应用

应用场景 在办公自动化、文档处理、数据录入等场景中,经常需要从大量图片中提取文字信息。例如: 批量处理扫描的表单、合同、发票等文档从图片集中提取特定区域的文字数据将纸质资料快速转换为电子文本并整理归档 通过设置识别区域,可以精…

Qt/C++学习系列之Excel使用记录

Qt/C学习系列之Excel使用记录 前言The process was ended forcefully.解决方式断点查语句问题 总结 前言 在项目中解析条目达50多条,并且都需要将对应的结果进行显示。为了将结果显示的更加清晰,考虑采用QTableWidget进行表格设置,而在使用过…

跳转指令四维全解:从【call/jmp 】的时空法则到内存迷宫导航术

一、核心概念:代码世界的空间定位法则 在汇编世界里,我们可以把内存想象成一栋巨大的图书馆: CS(代码段寄存器) 楼层编号 IP(指令指针) 房间编号 当前执行位置 CS:IP(如3楼201…

LabVIEW实时系统数据监控与本地存储

基于LabVIEW Real-Time 模块,面向工业自动化、嵌入式测控等场景,提供实时数据采集、监控与本地存储的完整实现路径。通过分层任务调度、TDMS 文件格式应用及跨平台兼容性设计,确保系统在实时性、可靠性与数据管理效率间达到平衡。文中以 Comp…

从 Revit 到 3DTiles:GISBox RVT 切片器如何让建筑图元在 Web 端展示

在GIS(地理信息系统)行业蓬勃发展的当下,数据处理与展示的效率和精准度成为关键。GISBox作为一款功能强大的一站式三维GIS数据编辑、转换、发布平台,凭借其独特的“RVT切片器”功能,在RVT图元处理方面也有着不俗的表现…

Appium+python自动化(十二)- Android UIAutomator

Android团队在4.1版本(API 16)中推出了一款全新的UI自动化测试工具UiAutomator,用来帮助开发人员更有效率的完成App的Debug工作,同时对于测试人员也是一大福音,为什么这么说呢? UiAutomator提供了以下两种…

QQ邮箱发送验证码(Springboot)

一、邮箱发送服务准备 在qq邮箱的设置中选择账号下开启服务。 开启时可能会有短信验证,开启后显示验证码之类的一串英文,复制保存起来,在配置文件中会使用到。 二、后端依赖及配置 依赖 在pom.yml文件中添加相关依赖,redis的…