【连载14】基础智能体的进展与挑战综述-多智能体系统设计

基础智能体的进展与挑战综述

从类脑智能到具备可进化性、协作性和安全性的系统

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

在基于大语言模型的多智能体系统（LLM-MAS）中，合作目标和合作规范作为基础性元素，决定了系统的行为、交互模式和整体效果。合作目标明确规定了智能体旨在实现的具体目标——无论是单独的、集体的还是竞争性的；而合作规范则定义了规范智能体在系统内交互的规则、约束和惯例。共同作用下，这些组件构建了一个强有力的框架，指导智能体之间的有效沟通、协调和合作。

本节根据合作目标和规范的不同组合，将LLM-MAS分为三大类：战略学习、建模与仿真、以及协同任务解决。尽管这些类别并不详尽，但它们涵盖了广泛的LLM-MAS设计，并清晰地反映了系统目标如何塑造智能体的交互和结果。

战略学习系统将智能体嵌入博弈论背景中，智能体追求个人或部分冲突的目标。其交互可以是合作的、竞争的或混合的，并通过预定义的博弈规则和交互规范进行明确指导。这种设置通常与传统博弈论中的非合作（战略性）和合作概念相一致。有关详细信息，请参见第13.1节。

建模与仿真环境侧重于智能体根据多种环境或社会因素独立行动。在这种背景下，智能体之间的交互自发产生，但不一定会朝着共同目标收敛，反映了大规模社会或经济仿真中所见的复杂动态。有关详细信息，请参见第13.2节。

协同任务解决强调智能体之间的系统化合作，以实现明确共享的目标。智能体通常采用结构化的工作流程、明确的角色定义以及高度预定义的合作规范，以协调行动，共同朝着集体目标迈进。有关详细信息，请参见第13.3节。

在本章的剩余部分，我们将详细讨论每个类别，探讨LLM如何在我们的范围内促进、影响和增强智能体的行为、互动和集体智能。

接下来，我们将详细探讨这些类别，重点分析每个类别如何利用大语言模型的能力来塑造智能体的行为和互动。

13.1 战略学习：合作与竞争

战略学习指的是在博弈论环境中，智能体能够动态地预判、解读并影响其他智能体的行为—无论是竞争、合作还是混合型的环境[949]。智能体基于新信息反复调整其策略，通常使用诸如纳什均衡[950]、贝叶斯博弈[951, 914, 952]或重复交互[953, 954]等基础概念进行建模。随着大语言模型（LLMs）支持更精细的语言推理，战略学习越来越多地融入了“软”信号——包括对话、劝说和隐性谈判——从而丰富了传统的博弈论推理框架[952, 955, 956, 957]。

图13.1：基于LLM的多智能体系统三种主要协作类型，每种类型通过智能体协作目标和准则如何设定（独立、发散或共享）以及智能体间如何合作

在经济应用中，多智能体战略模拟为市场行为和谈判策略提供了宝贵的见解，突出了竞争与合作的动态。例如，[958]和[951]展示了如何通过大语言模型（LLM）赋能的智能体模拟招聘过程，在控制的经济实验中展现理性决策行为，甚至预测股市走势。[959]引入了基于GPT-4的竞争环境，展示了餐厅和顾客智能体如何竞争以优化利润和满意度，呈现现实的竞标和定价策略。同时，[960]研究了基于LLM的买卖双方讨价还价，[961]则使用最终通牒博弈模拟，阐明了基于人类战略行为的政策决策过程。

超越传统市场，战略学习广泛应用于资源分配、联盟或竞争合作权衡的场景。例如，在多商品竞争中[962, 959]，智能体通过战略性谈判条款来最大化个人利益，或在关注可持续性的情境中，智能体协调资源消费[963]。在游戏中，社交推理游戏，如狼人杀、变色龙、阿瓦隆和剧本杀，要求智能体管理欺骗与合作之间的复杂互动[964, 965, 966, 153, 919, 967, 968, 969, 970]。[971, 965]的研究突出了能够巧妙协调欺骗与合作的LLM驱动智能体，而[967, 972, 968, 969]强调了在阿瓦隆中适应性、多轮策略的应用。[970]更进一步，展示了在剧本杀谋杀悬疑类型中，LLM驱动的多智能体互动，重现复杂的叙事。同样，外交模拟（[973]和[974]）使用LLM驱动的智能体来模拟全球规模上复杂的地缘政治谈判和联盟形成动态。

总结：LLM驱动的战略学习的一个关键优势在于能够有效地将严格的博弈论逻辑与自然语言推理相结合。这种融合使得智能体能够解读复杂的指令、进行有说服力的对话，并更灵活地适应新颖或非结构化的环境。因此，基于LLM的战略智能体在准确建模复杂的现实世界互动（涵盖经济竞争、社会谈判和地缘政治策略）方面，比传统的基于规则或仅使用数字的方法具有更大的潜力。

13.2模拟现实世界动态

建模和仿真是基于大语言模型（LLM）的多智能体系统（LLM MAS）另一个重要的应用领域，旨在大规模地复制复杂的社会、经济和政治现象。通过利用大语言模型在语言理解和上下文推理方面的高级能力，这些仿真可以展示具有高度异质性的智能体，其演化行为反映了现实世界的动态性。与强调明确竞争或合作目标的战略学习环境不同，建模和仿真场景中的智能体独立运作，受到其领域特定角色、偏好和与仿真环境互动的引导【975】。

例如，在医疗保健领域，[921]引入了“Agent Hospital”，其中由大语言模型驱动的医生智能体通过与虚拟患者的真实互动，迭代优化治疗策略。这使得研究人员能够在受控且逼真的环境中测试管理协议、培训范式和“假设情景”。类似地，在经济学领域，[976]提出了 EconAgents，利用大语言模型驱动的智能体来真实地模拟个体行为，如就业决策、消费模式和经济模拟，超越了传统的数字化或严格规则驱动的方法，在适应性和现实性方面表现更佳【977】。此外，政治科学应用也从这种方法中受益。例如，[978]和[977]成功模拟了选举过程和政策制定动态，揭示了公共话语、候选人策略和选民互动如何塑造现实世界的政治结果。

除了经济学和政治学，大语言模型驱动的仿真还适用于各种社会和文化现象。例如，[979]和[255]通过模拟社交网络中的语言和情感传播，研究了在线上如何形成意见、信仰或情感集群。[980]的研究探讨了在不同拓扑结构和互动模式下，意见动态如何演变，而[981]则研究了在异质智能体群体中，假新闻如何传播或停滞的条件。大型仿真平台，如 GenSim[982]和 OASIS[936]，通过将用户智能体的规模扩展到数万甚至数百万，进一步推动了这一领域的发展，从而能够在现实约束下研究群体行为和系统效应的涌现——例如病毒信息传播、回音室效应或群体极化等现象。

总结：基于大语言模型的仿真优势在于能够捕捉现实世界行为背后的结构动态（如网络拓扑或制度规则）以及驱动这些行为的认知或语言细节。通过将基于语言的推理嵌入到智能体模型中，研究人员可以研究复杂的社会过程——如劝说、框架塑造或文化传播——这些过程通过纯数字化或规则驱动的方法很难捕捉到。

13.3 协作任务解决与工作流生成

协作任务解决通过结构化的工作流将多个智能体协调到一个明确定义的目标上。与战略学习（可能涉及竞争利益）或开放式建模与仿真（智能体独立行动）不同，协作智能体作为统一问题解决流程的一部分运作。智能体通常遵循明确定义的角色（例如，“规划者”、“执行者”或“评估者”）以及基于阶段的过程，以确保任务的高效和准确完成。

像 MetaGPT[626]、CAMEL[848]、Communicative Agents[983]以及[924]中描述的框架，展示了如何通过明确定义的角色、责任和决策流程，使基于大语言模型的智能体能够有效协调。一个典型的工作流可能涉及一个智能体分析问题陈述，另一个提出解决方案概述，第三个实施部分解决方案，第四个验证正确性。这些智能体之间的通信通常通过自然语言“对话”的迭代回合进行，利用大语言模型在语言生成方面的固有优势。这种结构化的方法在扩展到更复杂的项目时也表现出了优势，因为子任务可以委派给具有领域特定提示或训练的专门智能体。

最近，协作任务解决系统在软件开发场景中得到了广泛的探索（例如，多智能体编码、调试和测试）。然而，科学发现代表了一个特别突出且引人注目的应用。例如，Agent Laboratory[746]在结构化的科学工作流中使用智能体：提出假设、设计实验、分析结果，并优化后续的调查，这有效地反映了科学研究的迭代性质。类似的多智能体设计可以应用于文献综述、政策草拟或大规模数据分析等任务，使用明确定义的协议来保持一致性并避免重复工作。

总结：与其他基于大语言模型的多智能体范式相比，协作任务解决本质上优先考虑清晰性和可预测性：每个智能体的角色和目标都是预定义的，从而限制了涌现或混乱行为。这种结构在需要精确性、责任感或顺序决策的领域特别有优势。同时，研究仍在进行，以在结构和灵活性之间找到合适的平衡，确保智能体既能拥有足够的自主性来创造性地提供解决方案，又能遵循共享的工作流，最终保证任务的可靠且高质量的完成。

讨论：上述三个维度——战略学习、建模与仿真、以及协作任务解决——反映了基于大语言模型的多智能体系统的广泛应用。每个类别都解决了不同的研究问题和现实世界应用，通过语言驱动的推理，克服了传统的、纯数字化或规则驱动的智能体设计所无法应对的挑战。

13.4 组建AI智能体团队

在多智能体系统（MAS）中，智能体是系统内进行互动的核心单元，对于系统的功能至关重要。根据智能体是否具有相同或不同的个性、能力和行动空间，这些智能体可以分为同质智能体或异质智能体。

同质智能体

同质智能体共享相同的能力、行动空间和观察空间。与单一智能体系统相比，同质智能体的主要优势在于任务的并行化，使得多个智能体能够同时处理任务的不同部分，从而提高整体效率。它们通常用于较简单的协调任务，在这些任务中，智能体之间的统一性能够推动性能的提升。

一些研究将同质智能体应用于模拟游戏中的团队合作，如《Overcooked》和《Minecraft》，以及现实世界中的任务，如家庭劳动分工。[924]提出了一个基于认知启发的模块化框架，使得基于大语言模型的智能体能够通过自然语言进行沟通，执行劳动分工、相互请求帮助，并协作完成物品运输任务。[984]将基于提示的组织结构引入该框架，减少了智能体之间的通信成本，并提高了在家庭任务中的团队效率，如准备下午茶、洗碗和做饭。此外，一些研究[926, 925]在流行游戏如《Overcooked》和《Minecraft》中使用了多个基于大语言模型的智能体，实验它们的合作能力和完成任务的效果。根据游戏设置，这些智能体也是同质的

异质智能体

智能体的多样性在提高协作结果方面起着至关重要的作用。研究表明，智能体之间的异质性能够增强问题解决能力，因为不同的智能体为任务带来了多样的视角和技能【985, 986】。异质性有助于提供更丰富的问题解决策略，并改善多智能体系统中的整体协作。智能体的异质性可以体现在以下几个维度：个性层次异质性、观察空间异质性和行动空间异质性。需要注意的是，这些异质性并不是互相排斥的——一个异质智能体可能表现出一个或多个这样的特征。

个性层次异质性：指的是智能体个人档案的多样性，这会影响智能体如何解决问题以及它们如何相互互动。目前大多数基于大语言模型的异质多智能体系统都属于这一类别【987, 627, 50, 970】。例如，在软件开发中，智能体可能扮演程序员、产品经理或测试人员等角色。在医疗诊断中，智能体可能代表心脏病专家、肿瘤学家或儿科医生，每个角色都有不同的专业领域。每个个性的独特视角和专业知识有助于更强有力的决策。虽然这些异质智能体可能共享相同的行动空间——例如编写文档【626】（如代码、需求报告或测试报告）或提供诊断建议【922】——但它们的个性会影响这些行动的结果，其中多智能体架构中的角色特定增强已被证明能够显著简化和优化任务执行。例如，一个产品经理在执行写文档这一任务时，会产生需求报告，而一个程序员执行相同任务时，则会产生软件实现代码【626】。这种多样性促进了更好的决策制定和创新，尤其是在复杂的多学科任务中。
观察空间异质性：在多智能体系统中，智能体感知和解读环境的能力可能存在差异。观察空间异质性指的是智能体在其环境中能够观察或感知的内容的不同。例如，在游戏《狼人杀》中，一些智能体，如狼人，能够看到队友的身份，而先知可以获得指定玩家的身份，而其他角色，如村民，则无法看到任何玩家的真实身份【971】。类似地，在《亚瑟王》游戏中，不同的角色拥有不同的观察空间【919, 972】，从而影响玩家的策略和沟通。在这些设置中，每个智能体的感知能力或观察空间与其在系统中的角色直接相关。在多智能体系统中，智能体能够观察到的内容的差异通常会影响它们的决策、沟通以及与其他智能体的协调。
行动空间异质性：另一方面，这指的是由于物理或功能性约束，智能体能够执行的动作存在根本性的差异。在虚拟和物理环境中，这一点尤其相关，因为智能体可能根据其设计或目的具有不同的能力。在《狼人杀》【965, 971, 966】和《亚瑟王》【919, 967】等游戏的虚拟环境中，不同的角色具有不同的能力或技能【971, 919, 972】。例如，在《狼人杀》中，狼人可以互相秘密沟通，而村民则可能仅限于投票或观察。这种动态要求智能体基于其独特的能力进行合作，并促进策略学习，如团队合作、信任和欺骗等交互策略。同时，在机器人学中，智能体可能展现出不同的物理能力。例如，在【988】中描述的情况，一些机器人缺乏移动能力，只能操作物体，而其他机器人则专门用于移动，但不能操作物体。在这种情况下，具有不同行动空间的智能体必须有效地分配任务，利用各自的能力来承担适合自己的任务部分，最终协作完成整体任务。这种类型的异质性要求智能体高效地合作和协调行动，通常根据它们的个人优势来分配任务。

从同质到异质的演变

在一些基于大语言模型的多智能体系统中，智能体具备自主演化的能力，并通过与环境的互动持续适应。由于大语言模型和环境本身的随机性，这些智能体的演化通常会遵循不同的轨迹。这可能导致在多次仿真中，尽管智能体最初具有同质的个性和行动空间，仍然出现异质行为。例如，正如[989]所示，最初具有相同行动空间和个性的智能体，在与环境和其他智能体多轮互动后，发展出不同的角色。有些智能体专门从事食物采集，而其他智能体则专注于武器制作。类似地，[990]观察到，最初同质的智能体在群体互动后，发展出了不同的语言使用模式、情感表达和个性。这些涌现的行为展示了从同质系统到异质系统转变的可能性。

13.5 智能体互动协议

在本节中，首先会对典型的消息类型进行分类，明确智能体交互的内容和交换模式。接下来，将讨论智能体与环境、智能体与智能体之间以及智能体与人类之间的通信接口设计。同时，也会涉及透明信息交换的架构问题和协议规范。特别会关注接口标准化，因为它对多智能体系统的互操作性、可扩展性和效率至关重要。最后，本节将总结通信协议的统一讨论，涉及智能体与环境或智能体与用户交互的设计原则和要求，并为基于大语言模型的系统提供清晰性、一致性和功能的协调，适用于各种应用

13.5.1 消息类型

结构化消息

结构化消息，通常采用 JSON（[991, 992]）、XML（[993, 636]）或代码形式（[626, 627, 994]），是基于大语言模型的多智能体系统通信中的关键组成部分。结构化消息的主要优势在于其语法和语义结构明确，能够避免歧义，并且易于解析。由于其没有歧义，它们促进了高效的信息提取和处理，计算开销较低，系统的可靠性也更高。例如，JSON 和 XML 可以表示特定任务的配置参数，或者作为机器可读的方式促进数据交换，而以代码形式编写的消息甚至可以直接多次执行，这使得工作流和自动化更加简便。

结构化消息特别适合高效、确定性的应用。它们在子任务分解、子任务分配和智能体之间的协调方面非常有用，特别是在协作型多智能体架构中，因为它们明确地表达了操作命令。此外，由于结构化消息具有规定的格式，数据的检索和存储变得更加便捷，系统优化和长期分析也变得可行。

非结构化数据

与此相对，非结构化信息，例如自然文本（[971, 970, 919]）、视觉数据（例如图像、视频）以及音频信号（例如语音、环境声音[995, 996, 762]），具有更高的信息密度和表现能力。这些模态最适合用于传递细致且依赖上下文的信息。例如，图像可以传达空间关系、光照条件和面部表情，而视频则传递动态的时间组织序列，例如状态或行为的变化。类似地，音频信号不仅传达语言信息，还包括副语言信息，例如语气、情感和语调，这对于自然且具上下文感知的交互至关重要。

非结构化信息非常适合处理模糊任务以及复杂的现实世界环境。它们能够表达抽象的思想、情感的细微差别或隐含的上下文暗示，这使得非结构化信息在创造性和探索性问题领域中非常适用。然而，非结构化数据的复杂性要求采用先进的处理技术，例如基于深度学习的特征提取，才能充分挖掘其潜力。借助预训练的大型语言模型（LLM）以及多模态大型语言模型的进展，极大地减轻了这些复杂性，使得在多智能体系统中，非结构化通信的创新应用成为可能[533, 513, 997]。

总结

在基于大型语言模型（LLM）的多智能体通信中，非结构化信息和结构化信息各自扮演互补的角色。结构化信息提供准确性、一致性和计算效率，适用于操作性和确定性任务；而非结构化信息则提供丰富的、上下文化的表示，帮助智能体应对模糊、创造性和高度动态的情况。结合这两种模式，为适应性强、有效的多智能体合作奠定了基础。

13.5.2 通信接口

智能体-环境接口

基于大型语言模型（LLM）的智能体通常需要在其环境中执行一次或多次操作，以完成一系列任务。从智能体的角度来看，它对环境的输出是其希望的内容，例如用户界面点击、网页请求或计算机图形角色的移动。不同的环境对于它们将接受的操作有所不同，因此，为了确保其操作能够被执行，智能体必须了解在特定环境中可以执行的操作，并执行既适合特定任务又对特定环境有效的操作。当智能体输出其选择的操作后，它将收到来自环境的反馈。如果操作成功，将返回观察结果；如果出现错误，则返回错误反馈。智能体必须根据这些反馈进行相应的操作。目前，存在多种类型的环境，智能体可以在其中执行操作，例如操作系统、计算机游戏、数据库和电子商务网站。为了使智能体-环境接口共享一个通用接口，并使得基于各种大型语言模型（LLM）训练的智能体能够最小化适配后接入各种环境，已经提出了各种框架。这些框架使得在各种可执行环境中对智能体能力的测试更加简便[706]。

智能体-智能体通信

在多智能体系统（MAS）中，自然语言通信占主导地位。这可能是因为大型语言模型通过在大量自然语言语料库上的预训练，具备了强大的语言能力。另一个可能的原因是，对于许多任务，自然语言通信已经足够满足需求。根据交换的信息类型，多智能体系统可以分为以下几类：基于自然语言的系统在基于大型语言模型的多智能体系统中，基于文本的通信是最常见的[922, 924, 987, 970, 998]。也有一些系统使用语音作为通信媒介[996, 762, 999, 1000]。在这些系统中，智能体通过自然语言进行讨论、谈判、劝说或批评等行为，以实现其目标。基于结构化信息的系统与自然语言相比，结构化信息具有更高的一致性、较低的解析复杂性和减少的歧义性，这使其更适合用于智能体之间的高效、低成本通信[626]。在某些实现中，智能体之间交换的信息被结构化为不同的组件，以便接收方更容易解析和利用这些信息。例如，交换的信息可能包括指定发送方、接收方、消息类型以及有关接收方如何解析或使用内容的指令[929].

人类-智能体通信

开发多智能体系统的目的是扩展人类能力和认知的边界，最终服务于人类福祉。虽然在某些社会模拟的多智能体系统中，人类主要作为观察者存在[50, 1001]，但大多数多智能体系统允许人类以各种形式参与。在这种参与过程中，人类需要与智能体进行通信，这种通信可以是自然语言或结构化信息的形式[924, 930]。当人类与智能体的通信主要依赖自然语言时，通常会有一个大型语言模型（LLM）作为中心，将人类的自然语言解析为智能体可以更有效处理的结构化信息，以便进行后续操作。这个中心LLM可以存在于多智能体系统内，也可以独立于系统之外。为了节省时间并提高通信效率，人类还可以通过编程或类似方法使用结构化信息与多智能体系统进行通信。通过遵循预定义的通信协议，人类可以将包含所需数据的消息发送给多智能体系统。系统将根据其内部逻辑处理这些消息和数据，并返回结果[931]。

13.5.3 下一代通信协议

基于大型语言模型（LLM）的智能体领域仍处于初期阶段。开发人员通常会设计针对特定领域或任务的智能体架构和通信机制，包括智能体与环境、智能体与人类以及智能体之间的交互。然而，大多数现有系统缺乏统一的通信框架，导致生态系统碎片化、孤立化。多智能体系统、工具、环境和数据源往往独立运行，使得智能体之间的互操作性或共享能力变得困难。此外，学习和实施定制协议的负担通常由人类承担，而几乎所有当前的协议都是手动设计的——这是一个劳动密集型的过程，通常缺乏语义灵活性或可扩展性。为了解决这些问题，已经提出了几种新的智能体通信协议，每种协议都针对协议设计堆栈的不同方面。

智能体互联网

智能体互联网（IoA）[933]引入了一种受互联网启发的、类似即时消息的通信架构，支持动态团队组建和任务驱动的协作。智能体通过注册到中央协调服务器，该服务器负责身份管理和发现。通信流程通过基于有限状态机（FSM）的对话模板进行编排。IoA支持多种消息类型，包括讨论、任务分配和触发机制，并提供结构化字段来控制发言轮次、嵌套小组形成和最大对话长度。这使得智能体能够选择并适应消息格式，以匹配特定的协调阶段，在固定架构内提供灵活性。

模型上下文协议

模型上下文协议（MCP）[931]由Anthropic开发，专注于使LLM智能体能够访问结构化工具和数据。它采用基于OAuth身份认证的完全集中式方法，交互受限于JSON-RPC 2.0消息格式。虽然它缺乏元协议层或语义协商能力，但其简单且严格的架构使其成为适用于具有明确API的工具使用场景的实际选择。然而，MCP牺牲了灵活性和可扩展性，需要手动注册支持的功能。

智能体网络协议

智能体网络协议（ANP）[1002]旨在实现完全去中心化。智能体通过符合W3C标准的去中心化标识符（DID）进行身份识别，并通过加密的点对点通道进行通信。该协议包含一个元协议层，使智能体能够协商选择采用哪种应用层协议，支持基于智能体能力的语义协议选择。ANP还允许在应用层支持多协议（例如HTTP、JSON-RPC、自然语言），提供了强大的可扩展性和去中心化能力，但尚未明确支持公共协议重用。

Agora

Agora[932]提供了一种高度灵活且语言驱动的协议机制。智能体无需注册预定义的API，而是可以生成和共享协议描述（PDs），这些描述是通信语义的自由文本。通过使用大型语言模型，智能体可以在运行时动态地解释和执行任何协议描述。这使得协议能够完全通过语言创建、部署和使用，无需任何手动注册或配置。Agora避免了集中式注册表，并支持去中心化的协议共享：智能体可以从对等分布式仓库中发布或检索协议描述，从而促进系统之间的累积学习和互操作性。

总结：如表13.1所示，下一代智能体通信协议在身份和安全机制、元协议协商能力、应用层灵活性以及去中心化程度等关键维度上存在差异。一个统一、安全、可扩展且动态的协议基础设施——在其中智能体能够即时协商和共同创建协议——对于实现大规模、可互操作的智能体生态系统至关重要。尽管目前的框架，如MCP、ANP、Agora和IoA，代表了早期但有前景的步骤，但协议设计仍然是智能体系统开发中的一个快速发展的前沿领域。

表13.1：四种智能体通信协议的比较

层级	MCP	ANP	Agora	IoA
身份与安全	基于 OAuth 的集中式身份认证	基于 DID 的去中心化身份，支持加密通信通道	无需集中注册，身份从 PD 哈希中派生	代理通过中心服务器进行身份注册与发现
元协议层	无元协议层；依赖预定义的接口	使用 DID 文档通过语义协商选择合适的协议	LLM 解释 PD 文本，实现通信协议的自动协商与部署	结合集中式发现机制与基于有限状态机（FSM）的对话流程控制
应用协议层	仅支持 JSON-RPC 2.0	支持多种协议，如 HTTP 与自然语言	支持任意由 PD 驱动的协议，灵活性极高	任务驱动的协议协调，支持多种消息格式
中心化程度	高度中心化的架构	完全去中心化	去中心化：无注册或固定 ID，可选的点对点 PD 共享	去中心化：无注册或固定 ID，可选的点对点 PD 共享
协议灵活性	协议固定且刚性强；难以适应 JSON-RPC 之外的格式	协议高度灵活，支持语义协商	极其灵活；任何 PD 都可动态定义新协议	中等偏高的灵活性；代理可根据任务阶段与协调需求选择并适配消息格式