比对智能体,偏置群体:多智能体系统中的偏置放大测量
摘要尽管多智能体系统正越来越多地部署于复杂工作流中但其涌现特性——尤其是偏见的累积机制——仍鲜为人知。由于现实世界中的多智能体系统过于复杂而难以全面分析评估其伦理鲁棒性首先需要剥离其基础运行机制。本文开展了一项基线实证研究探究基本的多智能体系统拓扑结构与反馈回路如何影响偏见。与多智能体协作自然稀释偏见的假设相反我们提出结构化的工作流会充当回音室将微小的随机性偏见放大为系统性的极化。为验证这一假设我们提出了Discrim-Eval-Open这是一个开放式基准测试通过强制在人口统计群体之间进行比较性判断绕过单个模型的表面中立性。通过分析偏见在不同结构中的级联效应我们发现架构的复杂程度往往加剧而非缓解偏见。我们观察到即使在孤立智能体保持中立的情况下系统层面的偏见仍会放大此外我们还发现了一种“触发脆弱性”——注入完全客观的中性文本会急剧加速极化进程。通过剥离高级的群体智能复杂性研究基础运行机制我们建立了一个关键基线结构复杂性并不保证伦理鲁棒性。引言当前人工智能图景正受到两大变革性趋势的塑造。首先单个大语言模型及自动化基座已在复杂推理和自主问题求解方面展现出前所未有的能力。其次我们正见证着从部署这些孤立模型向构建协作式多智能体系统的范式转变。通过利用角色分工和任务分解多智能体系统框架整合了单个智能体的优势以执行极其复杂、长周期的工作流。这种协作的力量极为强大例如互联的智能体团队能够自主从头编写超过十万行代码的庞大代码库。通过将智能体组织成这些协作拓扑结构我们可以将原始的模型能力转化为显著的实践价值。然而随着多智能体系统越来越多地用于编排这些高风险任务一个关键脆弱性也随之显现。尽管通过密集的对齐工作在缓解单个模型的社会偏见和错误方面已取得了显著进展但在网络化多智能体系统中不确定性、错误和潜在偏见如何累积或消减仍然很大程度上未被探索。在单智能体环境中模型在静态基准测试上可能表现出表面上的中立性。但在多智能体系统中智能体在结构化的交互图中运行一个智能体的输出——通常被赋予特定的角色人格或功能角色——会作为另一个智能体的真实依据。一个虽然充满希望但尚未验证的假设是通过引入多样的视角和结构化的通信协议多智能体系统或许能自然抵消偏见的放大效应。我们持相反观点这些复杂的拓扑结构充当了共振腔微小的随机性偏见通过系统的反馈回路被广播并放大导致类似于意见极化的级联效应。为了系统性地探究多智能体系统架构究竟是真正缓解了偏见还是内在地加剧了这种偏见放大我们提出了Discrim-Eval-Open。该基准测试旨在规避现代大语言模型的表现性中立采用三选项开放式格式强制在包括性别、年龄和种族在内的敏感属性之间进行比较性判断。通过避免模型默认选择安全、中间答案的二元格式Discrim-Eval-Open 提供了一个高灵敏度的测试平台。此外我们不依赖标准的分类错误率而是将偏见视为在智能体链条中级联的分布偏移。为了量化这一点我们提出了一套聚焦于概率输出极端程度的新指标包括基尼系数、方差和熵以精确衡量在不同系统深度下的意见极化程度和偏见持续性。我们的系统性评估探索了多智能体系统内部的多个架构杠杆。首先我们通过分配多样化的人格如医生、律师和功能角色如分析师、反思者来检验智能体专业化以测试不同的视角是否能抑制放大效应。其次我们通过设计复杂的交互图串联、并行和全连接结构来评估通信拓扑结构并评估系统深度的影响。我们的研究结果揭示了一个发人深省的现实那些旨在增强多智能体系统性能的架构复杂性往往成为偏见放大的催化剂。在所有测试的配置中偏见都持续累积多智能体系统表现出系统性的偏好例如偏好较年轻年龄组、女性和黑人群体即使单个基础模型名义上是中立的。此外我们识别出一个关键的“触发脆弱性”向系统中注入完全客观的中性文本——模拟标准的检索增强生成增强框架——会触发剧烈的极化暴露出系统级鲁棒性的极端脆弱性。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2517405.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!