卡内基梅隆大学研究团队告诉你，如何让AI代理既安全又好用

news2026/4/30 4:35:05

这项由卡内基梅隆大学软件工程研究团队主导的研究发表于2026年的软件工程与人工智能交叉领域论文编号为arXiv:2604.15579有兴趣深入了解的读者可以通过该编号查询完整论文。设想你开了一家医院雇了一位能力超群的新员工。这位员工聪明、高效几乎任何任务都能完成——但偶尔会做出让你捏把冷汗的举动有时候他会把病人的私密病历随手发给不相关的人有时候开了已经不适用的药方有时候不经授权就擅自修改医疗记录。你信任这个员工的能力但这些偶发的失误让你根本不敢把他一个人留在诊室里工作。这个比喻正是当今AI代理AI Agent技术所面临的真实困境。所谓AI代理就是那些能够主动使用工具、与外部系统交互、代替人类完成复杂任务的人工智能程序。它们可以帮你订机票、管理医疗记录、处理客户服务请求甚至操控电脑执行复杂操作。能力越强风险越大——这些AI代理一旦出错后果可能是数据泄露、财产损失乃至真实的人身伤害。现有的解决方案大多依赖于教育这位员工——通过训练让AI模型本身变得更安全或者安排另一个AI来盯着它的一举一动。但问题在于这些方法都是概率性的哪怕再严格的教育也无法保证员工百分之百不犯错。卡内基梅隆大学的研究团队提出了一种截然不同的思路与其寄希望于AI自己懂规矩不如直接给它装上一本规则手册——用硬性的程序化规则从外部约束它的行为。这套方法研究团队称之为符号化护栏Symbolic Guardrails。一、AI代理的安全困境为什么教它学好还不够回到那个医院员工的比喻。现在你可以用两种方式来防止员工犯错。第一种方式是持续培训不断给他上安全课、职业道德课希望他能从内心深处理解并遵守规则。第二种方式是设置制度性约束把某些操作直接锁死比如修改病历必须经过两人审核、给病人开高危药品时系统自动弹出确认框、某些权限只有特定职位的人才能获得。现有的AI安全方法大多属于第一种通过强化学习、人类反馈训练等手段试图让AI模型从内部学会安全行为。另一类流行的做法叫做神经护栏——安排一个独立的AI来旁观主AI的每一步操作判断它是否安全。就像在那个员工身边派一个监督员随时评估他的决定是否合规。然而这两种方法都有一个根本缺陷它们本质上都是概率性的。一个经过充分训练的AI也许在99%的情况下都会做出正确决定但那剩下的1%仍然可能造成灾难性后果。而负责监督的AI同样可能被攻击者欺骗或者自身判断出错。在医疗、金融、法律这类高风险场景下1%的失误率完全不可接受。卡内基梅隆大学的研究团队意识到软件工程领域其实早就有一整套成熟的方法来处理这类问题——那就是符号化的、确定性的规则约束。就像银行的转账系统不会仅仅依赖员工的职业判断来决定要不要转账而是有硬性的权限验证、金额上限、身份核实等机制。这些机制一旦触发结果是确定性的不存在也许合规的说法。研究团队的核心问题是我们能不能把这套思路移植到AI代理上为了回答这个问题他们设计了一项三部分的系统性研究涵盖文献综述、政策分析和实验验证最终得出了令人颇为惊喜的结论。二、摸清现状大多数AI安全评测根本没说清楚安全是什么研究的第一步是摸清楚目前学术界和工业界对AI代理安全性的期待究竟是什么。研究团队通过系统性文献综述从arXiv上检索了2022年1月至2026年3月间发表的相关论文经过层层筛选最终保留了80篇专门评测AI代理安全性或安全性的基准测试论文。这些基准测试就好比是给AI代理设计的驾照考试——考官出题考察AI在特定安全场景下是否表现合格。研究团队仔细审阅了每一份考卷并对其中的安全政策进行了分类。所谓安全政策就是告诉AI代理你应该怎么做、不应该怎么做的规则。研究团队将这些规则按具体程度分为四个层级。第一层是没有规则——考官什么都没说默认AI应该自己懂得什么是安全的。第二层是目标设定式规则——考官说了一些高度概括的话比如保持最高级别的谨慎和安全性但到底什么叫最高级别的谨慎完全说不清楚。第三层是具体规则——考官清清楚楚地说明了AI应该遵守的每一条具体操作规范没有歧义不需要猜测。第四层是任务特定规则——针对某一具体任务制定的规则换了别的任务就不适用了。结果令人有些意外。在这80份考卷中足足有49份占61%完全没有给AI代理提供任何明确的安全指引。这些评测隐隐地期望AI能凭常识判断什么是安全的但从来不说明白这个常识是什么。另有19份约24%只给出了模糊的目标性表达留下大量解释空间。真正给出清晰具体规则的只有7份而且几乎清一色只出现在为特定业务场景设计的领域专用代理测试中。更麻烦的是即便是同一个安全主题不同的测试对它的理解也可能截然相反。以用户隐私保护为例一些测试要求AI在任何情况下分享任何私人信息之前都必须征得用户同意而另一些测试则期望AI能够根据社交语境自主判断在适当情况下无需询问即可分享。如果一个AI同时面对这两份考卷它根本不知道该听哪个。这个发现揭示了一个根本性的问题当我们说AI代理应该安全时我们并没有说清楚安全具体意味着什么。安全规则越模糊就越难以验证AI是否真的做到了安全更别提用程序化手段去保证它。研究团队由此得出一个重要判断要让AI代理真正安全可靠必须首先把安全规则说清楚、写明白不留模糊地带。而这件事对于那些服务范围广泛的通用AI代理来说极其困难——你很难穷举出一个万能助手在所有可能场景下的所有安全规范。相比之下只服务于特定业务场景的领域专用代理由于任务范围有限、工具集合固定安全规则的制定就容易得多、也精确得多。这为符号化护栏的应用奠定了现实基础。三、解剖安全规则七成以上的要求可以用程序直接锁死确认了具体安全规则的价值之后研究团队开始分析这些规则中哪些可以用确定性的程序手段来强制执行为了回答这个问题他们选取了三个有具体安全规则的基准测试进行深入分析。第一个是τ?-Bench评测的是航空公司客服AI代理用于帮助乘客处理机票预订相关事务。第二个是CAR-bench评测的是车载语音助手处理导航、天气查询、车辆操作等任务。第三个是MedAgentBench评测的是电子医疗记录助手帮助医生查询病历、开具医嘱。研究团队为前两个直接使用其原有政策文档并为第三个基于系统性的危害分析方法生成了一套88条规则的综合安全政策。对于这些规则研究团队识别出六种可用于强制执行的符号化护栏手段每一种都对应软件工程中的成熟技术。API验证API Validation是最基础的一种在AI代理调用某个工具之前先验证它提供的参数是否符合要求。举个例子如果AI代理想要取消一张机票系统会先检查这张机票真的属于发出请求的用户吗如果不属于直接拒绝根本不给AI代理任何犯错的机会。模式约束Schema Constraint是对AI代理输出格式的强制限定。就好比一家餐厅只允许厨师按照固定菜单做菜不允许即兴发挥。如果AI代理的输出不是合法的工具调用也不是正常的用户回复系统直接拒绝这个输出。时序逻辑Temporal Logic用于控制操作的顺序。比如规定AI必须先完成用户身份验证才能调用任何涉及账户信息的工具。就像银行ATM取款必须先插卡验密才能进行后续操作。信息流控制Information Flow确保敏感信息不会流向不应到达的地方。比如禁止其他乘客的个人信息被传递给AI代理从而从源头杜绝隐私泄露的可能。用户确认User Confirmation要求在执行某些高风险操作之前必须获得用户明确的同意——而且这个确认流程是由系统程序强制触发的不是AI代理自己决定要不要问的。这就相当于银行转账时系统强制发送短信验证码而不是由柜员自己判断要不要让客户签字。响应模板Response Template用预设的固定回复替代AI自由生成的内容。执行某些特定操作后系统直接显示一段预先写好的确认信息而不是让AI临时编写从而避免AI发挥过度导致的信息错误或泄露。研究团队逐条分析了三个基准测试中的所有安全规则将它们归类为可符号化执行、不可符号化执行和不在范围内三类。结果显示在τ?-Bench中51条有效规则里有42条可以用符号化方式执行比例高达82%在CAR-bench中18条规则里有17条可执行比例接近94%在MedAgentBench中57条规则里有34条可执行约占60%。综合来看约75%的具体安全规则都可以通过符号化护栏来强制保证。更令人印象深刻的是在这些可执行的规则中大多数只需要API验证就能搞定。在τ?-Bench中81%的可执行规则仅靠API验证即可处理CAR-bench中这一比例为65%MedAgentBench中也有47%。那些需要信息流控制或时序逻辑这类复杂手段的规则在三个测试中合计只有五条。换句话说大多数安全问题其实可以用非常简单、低成本的方法来解决不需要大费周章部署复杂的监控系统。当然并非所有规则都能符号化执行。研究团队识别出四类难以处理的规则。第一类是关于AI代理的人设和沟通风格的规定比如要求AI保持中立语气、避免发表医学判断——这类规定本质上是在描述AI的说话方式程序无法直接检测或强制执行。第二类是不要产生幻觉的要求也就是不让AI凭空捏造信息——这需要判断AI的输出是否有事实依据依然高度依赖模型本身的能力。第三类是流程性规定比如先收集用户信息再询问行程细节——要严格执行这类顺序往往需要重构整个对话架构。第四类是即便在具体规则中也难免存在的常识性判断空间比如除非用户明确要求否则不要主动提供补偿——什么叫明确要求依然需要理解能力。这些无法符号化执行的规则就需要借助神经护栏等其他手段来辅助处理。四、实际测试护栏不仅没有妨碍AI完成任务反而帮了倒忙分析完理论研究团队开始动手验证把符号化护栏真正装进AI系统看看实际效果怎样。他们分别在三个基准测试上运行了实验每个测试设置了有护栏和没有护栏两种条件用GPT-4o和GPT-5作为骨干语言模型通过模拟用户与AI代理进行多轮交互。在τ?-Bench的航空客服场景中没有护栏时GPT-4o版本有高达52%的任务触发了至少一次安全规则违规即便是能力更强的GPT-5版本违规率也有20%而且其中10%的情况下连该提供的信息都无法确认是否合规。一旦加上符号化护栏违规率直接降为0%而且任务完成率不降反升GPT-4o从36%提升到48%GPT-5从68%提升到70%。在CAR-bench的车载助手场景中没有护栏时有21%的任务出现违规加上护栏后违规降为0%任务完成率从59%跃升至72%政策遵守度从83%提高到97%。这两项提升均达到统计显著水平。MedAgentBench的医疗场景最能说明问题因为研究团队还专门构建了一批对抗性任务——在这些任务中模拟用户会刻意尝试欺骗或操纵AI代理诱使其违反安全规则。在对抗性场景下没有任何护栏的原始版本有78%的任务被攻破即便加了工具封装但没有符号化护栏的版本违规率仍高达62%。符号化护栏条件下违规率归零且这一差异同样具有统计显著性。一个令人惊喜的发现是符号化护栏非但没有让AI变得更笨在多个场景下反而提高了任务完成率。研究团队在分析交互记录后找到了可能的原因当护栏拦截了一个违规操作时它会同时向AI代理返回一条明确的错误信息解释这次操作为什么不合规、违反了哪条规则。AI代理看到这条反馈后能够重新调整策略换一个既合规又能完成任务的方法继续执行。这相当于在AI代理走错路时及时给它一个具体的纠正信号帮助它更快找到正确方向而不是让它在错误的方向上越走越远。这个结果打破了一个常见的直觉假设很多人认为安全约束和功能发挥之间天然存在矛盾加了限制就必然损失能力。这项研究的实验数据表明至少对于那些可以被具体规则清晰界定的安全要求来说用程序手段强制执行这些规则完全可以在不牺牲能力的前提下显著提升安全性。五、这对真实世界意味着什么归根结底这项研究告诉我们一件很直接的事想让AI代理在医疗、金融、法律等高风险场景中可靠运转光靠训练它变好或再加一个AI来盯着它是不够的。就像公路交通安全不能仅靠驾驶员培训来保证还需要红绿灯、护栏、限速标志这些硬性的基础设施一样AI代理也需要硬性的符号化护栏来提供可靠的安全底线。研究团队发现现有的AI安全测试领域有一个普遍的问题大多数测试连安全规则本身都说不清楚更别提去保证它了。在那85%没有清晰安全政策的测试中整个安全评估体系建立在AI应该懂得常识这样一个虚幻的假设上。这个假设不但难以验证而且本身就充满争议——不同的人对常识安全的理解可以截然不同。对于企业和开发者来说这项研究提供了一个清晰的实践路径。第一步是把安全规则说清楚——不是高高在上的价值观宣言而是一条条具体、无歧义的操作规范。第二步是评估这些规则中有哪些可以通过程序手段直接锁死——研究表明这样的规则往往占大多数而且通常用最简单的参数验证就能搞定不需要复杂的AI判断系统。第三步才是对那些真正需要理解能力和判断力的规则考虑使用神经护栏等概率性手段来辅助。这套分层策略能够把有限的安全资源集中用在真正需要的地方同时为最核心的安全要求提供确定性的保证而不是把所有希望都寄托在概率性手段上。当然这项研究也有其边界。它主要针对领域专用代理而对于像ChatGPT这样的通用AI助手来说任务边界模糊、工具范围广泛想提前穷举所有安全规则几乎不可能。符号化护栏在通用代理上的适用性还需要更多研究来探索。此外研究中测试的基准场景数量有限实验成本较高每次运行耗费约80美元这在一定程度上制约了测试的规模和重复次数。符号化护栏的效果是否能稳定泛化到更广泛的真实业务场景仍需要进一步验证。说到底这项研究揭示的是一个软件工程中的老道理不要依赖系统组件的自觉性来保证安全要用明确的约束机制来保证。AI时代的到来并没有让这条原则失效反而让它比以往任何时候都更加紧迫和重要。一个每次操作都有明确规则约束的AI代理远比一个大多数时候都很乖但偶尔会擅自删掉你所有邮件的AI代理更值得信赖。QAQ1符号化护栏和神经护栏有什么区别各自适合什么场景A符号化护栏是通过硬编码的程序规则来约束AI代理的行为结果是确定性的只要规则触发行为就会被拦截不存在也许合规的情况。神经护栏则是用另一个AI模型来判断主AI的行为是否安全本质上是概率性的可能误判也可能被攻击绕过。符号化护栏适合那些能被明确表达为具体规则的安全要求比如取消机票前必须验证用户身份神经护栏更适合那些需要理解力和判断力的模糊要求比如不要对话风格太强硬。理想情况下两者结合使用符号化护栏保底神经护栏补充。Q2为什么只有领域专用代理适合用符号化护栏通用AI代理不行A因为符号化护栏依赖明确、具体、无歧义的安全规则。领域专用代理只处理特定任务工具集固定安全边界清晰可以提前枚举出所有相关的安全规则。通用AI代理要处理各种各样的任务工具范围极广很难提前想到所有可能的安全场景并为每个场景写出具体规则。规则写不全符号化护栏就无法覆盖所有情况这就是为什么通用代理目前更依赖训练和神经护栏来处理安全问题。Q3给AI代理加符号化护栏会不会让它变笨、完不成任务A卡内基梅隆大学的实验结果显示加了符号化护栏之后AI代理的任务完成率不降反升。在航空客服测试中任务完成率从36%提升到48%在车载助手测试中从59%提升到72%。可能的原因是当护栏拦截违规操作时会同时给AI代理一条明确的错误反馈说明被拦的原因和违反的规则。AI代理利用这个反馈调整策略能更快找到既安全又有效的解决方法反而提高了整体表现。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2567694.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！