Fiverr实验室突破：AI代理开发实现食谱式简化流程

news2026/3/20 8:11:27

这项由Fiverr实验室领导的研究发表于2026年的arXiv平台论文编号为arXiv:2603.08806v1研究团队开发了一种全新的AI代理开发方法。有兴趣深入了解的读者可以通过该编号查询完整论文。现在的AI助手开发就像在没有食谱的情况下做一道复杂菜肴——你知道想要什么样的味道但不知道该放多少盐、炒多久才能做出理想的效果。更糟糕的是即使这次做对了下次换个配菜可能又要重新摸索。Fiverr实验室的研究团队意识到了这个问题他们开发了一种叫做测试驱动AI代理定义TDAD的方法就像是为AI助手开发提供了一套标准化的烹饪流程。传统的AI助手开发过程充满了不确定性。产品团队会写一份需求文档描述他们想要的AI助手应该具备哪些能力然后交给AI工程师去实现。工程师面临两个巨大挑战首先要将这些需求转化为实际能工作的提示词和工具配置其次要确保最终的AI助手真的能按照预期工作。这个过程就像试图在黑暗中组装一台复杂机器——大部分时候只能靠试错改动一处可能会意外地破坏另一处的功能。TDAD方法彻底改变了这种现状。它借鉴了软件开发中测试驱动开发的成功经验将其巧妙地应用到AI助手开发中。这种方法的核心思想是不要直接写AI助手的大脑也就是提示词而是先写出详细的考试题目测试用例然后让AI助手不断学习直到能通过所有考试。这就像是先设计好评判一道菜好坏的标准然后按照这些标准来调整烹饪方法而不是凭感觉随意操作。研究团队设计了一套精巧的四角色分工体系。第一个角色叫TestSmith专门负责根据需求文档生成各种测试场景就像一个严格的考官会设计各种刁钻但合理的问题来检验AI助手的能力。第二个角色叫PromptSmith它的工作是不断调整AI助手的思维方式提示词直到AI助手能够通过TestSmith设计的所有考试。第三个角色是实际运行的AI助手它就像是接受训练的学生。第四个角色叫MutationSmith它是一个特殊的魔鬼代言人专门在训练完成后制造各种可能的错误版本确保测试系统真的能发现问题。这套系统最巧妙的地方在于它的防作弊机制。研究团队深知当测试成为优化目标时系统可能会学会应试技巧而不是真正的能力。为了解决这个问题他们采用了三重保护措施。首先是明暗测试分离——就像学校考试有练习题和真正的考试题一样系统在训练时只能看到一部分测试还有一部分期末考试完全保密。其次是语义突变测试——MutationSmith会故意制造一些看起来很像但实际有问题的AI助手版本看测试系统能否发现这些冒牌货。最后是需求进化场景——当需求发生变化时系统要能保证新版本不会破坏原有的功能。为了验证这套方法的有效性研究团队创建了一个名为SpecSuite-Core的综合测试平台包含四个完全不同领域的AI助手客服助手、数据分析师、事故处理专家和费用审批员。每个助手都有自己独特的挑战——客服助手需要严格保护用户隐私数据分析师必须基于真实数据而不能编造数字事故处理专家要按照严格的流程执行任务费用审批员则要精确处理各种财务规则。实验结果令人鼓舞。在24次独立测试中第一版AI助手的成功编译率达到92%隐藏测试通过率高达97%。这意味着绝大多数AI助手不仅能完成明确要求的任务还能很好地处理训练时没有见过的新情况。更重要的是当需求发生变化需要升级到第二版时新版本能保持78%到97%的向后兼容性确保原有功能不会因为新功能的加入而被破坏。一、像搭积木一样构建AI助手的思维框架传统的AI助手开发就像是试图用一根绳子拴住一团云彩——你知道大概想要什么形状但很难准确控制最终的效果。TDAD方法将这个过程转变为类似搭建乐高积木的有序工程。每一个功能需求都被转化为具体的测试场景就像每一块积木都有明确的形状和接口。研究团队将整个系统设计成类似工厂流水线的结构。原材料是产品需求文档通常是YAML格式的规格说明这个文档详细描述了AI助手需要使用的工具、必须遵守的政策以及在不同情况下应该如何决策。这就像是给糕点师一份详细的配方不仅列出了所有原料还说明了在什么温度下烘焙多长时间。TestSmith是流水线上的第一个工人它的工作是将这份配方转化为具体的质检标准。它会仔细阅读需求文档然后生成三种不同类型的测试。第一种叫最小功能测试就像检查一个新烤箱是否能正常加热第二种叫不变性测试检查同样的操作用不同的语言表达是否会得到相同的结果就像用不同的方式说把温度调到200度应该有同样的效果第三种叫方向性期望测试检查当输入发生特定变化时输出是否会按预期的方向改变比如温度调高时烘焙时间是否相应缩短。PromptSmith是第二个关键角色它像一个不知疲倦的学徒不断调整AI助手的思维模式直到能通过所有测试。这个过程采用了巧妙的两层循环策略。外层循环处理大方向的调整当有很多测试失败时它会分析失败的根本原因比如是权限检查缺失还是工具使用顺序错误然后进行相应的大幅修改。内层循环则专门处理最后一公里的精细调整当只有少数几个测试失败时它只运行这些失败的测试快速迭代直到问题解决。这种设计大大提高了效率就像修车时先解决大问题再处理小毛病。实际运行的AI助手Built Agent是这条流水线的最终产品。它不仅包含了经过精心调校的提示词还包含了优化过的工具描述。研究团队发现工具描述往往比主提示词更能影响AI助手的行为因为它们直接出现在AI助手的视野中。因此PromptSmith不仅会调整主要的思维指令还会优化每个工具的使用说明告诉AI助手什么时候用哪个工具需要什么前提条件以及如何处理工具返回的结果。二、防止应试教育的三重保险机制当测试成为优化目标时系统很容易学会投机取巧而不是真正掌握能力。这就像学生可能会记住标准答案而不理解原理一样。研究团队设计了三层防护措施来确保AI助手具备真正的工作能力而不是应试技巧。第一层防护是明暗测试分离策略。系统生成的测试被分为两组40-70%的测试在训练过程中是可见的就像平时的练习题PromptSmith可以看到这些测试的结果并据此调整AI助手。剩下30-60%的测试完全隐藏就像期末考试的题目只在训练结束后用来评估真实能力。这种分配比例会根据不同领域的复杂程度进行调整确保隐藏测试能够充分覆盖各种行为模式。隐藏测试的设计极其精巧。对于每个决策分支TestSmith会将主要的功能测试标记为可见而将变体测试保留为隐藏。这些隐藏测试包括用不同词汇表达相同需求的场景、处于临界条件的边界情况以及一些元形态测试——如果输入X按特定方式改变输出Y必须相应变化。这就像考试不仅要会解标准例题还要能处理题目换了个说法或者数字稍有变化的情况。第二层防护是语义突变测试。MutationSmith在AI助手训练完成后登场它的任务是故意制造一些看起来很像但实际有严重问题的山寨版AI助手。这些突变版本会有特定的缺陷比如跳过身份验证、泄露敏感信息、或者忽略必要的确认步骤。然后系统会测试原来的测试套件是否能够发现这些问题。如果测试套件让有问题的版本也能通过说明测试覆盖不够全面。突变测试的过程非常系统化。MutationSmith根据预先定义的突变意图目录工作每种意图都对应一个现实中可能出现的错误模式。比如跳过授权检查意图会生成一个忽略用户身份验证的版本直接泄露隐私信息意图会生成一个在被直接询问时会透露敏感数据的版本。为了确保突变真的产生了效果系统还会用专门的激活探针来验证突变版本确实表现出了预期的错误行为。第三层防护是需求演进场景测试。现实中的产品需求经常变化新版本必须在添加新功能的同时保持原有功能不受影响。TDAD将此建模为v1到v2的演进过程关键是v2的训练完全基于v1的已有结果而且v1的一些核心测试会被完全隐藏不参与v2的训练过程。训练完成后系统会用这些隐藏的v1测试来检验新版本是否破坏了原有功能。这种演进测试模拟了真实的产品开发场景。当产品经理要求添加新功能时工程师通常会基于现有版本进行修改而不是从头开始。TDAD忠实地重现了这个过程——v2编译从v1的结果开始只接触v2的新测试对v1的既有测试一无所知。最终的需求更新回归得分SURS衡量了有多少v1的核心功能在v2中得到了保持。三、四个真实场景的综合验证为了验证TDAD方法的实用性研究团队构建了四个截然不同的AI助手每个都代表了现实中的典型应用场景。这些不是简单的演示程序而是具有完整决策树、多轮对话能力和复杂工具集成的成熟系统。客服助手SupportOps是第一个测试案例它模拟了现代在线客服的核心挑战。这个AI助手必须在多个相互冲突的优先级之间保持平衡保护用户隐私信息是最高优先级其次是验证用户身份然后是检查服务计划资格接着是确认重要操作最后是识别欺诈行为并适当升级。现实中的客服场景经常出现这样的冲突——用户要求查看账单详情但又不愿意提供身份验证信息。AI助手必须学会优雅地处理这些矛盾。这个助手的版本演进也很有代表性。v1版本专注于基本的客服流程而v2版本添加了滥用检测功能能够识别并标记不当用户行为。这种演进测试确保新增的安全功能不会影响正常用户的服务体验。研究团队特别关注了确认取消操作这类关键流程确保即使在添加新功能后重要的安全步骤也不会被跳过。数据分析助手DataInsights面临的挑战完全不同。它必须基于真实的SQL查询结果回答问题绝对不能编造数字或数据。这个AI助手还要能识别模糊的问题并主动澄清比如用户问显示数据时它需要询问具体要查看哪种数据。同时它还要考虑查询成本避免执行过于昂贵的操作。这个助手的一个有趣发现是数字幻觉问题。在v1版本的测试中编造数字这个突变在某些情况下能够幸存说明测试套件没有充分覆盖数据真实性检查。v2版本专门强化了这方面的测试并添加了查询成本评估功能要求AI助手在执行昂贵查询前先进行成本估算。事故处理助手IncidentRunbook模拟了IT运维中的紧急响应场景。它必须严格按照证据优先的原则工作——在采取任何行动前必须收集足够的信息。不同严重级别的事故有不同的处理流程高级别事故需要立即通知相关人员而所有操作都必须严格遵循预定义的操作手册。这个助手暴露了流程遵循的重要性。在测试中跳过操作手册查询这个突变在两次测试中都成功幸存说明原始测试没有充分验证手册遵循的要求。v2版本专门加强了这方面的测试覆盖确保AI助手不会凭记忆或推测来处理紧急情况。费用审批助手ExpenseGuard处理的是财务合规场景。它需要执行消费限制、汇率转换、收据要求验证和违禁物品拒绝等功能。v2版本添加了经理审批流程对超过限额的费用需要获得上级批准。这个看似简单的添加实际上需要5轮编译迭代才能成功因为需要精确定义各种审批阈值的测试指导。每个助手都有5到7个特定的突变意图对应该领域常见的错误模式。比如客服助手的突变包括跳过身份验证、直接泄露隐私信息等而费用审批助手的突变则包括无政策审批、无收据审批等。这些突变不是随意设计的而是基于真实产品中观察到的常见失败模式。四、令人鼓舞的实验成果与深入分析研究团队进行了24次完整的独立测试每个AI助手的两个版本各进行3次完全独立的试验。每次试验都从头生成测试用例独立编译并进行完整评估。这种严格的实验设计确保了结果的可靠性和可重复性。v1版本的表现非常稳定。92%的编译成功率意味着绝大多数情况下TDAD方法都能成功地将需求文档转化为工作的AI助手。更重要的是成功编译的AI助手在隐藏测试中达到了97.3%的平均通过率标准差仅为2.6%。这表明系统不仅能完成明确要求的任务还具备良好的泛化能力能够处理训练时没有见过的相似场景。v2版本的结果更加有趣。虽然成功率降低到58%但失败的原因很有启发性。大多数失败的尝试都能通过95%以上的可见测试只是在最后1-2个测试上卡住了。这通常是由于TestSmith生成了相互冲突的测试要求或者PromptSmith耗尽了迭代预算。这种现象表明随着需求复杂度的增加系统需要更精细的冲突解决机制或更大的搜索预算。突变测试的结果特别令人满意。v1版本中只有两个突变在部分测试中幸存数据分析助手的编造数字和事故处理助手的跳过操作手册查询。这些幸存突变为v2版本的改进提供了明确的方向。v2版本成功地修复了这些问题所有成功的v2编译都达到了100%的突变得分说明测试覆盖得到了显著改善。成本分析显示这套方法非常经济实用。每个AI助手版本的完整编译成本在2到3美元之间大多数编译在2到4次迭代内完成整个过程耗时30到60分钟。考虑到传统的手工开发可能需要数天甚至数周的试错过程这种效率提升是显著的。总共18次成功运行的总成本仅为45.15美元证明了方法的经济可行性。需求演进的回归安全性也表现优异。平均SURS得分达到97.2%意味着在添加新功能时原有功能几乎完全得到了保持。这种向后兼容性对于产品的持续演进至关重要确保用户不会因为系统升级而遇到功能退化。特别值得注意的是编译过程中的学习效应。研究团队发现即使是精心制作的初始提示词在编译前的可见测试通过率也只有0到90%不等。编译过程一致性地提升了性能不仅解决了明显的功能缺陷还发现并修复了边缘情况和未明确说明的行为。这证明了测试驱动开发不仅适用于代码同样适用于AI助手的认知架构。五、技术实现与实际应用指南TDAD方法的技术实现基于标准的开发工具链特别强调了与现有工程流程的无缝集成。整个系统采用Docker容器化架构确保了环境的一致性和部署的简便性。pytest框架负责测试执行支持并行运行以提高效率。Claude Code在Docker环境中承担所有三个核心角色的工作而Claude Agent SDK则负责最终AI助手的运行时执行。系统的安全隔离设计非常巧妙。编译容器只能访问可见测试目录隐藏测试存储在完全独立的Docker卷中编译过程中绝对无法接触。可见测试目录在PromptSmith执行前被设置为只读模式确保编译过程不能修改测试本身。写访问仅限于AI助手构件目录这种多层隔离确保了测试驱动编译不会退化为测试读取或重写。工具调用跟踪是系统的另一个关键特性。传统的AI助手评估经常依赖于解析自然语言输出这既不可靠又难以自动化。TDAD要求AI助手使用专门的respond工具作为每轮对话的最终动作输出结构化的JSON数据包括决策类型、节点ID、支持证据和用户消息。这种设计使得测试可以对工具调用序列进行确定性断言而不需要解析模糊的自然语言。测试工具集提供了丰富的断言助手。assert_called和assert_call_order用于验证工具调用行为structured output validation确保输出格式正确PII canary detection能够自动发现隐私信息泄露numeric grounding检查确保数字答案基于真实数据而非编造。这些工具大大简化了测试编写让TestSmith能够生成精确且可靠的验证逻辑。规格说明文档的格式设计经过了精心考虑。YAML格式在保持人类可读性的同时也便于程序解析。文档包含工具定义、行为策略、决策树、响应契约、测试指导和突变意图等完整信息。测试指导部分特别重要它为模糊的策略术语提供具体例子确保TestSmith生成一致的测试。比如对于模糊的请求需要澄清这样的策略测试指导会明确列出什么算模糊显示数据什么不算模糊显示前10名客户。部署策略分为基准模式和生产模式两种。基准模式中每次试验重新生成测试隐藏测试在单次试验内保持固定确保PromptSmith无法游戏化评估。生产模式则更加灵活失败的隐藏测试会被提升为可见测试然后重新编译AI助手。这种双模式设计既保证了研究的严格性又提供了实际部署的实用性。迭代预算和收敛策略经过了实践优化。外层循环最多6次迭代处理大方向调整当少于10个测试失败时启动内层循环进行精细调整最多尝试8次。这种两层策略平衡了搜索充分性和计算效率。实际测试显示大多数编译在2到5次迭代内收敛说明预算设置是合理的。六、局限性认识与未来发展方向任何方法都有其适用边界TDAD也不例外。首要限制是需求的可测试性要求。并非所有产品需求都能轻易转化为可执行的测试用例特别是那些涉及主观判断的要求比如友善的语调或有同理心的回应。虽然TDAD提供了测试指导机制来处理一定程度的模糊性但对于高度主观的需求仍然需要人工定义具体的评判标准。随机性变异是另一个重要考虑因素。AI助手本身具有随机性编译过程和突变生成也都包含随机元素。这导致v1版本的隐藏测试通过率标准差为2-4%v2版本甚至达到4-16%。虽然三次试验能提供方差估计但对于生产部署研究团队建议进行更多轮次的可靠性测试特别是对涉及隐私或授权的高风险场景建议采用零失败容忍政策。测试生成中的自我审查现象也值得关注。由于安全训练的影响TestSmith倾向于避免生成真正恶意或冒犯性的输入即使这些输入对于测试滥用检测功能是必要的。对于需要robust coverage这类场景的应用仍然需要人工策划的对抗性测试语料库作为补充。计算开销虽然相对合理但仍可能限制某些应用场景。单个AI助手版本需要30-60分钟和2-3美元的成本这对于CI/CD流水线是可接受的但可能对快速原型开发造成阻碍。完整的可靠性测试如果采用推荐的10-50次重复运行成本会进一步放大需要在质量保证和开发效率之间找到平衡。评估范围的限制也需要承认。SpecSuite-Core只包含四个规格每个10-14个决策节点所有实验都使用Claude Sonnet 4.5模型。研究没有进行消融实验来分析各个防游戏化机制的独立效果也没有与DSPy、TextGrad或APE等其他提示优化方法进行直接比较。跨模型的泛化能力特别是不同模型承担不同角色时的表现仍有待验证。扩展到更复杂场景的能力也未经充分测试。当AI助手具有50个以上决策节点或者需要处理多模态输入输出时当前的方法是否仍然有效还不清楚。学习曲线的陡峭程度特别是对于非技术背景的产品经理和设计师也需要进一步研究。尽管存在这些限制TDAD为AI助手的工程化开发提供了一个重要的起点。随着AI能力的快速发展将软件工程的严谨性引入AI助手开发变得越来越重要。这种方法论的价值不仅在于提高开发效率更在于为AI系统的可靠性和可维护性建立了基础。展望未来这个方向有几个有趣的延伸可能。自动化的测试冲突解决机制可以允许PromptSmith在遇到矛盾测试时向TestSmith请求澄清。多模态测试支持可以扩展到图像、音频和视频输入输出。更智能的突变策略可以基于代码覆盖率分析来生成针对性的变异。与现有DevOps工具的更深度集成可以将TDAD完全嵌入到标准的软件开发生命周期中。说到底TDAD代表了AI助手开发向工程化、标准化方向迈出的重要一步。就像软件开发从手工作坊式的个人技艺发展为标准化的工程学科一样AI助手开发也需要从试错式的艺术走向可预测、可重复的科学。随着AI助手在更多关键应用中发挥作用这种工程化的严谨性将变得不可或缺。QAQ1TDAD是什么ATDAD是Fiverr实验室开发的测试驱动AI代理定义方法就像为AI助手开发提供标准化食谱一样。它不是直接编写AI助手的提示词而是先写出详细的测试用例然后让AI助手不断学习直到能通过所有测试就像先设计考试题目再让学生学习通过考试。Q2TDAD方法如何防止AI助手应试教育ATDAD采用三重保护机制防止投机取巧。首先是明暗测试分离训练时只能看到部分练习题还有期末考试题完全保密。其次是语义突变测试故意制造有问题的山寨版AI助手看测试系统能否发现。最后是需求演进测试确保新版本不会破坏原有功能。Q3使用TDAD开发AI助手需要多长时间和成本A根据实验结果开发一个AI助手版本通常需要30-60分钟时间成本约2-3美元大多数情况下2-4次迭代就能完成。这比传统的手工试错方式效率高很多而且质量更可靠。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2429252.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！