港中大等高校：AI助手实现任务执行能力测试评估体系建立突破

news2026/5/8 3:57:46

这项研究来自香港中文大学、香港中文大学深圳、华南理工大学、厦门大学、北京大学、香港科技大学及香港大学的联合研究团队以预印本形式发布于2026年4月论文编号为arXiv:2604.28139感兴趣的读者可通过该编号查询原文。**一、从聊天机器人到办事员AI正在经历一场身份转变**每个人都用过找人帮忙的经历。你托朋友帮你订个餐厅他只要动动手指打开App就能搞定你请同事帮你整理一份跨部门的数据报告他得先从财务系统拿数据、再到HR系统核实人员信息、然后在本地电脑上生成文档——这两件事的复杂程度天差地别。现在AI正在经历同样的身份转变。过去那种聊两句回答你问题的AI正在升级成真正帮你完成任务的AI助手。它们不再只是回答北京今天天气怎么样而是要真正去订机票、发邮件、跑代码、修文件、协调多个系统之间的数据——这就是所谓的AI工作流代理workflow agent。但问题来了我们怎么评判这类AI到底干得好不好你出门前托朋友帮你关煤气回来发现煤气还开着朋友却跟你说我记得关了——这就是当前很多AI评测的困境。AI交上一份看起来漂亮的报告但背后到底有没有真的去查数据、有没有真的执行操作很多测试根本看不出来。正是为了解决这个问题研究团队开发了一套叫做Claw-Eval-Live的全新评测体系。**二、AI考试出了什么问题现有测试为何像纸上谈兵**要理解Claw-Eval-Live解决了什么问题先得搞清楚现有的AI评测有哪些毛病。现有的大多数AI代理评测就像一套五年前编的考试题题目在发布时精心设计但一旦发布就再也不变了。问题是现实世界里人们需要AI帮忙完成的任务一直在变。五年前大家最需要的可能是帮我搜索网页现在最急迫的可能是帮我在多个企业系统之间协调一次审批流程。一套一成不变的题目就算当初设计得再好也会慢慢脱离现实需求——题目还在那但考的已经不是当下最重要的能力了。更要命的是现有评测大多只看AI交出来的答卷也就是最终的文字结果却不管它是怎么完成任务的。用一个通俗的比喻来说老师让学生写一篇数学题的解题过程但评分时只看最终答案对不对完全不看解题步骤——这就给了作弊的空间。AI可能写出一篇看起来条理清晰的分析报告但实际上它根本没有去查相关数据库所有内容都是编出来的。这类说得好听但没真干活的问题在AI领域被称为能说不能做的差距。Claw-Eval-Live就是专门为堵住这两个漏洞而设计的。**三、Claw-Eval-Live的核心设计一套会自我更新的考试系统**研究团队把Claw-Eval-Live比作一套有两层结构的考试体系。外层是一个动态的需求信号层内层是一个稳定的快照层。动态层的作用是追踪现实世界里人们最需要AI完成哪些工作。团队使用的信号来源叫做ClawHub热门技能榜单——可以把它理解成一个AI工具的下载排行榜记录了当下最受用户欢迎的500种AI工作技能。这份榜单会随着时间变化某类任务越来越多人需要它的排名就上升某类任务过时了它就会下滑。稳定层则是将某一时间点的需求信号转化成一批固定的、可复现的测试题目。一旦某一个版本也叫快照正式发布它的题目、评分标准就固定下来保证所有人在同样条件下比较AI的成绩。等到需求信号发生明显变化团队再更新下一个版本的快照。这个设计就像出版年鉴每年的年鉴内容是固定的可以让不同地区的人公平比较但每年都会出新版本追踪最新的变化。如此一来评测既不会因为不断改动而无法纵向比较又不会因为永远不变而脱离现实。**四、题目是怎么出的从排行榜信号到可执行任务的五步流程**把一份用户下载排行榜变成一批能客观评分的AI考题这中间的过程相当复杂研究团队将其分成了五个步骤。第一步是信号收集。团队从ClawHub Top-500榜单里提取每一个技能条目记录它的功能类型和排名权重作为哪类任务最重要的参考依据但不直接把榜单条目变成考题。第二步是模式聚类。榜单上的条目可能有很多重叠——例如发送邮件通知和批量发送提醒邮件本质上属于同一类工作。团队把相似的条目归并成更稳定的工作流模式比如文档转化类、跨系统协作类、数据分析类、工作空间修复类等形成几个大的分类家族。第三步是家族权重分配。根据每个分类在榜单上占据的信号总量为每个分类计算一个权重比例决定这个版本的考题里各类任务应该占多大比例。权重高的类型出的题多权重低的出题少但不会直接决定某道具体题目进不进最终考卷。第四步是种子展开与实现。按照权重团队为每个分类设计若干种子任务——每个种子任务说明了用户的目标是什么、需要操作哪些系统、需要留下哪些可验证的行为痕迹、评分的边界在哪里。然后把这些种子任务落实成可以真正运行的考题包括任务说明、工具接口定义、预置的数据环境称为fixture以及专门为这道题写的评分程序。之后还要经过预筛选只有在测试运行中能稳定跑通、在不同AI模型上产生有区分度的分数差异的题才能留下来。第五步是基于区分度的最终选题。经过预筛选后团队得到了157道候选题但最终要从中选出105道进入正式发布版。如何选团队用了一种叫做混合整数线性规划的数学优化方法——简单来说就是用一套严格的数学公式来决定哪些题留、哪些题去而不是凭感觉或经验拍板。这个优化过程同时满足三个约束总题目数量固定为105道每个任务分类都必须有题目覆盖入选的题目组合在区分不同AI模型方面效果最大化。那些所有AI都能轻松通过、或者所有AI都必然失败的题一律排除因为这类题根本区分不出好坏。**五、考场长什么样两种截然不同的战场**最终发布的105道题按照AI需要操作的环境类型分成两大类战场。第一类叫做服务支撑型工作流共87道题。这类任务要求AI与一组模拟真实企业系统的受控服务进行交互——包括CRM客户关系管理系统、财务系统、邮件系统、日历系统、帮助台系统、知识库等共18个受控服务。AI需要在这些系统之间查询数据、比对信息、做出决策并且真正执行写入操作比如创建草稿、更新记录、创建任务等。这类任务的核心难度在于需要协调多个系统、保持状态一致性、并留下可核查的操作记录。第二类叫做工作空间修复共18道题。这类任务把AI放进一个沙盒化的本地工作环境给它一个坏掉的状态——可能是某个配置文件写错了、某段代码有bug、某个服务无法启动——AI需要检查日志、修改文件、运行命令并且真正把问题修好。每道题都有完整的配套资料一个YAML格式的任务定义文件、预置好的初始数据环境、工具接口规范以及一个专门为这道题编写的自动评分程序。整个考试过程全程记录不只保存AI最后说了什么而是保存它的每一步操作调用了哪些工具、工具返回了什么、消耗了多少时间和token、最终系统状态如何。**六、怎么打分说了什么和做了什么缺一不可**Claw-Eval-Live的评分机制是整个系统最有特色的部分官方把它总结为基于规则的提取加上结构化大模型评判。这句话的核心含义是评分从可验证的证据出发而不是把评判权完全交给另一个AI。整个评分过程有三类关键证据来源。数据检索验证主要占总分的15到20%验证AI有没有调用正确的工具、查询正确的数据来源这部分直接从操作日志中提取是确定性判断。数据准确性验证通常占40到60%核查AI最终给出的实体名称、数字和结论是否与预置的标准答案一致。操作执行验证占10到20%通过服务审计日志或工作空间的最终状态确认AI是否真正完成了要求的状态变更——比如记录确实被更新了、文件确实被修改了、服务确实重新跑通了。只有当这三类确定性证据无法完全覆盖任务的所有评分维度时才会引入大模型评判用来处理那些无法用精确匹配来核查的语义层面——比如报告的完整性、表述的组织质量、分析的逻辑连贯性。实操中评分程序按任务类型分成三种模式。对于分析型任务如账目核对、HR审查、业务预测确定性检查验证工具调用规范性、实体和数字准确性、以及必要的写入操作然后再由大模型评判那些无法精确核查的语义维度。对于操作型任务如起草邮件、安排会议、工单分类确定性验证的比重更大大模型仅用于评判呈现质量。对于工作空间修复任务评分完全基于脚本验证执行完成后验证脚本直接在工作空间内重新检查文件内容、服务健康状态、配置完整性修复是否成功是一个客观的系统状态事实不涉及任何主观判断。当需要大模型评判时研究团队使用GPT-5.4作为评判模型。由于GPT-5.4本身也是被测模型之一这可能引入一定的评判偏差团队通过把大模型评判限制在确定性检查无法覆盖的语义维度、并为每次评判调用提供完整的操作记录和专属评分标准来降低这一风险。**七、最终成绩单没有一个AI能跨过70%这道坎**研究团队测试了13个主流前沿大模型评分指标有两个通过率完成分数达到0.80门槛的任务比例和总体完成度所有105道题平均得分的百分制换算。排名第一的是Claude Opus 4.6通过率66.7%总体完成度83.6分。紧随其后的GPT-5.4通过率63.8%总体完成度81.7分。第三、四名的Claude Sonnet 4.6和GLM-5都是61.9%的通过率但后者总体完成度稍低78.1分对79.9分因此GLM-5排名第四。再往后MiniMax M2.7拿到54.3%而MiMo V2 Pro、Kimi K2.5和Gemini 3.1 Pro三家并列53.3%。排名末尾的Doubao Seed 2.0只有43.8%的通过率。整个榜单呈现出一个清晰的格局顶部和底部之间相差将近23个百分点说明当前的AI模型在工作流能力上确实存在较大的梯度差异不是一锅粥。但更关键的信息是即便是第一名也只完成了三分之二的任务。这不是偶然的——它说明稳定可靠的工作流自动化对于今天的AI来说依然是一个未攻克的难题。三家并列53.3%的模型进一步揭示了为什么通过率和总体完成度需要同时看。MiMo V2 Pro总体完成度76.9Kimi K2.5是76.2Gemini 3.1 Pro只有74.0——通过率相同但总体完成度拉开了差距。换句话说对于那些没通过的任务前者完成得更多一些后者则差得更远。这表明评测系统捕捉到了比二元通过失败更细腻的能力差异。**八、不同科目的成绩有的科目轻松满分有的科目全体挂科**把105道题按业务类型归成七个大组来看各模型的表现呈现出极度不均衡的图景。开发与终端类18道主要是工作空间修复任务是各模型表现最好的领域。Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6在这个大组的通过率均为100%即便是表现最差的Doubao Seed 2.0也有72%。换句话说本地工作空间的诊断与修复对今天的顶级AI来说已经基本不是挑战了。人力资源与人员管理类9道任务则是另一个极端可以说是整个考卷里最难的一组。没有任何一个模型的通过率超过22.2%多个模型在这一组的得分是0%。这些任务涉及员工入职、绩效审查等需要从多个系统提取特定员工信息、并按规范完成操作的场景——AI在这里大量生产的是看起来像模像样但实际上缺少关键细节的通用性回答一旦用具体的证据核查就会暴露出并没有真正查询正确数据的事实。效率与生产力类25道任务是分化最大的一组从Claude Sonnet 4.6的88%到Doubao Seed 2.0的48%跨度超过40个百分点。这意味着这类任务在区分AI能力高低方面最有效力。管理与运营类的情况也很严峻在0.80的公共通过门槛下没有任何一个模型在这一类别里达标。业务流程自动化家族平均通过率只有12.8%。细化到单个任务家族表现最佳的是PRODAPP任务量17道平均通过率84.2%但即便如此最好和最差的模型之间仍有47.1个百分点的差距。HR家族平均通过率只有6.8%。在单道题层面有几道题成为了最强的模型区分器月度电商对账ecommerce_monthly_reconcile、首次响应时间审计first_response_time_audit、多文档合并multi_doc_merge——这些任务的共同特点是只要漏掉一个数据来源、或者遗漏一次关键操作最终得分就会大幅下滑。**九、服务型任务vs工作空间修复AI真正的瓶颈在哪里**把105道题按执行环境一分为二来看两类任务之间的差距触目惊心。在18道工作空间修复任务上所有模型的通过率至少都有72.2%头部模型接近100%。但在87道服务支撑型工作流任务上没有任何一个模型超过59.8%——Claude Opus 4.6以59.8%领跑GPT-5.4是56.3%GLM-5是55.2%。这个对比的意义相当深远。当前的AI在有限的、固定的本地环境中修复已知问题已经相当游刃有余。但一旦要在多个相互关联的业务系统之间来回穿梭、协调状态、不遗漏任何一个必要步骤AI的能力就开始出现明显的裂缝。真正的挑战不是AI会不会用终端而是AI能不能在跨系统的业务流程中保持状态、不丢失关键证据、并按规定完成所有必要的写入操作。**十、通过率相同但差距可以很大——为什么需要两个指标**榜单上并列53.3%通过率的三个模型揭示了一个重要道理通过率相同的模型实际能力可能大不一样。通过率告诉你有多少道题完全做完了但总体完成度告诉你在没完全做完的题里平均做到了几成。对于一个实际部署中的工作流代理来说这两个维度都重要——有时候你需要的是必须完整执行某个流程有时候你只需要尽量多完成流程的大部分步骤两种场景对应的选型标准不同。**十一、花钱多的不一定是最好的选择——效率账怎么算**研究团队还统计了每个模型完成全部105道题所消耗的资源包括token数量、调用轮次、估算API费用和总耗时。GPT-5.4的表现尤为突出它在top4中消耗token最少1.26亿速度最快104分钟成本最低约6.27美元同时排名第二。相比之下同样在top4的Claude Opus 4.6需要消耗3.32亿token、花费约31.61美元、耗时213分钟才换来略高的通过率。成本差距接近5倍但通过率只差约3个百分点。另一方面DeepSeek V3.2的费用估算最低约0.56美元但通过率只有51.4%与顶部模型差距明显。MiniMax M2.7费用也极低0.69美元通过率达到54.3%性价比相对突出。这意味着对于实际部署工作流AI的团队来说选型不能只看通过率排名还需要结合具体业务类型的任务分布和可接受的成本范围来综合判断。**十二、区分度的分布为什么有些题无效有些题特别好用**在全部105道题中并非每道题都同样有价值。研究团队把区分度定义为13个模型在同一道题上的得分标准差。标准差越高说明这道题越能把强模型和弱模型区分开。统计结果显示105道题里有27道是全员失败题13个模型全部没过有19道是全员通过题13个模型全部通过。这两组题在区分不同模型方面贡献极小。真正有区分价值的题集中在中间地带——有些模型通过、有些模型没通过的那些题。区分度最高的几道题包括电商月度对账、首次响应时间审计和多文档合并这些任务需要精确的多来源数据提取任何一个步骤的遗漏都会导致得分骤降因此不同能力水平的模型在这些题上会表现出明显的分数差异。这也是为什么团队在选题时使用了比正式评测更宽松的预筛选门槛如果按照正式的0.80门槛来筛会排除掉太多只有最强模型才能通过但确实有价值的任务导致考卷的区分效力下降。最终发布版虽然按0.80门槛打分但选题时用了更宽松的标准保留了足够多的中等难度任务。**十三、这套系统告诉了我们什么又留下了什么问题**归根结底Claw-Eval-Live传递的信息可以用两句话概括当前最好的AI工作流代理还没有一个能在105道代表真实企业需求的任务里通过70%而且失败的模式是有规律的——HR、管理和多系统协调类任务是系统性的瓶颈不是个别失误。这对普通人的生活意味着什么如果你正在使用或者考虑使用某个AI助手来帮你处理企业级的流程性工作你需要知道它在哪些场景下靠谱、在哪些场景下还不行。用AI帮你修一个坏掉的开发环境已经相当可靠但用AI帮你协调一次跨部门的薪酬审查或OKR评估恐怕还需要人工把关。这套评测体系本身也有局限。大模型评判环节引入了GPT-5.4作为裁判而GPT-5.4本身也是被评测对象之一这种双重身份可能带来偏差尽管团队已经尽力将大模型评判的范围限制在确定性检查无法覆盖的最小必要范围内。此外ClawHub热门榜单作为需求信号来源反映的是工具生态系统用户的偏好不一定完整代表所有类型组织和行业的实际需求分布。但无论如何这套系统提出了一个重要的方向性问题评判AI能不能干活应该看它做了什么而不只是看它说了什么。有兴趣深入了解的读者可以通过论文编号arXiv:2604.28139查阅完整的研究报告和项目主页claw-eval-live.github.io。QAQ1Claw-Eval-Live是如何保证评测题目不脱离真实需求的AClaw-Eval-Live使用ClawHub Top-500热门技能榜单作为需求信号来源这是一个反映用户当下最常使用的AI工作技能的排行榜。每次发布新版本时团队会重新从最新榜单出发经过聚类、权重分配、种子展开等五个步骤将排行榜信号转化为可执行的测试任务。这样评测题目的分布会随着用户需求的变化而更新而不是永远固定在某一时间点的判断上。Q2为什么Claw-Eval-Live不直接让AI自己批改答案AClaw-Eval-Live的评分设计优先使用确定性规则检查包括操作日志核查、数据准确性比对、服务状态验证等只有在这些客观检查无法覆盖的语义维度如报告组织质量时才引入大模型评判。这是因为如果把整个评分权交给另一个AI评分本身就会变得不可靠——AI可能觉得另一个AI说得很好却没有发现它其实根本没有执行任何操作。用可验证的行为证据打分比只看文字输出可靠得多。Q3测试结果显示AI在哪类工作上最弱A根据Claw-Eval-Live当前版本的测试结果AI在人力资源与人员管理类任务上表现最差没有任何模型的通过率超过22.2%多个模型得分为零。管理与运营类任务同样是全员难题。这些任务的共同特点是需要从多个业务系统中精确提取特定人员或流程信息并按规定完成状态写入操作而目前的AI往往生成表面上合理但实际缺少关键证据支撑的通用性回答。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2593616.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！