全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

news2025/7/20 22:31:21

近日,国内领先的人工智能大模型公司面壁智能又放大招,联合清华大学 NLP 实验室共同研发并推出大模型「超级英雄」——XAgent。

通过任务测试,XAgent 在真实复杂任务的处理能力已全面超越 AutoGPT。

XAgent 在真实复杂任务处理中全面超越 AutoGPT

现已在 GitHub 正式开源,地址 https://github.com/OpenBMB/XAgent

案例展示地址:https://x-agent.net/

博客地址:https://blog.x-agent.net

XAgent 何许「人」也?

在这里插入图片描述

XAgent 是一个可以实现自主解决复杂任务的全新 AI 智能体,以 LLM 为核心,能够理解人类指令、制定复杂计划并自主采取行动。

传统智能体通常受到人类定制规则的限制,只能在限定范围内解决问题。它们更像是为人类所用的「工具」,而不是真正的「自主智能体」,难以自主解决复杂问题。

相反,XAgent 被赋予了自主规划和决策的能力,使它能够独立运行,发现新的策略和解决方案,不受人类预设的束缚。

它的能力已全面超越 AutoGPT,在众多场景任务上展示出了惊人的自主性和复杂任务的求解能力,将 AI 智能体的智能水平提升到了一个全新高度。

那么问题又来了:它是如何实现的呢?

「左右脑」协同,双循环机制

正如人类具备「左脑」 和「右脑」,在处理复杂任务时通常从「 宏观」和「微观」 两个视角进行考虑,既要针对全局进行统筹和规划,也要从执行层面来考量。

在这里插入图片描述

相较于 AutoGPT,面壁智能和清华大学在 XAgent 的设计中创新地引入了一种「双循环机制」:

  • 外循环:负责全局任务规划,将复杂任务分解为可操作的简单任务。

  • 内循环:负责局部任务执行,专注于细节。

通过双循环机制的协作,XAgent 如同大模型领域的「超级英雄」,它在应对复杂任务的不同环节时,展现出超强的专业度和丰富的技能。

就像漫威宇宙中的「美队」,XAgent 既有全局观的领导力,也有细致入微的执行力。

在外循环中,XAgent 展现出作为一个「规划」(PlanAgent)的领导力,它会把复杂任务拆分成若干简单任务,并监督问题解决的完整过程。

首先,它将给定的复杂任务分解成更小、更易管理的「子任务」,生成「初始规划」,形成任务序列。

随后,它将逐次把每个子任务传递给内循环解决。在这个过程中,外循环会不断监督任务的进度和状态,并根据反馈对后续规划进行「迭代优化」。

在内循环中,XAgent 快速转变身份,展现出作为一个高效「执行者」(ToolAgent)的专业度,确保外循环传递的子任务达到预期。

根据子任务性质的不同,它可以从外部系统中检索工具,并针对子任务进行一步步求解。

在子任务完成后,它将生成当前子任务执行过程的反思,反馈给外循环,指示当前任务是否完成,以及任务执行中的潜在优化点。

如图所示,用户给 XAgent 提交了 iris.zip 文件,让 XAgent 对数据进行分析。

在这里插入图片描述

可以看到,XAgent 首先通过外循环将这个任务分解成了 4 个子任务:

  1. 对数据进行检查与理解;

  2. 检查系统的 Python 环境,查看相关数据分析库是否存在;

  3. 编写数据分析代码,对数据进行处理与分析;

  4. 根据 python 代码执行结果撰写分析报告。

随后,在执行每一个子任务时,XAgent 通过内循环熟练地使用文件读写、 shell 命令、python notebook 及相应 pandas、sci-kit learn、seaborn、matplotlib 等数据分析库,甚至会对数据进行可视化分析。

在这里插入图片描述

在这里插入图片描述

AutoGPT 在执行相同任务时,并没有制定检查 python 环境与相关库的规划,而是直接开始写代码执行,导致使用相关库时失败报错,最终也没有完成对数据的复杂分析。

人机协作:智能体交互新范式

虽然 AutoGPT 在一定程度上突破了传统 GPT 模型的局限性,但它仍然存在死循环、错误调用等执行出错的现象,需要人工干预才能解决。

而 XAgent 在设计之初就针对相关问题进行了考量,并引入了专为增强人机协作的交互机制:它可以自主与用户进行交互,并向人类发出干预和指导的请求。

对于一个智能体而言,「是否能够与人类协作」也是体现其智能程度的重要指标。

首先,XAgent 具备直观的界面,用户可以直接覆盖或修改它提出的建议,从而将 AI 效率与人类的直觉和专业知识有效结合。

其次,在面临陌生挑战的情况下,XAgent 具备「向人类寻求帮助」能力,它会向用户征求实时反馈、建议或指导,确保即使在不确定的领域,智能体也能发挥出最佳作用。
在这里插入图片描述

这种交互范式,将 AI 的自主性与人类的智慧有机融合,展示了人与 XAgent 之间的全新的协作关系。

如图所示,用户想让 XAgent 帮忙推荐一些好吃的餐馆来和朋友聚会,但是却没有提供具体详细的信息。

这个时候 XAgent 可以意识到目前用户所提供的信息不够充足,难以进行推荐,于是向人类提出请求,询问用户的倾向地点、预算范围、口味喜好、有哪些忌口等等,在得到用户的反馈后从而提供了推荐的餐厅。

而 AutoGPT 则直接开始到网络上搜索餐馆信息进行推荐,最终推荐的结果地点不对,也没有考虑用户的预算,没有符合用户的需求。

高效通信语言,超强工具调用

无论「双循环」的运转机制,还是「人机协作」 的交互能力,在 XAgent 的总体设计中,面壁智能和清华团队着重考虑的是智能体的稳定、高效和安全等核心特性。

而结构化的通信方式同样是建立强大、稳定智能体的重要因素之一。

XAgent 采用 Function Call 作为其内部的通信语言,具备结构化、标准化、统一化等优势。

  • 结构化:Function Call 具备清晰且严谨的格式,可以明确表述所需内容,从而最小化了潜在的错误。

  • 标准化:Function Call 可以将与外部工具的交互过程标准化,提供一种通用语言,使智能体具备使用和整合多种工具的能力,解决复杂任务。

  • 统一化:通过将信息摘要、任务规划、工具执行等所有环节转化为特定的 Function Call 形式,确保每个环节均以统一的方式进行处理,从而简化系统设计。

此外,工具调用也是评价 AI Agent 是否具备解决复杂问题的重要能力之一。

XAgent 在设计中原创了工具执行引擎 ToolServer,可以实现更安全、高效、可扩展的工具执行能力。

它在隔离的 Docker 环境中运行,确保工具执行不会危及主系统的稳定性或安全性。

这种设计带来多重好处:

  • 安全:在 Docker 容器内运行工具可以保护主系统免受潜在危害。

  • 高效:系统可以根据需求和使用模式启动、停止和重启节点,实现最佳资源使用。

  • 可扩展:方便管理代码,调试和扩展性更强。

ToolServer 的关键组件包括:ToolServerNode、ToolServerMonitor、ToolServerManager,在执行操作、节点检查、周期管理等方面提供强大的能力。

目前,XAgent 的 ToolSever 支持 FileSystemEnv、PythonNotoBook、WebEnv、ExecuteShell、RapidAPIEnv、AskHumanforHelp 等多种工具。

XAgent 不仅可以帮我们做一些简单的任务,它甚至可以帮助我们训练模型。

比如,用户希望能够对电影评论进行分析,判断一下大众对电影评价的好坏。这个时候 XAgent 会首先下载 imdb 数据集去训练一个 BERT 模型,并使用训练好的 BERT 模型对电影评论进行预测。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

释放大模型潜力,全面超越 AutoGPT

经过在一系列任务中的测试可以看到(如下图 a、b 所示),基于 GPT-4 的 XAgent 表现效果在所有基准测试中都超过了原始的 GPT-4,并全面超越了 AutoGPT。

这些任务需要 Agent 推理规划和使用外部工具的能力,包括:用搜索引擎回答问题的能力(FreshQA+HotpotQA)、Python 编程能力(MBPP)、数学推理能力(MATH)、交互式编程能力(InterCode)、具身推理能力(ALFWorld)、真实复杂任务等。

图片图 a:XAgent 在真实复杂任务处理中全面超越 AutoGPT

图片图 b:超越 AutoGPTXAgent 在六大 AI Agent 基准测试中全面领先 GPT-4

可以看出,XAgent 的系统设计能够充分释放 GPT-4 的基础能力,并达到极高的测试效果和人类倾向(Human Preference)。

这不仅表明 XAgent 在需要推理规划的传统 AI 测试中表现出色,而且在处理复杂的实际指令时具有更高的性能

拓展应用边界,坚实技术基础

AI Agent 的出现让整个行业看到了大模型技术的重要落地方向,无需进行复杂的 prompt 探索,就可以实现整套工作流的任务执行。

作为具有无限潜能的大模型「超级英雄」,XAgent 可以成为每一个普通的人的「个人助理」。它可以帮助我们规划日程,安排行程,管理生活和工作的时间和资源分配。

它还可以自主使用多种数据采集、处理和分析工具,全自动地完成对海量数据的分析并形成报告,帮助用户高效获取重要信息。

此外,XAgent 还能结合外部工具与自主规划算法,根据环境信息做出决策,以实现更高效和精确的任务执行。

XAgent 的研发团队是由来自面壁智能和清华大学 THUNLP 实验室的多位大模型领域的专家和学者组建。他们更像是大模型领域的「超级英雄」。

这一创新成果之所以能够成功推出,正是团队在长期的科研工作过程中构建了一系列前沿创新的大模型 Infra,坚实技术基础,拓展创新和研发的边界。

面壁智能联合清华大学 NLP 实验室、OpenBMB 开源社区打造了一个「三位一体」 的大模型产学研生态布局,提出并发布了多个大模型工具使用框架和引擎:

  • Tool Learning:大模型工具学习范式,将专业工具与大模型的优势相融合,从而在问题解决方面达到更高的准确性、效率和自主性。

  • BMTools:大模型学习引擎,是让语言模型使用扩展工具的开源仓库,同时也是开源社区构建和共享工具平台。

  • ToolLLM,大模型工具学习框架,给大模型接入 16000+ 真实 API,让大模型可以通过调用外部工具以完成更复杂的用户指令任务。

  • WebCPM,中文领域首个支持联网搜索的模型框架,填补国产大模型该领域的空白,让大模型能像人类一样在网页上实时搜索答案,提高了 AIGC 的实时性和准确性。

XAgent 拓展了 AI 智能体在执行复杂任务中的能力上限,让我们看到大模型技术融入生产和生活的前沿趋势和无限潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1102404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于下垂控制的孤岛双机并联逆变器环流抑制MATLAB仿真模型

微❤关注“电气仔推送”获得资料(专享优惠) 在实际应用中逆变器都是并联运行的,但是逆变器的并联运行也存在不少问题,由于线路阻抗差异、各个逆变器输出端瞬时电压幅值不同等,都容易导致环流的出现。环流会导致逆变器损耗增加,从而影响微电网的输出效率…

两个步骤轻松搞定批量合并视频

你是否曾经有过批量合并视频的需求,但是却苦于不知道如何下手?今天,我将为你介绍一个简单易行的方法,只需两个步骤,让你轻松实现批量合并视频。 第一步:下载并打开固乔智剪软件 首先,你需要下载…

【前端学习】—JS判断数据类型的方式有哪些(八)

【前端学习】—JS判断数据类型的方式有哪些(八) 一、JS中判断数据类型的场景 二、JS中有哪些数据类型 三、JS判断数据类型的方式有哪些 const arr[]; const object{};const number1; const stringstring;//typeofconst typetypeof arr; console.log(type…

01认识微服务

一、微服务架构演变 1.单体架构 将所有的功能集中在一个项目开发,打成一个包部署。优点架构简单,部署成本低。缺点耦合度高,不利于大型项目的开发和维护 2.分布式架构 根据业务功能对系统进行拆分,每个业务模块作为独立的项目…

JavaScript基础知识14——运算符:逻辑运算符,运算符优先级

哈喽,大家好,我是雷工! 一、逻辑运算符 1、概念:在程序中用来连接多个比较条件时候使用的符号。 2、应用场景:在程序中用来连接多个比较条件时候使用。 3、逻辑运算符符号: 4、代码演示逻辑运算符的使用…

opensl学习——base16编码解码、base64编码解码、ASCII码表、扩展ASCII码

文章目录 ASCII表概述base家族简单说明 Hex(十六进制)编码、Base32编码、Base64编码、base256编码base16编码与解码base64编码概述转换过程不足 3 字节处理方法例子一,不足3字节,只有一个字节例子二,不足3字节,只有两个字节 base64示例代码1代码分析 acl…

基于AT89C51流水花样灯proteus仿真设计

一、仿真原理图: 二、仿真效果图: 三、仿真工程: c51单片机流水灯花样灯proteus仿真设计资源-CSDN文库

【前端学习】—给定数组求最大值(七)

【前端学习】—给定数组求最大值(七) 一、给定数组求最大值场景 二、怎样对给定的数组求最大值 Math.max数组的reduce函数数组的sort函数//Math.maxconst arr=[1,2,3,4]; const res=Math.max(

Linux UWB Stack实现——MCPS通道访问

在前文MCPS相关介绍的基础之上,对UWB协议栈中实现访问控制相关数据结构进行介绍,并介绍了其载体struct mcps802154_local,保存了MCPS的私有数据。 1.关于MCPS802154_CA 关于IEEE 802.15.4 MAC公共部分子层(MAC common part subla…

【k8s总结】

资源下载:http://www.ziyuanwang.online/912.html Kubernetes(K8s) 一、Openstack&VM 1、认识虚拟化 1.1、什么是虚拟化 在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的…

GB/T 41510-2022 起重机械安全评估规范 通用要求 摘要

在线预览|GB/T 41510-2022http://c.gb688.cn/bzgk/gb/showGb?typeonline&hcno696806EC48F4105CEF7479EB32C80C9E 知识点: 安全等级定义,设计寿命,剩余寿命,使用寿命。 标准附录有应力的具体解算演示。

剧本杀公众号系统开发在线组队开团多玩法

一款针对剧本杀行业开发的公众号系统,配置到公众号里即可轻松简单运营起来。 核心功能: 1、在线开本是特色,直接线上玩起。 2、支持多商户入驻哦、后台会同步进行控制。 3、前台剧本的控制。 4、多玩法模式,满足剧本杀爱好者…

AR智能眼镜主板设计方案_AR眼镜PCB板设计

AR智能眼镜是一种采用先进技术的创新产品,具备强大的功能和性能。它采用了MTK8788八核 12nm低功耗硬件平台,搭载IMG GE830063OMhz或以上的GPU,并运行Android 11.0或以上的操作系统。该眼镜支持光波导1080P显示和LVDS接口自由曲面显示&#xf…

SW2303 Type-C 口/Type-A 口快充协议芯片 支持多种快充协议

SW2303 是一款高集成度的 Type-C 口/Type-A 口快充协议芯片,支持 PD、QC、FCP、高低压 SCP、AFC、SFCP 以及 PE 等主流快充协议,支持光反馈和 FB 反馈两种工作模式SW2303 集成了 CV/CC 控制环路,Type-C 接口逻辑,快充协议控制器&a…

独家分析:安卓“Janus”漏洞的产生原理及利用过程

*本文中涉及到的相关漏洞已报送厂商并得到修复,本文仅限技术研究与讨论,严禁用于非法用途,否则产生的一切后果自行承担。 近日,Google在12月发布的安卓系统安全公告中披露了一个名为“Janus”安卓漏洞(漏洞编号&#…

红黑树与AVL树

文章目录 前言一、AVL是什么?二、AVL的插入与删除插入删除 三、红黑树是什么四、红黑树的插入与删除插入删除 五、红黑树与AVL树的对比 前言 红黑树与AVL树是数据结构中避不开的话题,也是面试中常问的问题。今天就把他们总结在一起。 一、AVL是什么&am…

基于ChatGPT的智能客服助手

导读1.应用场景与系统框图2.搭建基于ChatGPT的智能客服助手 2.1 ChatGPT原理2.2 Prompt设计3.智能客服系统二期优化之用户问题分类 3.1 Bert简介3.2 用户问题分类网络训练数据3.3训练分类模型4.智能客服系统三期优化之商详和质检项相关知识筛选5.总结6.参考文献 导读 传统客服…

Web自动化测试:测试用例断言!

运行测试用例时,需要判断用例是否执行成功,此时需要有一个我们期望的结果来进行验证。这里unittest中,如果一个case执行的过程中报错,或者我们判断结果不符合期望,就会判定此条用例执行失败,判断的条件主要…

leetcode3. 无重复字符的最长子串 [滑动窗口]

题目 给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2: 输入: s "bbbbb" 输出: 1 解释:…

蓝桥杯每日一题2023.10.17

迷宫 - 蓝桥云课 (lanqiao.cn) 题目描述 样例: 01010101001011001001010110010110100100001000101010 00001000100000101010010000100000001001100110100101 01111011010010001000001101001011100011000000010000 0100000000101010001101000010100000101010101100…