通义实验室正式开源 Mobile-Agent v3.5 及新一代多平台 GUI Agent 基座模型 GUI-Owl-1.5

news2026/4/8 8:06:18

做过自动化的人都知道最让人抓狂的不是功能实现不了而是流程跑到一半突然卡住——界面变了、元素找不到、验证码弹出来……GUI Agent 在实验室里跑得再顺一到真实环境就各种翻车。通义实验室这次发布的 Mobile-Agent v3.5瞄准的正是这些让人头疼的实际问题。核心亮点通义实验室正式开源Mobile-Agent v3.5及新一代多平台 GUI Agent 基座模型GUI-Owl-1.5。模型规格2B / 4B / 8B / 32B / 235B 多档参数可选两大版本线Instruct 版快速执行适合实时交互Thinking 版深度规划适合复杂任务支持平台手机、PC、浏览器三端统一开源地址https://github.com/X-PLUG/MobileAgent三个真实痛点1. 高质量数据难搞定长任务需要长轨迹但采集过程中验证码、反爬、页面不确定性等问题层出不穷。成功样本少失败样本噪声大这是行业共同的难题。2. 多端训练互相打架手机、PC、网页的交互逻辑完全不同控件密度、动作空间差异巨大。直接混训容易出现梯度冲突泛化效果不稳定。3. 任务闭环不只是点点点真实场景里Agent 不仅要会点击还得调用工具、检索知识、记录状态、跨系统协作、处理异常。单纯的 GUI 操作远远不够。GUI-Owl-1.5 的目标把这些能力补齐让 Agent 能规划、能执行、能纠错、能记忆真正形成工作闭环。设计思路双版本策略版本参数规模特点适用场景Instruct2B/4B/8B/32B快速响应不强制输出思维链高频操作、边端部署、实时交互Thinking8B/32B/235B强化规划与纠错能力复杂任务、长链路流程、多分支决策端云协作端侧即时执行隐私保护云侧复杂规划任务复盘技术方案GUI MCP 混合编排GUI-Owl-1.5 将操作抽象为观察—决策—执行—反馈循环输出结构包括自然语言意图说明当前步骤做什么、为什么做结构化调用点击、输入、滚动、拖拽等 GUI 操作MCP 能力调用在需要时跳出 GUI调用外部工具完成校验、查询、记忆写入等这种设计让 Agent 既能沿着界面完成步骤也能在关键节点调用工具形成可组合、可扩展的自动化链路。高分辨率 Grounding 增强在 4K 屏幕、多窗口遮挡、专业软件等复杂界面中准确定位元素团队构建了专门的数据增强方案高难样本合成面向专业应用用多模态模型生成真实软件截图与元素关系面向高分辨率场景通过窗口布局组合与空间约束检查降低遮挡和坐标漂移问题规模化扩展从真实轨迹中挖掘 grounding 对并过滤低质样本从教程与知识库构造 grounding 问答加入负样本训练让模型学会在找不到目标时避免误触DAG 任务组织长链路任务最怕中途某步失败导致整段监督失效。团队采用DAG有向无环图组织任务结构把长任务拆成可组合的子任务节点为每个节点设计可验证的完成条件失败时在最后正确检查点截断保留干净的成功前缀引入虚拟环境应对验证码、反爬等障碍用 RPA 脚本批量产出高质量轨迹三大能力增强GUI 常识注入从文档、教程、社区问答中整理并改写为 QA/VQA提升用户语言与软件功能、操作路径的对齐。动作后果预测从轨迹构造界面变化描述训练模型预判弹窗、焦点变化、内容更新等细节。推理过程合成为每步补齐观察要点、记忆写入、偏差反思与进度更新提升长程稳定性与自我纠错能力。MRPO 多平台强化学习针对多平台强化学习的不稳定问题团队提出MRPOMulti-platform Reinforcement Policy Optimization以设备条件统一策略建模多端差异在线 rollout 缓冲与抽样成组降低信号坍塌推理 token-id 对齐传输减少估计偏差多平台交替优化缓解梯度冲突稳定收敛评测表现GUI-Owl-1.5 在20 benchmarks上进行了全面评测多项指标达到开源 SOTA。端到端自动化OSWorld-Verified56.532B-InstructAndroidWorld71.68B-ThinkingWebArena48.432B-ThinkingVisualWebArena46.632B-ThinkingTool/MCP 协同OSWorld-MCP47.632B-InstructMobileWorld46.832B-Instruct高分辨率 GroundingScreenSpot-Pro72.9无 cropScreenSpot-Pro80.3两阶段 crop refine知识与记忆GUI Knowledge Bench75.5MemGUI-BenchEasy27.1开源与展望如果你正在做 Computer Use / Mobile Use / Browser Use 相关能力希望实现多端统一自动化并将 GUI 操作与 Tool/MCP 编排结合支持端云协同部署那么 Mobile-Agent v3.5 与 GUI-Owl-1.5 提供的不只是一个 demo而是一套接近真实交付需求的底座与方法论。项目已开源https://github.com/X-PLUG/MobileAgent欢迎试用、提交 issue 与贡献代码一起推动 GUI Agent 从看起来能用到长期稳定能用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2495354.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！