综述 | GUI Agent:让AI学会「玩手机」的新革命

news2025/7/19 16:19:34

想象一下,你的手机里住着一个隐形助理:你说“把亮度调到50%”,它自动操作;你说“下载最新游戏”,它一键完成。这就是GUI智能体——一种能“看懂”屏幕并操作的AI。

论文:A Survey on (M)LLM-Based GUI Agents
链接:https://arxiv.org/pdf/2504.13865

早期的自动化脚本像“固定剧本”,只能按预设步骤运行,一旦界面变化就罢工。而今天的GUI智能体,结合了大语言模型(如GPT)和多模态模型(如图像识别),不仅能理解自然语言指令,还能像人类一样观察屏幕、规划操作步骤,甚至从错误中学习。

四大核心模块:AI如何看懂屏幕并操作?

① 感知系统:AI的「眼睛」

GUI智能体的第一步是“看懂界面”。传统方法依赖解析网页代码(如HTML),但现代AI直接分析屏幕截图,结合OCR文字识别和图标检测,甚至能理解动态弹窗。难点:高分辨率下的小图标定位(比如手机设置里的“深色模式”开关),AI容易“看花眼”。

② 知识探索:AI的「经验库」

AI通过三种方式积累知识:

  • 内部探索:像新手一样乱点,记录哪些按钮有用。

  • 历史经验:记住成功操作路径,下次直接调用。

  • 外部搜索:遇到陌生任务时,自动上网查攻略。

③ 规划框架:分步骤拆解任务

比如用户说“把照片导入PPT并加动画”,AI会分解为:

1.打开相册选图 → 2.打开PPT粘贴 → 3.选择动画效果。

过程中若出错(比如找不到粘贴按钮),AI会尝试其他路径。

④ 交互执行:安全第一

AI操作必须“稳如老手”:避免误点付费按钮、绕过弹窗广告。部分系统甚至需要用户二次确认敏感操作(如删除文件)。

实战应用:手机、电脑、网页、游戏全征服

手机场景

  • AppAgent:自动调节系统设置,甚至学习手动操作技巧。

  • Mobile-Agent:装APP、更新、卸载一条龙,还能处理中文界面。

电脑场景

  • OS-Copilot:写代码控制PPT生成,堪比“办公室秘书”。

  • UFO:专攻Windows系统,连右键菜单都能精准操作。

游戏场景

  • VOYAGER:在《我的世界》里自动挖矿、盖房子,技能库越用越强。

  • Cradle:结合视觉模型玩动作游戏,连BOSS弱点都能分析。

所以说,AI离「真·智能」还有多远?

一些当前痛点

  • 定位不准:比如手机截图压缩后,AI可能把“返回键”看成“菜单键”。

  • 应变力弱:遇到验证码弹窗或网络中断,AI容易“卡死”。

  • 数据隐私:若AI能操作银行APP,如何防止被黑客利用?

未来方向(发论文方向!)

  • 强化学习:让AI通过“试错奖励”自我进化(类似AlphaGo)。

  • 多模态升级:结合语音指令、手势操作,更像真人。

  • 标准化测试:建立跨平台任务库,公平比拼各家AI能力。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2343097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Canvas入门教程!!【Canvas篇二】

没有一朵花,从一开始就是花。 目录 translate() 方法:rotate() 方法:scale() 方法: translate() 方法: Canvas 2D API 的 CanvasRenderingContext2D.translate() 方法用于对当前网格添加平移变换。 translate() 方法通…

【中级软件设计师】函数调用 —— 传值调用和传地址调用 (附软考真题)

【中级软件设计师】函数调用 —— 传值调用和传地址调用 (附软考真题) 目录 【中级软件设计师】函数调用 —— 传值调用和传地址调用 (附软考真题)一、历年真题二、考点:函数调用 —— 传值调用和传地址调用🔺1、传值调用🔺2、传引用(地址)调…

第七届能源系统与电气电力国际学术会议(ICESEP 2025)

重要信息 时间:2025年6月20-22日 地点:中国-武汉 官网:www.icesep.net 主题 能源系统 节能技术、能源存储技术、可再生能源、热能与动力工程 、能源工程、可再生能源技术和系统、风力发…

大数据分析04 数据查询分析

构建数据源 引入pandas包 数据map中ID为列,值为行,每一列中值个数要一致 import pandas as pd data {ID: [000001, 000002, 000003, 000004, 000005, 000006, 000007],name:[黎明, 赵怡春, 张富平, 白丽, 牛玉德, 姚华, 李南], gender:[True, False, …

ADVB协议同步

关于视频传输,有多种控制时序。协议标准允许设计者选择有限的几个速率的接口来满足 系统设计目标。例如,一些系统使用总线时序发送信息通过line-by-line;在这个案例中, 容器的sof作为vsync同步的点。horizontal line blanding将插入idles,ADV…

【kafka初学】启动执行命令

接上篇,启动:开两个cdm窗口 注意放的文件不要太深或者中文,会报命令行太长的错误 启动zookeeper bin\windows\zookeeper-server-start.bat config\zookeeper.properties2. 启动kafka-serve bin\windows\kafka-server-start.bat config\serv…

论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 论文 通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。 高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”&…

电子削铅笔刀顺序图详解:从UML设计到PlantUML实现

题目:为电子削铅笔刀建立一个顺序图和一个通信图。图中的对象包括操作者、铅笔、插入点(也就是铅笔插入铅笔刀的位置)、马达和其他元素。包括哪些交互消息?有那些激活?如何在图中表示出自身调用。 一、顺序图概述 顺序图(Sequence Diagram&#xff09…

FWFT_FIFO和Standard_FIFO对比仿真

在FPGA中使用FIFO时,如果使用FPGA厂商提供的FIFO IP,一般都会有First Word Fall Through FIFO和Standard FIFO类型选项,那么这两种FIFO有什么差异么。两种FIFO的端口是一样的,看不出区别,只有通过仿真,才能…

什么是可重入锁ReentrantLock?

大家好,我是锋哥。今天分享关于【什么是可重入锁ReentrantLock?】面试题。希望对大家有帮助; 什么是可重入锁ReentrantLock? ReentrantLock 是 Java 中的一个锁实现,它是 java.util.concurrent.locks 包中的一部分,主要用于提供…

利用JMeter代理服务器方式实现高效压测

前言 在当今快节奏的互联网时代,确保Web应用和服务能够在高负载下稳定运行变得至关重要。无论是电子商务平台、社交媒体网络还是在线教育服务,用户对网站响应速度和稳定性的期望从未如此之高。因此,性能测试不再是一个可选项,而是…

WSL 安装过程整理

WSL 安装过程整理 一、WSL 安装教程二、安装后小技巧1、安装位置2、常用命令 三、在 WSL2 中安装 perf: 一、WSL 安装教程 史上最全的WSL安装教程 WSL2 最新最全帮助小白一步步详细安装教程 在WSL2 root 和普通用户的切换 轻松搬迁!教你如何将WSL从C盘迁…

form表单提交前设置请求头request header及文件下载

需求:想要在form表单submit之前,设置一下请求头。 除了用Ajax发起请求之外,还可以使用FormData来实现,咱不懂就问。 1 问:FormData什么时间出现的?与ajax什么联系? 2 问:FormData使…

【c++11】c++11新特性(下)(可变参数模板、default和delete、容器新设定、包装器)

🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:C 目录 前言 五、可变参数模板 1. 概念及简单定义 2. 包扩展 六、 default和delete 七、容器新设定 1. 新容器 2. 新接口 emplace系列接口 八、函数包…

PyTorch 实现食物图像分类实战:从数据处理到模型训练

一、简介 在计算机视觉领域,图像分类是一项基础且重要的任务,广泛应用于智能安防、医疗诊断、电商推荐等场景。本文将以食物图像分类为例,基于 PyTorch 框架,详细介绍从数据准备、模型构建到训练测试的全流程,帮助读者…

Qt —— 在Linux下试用QWebEngingView出现的Js错误问题解决(附上四种解决办法)

错误提示:js: A parser-blocking, cross site (i.e. different eTLD+1) script, https:xxxx, is invoked via document.write. The network request for this script MAY be blocked by the browser in this or a future page load due to poor network connectivity. If bloc…

命名空间(C++)

命名空间主要用于大型项目中。 局部命名在该局部会覆盖全局命名。C语言中唯一一种在局部调用全局相同命名的全局变量的方式:指针在C中可以用作用域运算符来访问全局变量,作用域运算符的前面可以是作用域也可以是类。 命名空间实际上是对全局作用域的再次…

LabVIEW圆锥滚子视觉检测系统

基于LabVIEW平台的视觉检测系统提高圆锥滚子内组件的生产质量和效率。通过集成高分辨率摄像头和先进的图像处理算法,系统能够自动识别和分类产品缺陷,从而减少人工检查需求,提高检测的准确性和速度。 ​​ ​ 项目背景 随着制造业对产品质…

OpenAI 推出「轻量级」Deep Research,免费用户同享

刚刚,OpenAI 正式上线了面向所有用户的「轻量级」Deep Research 版本,意味着即便没有付费订阅,也能体验这一强大工具的核心功能。 核心差异:o4-mini vs. o3 模型迭代 传统的深度研究功能基于更大规模的 o3 模型。轻量级版本则改以…

罗伯·派克:Go语言创始者的极客人生

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 罗伯派克:Go语言创始者的极客人生 一、传奇程序员的成长历程 1. 早年经历…