项目地址: https://appagentx.github.io/?utm_source=ai-bot.cn
GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main
arXiv技术论文:https://arxiv.org/pdf/2503.02268
AppAgentx是什么:
AppAgentX 是西湖大学推出的一种自我进化式 GUI 代理框架。它通过从执行历史中学习并抽象出高级动作,来提升智能手机交互的效率和智能性。该框架利用记忆与进化机制实现持续优化,性能在测试中显著优于现有方法,为智能代理开辟了新方向。
AppAgentx的主要功能:
自动归纳高效操作模式:检测任务执行中的重复性操作,自动总结为高级别的“一键”操作,简化操作流程。
减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。
基于视觉的通用操作能力::依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现“即插即用”。
支持复杂任务和跨应用操作: :像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。
AppAgentX的应用场景:
自动化日常操作:自动完成手机设置调整、应用内任务等,减少手动操作。
智能助手增强: 集成到智能助手,帮助用户快速执行复杂任务。
企业流程自动化: 用于企业数据录入、报表生成等重复性任务,提高效率。
跨应用任务管理: 支持在不同应用间切换和操作,实现跨平台自动化。
辅助特殊人群: 简化操作流程,帮助老年人或身体不便者更轻松使用手机。
开始使用
-
LLM 设置和依赖项
本项目使用 LangChain 和 LangGraph 构建代理框架。建议按照其官网建议的安装方法进行安装。其他依赖项请使用pip install -r requirements.txt
。LLM 配置请在 文件中调整相关设置config.py
。
-
数据库部署与连接
我们使用 Neo4j 作为代理的内存存储,并利用其 Cypher 查询语言来方便地检索节点。向量存储则使用 Pinecone。请确保在config.py
文件中配置了必要的 API 和密钥。更多信息,请访问Neo4j 官网和Pinecone 官网。
config.py 配置文件
你需要安装Neo4j 到本地,进行部署和运行,同样的Pinecone需要API_KEY
-
屏幕识别与特征提取部署
为了简化部署,我们使用 Docker 将屏幕识别和特征提取服务容器化。有关启动容器的说明,请参阅后端文件夹中的 README 文件。请注意,这可能需要 Docker 的 GPU 支持;有关配置,请参阅 Docker 官方文档。这种模块化方法可以轻松替换不同的屏幕解析和特征提取工具,从而显著增强模型的可扩展性。如果您需要部署,请参阅当前项目后端文件夹中的README 文件。
-
启动演示
要使用此项目,您首先需要配置ADB(Android Debug Bridge)以将您的 Android 设备连接到您的计算机。
-
设置 ADB 并连接您的设备
3.2 在您的电脑上安装 ADB
下载并安装Android Debug Bridge (adb) — 一种命令行工具,可实现您的电脑和 Android 设备之间的通信。
-
在您的 Android 设备上启用 USB 调试:
-
转到“设置” > “开发人员选项”并启用“USB 调试”。
-
使用 USB 数据线将您的设备连接到 PC 。
推荐使用Qtscrcpy工具代替一下
同样的可以使用Android studio的工具进行链接
启动 Gradio
设置好设备或模拟器后,即可启动项目。我们使用Gradio作为前端界面。使用以下命令之一启动演示:
python demo.py 使用前提是你已经安装好了python环境
或者
gradio demo.py
现在,AppAgent就可以使用了!🚀
综上所述的仅适合你是有CUDA显卡的人适合. macos可以直接退出了,因为博主踩坑了. 我还在尝试使用,在macos上测试成功,有待实现.