GitHub:https://github.com/bytedance/UI-TARS
更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI
基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。
该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。
主要功能
- 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
- 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
- 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
- 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
- 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。
性能
Online Benchmark Evaluation
Benchmark type | Benchmark | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | Previous SOTA |
---|---|---|---|---|---|
Computer Use | OSworld (100 steps) | 42.5 | 36.4 | 28 | 38.1 (200 step) |
Windows Agent Arena (50 steps) | 42.1 | - | - | 29.8 | |
Browser Use | WebVoyager | 84.8 | 87 | 84.1 | 87 |
Online-Mind2web | 75.8 | 71 | 62.9 | 71 | |
Phone Use | Android World | 64.2 | - | - | 59.5 |
Grounding Capability Evaluation
Benchmark | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | Previous SOTA |
---|---|---|---|---|
ScreenSpot-V2 | 94.2 | 87.9 | 87.6 | 91.6 |
ScreenSpotPro | 61.6 | 23.4 | 27.7 | 43.6 |
Poki Game
Model | 2048 | cubinko | energy | free-the-key | Gem-11 | hex-frvr | Infinity-Loop | Maze:Path-of-Light | shapes | snake-solver | wood-blocks-3d | yarn-untangle | laser-maze-puzzle | tiles-master |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
OpenAI CUA | 31.04 | 0.00 | 32.80 | 0.00 | 46.27 | 92.25 | 23.08 | 35.00 | 52.18 | 42.86 | 2.02 | 44.56 | 80.00 | 78.27 |
Claude 3.7 | 43.05 | 0.00 | 41.60 | 0.00 | 0.00 | 30.76 | 2.31 | 82.00 | 6.26 | 42.86 | 0.00 | 13.77 | 28.00 | 52.18 |
UI-TARS-1.5 | 100.00 | 0.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 |
Minecraft
Task Type | Task Name | VPT | DreamerV3 | Previous SOTA | UI-TARS-1.5 w/o Thought | UI-TARS-1.5 w/ Thought |
---|---|---|---|---|---|---|
Mine Blocks | (oak_log) | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 |
(obsidian) | 0.0 | 0.0 | 0.0 | 0.2 | 0.3 | |
(white_bed) | 0.0 | 0.0 | 0.1 | 0.4 | 0.6 | |
200 Tasks Avg. | 0.06 | 0.03 | 0.32 | 0.35 | 0.42 | |
Kill Mobs | (mooshroom) | 0.0 | 0.0 | 0.1 | 0.3 | 0.4 |
(zombie) | 0.4 | 0.1 | 0.6 | 0.7 | 0.9 | |
(chicken) | 0.1 | 0.0 | 0.4 | 0.5 | 0.6 | |
100 Tasks Avg. | 0.04 | 0.03 | 0.18 | 0.25 | 0.31 |
模型对比
Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.
Benchmark Type | Benchmark | UI-TARS-72B-DPO | UI-TARS-1.5-7B | UI-TARS-1.5 |
---|---|---|---|---|
Computer Use | OSWorld | 24.6 | 27.5 | 42.5 |
GUI Grounding | ScreenSpotPro | 38.1 | 49.6 | 61.6 |
🚀 安装和使用
为了帮助您快速开始使用我们的模型,我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理,以使模型在您的环境中执行作。
✅ 步骤1:部署和推理
👉 部署和推理。 这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。
✅ 第 2 步:后处理
👉 预测后处理。 这包括将模型预测解析为可执行的 pyautogui 代码。 为了帮助您更好地了解坐标处理,我们还提供了坐标处理可视化指南。
提示使用指南
为了适应不同的设备环境和任务复杂性,codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板:
🖥️COMPUTER_USE
建议用于:桌面环境(如 Windows、Linux 或 macOS)上的 GUI 任务。
特征:
- 支持常见的桌面作:鼠标单击(单击、双击、右键单击)、拖动作、键盘快捷键、文本输入、滚动等。
- 非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。
📱MOBILE_USE
建议用于:移动设备或 Android 仿真器上的 GUI 任务。
特征:
- 包括特定于移动设备的作:、、、 .long_pressopen_apppress_homepress_back
- 适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。
📌GROUNDING
推荐用于:仅专注于作输出的轻量级任务,或用于模型训练和评估。
特征:
- 仅输出 ,无需任何推理 ()。ActionThought
- 用于评估接地能力。
实战演习
步骤 1:初始化:UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。
步骤 2:观察和思考过程
- 观察:UI-TARS 识别桌面上的 Word 图标。
- 思考:“Word 图标存在;我需要双击它才能打开 Word 程序。”
- 操作:在 Word 图标上执行左键双击操作。
步骤 3:等待程序启动
- 观察:UI-TARS 检测到 Word 程序正在加载。
- 想法:“我应该等到 Word 完全启动以避免交互错误。”
- 操作:执行等待操作以确保环境已准备好进行下一步。
步骤 4:输入文本并保存
- 观察:UI-TARS 观察到 Word 文档界面已准备好进行交互。
- 想法:“现在我可以添加文本‘hello’并使用 Ctrl+S 保存文档。”
- 操作:执行输入(type("hello"))并保存文件(Ctrl+S)。