文章开头说现有的agent都是局限于特定领域(什么网络问答啊,仅限文字啊,仅限于某一个app啊)这样的,本文的工作主打一个贴近用户使用场景,用户用什么软件,看什么网页,本文的模型就用什么软件,看什么网页,只要是能在windows系统上用的东西本agent都能用,泛用性更强。(常规操作,没啥新颖的)本文使用了OSworld的架构(OSworld论文之前讲过了)。除了数据集以外本文还提出了一个叫Navi的模型
文章提到现在的benchmark测试一般在虚拟机上进行,这样是比较慢的。文章提出可以提高任务并行化。
模型的动作空间如下:

剩下的呆会看






![设计模式学习[6]---代理模式](https://i-blog.csdnimg.cn/direct/68724981e93140c5ba89d047cd81cbc9.png)











