零基础玩转Open-AutoGLM:手把手教你用AI自动操控手机,解放双手
零基础玩转Open-AutoGLM手把手教你用AI自动操控手机解放双手你是不是也幻想过只要动动嘴皮子手机就能自己完成所有操作比如早上醒来说一句“帮我点个早餐外卖”手机就自动打开美团找到你常吃的店下单付款一气呵成。或者工作累了说一句“打开抖音给我推荐几个搞笑视频”手机就自动刷起来让你乐呵乐呵。听起来像是科幻电影里的场景但现在这已经变成了现实。今天我就带你一起玩转一个超酷的开源项目——Open-AutoGLM。这是智谱AI推出的一个手机端AI智能助理框架它能像真人一样“看懂”你的手机屏幕然后用自然语言理解你的指令自动帮你完成各种操作。简单来说你只需要告诉它“打开小红书搜美食”它就能自己解锁手机、打开App、搜索、浏览全程无需你动手点击。是不是很神奇接下来我就从零开始手把手教你如何搭建和使用这个“手机管家”让你彻底解放双手。1. 它到底是什么能做什么在开始动手之前我们先搞清楚Open-AutoGLM到底是什么以及它能帮你做什么。你可以把它想象成一个安装在电脑上的“遥控器”但这个遥控器非常智能。它通过一根数据线或者WiFi连接到你的安卓手机然后通过一个强大的AI大脑视觉语言模型来“看”你的手机屏幕理解屏幕上有什么比如按钮、文字、图标最后通过发送指令来“操控”你的手机。它的核心能力可以总结为三点能“看懂”屏幕它不是一个简单的脚本机器人只会机械地点固定位置。它能真正理解屏幕内容比如识别出哪个是“搜索框”哪个是“发送按钮”。能“听懂”人话你不需要学习复杂的编程命令。直接用大白话说出你的需求比如“给张三发微信说晚上一起吃饭”它就能理解并执行。能“动手”操作理解之后它会自动规划一系列操作步骤比如点击、滑动、输入文字像真人一样完成整个任务。那么它能帮你做什么呢场景太多了生活助手自动点外卖、订电影票、查快递、设闹钟。社交达人自动给朋友圈点赞、回复评论、群发消息需谨慎使用。工作利器自动打开办公软件记录会议纪要、整理文件需要结合其他工具。娱乐玩家自动刷短视频、玩游戏做日常任务。它的设计也很贴心遇到支付、修改密码等敏感操作时会停下来让你确认安全性有保障。2. 准备工作让你的电脑和手机“牵手成功”万事开头难但只要跟着步骤走十分钟就能搞定环境。你需要准备两样东西一台电脑Windows或Mac都行和一部安卓手机系统7.0以上。2.1 电脑端安装必备工具首先在你的电脑上需要安装两个核心工具Python和ADB。安装Python这是运行AI控制程序的语言环境。去Python官网下载3.10或以上版本安装即可。安装时记得勾选“Add Python to PATH”这样后面用起来方便。安装ADB工具ADB是“安卓调试桥”是电脑和手机通信的桥梁。Windows用户去官网下载一个叫“Platform-Tools”的压缩包解压到一个你记得住的文件夹比如C:\adb。配置环境变量关键步骤在电脑搜索栏输入“环境变量”打开“编辑系统环境变量”。点击“环境变量”在下面的“系统变量”里找到并选中“Path”点击“编辑”。点击“新建”把刚才解压的adb文件夹的完整路径例如C:\adb粘贴进去然后一路点“确定”。最后打开电脑的“命令提示符”按WinR输入cmd回车输入adb version并回车。如果出现一串版本号恭喜你配置成功了Mac用户就简单多了。下载解压后打开“终端”输入以下命令假设你解压到了“下载”文件夹export PATH${PATH}:~/Downloads/platform-tools同样在终端输入adb version检查是否成功。2.2 手机端开启“开发者模式”要让电脑控制手机需要在手机上打开几个开关。开启开发者选项进入手机的“设置” - “关于手机”找到“版本号”这一项连续快速点击7次直到屏幕提示“您已处于开发者模式”。开启USB调试退回设置现在你应该能看到多了一个“开发者选项”可能在“系统”或“更多设置”里。点进去找到“USB调试”打开它。安装ADB键盘可选但推荐为了让AI能更稳定地在手机上输入文字建议安装一个叫“ADB Keyboard”的输入法。你可以在网上搜索下载它的APK安装包安装到手机。然后在“设置” - “系统管理/更多设置” - “语言与输入法” - “默认键盘”中将它设为默认输入法。2.3 连接手机与电脑用数据线将手机连接到电脑。此时手机会弹出一个“是否允许USB调试”的提示勾选“始终允许”然后点击“确定”。回到电脑的命令行Windows是cmd或PowerShellMac是终端输入命令adb devices你会看到一个设备列表里面有你手机的序列号后面跟着device字样。这就表示连接成功了小技巧想摆脱数据线你可以使用WiFi连接。先用数据线连一次在命令行输入adb tcpip 5555这条命令让手机开启网络调试端口。然后拔掉数据线确保手机和电脑在同一个WiFi下。在手机上查看你的WiFi IP地址一般在设置-WLAN-点击已连接的网络查看。最后在电脑命令行输入adb connect 你的手机IP地址:5555 # 例如adb connect 192.168.1.100:5555再次输入adb devices你会看到设备通过IP地址连接上了。3. 获取AI大脑部署Open-AutoGLM控制端环境搭好了现在我们把“遥控器”和“AI大脑”装到电脑上。下载控制程序打开命令行找一个你喜欢的文件夹执行以下命令来下载Open-AutoGLM的代码git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM如果git命令不熟悉也可以直接去GitHub项目页面下载ZIP包解压。安装依赖包进入项目文件夹后运行以下命令安装运行所需的所有软件包pip install -r requirements.txt pip install -e .这个过程可能会花几分钟耐心等待即可。4. 启动AI助理给你的手机下第一个命令激动人心的时刻到了我们现在要让AI开始工作。但AI需要一个“大脑”来思考也就是模型服务。你有三种选择方案A使用在线API最简单直接使用智谱AI或魔搭社区提供的在线服务无需自己部署模型适合绝大多数用户。方案B本地部署模型最自由在自己的电脑或服务器上运行模型数据完全本地处理适合有显卡GPU且追求隐私和速度的开发者。为了快速体验我强烈推荐方案A。这里以使用智谱AI的在线API为例获取API Key访问智谱AI开放平台注册账号并创建一个API Key。运行你的第一个AI指令在命令行中切换到Open-AutoGLM项目目录运行以下命令请替换你的API_KEYpython main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey 你的API_KEY \ 打开设置然后进入‘关于手机’告诉我手机型号命令解释--base-url: 告诉程序去哪里找AI大脑这里用的是智谱的在线服务地址。--model: 指定使用哪个模型这里用autoglm-phone。--apikey: 你的通行证证明你有权使用这个服务。最后引号里的内容就是你的自然语言指令。运行后你会看到程序开始运行它先通过ADB连接你的手机然后截图将图片和你的指令一起发给AI模型。AI“看”完截图分析出下一步应该点哪里比如“设置”图标然后发送点击指令。手机会自动跳转到设置页面程序再次截图分析点击“关于手机”……直到完成任务并在命令行里输出找到的手机型号信息。恭喜你你的手机已经完成了第一次AI自动化操作5. 更多玩法与实战案例学会了基础操作我们来玩点更实用的。5.1 交互模式和AI对话操控手机除了执行单条命令你还可以进入“聊天模式”。运行命令时不加最后的指令python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey 你的API_KEY程序会启动并等待你输入指令。你可以像和朋友聊天一样一条接一条地下命令你打开微信 AI: 自动操作打开微信 你找到‘文件传输助手’ AI: 自动滑动、点击找到并进入聊天窗口 你输入“测试消息发送成功” AI: 自动点击输入框调用ADB键盘输入文字点击发送这种方式非常适合完成一系列连续任务。5.2 实战案例自动点一杯奶茶假设你想让AI帮你用美团点一杯奶茶。你可以这样命令它python main.py ...你的API参数... “打开美团外卖搜索‘喜茶’选择离我最近的门店点一杯‘烤黑糖波波牛乳’规格选大杯、冰、不另外加糖然后加入购物车”当然实际体验中过于复杂的任务可能需要拆分成几步或者中间遇到商品缺货等情况需要人工干预。但这已经展示了巨大的潜力。5.3 使用Python代码精细控制如果你懂一点Python还可以用更编程的方式来控制灵活性更高。创建一个demo.py文件from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent import asyncio async def main(): # 1. 连接你的手机替换为你的设备ID或IP conn ADBConnection() success, msg conn.connect(你的设备ID) # 例如 192.168.1.100:5555 print(f连接状态: {msg}) if success: # 2. 创建AI代理 agent PhoneAgent( base_urlhttps://open.bigmodel.cn/api/paas/v4, modelautoglm-phone, api_key你的API_KEY, device_id你的设备ID ) # 3. 下达一个复杂任务 task 打开时钟应用设置一个20分钟后的闹钟命名为‘午休结束’ print(f执行任务: {task}) # 4. 运行代理执行任务 await agent.run(task) print(任务执行完毕) # 5. 断开连接 conn.disconnect(你的设备ID) if __name__ __main__: asyncio.run(main())这段代码展示了如何以编程方式连接设备、创建代理、执行任务。你可以在此基础上开发更复杂的自动化流程。6. 总结跟着上面的步骤走一遍你应该已经成功让AI接管了你的手机。我们来回顾一下今天的收获Open-AutoGLM是什么一个能看懂屏幕、听懂人话、自动操作手机的AI智能体框架。核心价值将自然语言指令转化为具体的手机操作真正解放双手提升效率。它为自动化测试、无障碍辅助、个人效率工具等领域提供了新的可能性。上手关键核心在于搭建ADB环境并成功连接手机然后选择一个模型服务在线API最方便即可开始体验。注意事项安全第一对于支付、转账、修改核心设置等敏感操作务必谨慎最好启用其内置的确认机制。并非万能面对极其复杂、动态变化快的界面如一些游戏或者需要极高判断力的任务它可能力有不逮。持续进化这是一个开源项目还在快速发展中未来肯定会支持更多应用和更复杂的任务。从“手动点点点”到“动动嘴皮子”Open-AutoGLM为我们推开了一扇新的大门。它不仅仅是一个工具更是一种人机交互新范式的开端。无论是想偷懒的普通用户还是寻找自动化解决方案的开发者都值得尝试一下。想象一下未来你的手机真的成了一个懂你、帮你的智能伙伴这种感觉是不是很棒现在就从给你的手机下第一个AI指令开始吧获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2413694.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!