Open-AutoGLM保姆级教学:连电脑都不懂也能学会
你有没有想过,有一天只要动动嘴说一句“帮我打开小红书搜美食”,手机就会自己完成所有操作?听起来像科幻片,但现在,这已经变成了现实。
今天要教你的,就是智谱开源的 Open-AutoGLM——一个能让 AI 真正“看懂”手机屏幕、并自动帮你点击、滑动、输入的智能助理框架。最神奇的是,它不需要你懂代码、也不需要你是技术高手,哪怕你连 ADB 是啥都不知道,跟着这篇教程一步步来,也能让 AI 接管你的手机。
我们不讲复杂术语,不说“多模态感知”“强化学习”这种让人头大的词,就用大白话,手把手带你从零开始,把 AI 变成你的私人手机管家。
1. 先搞明白:Open-AutoGLM 到底能干啥?
在动手之前,先说清楚它到底有多厉害。
Open-AutoGLM 是基于 AutoGLM 构建的一个手机端 AI Agent 框架。它的核心能力是:
- 看懂屏幕:AI 能“看到”你手机屏幕上有什么按钮、文字、图标。
- 听懂指令:你说“打开抖音,搜索某个博主并关注”,它能理解你的意思。
- 自动操作:不用你动手,它通过 ADB(一种安卓调试工具)自己点击、滑动、输入。
- 支持远程控制:可以连 WiFi 操作手机,甚至以后还能远程帮爸妈修手机。
举个例子:
你说:“打开美团,订今晚6点两个人的火锅,人均100以内。”
AI 会自动:
- 打开美团 App
- 进入“美食”页面
- 搜索“火锅”
- 筛选价格区间和时间
- 列出符合要求的店铺
整个过程完全自动化,你只需要看着就行。
而且它还很安全:
- 遇到敏感操作(比如支付),会停下来等你确认;
- 遇到验证码,也会暂停让你手动输入。
所以不用担心 AI 把你账号钱花光。
2. 准备工作:你需要哪些东西?
别担心,不需要买新设备,家里现有的就能用。
2.1 硬件准备
- 一台电脑:Windows 或 Mac 都行(建议 Win10 以上)
- 一部安卓手机:Android 7.0 以上就行,真机或模拟器都可以
- 一根数据线(用于初始连接)
2.2 软件准备
- Python 3.10+:这是运行程序的基础环境
- ADB 工具:用来让电脑控制手机
- Git:用来下载代码
如果你还没装这些,别慌,下面我会告诉你怎么一步步装好。
3. 第一步:安装 ADB,让电脑能“指挥”手机
ADB(Android Debug Bridge)就像是电脑和手机之间的“翻译官”。没有它,AI 再聪明也动不了手机。
3.1 下载 ADB
去谷歌官网下载 Platform Tools(包含 ADB)。
解压后你会看到一堆文件,记住这个文件夹的位置,比如:
C:\platform-tools3.2 配置环境变量(让命令随时可用)
Windows 用户:
- 按
Win + R,输入sysdm.cpl,回车 - 点“高级” → “环境变量”
- 在“系统变量”里找到
Path,双击编辑 - 点“新建”,把刚才 ADB 文件夹路径粘贴进去(如
C:\platform-tools) - 确定保存
然后打开命令提示符(CMD),输入:
adb version如果能看到版本号,说明成功了!
Mac 用户:
打开终端,输入:
export PATH=${PATH}:~/Downloads/platform-tools(注意:路径要改成你实际解压的位置)
同样用adb version测试是否成功。
4. 第二步:手机设置,允许被“远程操控”
现在轮到手机出场了。
4.1 开启开发者模式
进入手机【设置】→【关于手机】→ 连续点击“版本号”7次,直到提示“您已开启开发者模式”。
4.2 开启 USB 调试
回到设置主界面 →【开发者选项】→ 找到“USB 调试”,勾上它。
⚠️ 提示时点“确定”。
4.3 安装 ADB Keyboard(关键!解决输入问题)
因为 AI 要打字,但普通输入法会被系统拦截,所以我们得装一个特殊的键盘。
- 去 GitHub 下载 ADB Keyboard APK
- 安装到手机
- 进入【语言与输入法】→【默认输入法】→ 切换为 “ADB Keyboard”
这样 AI 就能通过命令发送文字,实现自动输入了。
5. 第三步:下载 Open-AutoGLM 控制端代码
接下来我们要在电脑上装上“大脑”——也就是 Open-AutoGLM 的控制程序。
打开命令行工具(CMD 或 Terminal),依次执行:
# 1. 克隆代码仓库 git clone https://github.com/zai-org/Open-AutoGLM # 2. 进入项目目录 cd Open-AutoGLM # 3. 安装依赖包 pip install -r requirements.txt # 4. 安装本地包 pip install -e .这几条命令的意思是:
- 把代码下载下来
- 安装运行所需的“零件”(比如图像识别库、网络请求库等)
- 把项目注册成可调用的模块
如果中间报错,大概率是 Python 版本太低或者网络问题,建议使用国内镜像源:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple6. 第四步:连接手机,建立“通信通道”
有两种方式连接:USB 和 WiFi。推荐先用 USB,稳定又简单。
6.1 USB 连接
- 用数据线把手机连上电脑
- 手机弹出“允许调试?”时,点“允许”
- 在命令行输入:
adb devices - 如果看到类似这样的输出:
恭喜!连接成功。List of devices attached abcdefgh device
6.2 WiFi 无线连接(进阶玩法)
想摆脱数据线?可以用 WiFi。
前提:手机和电脑在同一局域网下。
步骤:
# 1. 先用 USB 连接,开启 TCP 模式 adb tcpip 5555 # 2. 断开数据线 # 3. 查看手机 IP 地址(设置 → 关于手机 → 状态信息 → IP 地址) # 4. 用 IP 连接 adb connect 192.168.x.x:5555再运行adb devices,应该还能看到设备在线。
以后就可以远程操控啦!
7. 第五步:启动 AI,让它接管手机!
终于到了最激动人心的时刻。
你现在可以对 AI 下达第一条指令了。
7.1 最简单的命令行启动
在 Open-AutoGLM 目录下运行:
python main.py \ --device-id abcdefgh \ --base-url http://你的云服务器IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数解释:
--device-id:就是adb devices显示的那个 ID--base-url:指向运行 AI 模型的服务器地址(需要提前部署 vLLM 或其他推理服务)--model:指定使用的模型名称- 最后的字符串:你的自然语言指令
⚠️ 注意:base-url需要你自己有一台云服务器,并部署好 GLM 模型 API。如果没有,可以考虑使用智谱官方提供的 API 接口(需申请权限)。
7.2 如果你不想写命令:试试 Python API
更灵活的方式是写个小脚本:
from phone_agent.adb import ADBConnection, list_devices # 创建连接 conn = ADBConnection() # 连接设备(USB 或 WiFi) success, msg = conn.connect("abcdefgh") # 替换成你的设备ID print(f"连接结果:{msg}") # 获取设备列表 devices = list_devices() for d in devices: print(f"设备:{d.device_id}") # 获取设备IP(可用于后续无线连接) ip = conn.get_device_ip() print(f"当前IP:{ip}") # 断开连接 conn.disconnect("abcdefgh")这个方法适合做自动化任务,比如定时帮老人查天气、自动打卡等。
8. 实战演示:让 AI 自动完成一次操作
我们来做个真实测试:
指令:“打开小红书,搜索‘北京美食’,点赞第一条笔记。”
AI 会怎么做?
- 截图分析:每隔几秒截一次屏,传给视觉模型
- 识别元素:找出“首页”“搜索框”“键盘”“点赞按钮”在哪
- 规划动作:
- 点击底部“发现”标签
- 点击顶部搜索框
- 输入“北京美食”
- 点击第一条笔记
- 找到点赞图标并点击
- 执行完毕:告诉你“已完成任务”
整个过程无需人工干预,就像有个看不见的手在替你操作。
9. 常见问题 & 解决办法
刚上手难免遇到坑,这里列出最常见的几个:
9.1 手机连不上 ADB
- ✅ 检查是否开启了“USB 调试”
- ✅ 是否点了“允许调试”
- ✅ 换根数据线试试
- ✅ 重启 ADB 服务:
adb kill-server adb start-server
9.2 AI 不执行操作 / 卡住
- 可能是模型没返回动作指令
- 检查
base-url是否正确,服务器是否正常运行 - 查看日志输出,看是否有错误信息
9.3 输入中文失败
- 确保已安装并启用ADB Keyboard
- 在代码中检查是否正确调用了
input_text()方法 - 可尝试手动发送测试文本:
adb shell input text "hello"
9.4 模型响应慢或乱码
- 检查服务器显存是否足够(建议至少 24G)
- 检查 vLLM 启动参数中的
max-model-len是否匹配模型需求 - 网络延迟高的话,优先使用本地部署或内网服务器
10. 总结:你已经迈出了第一步
恭喜你!看到这里,说明你已经完成了 Open-AutoGLM 的完整部署流程。
回顾一下我们都做了什么:
- 安装了 ADB,打通电脑和手机的连接
- 设置了手机开发者权限和专用输入法
- 下载并配置了 Open-AutoGLM 控制端
- 成功用 AI 下达指令,实现了自动化操作
虽然过程中有些步骤看起来有点技术感,但只要你一步一步跟着走,真的不需要任何编程基础也能搞定。
更重要的是,你现在已经掌握了未来手机操作的一种全新方式——用语言代替点击。
想象一下:
- 早上起床说一句“帮我看看今天的新闻和天气”
- 上班路上说“订一杯星巴克美式,到店取”
- 晚上回家前说“打开空调,调到26度”
这些都不是梦,而是 Open-AutoGLM 正在实现的日常。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。