小白也能懂的Open-AutoGLM:零基础搭建手机智能助理
你有没有过这样的时刻——
想查个快递,却要先解锁手机、点开淘宝、翻到订单页、再找物流信息;
想关注一个博主,得手动打开抖音、搜索ID、点进主页、再点关注;
甚至只是“把微信里的截图发给张三”,都要反复切换App、长按、选择、粘贴……
这些操作,对人来说是几秒钟的事,但每天重复十几次,就是实实在在的时间消耗。
而Open-AutoGLM做的,就是让手机自己听懂你的话,然后——真的去做。
它不是另一个聊天机器人,也不是只能回答问题的AI。
它是能“看见”你手机屏幕、“理解”当前界面、“动手”点击滑动、“完成”整套任务的真·手机智能助理。
更关键的是:不需要写代码、不用配服务器、连安卓开发经验都不用,照着做就能跑起来。
这篇文章,就是为你写的——从完全没听过ADB,到让AI替你刷小红书、搜美团、点关注,全程零门槛。
1. 它到底能干什么?先看几个真实场景
别急着装环境,我们先看看它能做什么。这才是你决定要不要继续往下读的关键。
1.1 一句话,自动完成一整套操作
你输入:
“打开小红书,搜索‘上海咖啡探店’,点开第一个笔记,下滑三屏,截图保存”
它会自动:
连接你的手机
截取当前屏幕(识别界面状态)
判断小红书是否已安装/已打开
如果没开,就启动App;如果已开但不在首页,就返回首页
点击搜索框 → 输入文字 → 点击搜索
解析搜索结果页 → 找到第一个笔记卡片 → 点击进入
模拟手指下滑动作,连续三次
调用系统截图功能 → 保存到相册
整个过程无需你碰一下手机,指令发出后,它自己规划、自己执行、自己确认。
1.2 遇到验证码、登录页,它不瞎操作
它不是“无脑脚本”。当检测到以下界面时,会主动暂停并提醒你:
- 微信登录页(需要扫码或密码)
- 支付宝付款密码框
- AppStore更新弹窗
- 短信验证码输入框
这时它会说:“检测到登录界面,需人工确认。请完成验证后输入‘继续’。”
——安全不是口号,而是写进流程里的默认机制。
1.3 远程控制?WiFi连上就能用
不用USB线,只要手机和电脑在同一个WiFi下,就能远程操控:
- 你在公司电脑前,让家里的旧手机自动帮你抢演唱会门票
- 用MacBook控制放在桌上的安卓测试机,调试新App
- 给父母手机装好后,远程帮他们订挂号、查医保
它不依赖物理连接,只依赖网络可达性。
这已经不是“自动化工具”,而是你手机里多了一个看得见、听得懂、动得了的手。
2. 不用怕术语:三步搞懂它怎么工作
很多人看到“视觉语言模型”“ADB”“vLLM”就退缩。其实核心逻辑非常朴素,就像教一个细心又手巧的朋友做事:
2.1 第一步:让它“看见”屏幕(多模态感知)
它每5秒自动截一次屏(可调),把图片+当前任务指令一起交给AI模型。
这个模型不是纯文本模型,而是能同时看图、读字、理解布局的视觉语言模型。
比如你让它“点右上角三个点”,它会:
- 看图识别出哪是状态栏、哪是标题栏、哪是操作区
- 定位到右上角区域
- 找出那个“⋯”图标(哪怕图标样式因App版本不同而变化)
- 计算出精确点击坐标
不是靠死记硬背坐标,而是靠“理解”。
2.2 第二步:让它“想清楚”下一步(智能规划)
拿到截图和指令后,它不会直接点。而是先思考:
- 当前是什么App?什么页面?
- 我的目标是“搜索美食”,现在在桌面,第一步该干嘛?→ 启动小红书
- 小红书打开了,但没在首页,第二步该干嘛?→ 点底部“首页”Tab
- 搜索框在哪?第三步该干嘛?→ 点放大镜图标
这个“思考链”叫思维链规划(Chain-of-Thought Planning),它会生成一串可执行动作:[launch_app("xiaohongshu"), tap_tab("home"), tap_icon("search"), input_text("上海咖啡探店")]
2.3 第三步:让它“动手做”(ADB精准操控)
规划好后,就轮到ADB出场了。
ADB(Android Debug Bridge)是安卓官方提供的调试工具,就像手机的“USB遥控器”。
Open-AutoGLM用它来:
adb shell input tap x y→ 模拟点击adb shell input swipe x1 y1 x2 y2 duration→ 模拟滑动adb shell am start -n package/activity→ 启动Appadb shell input text "xxx"→ 输入文字(配合ADB Keyboard实现)
所有操作都通过命令行完成,稳定、精准、可复现。
这三步闭环——看→想→做——就是Open-AutoGLM最核心的能力。
你不需要懂模型怎么训练,只需要知道:它看得到、想得清、做得准。
3. 零基础部署:手把手带你连上第一台手机
现在,我们正式开始。全程在Windows或Mac上操作,不需要Linux基础,也不需要显卡。
3.1 准备三样东西(5分钟搞定)
| 项目 | 要求 | 怎么检查 |
|---|---|---|
| 一台安卓手机 | Android 7.0及以上(主流机型全支持) | 设置 → 关于手机 → 查看Android版本 |
| 一台电脑 | Windows 10+/macOS 12+ | 系统自带终端即可 |
| USB数据线(可选) | 用于首次连接,后续可用WiFi | 有就行 |
注意:这不是iOS方案,目前仅支持安卓。苹果设备因系统限制暂不支持。
3.2 手机端设置:开启“被控制权”(3分钟)
这是最关键的一步,但非常简单:
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试”开关
(如果找不到“开发者选项”,先去“关于手机”点版本号)安装ADB Keyboard(让AI能打字)
- 去GitHub Releases下载 ADBKeyboard.apk
- 用手机浏览器打开下载链接 → 安装APK
- 设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
做完这三步,手机就准备好“听指挥”了。
3.3 电脑端配置:装好“指挥官”(10分钟)
第一步:安装ADB工具(一次配置,永久可用)
Windows用户:
下载 platform-tools → 解压到C:\adb
右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb
打开CMD,输入adb version,看到版本号即成功。Mac用户:
打开终端,运行:curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools" echo 'export PATH="$PATH:$(pwd)/platform-tools"' >> ~/.zshrc source ~/.zshrc adb version
第二步:连接手机(USB or WiFi)
USB连接(推荐新手):
用数据线连手机和电脑 → 手机弹出“允许USB调试吗?”→ 勾选“始终允许”→点确定
电脑终端输入:adb devices如果看到一串字母数字(如
ce123456789abcde device),说明连接成功WiFi连接(进阶用):
先用USB连上,运行:adb tcpip 5555断开USB,连同一WiFi,查手机IP(设置→关于手机→状态→IP地址),然后:
adb connect 192.168.1.100:5555成功后,
adb devices会显示192.168.1.100:5555 device
3.4 运行AI助理:一句话启动(2分钟)
现在,你只需要做三件事:
克隆代码(复制粘贴即可):
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .启动本地模型服务(可选)
如果你不想自己搭云服务,可以用Hugging Face免费空间跑轻量模型:
直接访问 AutoGLM-Phone-9B on Hugging Face Spaces
点“Launch Space”,等加载完,复制右上角的API地址(形如https://zai-org-autoglm-phone-9b.hf.space/v1)下达第一条指令:
在Open-AutoGLM目录下,运行:python main.py \ --device-id ce123456789abcde \ --base-url https://zai-org-autoglm-phone-9b.hf.space/v1 \ "打开微信,找到文件传输助手,发送'你好,AI已上线'"
替换--device-id为你自己的设备ID(adb devices看到的那个),回车——
几秒后,你会亲眼看到:微信自动打开 → 搜索“文件传输助手” → 点击进入 → 输入文字 → 点击发送。
你刚刚,用一句话,唤醒了一个能动手的AI。
4. 实用技巧:让AI更听话、更省心
刚跑通只是开始。下面这些技巧,能让你真正用起来、用得顺、用得久。
4.1 指令怎么写才好使?记住这三条
说清楚目标,不说过程
好:“打开高德地图,导航去北京南站”
差:“先点图标,再点搜索框,再输‘北京南站’,再点导航”
→ AI自己会规划步骤,你只需告诉它“要什么”。用日常说法,别翻译成技术词
好:“把这张截图发给李四”
差:“将/sdcard/Pictures/Screenshots/IMG_20240501.png通过微信分享给联系人‘李四’”
→ 它能自动识别相册最新截图,也能从通讯录找到“李四”。加一点上下文,效果翻倍
好:“我在小红书首页,帮我搜‘露营装备推荐’,点第一个笔记”
差:“搜‘露营装备推荐’”
→ 告诉它当前状态,能大幅减少误判。
4.2 遇到问题?先查这三个地方
| 现象 | 最可能原因 | 快速解决 |
|---|---|---|
adb devices显示unauthorized | 手机没点“允许USB调试” | 断开重连,手机弹窗点“允许” |
| 指令执行一半卡住 | 界面跳转太快,AI没识别到新页面 | 加--delay 2参数,每步多等2秒 |
| 输入文字乱码/不出现 | ADB Keyboard没设为默认输入法 | 手机设置→语言与输入法→切换为ADB Keyboard |
4.3 想批量处理?试试Python API
如果你需要让AI每天定时执行任务(比如早8点自动查天气、晚9点发日报),用代码更稳:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置你的模型服务地址(用Hugging Face Space或自建) model_config = ModelConfig( base_url="https://zai-org-autoglm-phone-9b.hf.space/v1", model_name="autoglm-phone-9b", ) agent = PhoneAgent(model_config=model_config) # 一次性执行多个任务 tasks = [ "打开墨迹天气,截图今日预报", "打开钉钉,打卡上班", "打开网易云,播放我的每日推荐" ] for task in tasks: print(f"正在执行:{task}") result = agent.run(task, timeout=120) # 最多等120秒 print(f"结果:{result['status']}")这段代码可以保存为daily_task.py,用系统定时任务(Windows任务计划程序 / macOS launchd)每天自动运行。
5. 它适合谁?以及,它不适合谁?
Open-AutoGLM不是万能神器,认清它的边界,才能用得安心、高效。
5.1 适合这些朋友:
- 效率控:每天重复操作超过5次,愿意花30分钟配置,换回每周2小时
- 非技术用户:会用微信、会装App,但不想学Python或Linux命令
- 测试/运营人员:需要频繁在多台手机上验证App流程
- 长辈关怀者:给父母手机装好,远程帮他们挂号、查社保、看视频
- 开发者起点:想基于它二次开发专属Agent,而不是从零造轮子
5.2 暂时不推荐这些场景:
- 金融级安全操作:如大额转账、修改支付密码——它会主动拦截并要求人工接管
- 游戏自动化:复杂动态界面(如王者荣耀团战)识别率有限,不保证100%准确
- iOS设备:苹果系统限制严格,目前无官方支持方案
- 离线使用:必须联网调用模型服务(本地部署需GPU,不推荐小白尝试)
它不是一个取代人类的“超级AI”,而是一个可靠、可控、可解释的数字助手。
它的价值,不在于多聪明,而在于——你说了算,它照做,错了能停,关键时有人兜底。
6. 总结:你已经拥有了一个手机里的“隐形同事”
回顾一下,你今天学会了:
- 看懂Open-AutoGLM的核心能力:看屏幕 + 想步骤 + 动手做
- 亲手连上自己的安卓手机,不用一行代码,不用编译环境
- 用一句大白话,让AI自动完成多步操作,从打开App到发送消息
- 掌握实用技巧:怎么写好指令、怎么排查问题、怎么批量执行
- 清楚知道它能做什么、不能做什么,用得放心、不盲目期待
它不神秘,也不遥远。
它就藏在你手机屏幕背后,等着你下一句:“嘿,帮我……”
而你,已经拿到了那把钥匙。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。