小白也能懂的Open-AutoGLM：零基础搭建手机智能助理-育师

小白也能懂的Open-AutoGLM：零基础搭建手机智能助理

你有没有过这样的时刻——
想查个快递，却要先解锁手机、点开淘宝、翻到订单页、再找物流信息；
想关注一个博主，得手动打开抖音、搜索ID、点进主页、再点关注；
甚至只是“把微信里的截图发给张三”，都要反复切换App、长按、选择、粘贴……

这些操作，对人来说是几秒钟的事，但每天重复十几次，就是实实在在的时间消耗。
而Open-AutoGLM做的，就是让手机自己听懂你的话，然后——真的去做。

它不是另一个聊天机器人，也不是只能回答问题的AI。
它是能“看见”你手机屏幕、“理解”当前界面、“动手”点击滑动、“完成”整套任务的真·手机智能助理。
更关键的是：不需要写代码、不用配服务器、连安卓开发经验都不用，照着做就能跑起来。
这篇文章，就是为你写的——从完全没听过ADB，到让AI替你刷小红书、搜美团、点关注，全程零门槛。

1. 它到底能干什么？先看几个真实场景

别急着装环境，我们先看看它能做什么。这才是你决定要不要继续往下读的关键。

1.1 一句话，自动完成一整套操作

你输入：

“打开小红书，搜索‘上海咖啡探店’，点开第一个笔记，下滑三屏，截图保存”

它会自动：
连接你的手机
截取当前屏幕（识别界面状态）
判断小红书是否已安装/已打开
如果没开，就启动App；如果已开但不在首页，就返回首页
点击搜索框 → 输入文字 → 点击搜索
解析搜索结果页 → 找到第一个笔记卡片 → 点击进入
模拟手指下滑动作，连续三次
调用系统截图功能 → 保存到相册

整个过程无需你碰一下手机，指令发出后，它自己规划、自己执行、自己确认。

1.2 遇到验证码、登录页，它不瞎操作

它不是“无脑脚本”。当检测到以下界面时，会主动暂停并提醒你：

微信登录页（需要扫码或密码）
支付宝付款密码框
AppStore更新弹窗
短信验证码输入框

这时它会说：“检测到登录界面，需人工确认。请完成验证后输入‘继续’。”
——安全不是口号，而是写进流程里的默认机制。

1.3 远程控制？WiFi连上就能用

不用USB线，只要手机和电脑在同一个WiFi下，就能远程操控：

你在公司电脑前，让家里的旧手机自动帮你抢演唱会门票
用MacBook控制放在桌上的安卓测试机，调试新App
给父母手机装好后，远程帮他们订挂号、查医保

它不依赖物理连接，只依赖网络可达性。

这已经不是“自动化工具”，而是你手机里多了一个看得见、听得懂、动得了的手。

2. 不用怕术语：三步搞懂它怎么工作

很多人看到“视觉语言模型”“ADB”“vLLM”就退缩。其实核心逻辑非常朴素，就像教一个细心又手巧的朋友做事：

2.1 第一步：让它“看见”屏幕（多模态感知）

它每5秒自动截一次屏（可调），把图片+当前任务指令一起交给AI模型。
这个模型不是纯文本模型，而是能同时看图、读字、理解布局的视觉语言模型。
比如你让它“点右上角三个点”，它会：

看图识别出哪是状态栏、哪是标题栏、哪是操作区
定位到右上角区域
找出那个“⋯”图标（哪怕图标样式因App版本不同而变化）
计算出精确点击坐标

不是靠死记硬背坐标，而是靠“理解”。

2.2 第二步：让它“想清楚”下一步（智能规划）

拿到截图和指令后，它不会直接点。而是先思考：

当前是什么App？什么页面？
我的目标是“搜索美食”，现在在桌面，第一步该干嘛？→ 启动小红书
小红书打开了，但没在首页，第二步该干嘛？→ 点底部“首页”Tab
搜索框在哪？第三步该干嘛？→ 点放大镜图标

这个“思考链”叫思维链规划（Chain-of-Thought Planning），它会生成一串可执行动作：
[launch_app("xiaohongshu"), tap_tab("home"), tap_icon("search"), input_text("上海咖啡探店")]

2.3 第三步：让它“动手做”（ADB精准操控）

规划好后，就轮到ADB出场了。
ADB（Android Debug Bridge）是安卓官方提供的调试工具，就像手机的“USB遥控器”。
Open-AutoGLM用它来：

adb shell input tap x y→ 模拟点击
adb shell input swipe x1 y1 x2 y2 duration→ 模拟滑动
adb shell am start -n package/activity→ 启动App
adb shell input text "xxx"→ 输入文字（配合ADB Keyboard实现）

所有操作都通过命令行完成，稳定、精准、可复现。

这三步闭环——看→想→做——就是Open-AutoGLM最核心的能力。
你不需要懂模型怎么训练，只需要知道：它看得到、想得清、做得准。

3. 零基础部署：手把手带你连上第一台手机

现在，我们正式开始。全程在Windows或Mac上操作，不需要Linux基础，也不需要显卡。

3.1 准备三样东西（5分钟搞定）

项目	要求	怎么检查
一台安卓手机	Android 7.0及以上（主流机型全支持）	设置 → 关于手机 → 查看Android版本
一台电脑	Windows 10+/macOS 12+	系统自带终端即可
USB数据线（可选）	用于首次连接，后续可用WiFi	有就行

注意：这不是iOS方案，目前仅支持安卓。苹果设备因系统限制暂不支持。

3.2 手机端设置：开启“被控制权”（3分钟）

这是最关键的一步，但非常简单：

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者！”
开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试”开关
（如果找不到“开发者选项”，先去“关于手机”点版本号）
安装ADB Keyboard（让AI能打字）
- 去GitHub Releases下载 ADBKeyboard.apk
- 用手机浏览器打开下载链接 → 安装APK
- 设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”

做完这三步，手机就准备好“听指挥”了。

3.3 电脑端配置：装好“指挥官”（10分钟）

第一步：安装ADB工具（一次配置，永久可用）

Windows用户：
下载 platform-tools → 解压到C:\adb
右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb
打开CMD，输入adb version，看到版本号即成功。

Mac用户：
打开终端，运行：

curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools" echo 'export PATH="$PATH:$(pwd)/platform-tools"' >> ~/.zshrc source ~/.zshrc adb version

第二步：连接手机（USB or WiFi）

USB连接（推荐新手）：
用数据线连手机和电脑 → 手机弹出“允许USB调试吗？”→ 勾选“始终允许”→点确定
电脑终端输入：
```
adb devices
```
如果看到一串字母数字（如ce123456789abcde device），说明连接成功
WiFi连接（进阶用）：
先用USB连上，运行：
```
adb tcpip 5555
```
断开USB，连同一WiFi，查手机IP（设置→关于手机→状态→IP地址），然后：
```
adb connect 192.168.1.100:5555
```
成功后，adb devices会显示192.168.1.100:5555 device

3.4 运行AI助理：一句话启动（2分钟）

现在，你只需要做三件事：

克隆代码（复制粘贴即可）：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

启动本地模型服务（可选）
如果你不想自己搭云服务，可以用Hugging Face免费空间跑轻量模型：
直接访问 AutoGLM-Phone-9B on Hugging Face Spaces
点“Launch Space”，等加载完，复制右上角的API地址（形如https://zai-org-autoglm-phone-9b.hf.space/v1）

下达第一条指令：
在Open-AutoGLM目录下，运行：

python main.py \ --device-id ce123456789abcde \ --base-url https://zai-org-autoglm-phone-9b.hf.space/v1 \ "打开微信，找到文件传输助手，发送'你好，AI已上线'"

替换--device-id为你自己的设备ID（adb devices看到的那个），回车——
几秒后，你会亲眼看到：微信自动打开 → 搜索“文件传输助手” → 点击进入 → 输入文字 → 点击发送。

你刚刚，用一句话，唤醒了一个能动手的AI。

4. 实用技巧：让AI更听话、更省心

刚跑通只是开始。下面这些技巧，能让你真正用起来、用得顺、用得久。

4.1 指令怎么写才好使？记住这三条

说清楚目标，不说过程
好：“打开高德地图，导航去北京南站”
差：“先点图标，再点搜索框，再输‘北京南站’，再点导航”
→ AI自己会规划步骤，你只需告诉它“要什么”。
用日常说法，别翻译成技术词
好：“把这张截图发给李四”
差：“将/sdcard/Pictures/Screenshots/IMG_20240501.png通过微信分享给联系人‘李四’”
→ 它能自动识别相册最新截图，也能从通讯录找到“李四”。
加一点上下文，效果翻倍
好：“我在小红书首页，帮我搜‘露营装备推荐’，点第一个笔记”
差：“搜‘露营装备推荐’”
→ 告诉它当前状态，能大幅减少误判。

4.2 遇到问题？先查这三个地方

现象	最可能原因	快速解决
`adb devices`显示`unauthorized`	手机没点“允许USB调试”	断开重连，手机弹窗点“允许”
指令执行一半卡住	界面跳转太快，AI没识别到新页面	加`--delay 2`参数，每步多等2秒
输入文字乱码/不出现	ADB Keyboard没设为默认输入法	手机设置→语言与输入法→切换为ADB Keyboard

4.3 想批量处理？试试Python API

如果你需要让AI每天定时执行任务（比如早8点自动查天气、晚9点发日报），用代码更稳：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置你的模型服务地址（用Hugging Face Space或自建） model_config = ModelConfig( base_url="https://zai-org-autoglm-phone-9b.hf.space/v1", model_name="autoglm-phone-9b", ) agent = PhoneAgent(model_config=model_config) # 一次性执行多个任务 tasks = [ "打开墨迹天气，截图今日预报", "打开钉钉，打卡上班", "打开网易云，播放我的每日推荐" ] for task in tasks: print(f"正在执行：{task}") result = agent.run(task, timeout=120) # 最多等120秒 print(f"结果：{result['status']}")

这段代码可以保存为daily_task.py，用系统定时任务（Windows任务计划程序 / macOS launchd）每天自动运行。

5. 它适合谁？以及，它不适合谁？

Open-AutoGLM不是万能神器，认清它的边界，才能用得安心、高效。

5.1 适合这些朋友：

效率控：每天重复操作超过5次，愿意花30分钟配置，换回每周2小时
非技术用户：会用微信、会装App，但不想学Python或Linux命令
测试/运营人员：需要频繁在多台手机上验证App流程
长辈关怀者：给父母手机装好，远程帮他们挂号、查社保、看视频
开发者起点：想基于它二次开发专属Agent，而不是从零造轮子

5.2 暂时不推荐这些场景：

金融级安全操作：如大额转账、修改支付密码——它会主动拦截并要求人工接管
游戏自动化：复杂动态界面（如王者荣耀团战）识别率有限，不保证100%准确
iOS设备：苹果系统限制严格，目前无官方支持方案
离线使用：必须联网调用模型服务（本地部署需GPU，不推荐小白尝试）

它不是一个取代人类的“超级AI”，而是一个可靠、可控、可解释的数字助手。
它的价值，不在于多聪明，而在于——你说了算，它照做，错了能停，关键时有人兜底。

6. 总结：你已经拥有了一个手机里的“隐形同事”

回顾一下，你今天学会了：

看懂Open-AutoGLM的核心能力：看屏幕 + 想步骤 + 动手做
亲手连上自己的安卓手机，不用一行代码，不用编译环境
用一句大白话，让AI自动完成多步操作，从打开App到发送消息
掌握实用技巧：怎么写好指令、怎么排查问题、怎么批量执行
清楚知道它能做什么、不能做什么，用得放心、不盲目期待

它不神秘，也不遥远。
它就藏在你手机屏幕背后，等着你下一句：“嘿，帮我……”

而你，已经拿到了那把钥匙。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

小白也能懂的Open-AutoGLM：零基础搭建手机智能助理