亲测Open-AutoGLM手机AI代理:一句话自动点外卖、刷抖音,效果太惊艳!
摘要:这不是概念演示,而是我连续三天真实使用后的深度体验报告。从第一次成功让AI替我点完黄焖鸡米饭,到它自主完成抖音账号关注、小红书种草搜索、微信消息发送等17个任务,Open-AutoGLM展现出远超预期的稳定性和理解力。本文不讲原理堆砌,只说你最关心的三件事:它到底能不能用?用起来有多简单?哪些场景真能帮你省时间?
1. 这不是“又一个AI玩具”,而是真正能接管手机的智能体
1.1 我的真实使用场景还原
上周五晚上加班到九点,肚子咕咕叫。我打开电脑终端,输入一行命令:
python main.py --local --model ./autoglm-9b-4bit "打开美团外卖点一份黄焖鸡米饭,备注不要香菜,送到工位302"接下来发生的事让我盯着屏幕看了整整两分钟——
- 手机自动亮屏、解锁(已预设指纹)
- 启动美团App,等待首页加载完成
- 点击搜索框,准确输入“黄焖鸡米饭”
- 在结果页滑动找到评分4.8分的那家店
- 点击进入,选择“单人份”,勾选“不要香菜”
- 填写地址“工位302”,确认下单
- 最后弹出支付界面时,它停了下来,发来提示:“检测到支付操作,是否继续?(y/n)”
我敲下 y,付款成功。整个过程耗时2分47秒,中间没有一次卡死、误点或识别错误。这已经不是“能跑通”的Demo,而是具备生产环境可用性的工具。
1.2 它和普通语音助手有本质区别
很多人第一反应是:“这不就是升级版Siri?”
不。完全不是。
| 对比维度 | Siri / 小爱同学 | Open-AutoGLM 手机AI代理 |
|---|---|---|
| 控制粒度 | 只能调用系统级API(打电话、设闹钟) | 能点击任意坐标、滑动任意区域、输入任意文字 |
| 界面理解 | 不知道当前屏幕长什么样 | 每步操作前都截图+解析UI结构+理解元素语义 |
| 任务链条 | 单步指令(“发微信给张三”) | 多步规划(“打开微信→搜索张三→点开对话→输入‘会议改期’→发送”) |
| 容错能力 | 一步失败就中断 | 自动重试、跳过不可见元素、请求人工接管关键节点 |
它不是在“调用功能”,而是在“操作界面”——就像一个坐在你旁边、手速极快、眼神极准的朋友,你只需要说一句人话,剩下的全交给他。
1.3 为什么这次开源项目值得认真对待?
因为智谱把三个最难的环节都做实了:
- 视觉理解不靠猜:不是简单OCR,而是用多模态模型理解“这个蓝色按钮在右上角,它大概率是‘搜索’图标”
- 动作执行不瞎点:所有Tap/Type/Swipe操作都基于UI树定位,不是固定坐标,换手机分辨率也不怕
- 流程规划不硬编码:每条指令都走完整的“思考链”( … {…} ),可解释、可调试、可干预
这不是拼凑的PoC,而是工程化打磨过的Agent框架。
2. 零门槛上手:Mac用户15分钟完成全部部署
2.1 我的配置与真实耗时记录
| 步骤 | 实际耗时 | 关键提醒 |
|---|---|---|
| 安装Homebrew+pyenv | 3分钟 | 如果已装过Python3.11,直接跳过 |
| 安装ADB工具 | 30秒 | brew install android-platform-tools |
| 手机开启开发者模式 | 2分钟 | 小米手机在“我的设备→全部参数”,华为在“关于手机→版本号连点7次” |
| 安装ADB Keyboard | 1分钟 | 必须手动在手机“语言与输入法”里启用它,否则中文输入会失败 |
| 克隆代码+装依赖 | 5分钟 | pip install -r requirements.txt && pip install -e . |
| 下载4-bit量化模型 | 12分钟 | 使用ModelScope国内源,比HuggingFace快3倍;20GB原始模型 → 6.5GB量化后模型 |
总计:不到15分钟,我已准备好第一条测试指令。
重要提醒:别用纯充电线!我第一次失败就是因为用了某品牌“仅充电”数据线,换了根带数据传输功能的线立刻成功。手机弹出授权窗口时,务必勾选“始终允许”。
2.2 一行命令启动你的AI助理
不需要改任何配置文件,不需要启动服务端,本地MLX推理直接开跑:
python main.py \ --local \ --model ./autoglm-9b-4bit \ --device-id ABCD1234567890 \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"--local:启用Mac本地推理(无需云服务器)--model:指向你下载好的量化模型路径--device-id:运行adb devices查看,格式如ABCD1234567890- 最后字符串:你的自然语言指令(支持中文,无需特殊语法)
它甚至能处理复杂指令中的嵌套信息:
“打开小红书搜‘上海静安寺附近人均200以内适合约会的餐厅’,点开第一个笔记,截图保存到相册”——这条指令它完整执行了7步,包括识别“第一个笔记”对应的UI元素、长按唤出菜单、点击“保存图片”。
3. 实测12个高频生活场景,哪些真能落地?
3.1 美食外卖类(成功率100%)
| 指令示例 | 实测表现 |
|---|---|
| “打开饿了么点一份酸辣粉,加蛋,送到公司前台” | 准确识别“酸辣粉”关键词,自动勾选“加蛋”,地址栏智能填充预设地址 |
| “打开美团搜‘瑞幸咖啡’,买一杯生椰拿铁外带” | 在搜索页精准点击“瑞幸咖啡”店铺,进入后快速定位“生椰拿铁”,选择“外带”规格 |
| “打开大众点评找附近评分4.5以上的粤菜馆” | 自动切换到“附近”Tab,按评分排序,前三家全部符合要求 |
优势:对餐饮类App的UI结构理解极深,能区分“外卖”和“到店”,能识别“加料”“规格”“备注”等业务字段。
3.2 社交通讯类(成功率92%,2次需人工接管)
| 指令示例 | 实测表现 |
|---|---|
| “打开微信给李四发消息:明早9点会议室开会,别迟到” | 成功搜索联系人、进入聊天页、输入完整消息、点击发送 |
| “打开QQ给文件传输助手发一张截图” | 自动唤出相册,但首次未识别“文件传输助手”为联系人,第二次重试成功 |
| “打开钉钉搜索‘项目进度表’,在群聊里@所有人” | 准确进入搜索页,但“@所有人”需人工确认(安全机制,合理) |
注意:涉及通讯录搜索时,若联系人昵称非常规(如“阿哲”“二狗”),首次可能匹配失败,建议加姓氏:“给王哲发消息”。
3.3 内容娱乐类(成功率85%,主要卡点在视频加载)
| 指令示例 | 实测表现 |
|---|---|
| “打开B站搜索‘Python入门教程’,播放第一个视频” | 成功搜索,但第一个视频是广告,它自动跳过,播放第二个真实教程视频 |
| “打开抖音刷5个视频,遇到美食类就双击点赞” | 刷到第3个视频时因网络波动加载慢,自动等待5秒后继续,点赞动作精准执行 |
| “打开小红书搜‘iPhone15拍照技巧’,收藏前3篇笔记” | 成功收藏,但第3篇因页面未完全渲染,它主动重试一次后完成 |
技巧:对视频类App,加时间限定更可靠——“刷30秒抖音”比“刷5个视频”成功率更高,因它能感知页面滚动节奏。
3.4 效率工具类(惊喜感最强)
| 指令示例 | 实测表现 |
|---|---|
| “打开WPS查看最近编辑的Excel文件,截图第1页发微信给老板” | 自动进入“最近”列表,识别Excel图标,点击打开,截图后唤起微信分享面板 |
| “打开设置,把蓝牙和Wi-Fi都打开” | 精准定位系统设置里的开关,非固定坐标,适配不同安卓版本UI |
| “打开备忘录,新建一条:明天下午3点客户拜访,地点:陆家嘴中心” | 中文输入流畅,标点符号完整保留,日期“明天”被正确解析为实际日期 |
亮点:它能把“明天”“下周三”“30分钟后”这类相对时间词,自动转换为绝对时间,再填入对应App——这是普通自动化脚本做不到的。
4. 它不是万能的,但知道边界在哪才是真成熟
4.1 当前明确的限制(实测总结)
- 金融类App强制接管:支付宝/银行App内截图会被系统拦截,它会立即弹出提示:“检测到安全敏感界面,请手动操作”,然后暂停等待。
- 验证码场景需人工:登录新设备、修改密码等需要短信/图形验证码的步骤,它会停止并提示:“请手动输入验证码,完成后按回车”。
- 复杂多窗口操作待优化:比如“在淘宝打开两个商品页,对比价格”,它目前只能顺序执行,无法并行管理多个Activity。
- 小众App支持有限:对下载量低于10万的冷门应用,UI元素识别准确率下降约30%,建议优先用于微信、抖音、美团等TOP50 App。
4.2 但它把“人工接管”设计得非常友好
不是粗暴中断,而是提供三种优雅退出方式:
- 确认式接管:遇到支付、删除等高危操作,弹出“是否继续?(y/n)”,你敲y才执行;
- 等待式接管:遇到验证码,它暂停并显示“请手动完成,完成后按回车”,不抢夺焦点;
- 接管后自动续跑:你完成人工步骤后,它自动识别新界面状态,继续后续流程。
这比那些“一卡就崩”的自动化工具靠谱太多。
5. 进阶玩法:让AI助理变成你的私人工作流引擎
5.1 批量任务:把重复劳动交给它
我设置了每日晨间例行任务:
from phone_agent import PhoneAgent agent = PhoneAgent( model_config=ModelConfig(model_name="./autoglm-9b-4bit", is_local=True), agent_config=AgentConfig(max_steps=30, lang="cn") ) morning_tasks = [ "打开企业微信查看未读消息数", "打开钉钉检查今日审批待办", "打开飞书日历确认上午10点会议议程", "打开邮箱同步最新3封工作邮件标题" ] for task in morning_tasks: result = agent.run(task) print(f" {task} → {result}") agent.reset() # 清空状态,避免上下文干扰每天早上喝咖啡时运行一次,5分钟生成日报摘要。
5.2 自定义敏感操作规则
针对我们团队的风控要求,我加了两条规则:
def custom_confirmation(message: str) -> bool: if "转账" in message or "支付" in message or "删除" in message: print(f"🚨 高风险操作:{message}") return False # 默认禁止,必须手动修改代码才能放行 return True def custom_takeover(message: str) -> None: if "验证码" in message: print(f" 验证码场景:{message}") # 自动发送钉钉消息提醒我 send_dingtalk_alert("手机AI代理请求人工接管验证码") agent = PhoneAgent( confirmation_callback=custom_confirmation, takeover_callback=custom_takeover )5.3 WiFi无线控制:摆脱数据线束缚
家里WiFi稳定后,我彻底告别USB线:
# 1. 首次用USB连接,开启无线调试 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机IP可在设置→关于手机里查看) adb connect 192.168.31.123:5555 # 3. 直接运行(无需改代码) python main.py --local --model ./autoglm-9b-4bit --device-id 192.168.31.123:5555 "打开网易云听歌"实测延迟<800ms,刷抖音完全无感知。现在我的MacBook合盖放在桌上,手机在客厅茶几,指令照样秒响应。
6. 性能实测:M1 Mac上的真实速度与资源占用
6.1 硬件环境与测试方法
- 设备:MacBook Pro M1 (8核CPU/8核GPU/16GB统一内存)
- 模型:AutoGLM-Phone-9B 4-bit量化版(6.5GB)
- 手机:小米13(Android 14),USB直连
- 测试任务:“打开抖音→搜索‘AI工具’→播放第一个视频→点赞→返回首页”,共6步操作
6.2 关键性能数据
| 环节 | 平均耗时 | 说明 |
|---|---|---|
| 截图获取 | 0.7秒 | adb shell screencap -p速度极快 |
| UI结构解析 | 0.4秒 | adb shell uiautomator dump返回XML快 |
| 多模态推理 | 14.2秒 | 主要耗时环节,M1 GPU满载运行 |
| ADB指令执行 | 0.3秒 | Tap/Swipe/Type等命令几乎瞬时响应 |
| 单步总耗时 | 15.6秒 | 从截图到执行完动作,不含等待页面加载时间 |
| 整任务耗时 | 1分52秒 | 6步操作+3次页面加载等待,全程无人干预 |
6.3 内存与温度表现
- 峰值内存占用:12.3GB(占16GB的77%),无OOM风险
- 持续运行1小时:Mac表面温度38.2℃,风扇无噪音
- 对比原始FP16模型:4-bit版本推理速度快2.8倍,内存占用降65%,精度损失可忽略(实测任务成功率仅降0.7%)
结论:16GB内存M1/M2 Mac完全够用,不必追求顶配。
7. 给不同角色的实用建议
7.1 给普通用户的3条黄金建议
- 从“点外卖”开始试:这是它最成熟的场景,成功率接近100%,建立信心最快;
- 指令越具体越好:不说“帮我买东西”,而说“打开拼多多搜‘罗技G304鼠标’,选黑色,加入购物车”;
- 善用“暂停”机制:首次运行时,在关键步骤(如支付前)加
--verbose参数,看它每步在想什么,快速建立信任。
7.2 给开发者的2个深度价值点
- 它是绝佳的Agent教学案例:
<think>标签里的推理链,比任何论文都直观展示“多模态Agent如何思考”; - 模块化设计便于二次开发:
phone_agent/perception/、/reasoning/、/execution/目录结构清晰,替换视觉模型或执行层只需改少量代码。
7.3 给企业IT的1个落地提醒
别急着全员推广。先在测试机上验证:
- 是否兼容你们定制的MIUI/EMUI系统?
- 是否满足内部App的UI规范?(可提供自定义UI元素标注工具)
- 敏感操作白名单是否可配置?(当前支持代码级配置,后续将开放JSON配置)
8. 总结:它正在重新定义“手机自动化”的天花板
8.1 这不是终点,而是起点
Open-AutoGLM的价值,不在于它今天能做什么,而在于它证明了一条可行的技术路径:
以视觉语言模型为大脑,以ADB为手脚,以自然语言为指令,构建真正理解屏幕、理解任务、理解用户的手机AI代理。
它解决了过去十年手机自动化最大的痛点——不是“不能点”,而是“不知道该点哪”“点了之后下一步该干嘛”。现在,这个“知道”有了数学基础和工程实现。
8.2 我的下一步计划
- 把它接入Home Assistant,实现“语音唤醒→AI执行”闭环;
- 训练一个轻量版模型,专攻电商比价场景(当前通用模型在价格数字识别上还有提升空间);
- 开发Chrome插件,让网页操作也能享受同等级别的自然语言控制。
技术终将回归人的需求。当一句“帮我点份晚饭”就能换来热腾腾的外卖,当“刷10分钟抖音放松一下”自动变成现实——这才是AI该有的样子:不炫技,不打扰,只在你需要时,安静而精准地出现。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。