news 2026/2/17 19:20:43

亲测Open-AutoGLM手机AI代理:一句话自动点外卖、刷抖音,效果太惊艳!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM手机AI代理:一句话自动点外卖、刷抖音,效果太惊艳!

亲测Open-AutoGLM手机AI代理:一句话自动点外卖、刷抖音,效果太惊艳!

摘要:这不是概念演示,而是我连续三天真实使用后的深度体验报告。从第一次成功让AI替我点完黄焖鸡米饭,到它自主完成抖音账号关注、小红书种草搜索、微信消息发送等17个任务,Open-AutoGLM展现出远超预期的稳定性和理解力。本文不讲原理堆砌,只说你最关心的三件事:它到底能不能用?用起来有多简单?哪些场景真能帮你省时间?


1. 这不是“又一个AI玩具”,而是真正能接管手机的智能体

1.1 我的真实使用场景还原

上周五晚上加班到九点,肚子咕咕叫。我打开电脑终端,输入一行命令:

python main.py --local --model ./autoglm-9b-4bit "打开美团外卖点一份黄焖鸡米饭,备注不要香菜,送到工位302"

接下来发生的事让我盯着屏幕看了整整两分钟——

  • 手机自动亮屏、解锁(已预设指纹)
  • 启动美团App,等待首页加载完成
  • 点击搜索框,准确输入“黄焖鸡米饭”
  • 在结果页滑动找到评分4.8分的那家店
  • 点击进入,选择“单人份”,勾选“不要香菜”
  • 填写地址“工位302”,确认下单
  • 最后弹出支付界面时,它停了下来,发来提示:“检测到支付操作,是否继续?(y/n)”

我敲下 y,付款成功。整个过程耗时2分47秒,中间没有一次卡死、误点或识别错误。这已经不是“能跑通”的Demo,而是具备生产环境可用性的工具。

1.2 它和普通语音助手有本质区别

很多人第一反应是:“这不就是升级版Siri?”
不。完全不是。

对比维度Siri / 小爱同学Open-AutoGLM 手机AI代理
控制粒度只能调用系统级API(打电话、设闹钟)能点击任意坐标、滑动任意区域、输入任意文字
界面理解不知道当前屏幕长什么样每步操作前都截图+解析UI结构+理解元素语义
任务链条单步指令(“发微信给张三”)多步规划(“打开微信→搜索张三→点开对话→输入‘会议改期’→发送”)
容错能力一步失败就中断自动重试、跳过不可见元素、请求人工接管关键节点

它不是在“调用功能”,而是在“操作界面”——就像一个坐在你旁边、手速极快、眼神极准的朋友,你只需要说一句人话,剩下的全交给他。

1.3 为什么这次开源项目值得认真对待?

因为智谱把三个最难的环节都做实了:

  • 视觉理解不靠猜:不是简单OCR,而是用多模态模型理解“这个蓝色按钮在右上角,它大概率是‘搜索’图标”
  • 动作执行不瞎点:所有Tap/Type/Swipe操作都基于UI树定位,不是固定坐标,换手机分辨率也不怕
  • 流程规划不硬编码:每条指令都走完整的“思考链”( … {…} ),可解释、可调试、可干预

这不是拼凑的PoC,而是工程化打磨过的Agent框架。


2. 零门槛上手:Mac用户15分钟完成全部部署

2.1 我的配置与真实耗时记录

步骤实际耗时关键提醒
安装Homebrew+pyenv3分钟如果已装过Python3.11,直接跳过
安装ADB工具30秒brew install android-platform-tools
手机开启开发者模式2分钟小米手机在“我的设备→全部参数”,华为在“关于手机→版本号连点7次”
安装ADB Keyboard1分钟必须手动在手机“语言与输入法”里启用它,否则中文输入会失败
克隆代码+装依赖5分钟pip install -r requirements.txt && pip install -e .
下载4-bit量化模型12分钟使用ModelScope国内源,比HuggingFace快3倍;20GB原始模型 → 6.5GB量化后模型

总计:不到15分钟,我已准备好第一条测试指令。

重要提醒:别用纯充电线!我第一次失败就是因为用了某品牌“仅充电”数据线,换了根带数据传输功能的线立刻成功。手机弹出授权窗口时,务必勾选“始终允许”。

2.2 一行命令启动你的AI助理

不需要改任何配置文件,不需要启动服务端,本地MLX推理直接开跑:

python main.py \ --local \ --model ./autoglm-9b-4bit \ --device-id ABCD1234567890 \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • --local:启用Mac本地推理(无需云服务器)
  • --model:指向你下载好的量化模型路径
  • --device-id:运行adb devices查看,格式如ABCD1234567890
  • 最后字符串:你的自然语言指令(支持中文,无需特殊语法)

它甚至能处理复杂指令中的嵌套信息
“打开小红书搜‘上海静安寺附近人均200以内适合约会的餐厅’,点开第一个笔记,截图保存到相册”——这条指令它完整执行了7步,包括识别“第一个笔记”对应的UI元素、长按唤出菜单、点击“保存图片”。


3. 实测12个高频生活场景,哪些真能落地?

3.1 美食外卖类(成功率100%)

指令示例实测表现
“打开饿了么点一份酸辣粉,加蛋,送到公司前台”准确识别“酸辣粉”关键词,自动勾选“加蛋”,地址栏智能填充预设地址
“打开美团搜‘瑞幸咖啡’,买一杯生椰拿铁外带”在搜索页精准点击“瑞幸咖啡”店铺,进入后快速定位“生椰拿铁”,选择“外带”规格
“打开大众点评找附近评分4.5以上的粤菜馆”自动切换到“附近”Tab,按评分排序,前三家全部符合要求

优势:对餐饮类App的UI结构理解极深,能区分“外卖”和“到店”,能识别“加料”“规格”“备注”等业务字段。

3.2 社交通讯类(成功率92%,2次需人工接管)

指令示例实测表现
“打开微信给李四发消息:明早9点会议室开会,别迟到”成功搜索联系人、进入聊天页、输入完整消息、点击发送
“打开QQ给文件传输助手发一张截图”自动唤出相册,但首次未识别“文件传输助手”为联系人,第二次重试成功
“打开钉钉搜索‘项目进度表’,在群聊里@所有人”准确进入搜索页,但“@所有人”需人工确认(安全机制,合理)

注意:涉及通讯录搜索时,若联系人昵称非常规(如“阿哲”“二狗”),首次可能匹配失败,建议加姓氏:“给王哲发消息”。

3.3 内容娱乐类(成功率85%,主要卡点在视频加载)

指令示例实测表现
“打开B站搜索‘Python入门教程’,播放第一个视频”成功搜索,但第一个视频是广告,它自动跳过,播放第二个真实教程视频
“打开抖音刷5个视频,遇到美食类就双击点赞”刷到第3个视频时因网络波动加载慢,自动等待5秒后继续,点赞动作精准执行
“打开小红书搜‘iPhone15拍照技巧’,收藏前3篇笔记”成功收藏,但第3篇因页面未完全渲染,它主动重试一次后完成

技巧:对视频类App,加时间限定更可靠——“刷30秒抖音”比“刷5个视频”成功率更高,因它能感知页面滚动节奏。

3.4 效率工具类(惊喜感最强)

指令示例实测表现
“打开WPS查看最近编辑的Excel文件,截图第1页发微信给老板”自动进入“最近”列表,识别Excel图标,点击打开,截图后唤起微信分享面板
“打开设置,把蓝牙和Wi-Fi都打开”精准定位系统设置里的开关,非固定坐标,适配不同安卓版本UI
“打开备忘录,新建一条:明天下午3点客户拜访,地点:陆家嘴中心”中文输入流畅,标点符号完整保留,日期“明天”被正确解析为实际日期

亮点:它能把“明天”“下周三”“30分钟后”这类相对时间词,自动转换为绝对时间,再填入对应App——这是普通自动化脚本做不到的。


4. 它不是万能的,但知道边界在哪才是真成熟

4.1 当前明确的限制(实测总结)

  • 金融类App强制接管:支付宝/银行App内截图会被系统拦截,它会立即弹出提示:“检测到安全敏感界面,请手动操作”,然后暂停等待。
  • 验证码场景需人工:登录新设备、修改密码等需要短信/图形验证码的步骤,它会停止并提示:“请手动输入验证码,完成后按回车”。
  • 复杂多窗口操作待优化:比如“在淘宝打开两个商品页,对比价格”,它目前只能顺序执行,无法并行管理多个Activity。
  • 小众App支持有限:对下载量低于10万的冷门应用,UI元素识别准确率下降约30%,建议优先用于微信、抖音、美团等TOP50 App。

4.2 但它把“人工接管”设计得非常友好

不是粗暴中断,而是提供三种优雅退出方式:

  1. 确认式接管:遇到支付、删除等高危操作,弹出“是否继续?(y/n)”,你敲y才执行;
  2. 等待式接管:遇到验证码,它暂停并显示“请手动完成,完成后按回车”,不抢夺焦点;
  3. 接管后自动续跑:你完成人工步骤后,它自动识别新界面状态,继续后续流程。

这比那些“一卡就崩”的自动化工具靠谱太多。


5. 进阶玩法:让AI助理变成你的私人工作流引擎

5.1 批量任务:把重复劳动交给它

我设置了每日晨间例行任务:

from phone_agent import PhoneAgent agent = PhoneAgent( model_config=ModelConfig(model_name="./autoglm-9b-4bit", is_local=True), agent_config=AgentConfig(max_steps=30, lang="cn") ) morning_tasks = [ "打开企业微信查看未读消息数", "打开钉钉检查今日审批待办", "打开飞书日历确认上午10点会议议程", "打开邮箱同步最新3封工作邮件标题" ] for task in morning_tasks: result = agent.run(task) print(f" {task} → {result}") agent.reset() # 清空状态,避免上下文干扰

每天早上喝咖啡时运行一次,5分钟生成日报摘要。

5.2 自定义敏感操作规则

针对我们团队的风控要求,我加了两条规则:

def custom_confirmation(message: str) -> bool: if "转账" in message or "支付" in message or "删除" in message: print(f"🚨 高风险操作:{message}") return False # 默认禁止,必须手动修改代码才能放行 return True def custom_takeover(message: str) -> None: if "验证码" in message: print(f" 验证码场景:{message}") # 自动发送钉钉消息提醒我 send_dingtalk_alert("手机AI代理请求人工接管验证码") agent = PhoneAgent( confirmation_callback=custom_confirmation, takeover_callback=custom_takeover )

5.3 WiFi无线控制:摆脱数据线束缚

家里WiFi稳定后,我彻底告别USB线:

# 1. 首次用USB连接,开启无线调试 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机IP可在设置→关于手机里查看) adb connect 192.168.31.123:5555 # 3. 直接运行(无需改代码) python main.py --local --model ./autoglm-9b-4bit --device-id 192.168.31.123:5555 "打开网易云听歌"

实测延迟<800ms,刷抖音完全无感知。现在我的MacBook合盖放在桌上,手机在客厅茶几,指令照样秒响应。


6. 性能实测:M1 Mac上的真实速度与资源占用

6.1 硬件环境与测试方法

  • 设备:MacBook Pro M1 (8核CPU/8核GPU/16GB统一内存)
  • 模型:AutoGLM-Phone-9B 4-bit量化版(6.5GB)
  • 手机:小米13(Android 14),USB直连
  • 测试任务:“打开抖音→搜索‘AI工具’→播放第一个视频→点赞→返回首页”,共6步操作

6.2 关键性能数据

环节平均耗时说明
截图获取0.7秒adb shell screencap -p速度极快
UI结构解析0.4秒adb shell uiautomator dump返回XML快
多模态推理14.2秒主要耗时环节,M1 GPU满载运行
ADB指令执行0.3秒Tap/Swipe/Type等命令几乎瞬时响应
单步总耗时15.6秒从截图到执行完动作,不含等待页面加载时间
整任务耗时1分52秒6步操作+3次页面加载等待,全程无人干预

6.3 内存与温度表现

  • 峰值内存占用:12.3GB(占16GB的77%),无OOM风险
  • 持续运行1小时:Mac表面温度38.2℃,风扇无噪音
  • 对比原始FP16模型:4-bit版本推理速度快2.8倍,内存占用降65%,精度损失可忽略(实测任务成功率仅降0.7%)

结论:16GB内存M1/M2 Mac完全够用,不必追求顶配。


7. 给不同角色的实用建议

7.1 给普通用户的3条黄金建议

  1. 从“点外卖”开始试:这是它最成熟的场景,成功率接近100%,建立信心最快;
  2. 指令越具体越好:不说“帮我买东西”,而说“打开拼多多搜‘罗技G304鼠标’,选黑色,加入购物车”;
  3. 善用“暂停”机制:首次运行时,在关键步骤(如支付前)加--verbose参数,看它每步在想什么,快速建立信任。

7.2 给开发者的2个深度价值点

  • 它是绝佳的Agent教学案例<think>标签里的推理链,比任何论文都直观展示“多模态Agent如何思考”;
  • 模块化设计便于二次开发phone_agent/perception//reasoning//execution/目录结构清晰,替换视觉模型或执行层只需改少量代码。

7.3 给企业IT的1个落地提醒

别急着全员推广。先在测试机上验证:

  • 是否兼容你们定制的MIUI/EMUI系统?
  • 是否满足内部App的UI规范?(可提供自定义UI元素标注工具)
  • 敏感操作白名单是否可配置?(当前支持代码级配置,后续将开放JSON配置)

8. 总结:它正在重新定义“手机自动化”的天花板

8.1 这不是终点,而是起点

Open-AutoGLM的价值,不在于它今天能做什么,而在于它证明了一条可行的技术路径:
以视觉语言模型为大脑,以ADB为手脚,以自然语言为指令,构建真正理解屏幕、理解任务、理解用户的手机AI代理。

它解决了过去十年手机自动化最大的痛点——不是“不能点”,而是“不知道该点哪”“点了之后下一步该干嘛”。现在,这个“知道”有了数学基础和工程实现。

8.2 我的下一步计划

  • 把它接入Home Assistant,实现“语音唤醒→AI执行”闭环;
  • 训练一个轻量版模型,专攻电商比价场景(当前通用模型在价格数字识别上还有提升空间);
  • 开发Chrome插件,让网页操作也能享受同等级别的自然语言控制。

技术终将回归人的需求。当一句“帮我点份晚饭”就能换来热腾腾的外卖,当“刷10分钟抖音放松一下”自动变成现实——这才是AI该有的样子:不炫技,不打扰,只在你需要时,安静而精准地出现。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/17 1:11:00

‌开发效率突破:AI辅助需求工程工具——软件测试从业者的转型指南

核心结论&#xff1a;AI正重构测试工作的起点——从“执行测试”到“驾驭需求”‌ 软件测试不再是从需求文档落地后的被动验证环节&#xff0c;而是成为需求工程的‌第一道智能防线‌。2025年&#xff0c;AI辅助需求工程工具已从概念验证走向规模化落地&#xff0c;测试工程师…

作者头像 李华
网站建设 2026/2/15 18:34:00

MICRONE微盟 ME3113AM6G SOT23-6 DC-DC电源芯片

特性输入电压范围&#xff1a;4.5V ~ 18V关断电流&#xff1a;8uA静态电流&#xff1a;120uA导通电阻&#xff1a;低侧50mΩ&#xff0c;高侧90mΩ开关频率&#xff1a;500kHz参考电压值&#xff1a;0.6V 2%逐周期限流保护&#xff1a;峰值限流5.5A&#xff0c;谷值限流3.3A输出…

作者头像 李华
网站建设 2026/2/8 7:12:57

基于python房源房屋买卖平台的设计与实现vue3

目录房源房屋买卖平台的设计与实现&#xff08;Python Vue3&#xff09;核心功能模块关键技术实现扩展功能示例部署与测试开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;房源房屋买卖平台的…

作者头像 李华
网站建设 2026/2/16 16:37:28

基于python的智慧物业报修服务系统vue3

目录 技术栈与架构设计核心功能模块关键技术实现部署与扩展 开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01; 技术栈与架构设计 前端框架&#xff1a;Vue 3&#xff08;Composition API&…

作者头像 李华
网站建设 2026/2/17 10:15:14

AI图像编辑新姿势!Qwen-Image-Layered真实体验分享

AI图像编辑新姿势&#xff01;Qwen-Image-Layered真实体验分享 1. 这不是又一个“修图工具”&#xff0c;而是一次图像编辑范式的切换 你有没有试过&#xff1a;想把一张合影里某个人的衬衫颜色换成蓝色&#xff0c;结果背景也泛蓝&#xff1b;想把海报上的文字替换成新文案&…

作者头像 李华
网站建设 2026/2/14 12:07:37

自媒体配图神器!Z-Image-Turbo一键生成吸睛封面

自媒体配图神器&#xff01;Z-Image-Turbo一键生成吸睛封面 1. 为什么自媒体人急需这台“配图印钞机” 你有没有过这样的深夜&#xff1a; 赶着发一条小红书笔记&#xff0c;文案写好了&#xff0c;发布时间卡在流量高峰前30分钟——可封面图还在反复重试。 输入“极简风咖啡…

作者头像 李华