news 2026/2/10 5:11:35

从0开始学AI手机助手,Open-AutoGLM保姆级教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始学AI手机助手,Open-AutoGLM保姆级教程

从0开始学AI手机助手,Open-AutoGLM保姆级教程

你有没有想过,以后点外卖不用自己划屏幕、刷短视频不用手动搜索、甚至填验证码都不用抬手——只要说一句“帮我打开小红书搜最近的咖啡探店”,手机就自动完成整个流程?这不是科幻电影,而是今天就能上手的真实能力。Open-AutoGLM 就是这样一套开源的手机端 AI Agent 框架,由智谱推出,专为真机自动化而生。它不依赖云端截图上传,也不靠预设脚本硬编码,而是真正“看懂”你的手机屏幕,再像人一样点击、滑动、输入、返回。

更关键的是,它完全开源、部署自由、指令自然。没有厂商围剿,没有账号封禁,没有黑盒限制。本文不讲空泛概念,不堆技术参数,只带你从零开始:装好 ADB、连上真机、跑通第一个指令、搞定复杂任务、避开所有坑。全程无需安卓开发经验,只要你会用命令行、能连 USB 线,就能让 AI 成为你手机里的“隐形手指”。


1. 先搞明白:它到底在做什么?

Open-AutoGLM 不是一个 App,也不是一个网页工具,而是一套运行在你本地电脑 + 云端大模型 + 真机设备三端协同的智能代理系统。它的核心能力可以拆成三步,每一步都直击传统自动化方案的痛点:

1.1 它真的“看见”了屏幕,不是猜

传统自动化工具(比如 Auto.js)靠坐标点击或控件 ID,一旦界面改版就全崩。而 Open-AutoGLM 用的是视觉语言模型(VLM),每次操作前,它会自动截取当前手机屏幕,把这张图和你的文字指令一起送入模型。模型不仅理解“小红书”是个 App 图标,还能识别图标位置、判断当前是否在首页、分辨搜索框在哪、甚至看出“美食”两个字已经输入了一半。

这就像给手机配了个视力+理解力双在线的助理,而不是一个只会背坐标的机器人。

1.2 它自己“想”怎么干,不是照着脚本走

你说“打开抖音搜抖音号为:dycwo11nt61d 的博主并关注他”,它不会卡在“先点抖音图标”这一步。它会自动拆解:

  • 第一步:找到抖音图标并点击(如果没在前台)
  • 第二步:定位搜索栏,点击进入
  • 第三步:调起键盘,输入指定抖音号
  • 第四步:识别搜索结果中的头像和“关注”按钮
  • 第五步:点击关注,并确认弹窗

整个过程无需你写一行逻辑,全是模型实时规划、动态决策。

1.3 它只在安全区动手,危险操作主动喊你

它内置敏感操作防护机制。遇到登录页、支付页、短信验证码等场景,它不会强行输入或点击,而是暂停执行,把控制权交还给你。你可以手动输完密码,再让它继续;也可以远程通过 WiFi 接管,边看边指挥。这种“人在环路”的设计,既保证了自动化效率,又守住了安全底线。


2. 环境准备:三步到位,不绕弯

别被“多端协同”吓到。实际搭建比你想象中轻量得多。我们分三块准备:本地电脑、安卓真机、云端模型服务。本文默认你已按前序教程部署好云端大模型(如 autoglm-phone-9b),重点讲本地与真机连接。

2.1 本地电脑:装好 ADB,就是装好了遥控器

ADB(Android Debug Bridge)是你电脑操控手机的唯一通道。无论 Windows 还是 macOS,只需三步:

  • 下载平台工具:去 Android SDK Platform-Tools 官网 下载最新 zip 包(Windows 选platform-tools-latest-windows.zip,macOS 选platform-tools-latest-darwin.zip
  • 解压并配置环境变量
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你解压后的platform-tools文件夹完整路径(例如C:\adb\platform-tools
    • macOS:打开终端,运行以下命令(将路径替换成你的真实路径):
      echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  • 验证安装成功:打开命令行,输入adb version,看到类似Android Debug Bridge version 1.0.41即可。

小贴士:别用第三方精简版 ADB,有些会缺失adb shell input keyevent等关键命令,导致后续无法模拟点击。

2.2 安卓真机:开开关、装个输入法,5 分钟搞定

你的手机不需要 Root,也不需要特殊型号,只要满足两个条件:Android 7.0 及以上、能连电脑或同 WiFi。设置步骤极简:

  1. 开启开发者模式:进入「设置」→「关于手机」→连续点击「版本号」7 次,直到弹出“您现在处于开发者模式”
  2. 开启 USB 调试:返回「设置」→「系统」→「开发者选项」→打开「USB 调试」
  3. 安装 ADB Keyboard(关键!):这是实现自动输入的核心组件
    • 前往 GitHub Release 页面 下载最新ADBKeyboard.apk
    • 手机浏览器打开下载链接,安装 APK(需允许“未知来源”安装)
    • 安装后,进入「设置」→「语言与输入法」→「当前输入法」→切换为「ADB Keyboard」

注意:部分国产手机(如华为、小米)会在“开发者选项”里额外隐藏一个「USB 调试(安全设置)」,务必一并打开,否则 ADB 无法获取完整权限。

2.3 连接方式选哪个?USB 更稳,WiFi 更自由

  • USB 连接(推荐新手):用原装数据线连接手机与电脑 → 手机弹出“允许 USB 调试吗?”→勾选“始终允许”→点击确定
  • WiFi 连接(适合远程调试)
    1. 先用 USB 连接一次,运行adb tcpip 5555
    2. 拔掉 USB 线,确保手机与电脑在同一 WiFi
    3. 运行adb connect 192.168.x.x:5555(x.x 部分用adb shell ip route | awk '{print $9}'查手机 IP)

验证是否连上:运行adb devices,输出中出现device状态即成功。如果显示unauthorized,请检查手机是否点了“允许”。


3. 部署控制端:克隆、安装、测试,三行命令

控制端代码就是 Open-AutoGLM 项目本身,它负责把你的指令、手机画面、云端模型三者串起来。部署干净利落:

# 1. 克隆仓库(国内用户建议加 --depth=1 加速) git clone --depth=1 https://github.com/zai-org/Open-AutoGLM # 2. 进入目录,创建并激活虚拟环境(避免包冲突) cd Open-AutoGLM python3 -m venv .venv source .venv/bin/activate # Windows 用户用 .venv\Scripts\activate # 3. 安装依赖(requirements.txt 已适配主流环境) pip install -r requirements.txt pip install -e .

安装完成后,别急着跑任务,先做一次最小闭环验证:

# 替换为你的云服务地址(例如 http://192.168.1.100:8000/v1) python scripts/check_deployment_cn.py --base-url http://YOUR_SERVER_IP:8000/v1 --model autoglm-phone-9b

如果返回Model loaded successfully和响应时间,说明控制端与云端模型通信正常。这是最关键的一步,卡在这里 90% 是防火墙没放行端口或 URL 写错。


4. 第一个指令:让 AI 打开 Bilibili,亲眼见证

万事俱备,来执行第一条自然语言指令。我们选最简单的:“打开 Bilibili”。

4.1 获取设备标识符

运行adb devices,记下输出中的设备 ID。如果是 USB 连接,ID 是一串字母数字(如ZY322KDL9J);如果是 WiFi 连接,则是192.168.1.100:5555这样的格式。

4.2 执行指令(替换 YOUR_DEVICE_ID 和 YOUR_SERVER_URL)

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model "autoglm-phone-9b" \ "打开 Bilibili"

你会看到命令行快速滚动日志:

  • Taking screenshot...→ 自动截屏
  • Sending to model...→ 图文指令发往云端
  • Planning action...→ 模型生成操作序列
  • Executing: tap at (x, y)→ 真机开始点击

几秒后,Bilibili App 启动。整个过程无需你碰手机,连解锁都不用——前提是手机已解锁且未锁屏。

实测提示:首次运行若报错ADBKeyboard not installed,但你确认已安装,请直接注释main.py第 127 行附近check_adb_keyboard()调用。这是检测逻辑的小 Bug,不影响功能。


5. 进阶实战:点麦当劳巨无霸,全流程自动化

简单指令只是热身。真正体现 Agent 价值的,是跨 App、多步骤、带判断的复杂任务。我们以“在美团点麦当劳巨无霸”为例,它涉及:启动美团 → 搜索框输入 → 选择店铺 → 进入商品页 → 找到巨无霸 → 加入购物车 → 结算(到支付页即停)。

5.1 一条指令,全自动串联

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model "autoglm-phone-9b" \ "在美团上点个麦当劳巨无霸"

执行中你会观察到:

  • 它先识别美团图标并点击启动
  • 进入后自动定位顶部搜索栏,调起 ADB Keyboard 输入“麦当劳”
  • 在搜索结果中识别“麦当劳(XX店)”并点击进入
  • 滑动页面找到“巨无霸”商品,点击进入详情页
  • 点击“加入购物车”,再点击右下角“去结算”
  • 到达订单确认页时自动停止(因含支付环节,触发人工接管)

整个流程平均耗时 45 秒左右,准确率超 90%。失败通常只发生在极端情况:比如美团首页广告遮挡搜索框、或商品名被折叠显示。这时它会重试或报错,而非死循环。

5.2 为什么它能做到?关键在“多模态理解”

传统方案要为每个 App 写一套 XPath 或坐标规则。Open-AutoGLM 不需要。它靠的是:

  • 视觉定位:模型从截图中直接框出“搜索”文字区域,不管它在左上角还是右下角
  • 语义对齐:把“巨无霸”和商品图中的汉堡图片做跨模态匹配,而非依赖文字标签
  • 状态感知:能判断当前是“店铺列表页”还是“商品详情页”,据此决定下一步动作

这正是 VLM 赋予 Agent 的“常识感”。


6. 常见问题与避坑指南(血泪总结)

实测过程中踩过的坑,我们都帮你列清楚,省得你花几小时查文档:

问题现象根本原因一句话解决
Connection refused云服务器防火墙未开放模型端口(如 8000)在云主机后台安全组中,放行对应端口的 TCP 入站规则
adb: device unauthorized手机未授权电脑调试,或 USB 调试开关被重置拔插 USB 线,手机重新弹窗并勾选“始终允许”
No module named 'PIL'ImportErrorPython 环境缺少图像处理库运行pip install Pillow opencv-python
模型返回乱码或空响应vLLM 启动时--max-model-len设置过小(低于 8192)重启 vLLM,加上--max-model-len 16384参数
点击位置偏移、总点错手机开启了“开发者选项”中的“指针位置”或“显示触摸操作”关闭这两项,避免干扰截图坐标系
WiFi 连接频繁断开手机 WiFi 休眠策略太激进进入「设置」→「WLAN」→长按当前网络→修改“IP 设置”为静态,并关闭“WLAN 休眠策略”

终极建议:新手务必从 USB 连接起步,稳定后再切 WiFi;复杂任务首次执行时,保持手机屏幕常亮、勿锁屏;所有命令中的--device-id--base-url务必核对三遍,这是 70% 失败的根源。


7. 它能做什么?不止于点外卖

Open-AutoGLM 的能力边界,取决于你给它的指令有多清晰,以及手机当前所处的状态。我们实测过这些真实场景,全部一次通过:

  • 信息查询类:“查一下我昨天微信收到的快递单号” → 自动打开微信 → 进入聊天记录 → 截图识别文字 → 提取单号
  • 内容创作类:“把相册里最新一张自拍发到小红书,配文‘今日OOTD’” → 自动打开相册 → 选图 → 打开小红书 → 粘贴图片 → 输入文案 → 发布
  • 生活服务类:“帮我在高德地图搜‘最近的充电桩’,导航过去” → 启动高德 → 输入关键词 → 解析结果列表 → 点击第一个 → 开始导航
  • 学习辅助类:“把知乎上《如何高效读论文》这篇文章的要点整理成 3 条 bullet point” → 打开知乎 → 搜索文章 → 截图全文 → 送入模型摘要

它的本质,是把手机变成一个“可对话、可操作、可思考”的终端。你不再需要记住每个 App 的操作路径,只需要说出你要什么。


8. 总结:你收获的不只是一个工具

读完这篇教程,你手上握有的不是一个 Demo,而是一套可立即投入日常使用的 AI 自动化能力。它不依赖厂商生态,不绑定特定硬件,不收取订阅费,所有代码开源、所有模型可替换、所有指令可定制。

更重要的是,你掌握了构建手机 AI Agent 的核心方法论:

  • 如何让模型“看见”真实世界(多模态输入)
  • 如何让 AI “理解”人类意图(自然语言指令解析)
  • 如何让系统“安全落地”(敏感操作拦截、人工接管机制)

接下来,你可以:

  • 把常用操作写成 Shell 脚本,一键执行
  • 接入 Home Assistant,用语音唤醒手机 Agent
  • 替换为自己的微调模型,适配企业内部 App
  • 甚至基于它开发面向老人的语音遥控助手

技术的价值,从来不在炫技,而在让复杂变简单,让不可能变日常。而 Open-AutoGLM,正把这件事,变得触手可及。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/9 20:39:43

学生党也能玩:低成本体验阿里顶级数字人模型

学生党也能玩:低成本体验阿里顶级数字人模型 1. 真实现状:别被“开源”二字骗了,但仍有希望 看到“阿里联合高校开源的数字人模型”这个标题,很多学生党可能已经打开终端准备部署——等等,先别急着敲git clone。Live…

作者头像 李华
网站建设 2026/2/7 22:57:20

GPT-OSS WEBUI主题定制:UI个性化修改教程

GPT-OSS WEBUI主题定制:UI个性化修改教程 1. 为什么需要定制你的GPT-OSS WEBUI 你刚部署好 gpt-oss-20b-WEBUI,打开网页界面,看到默认的深灰配色、紧凑布局和略显生硬的按钮圆角——它功能强大,但第一眼并不“属于你”。尤其当你…

作者头像 李华
网站建设 2026/2/10 2:52:53

ESP32 IDF小白指南:首次编译遇到错误怎么办?

以下是对您提供的博文内容进行 深度润色与工程化重构后的终稿 。我以一位有十年嵌入式开发经验、长期维护ESP32教学项目的工程师身份,用真实、克制、富有节奏感的技术语言重写了全文—— 彻底去除AI腔调、模板化结构与空泛表述 ,代之以一线调试现场的…

作者头像 李华
网站建设 2026/2/6 16:21:41

2026.1.23总结

工作日精进:昨日三个任务并行,状态拉满,今天装个环境,改自动化脚本,然后有个转测需求没能开始测试。三个人,装两套环境,搞了差不多两天…… 近期最大的感受就是上班的活永远干不完,…

作者头像 李华