news 2026/3/11 17:59:47

Open-AutoGLM新手教程:图文详解每一步操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM新手教程:图文详解每一步操作

Open-AutoGLM新手教程:图文详解每一步操作

1. 引言:让AI帮你操作手机,只需一句话

你有没有想过,只要说一句“打开小红书搜美食”,手机就能自动完成打开App、输入关键词、点击搜索这一整套操作?这不再是科幻场景,而是Open-AutoGLM正在实现的现实。

Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架,名为AutoGLM-Phone。它结合视觉语言模型与 ADB(Android Debug Bridge)技术,能够“看懂”你的手机屏幕,并通过自然语言指令自动执行点击、滑动、输入等操作。无论是刷抖音、回消息,还是批量处理任务,它都能替你完成。

本文是一篇纯新手向的实操指南,从环境准备到成功运行第一条指令,手把手带你走完全部流程。不需要深度学习背景,也不需要复杂配置,只要你有一台安卓手机和一台电脑,就能立刻上手。


2. 系统原理简述:AI是如何“操控”手机的?

在开始操作前,先简单了解一下 AutoGLM-Phone 的工作原理,帮助你理解每一步的意义。

整个系统由三部分组成:

  1. 视觉理解模块:AI通过截图“看到”当前手机界面,识别出按钮、文字、布局。
  2. 意图与规划模块:根据你的自然语言指令(如“发朋友圈”),AI推理出需要执行的操作序列。
  3. 执行控制模块:通过 ADB 向手机发送点击、滑动、输入等指令,真正实现自动化。

整个过程就像一个“数字助手”坐在你旁边,看着你的手机,听你说话,然后替你动手操作。

关键提示:所有操作都基于 ADB 控制,因此必须开启 USB 调试,并确保设备连接正常。


3. 准备工作:软硬件与环境配置

3.1 硬件与系统要求

项目要求
电脑系统Windows 或 macOS
Python 版本建议 3.10+
手机设备Android 7.0 及以上版本
连接方式USB 数据线 或 WiFi(需在同一局域网)

3.2 安装 ADB 工具

ADB(Android Debug Bridge)是连接电脑与安卓设备的核心工具。你需要先下载并配置它。

Windows 用户
  1. 下载 Android SDK Platform Tools。
  2. 解压到任意目录,例如C:\platform-tools
  3. 配置环境变量:
    • Win + R,输入sysdm.cpl,打开“系统属性”。
    • 点击“高级” → “环境变量”。
    • 在“系统变量”中找到Path,点击“编辑” → “新建”。
    • 添加 ADB 解压路径(如C:\platform-tools)。
  4. 打开命令行,输入:
adb version

如果显示版本号,说明安装成功。

macOS 用户

打开终端,执行以下命令(假设解压到~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行命令添加到.zshrc.bash_profile中,避免每次重启终端都要重新设置。

验证安装:

adb version

4. 手机端设置:开启调试与输入法

4.1 开启开发者模式

  1. 打开手机“设置” → “关于手机”。
  2. 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

4.2 开启 USB 调试

  1. 返回“设置”主界面,进入“开发者选项”。
  2. 找到“USB 调试”,勾选启用。

⚠️ 注意:首次连接电脑时,手机会弹出“允许USB调试吗?”的提示,务必点击“允许”。

4.3 安装 ADB Keyboard(关键步骤)

为了让 AI 能够输入文字,你需要安装一个特殊的输入法:ADB Keyboard

  1. 下载 ADB Keyboard APK。
  2. 安装后,在“设置” → “语言与输入法” → “默认键盘”中,切换为ADB Keyboard

这样,AI 就可以通过 ADB 发送文本,实现自动打字。


5. 部署控制端代码:本地运行 Open-AutoGLM

现在我们来部署本地控制程序,它是连接你电脑和云端 AI 模型的桥梁。

5.1 克隆项目代码

打开终端或命令行,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

5.2 安装依赖

确保你已安装pip,然后运行:

pip install -r requirements.txt pip install -e .

如果遇到权限问题,可尝试加上--user参数,或使用虚拟环境。

安装完成后,你会看到phone_agent模块被成功注册,这是核心控制库。


6. 连接手机设备:USB 与 WiFi 两种方式

6.1 USB 连接(推荐新手使用)

  1. 使用数据线将手机连接电脑。
  2. 手机弹出“允许USB调试”时,点击“允许”。
  3. 在终端输入:
adb devices

你应该看到类似输出:

List of devices attached ABCDEF1234567890 device

其中ABCDEF1234567890就是你的设备 ID。

6.2 WiFi 远程连接(适合无线操作)

如果你不想一直插着线,可以用 WiFi 连接。

第一步:用 USB 启动 ADB over TCP/IP
adb tcpip 5555

这会启动 ADB 的网络模式,监听 5555 端口。

第二步:断开 USB,连接 WiFi

确保手机和电脑在同一 WiFi 下,查看手机 IP 地址(通常在“设置”→“WLAN”中)。

然后执行:

adb connect 192.168.x.x:5555

替换192.168.x.x为你的手机 IP。

再次运行adb devices,应该能看到设备以 IP 形式连接。


7. 启动 AI 代理:下达第一条指令

一切就绪,现在让我们让 AI 接管手机!

7.1 命令行方式运行

Open-AutoGLM项目根目录下,运行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<云服务器IP>:<端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:从adb devices获取的设备 ID 或 IP:5555
  • --base-url:云端 vLLM 服务的地址,格式为http://公网IP:端口/v1
  • --model:指定模型名称,目前为autoglm-phone-9b
  • 最后的字符串:你的自然语言指令

📌 示例:

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://43.139.23.45:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索‘秋季穿搭’并点赞前三篇笔记"

运行后,你会看到 AI 开始截图、分析界面、规划动作,并逐步执行点击、滑动、输入等操作。

7.2 Python API 方式调用(适合集成开发)

如果你希望将功能嵌入自己的程序,可以使用 Python API。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接设备(USB 或 WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP(用于远程连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这段代码可用于自动化检测设备、建立连接、获取信息,非常适合构建更复杂的控制逻辑。


8. 实际效果演示:AI如何一步步执行任务

以指令“打开小红书搜索‘美食探店’并收藏第一篇笔记”为例,AI 的执行流程如下:

  1. 截图获取当前界面:通过 ADB 截图,传给视觉模型。
  2. 识别界面元素:模型识别出“首页”、“搜索框”、“底部导航栏”等。
  3. 规划动作序列
    • 点击“搜索”图标
    • 输入“美食探店”
    • 点击“搜索”按钮
    • 滑动浏览结果
    • 点击第一篇笔记
    • 找到“收藏”图标并点击
  4. 逐条执行:通过 ADB 发送坐标点击或控件操作。
  5. 确认完成:返回“任务已完成”或“未找到目标”反馈。

整个过程无需人工干预,AI 会根据界面变化动态调整策略。


9. 常见问题与排查建议

9.1 设备无法连接

  • 现象adb devices无输出或显示unauthorized
  • 解决方法
    • 检查是否开启了“USB调试”
    • 重新插拔数据线,手机确认授权
    • 重启 ADB 服务:adb kill-server && adb start-server

9.2 AI 无响应或乱码

  • 现象:模型返回乱码、不执行操作
  • 可能原因
    • 云端 vLLM 服务未正确启动
    • max-model-len设置过小,导致上下文截断
    • 显存不足,模型加载失败
  • 检查项
    • 确认--base-url能正常访问
    • 查看 vLLM 启动日志是否有报错
    • 确保 GPU 显存足够(建议至少 24GB)

9.3 输入中文失败

  • 现象:搜索框无法输入中文
  • 原因:ADB Keyboard 未设为默认输入法
  • 解决:进入“设置”→“语言与输入法”,确认 ADB Keyboard 为默认键盘

9.4 WiFi 连接不稳定

  • 建议:优先使用 USB 连接进行调试,稳定后再切换 WiFi
  • 若必须用 WiFi,确保信号良好,避免路由器限速

10. 总结:你已经迈出了自动化第一步

恭喜你,完成了 Open-AutoGLM 的完整部署与首次运行!你现在拥有了一个能“看懂”手机屏幕、听懂你说话、并自动操作的 AI 助手。

回顾一下我们走过的步骤:

  1. 安装 ADB 并配置环境
  2. 手机开启开发者模式与 ADB Keyboard
  3. 克隆并安装 Open-AutoGLM 控制端
  4. 通过 USB 或 WiFi 连接设备
  5. 调用main.py执行自然语言指令

下一步,你可以尝试:

  • 更复杂的指令,如“登录微信并发送消息给张三”
  • 批量处理多个任务
  • 将其集成到自己的自动化脚本中

这个框架不仅是一个玩具,更是未来手机自动化的重要方向。随着多模态模型能力的提升,AI 操作手机将越来越像真人,甚至超越人类效率。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/11 18:48:07

如何用Z-Image生成双语文本?ComfyUI工作流部署教程

如何用Z-Image生成双语文本&#xff1f;ComfyUI工作流部署教程 1. 为什么这个模型值得关注&#xff1f; 你有没有遇到过这样的问题&#xff1a;想生成一张带中文文字的海报&#xff0c;结果AI把字写得歪歪扭扭&#xff0c;甚至直接乱码&#xff1f;或者好不容易生成了英文文案…

作者头像 李华
网站建设 2026/3/11 9:52:28

零配置本地HTTPS革命:mkcert深度实践指南

零配置本地HTTPS革命&#xff1a;mkcert深度实践指南 【免费下载链接】mkcert A simple zero-config tool to make locally trusted development certificates with any names youd like. 项目地址: https://gitcode.com/GitHub_Trending/mk/mkcert 引言&#xff1a;告别…

作者头像 李华
网站建设 2026/3/11 9:52:27

3D模型格式转换困境诊断与跨平台兼容解决方案

3D模型格式转换困境诊断与跨平台兼容解决方案 【免费下载链接】awesome-blender &#x1fa90; A curated list of awesome Blender addons, tools, tutorials; and 3D resources for everyone. 项目地址: https://gitcode.com/GitHub_Trending/aw/awesome-blender 深夜…

作者头像 李华
网站建设 2026/3/11 5:29:09

YOLOv10代码路径说明:/root/yolov10目录结构解析

YOLOv10代码路径说明&#xff1a;/root/yolov10目录结构解析 在目标检测领域&#xff0c;YOLO 系列一直以“快而准”著称。随着 YOLOv10 的发布&#xff0c;这一传统被进一步推向极致——它不仅实现了无 NMS&#xff08;非极大值抑制&#xff09;的端到端推理&#xff0c;还在…

作者头像 李华
网站建设 2026/3/12 1:18:22

Godot引擎RPG开发终极指南:如何从零构建完整回合制游戏

Godot引擎RPG开发终极指南&#xff1a;如何从零构建完整回合制游戏 【免费下载链接】godot-open-rpg Learn to create turn-based combat with this Open Source RPG demo ⚔ 项目地址: https://gitcode.com/gh_mirrors/go/godot-open-rpg 想要快速掌握Godot引擎开发技能…

作者头像 李华
网站建设 2026/3/10 15:24:33

快速修复电池管理系统:Open Battery Information终极指南

快速修复电池管理系统&#xff1a;Open Battery Information终极指南 【免费下载链接】open-battery-information 项目地址: https://gitcode.com/GitHub_Trending/op/open-battery-information 在现代电子设备中&#xff0c;电池管理系统&#xff08;BMS&#xff09;的…

作者头像 李华