news 2026/2/4 15:57:34

从0开始学Open-AutoGLM,快速搭建你的AI手机助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始学Open-AutoGLM,快速搭建你的AI手机助手

从0开始学Open-AutoGLM,快速搭建你的AI手机助手

你有没有想过,只要说一句话,手机就能自动帮你完成一系列操作?比如:“打开小红书搜美食”,然后它自己点开App、输入关键词、浏览结果——整个过程完全不需要你动手。这听起来像科幻片的场景,现在通过Open-AutoGLM已经可以实现了。

这是一个由智谱开源的手机端AI Agent框架,名为AutoGLM-Phone,它能“看懂”你的屏幕、“听懂”你的指令,并通过自动化操作替你点击、滑动、输入,真正实现“动口不动手”的智能体验。本文将带你从零开始,一步步部署并使用这个强大的AI手机助手,哪怕你是技术小白也能轻松上手。


1. Open-AutoGLM 是什么?为什么值得关注?

1.1 多模态理解 + 自动执行 = 真正的AI助理

传统的语音助手(如Siri、小爱同学)大多只能完成简单命令,比如“打电话给妈妈”或“设个闹钟”。但 Open-AutoGLM 不一样,它是基于视觉语言模型(VLM)构建的多模态AI代理,不仅能听懂你说的话,还能“看到”你手机屏幕上正在显示的内容。

这意味着它可以:

  • 分析当前界面有哪些按钮、文字、图标
  • 理解这些元素的功能和上下文关系
  • 规划出完成任务所需的点击、滑动、输入等操作序列
  • 通过 ADB(Android Debug Bridge)自动执行这些动作

举个例子:你说“登录我的微博账号”,它会先识别登录页面的用户名和密码输入框,再调用键盘输入信息,最后点击“登录”按钮——全程无需人工干预。

1.2 核心优势一览

特性说明
自然语言驱动用户只需用口语化指令描述需求,无需编写代码
视觉感知能力能实时截图分析屏幕内容,理解UI结构
自动流程规划内置推理引擎,可拆解复杂任务为具体操作步骤
安全机制完善敏感操作(如支付)支持人工确认,防止误操作
远程控制支持可通过WiFi连接设备,实现无线调试与操控

更厉害的是,它还支持在验证码、人脸识别等需要人工介入的环节暂停执行,等你处理完后再继续,真正做到“智能+可控”。


2. 准备工作:环境与设备配置

要让 Open-AutoGLM 正常运行,你需要准备三样东西:一台电脑、一部安卓手机、以及它们之间的通信桥梁 ADB。

2.1 硬件与软件要求

  • 本地电脑:Windows 或 macOS 系统均可
  • Python版本:建议 3.10 或更高
  • 安卓设备:Android 7.0 以上系统(真机或模拟器都行)
  • ADB工具:用于连接和控制手机的核心组件

2.2 安装并配置 ADB

ADB 是 Android SDK 的一部分,负责电脑与手机之间的通信。以下是安装方法:

Windows 用户
  1. 下载 Platform Tools 并解压。
  2. Win + R输入sysdm.cpl→ 高级 → 环境变量。
  3. 在“系统变量”中找到Path,点击编辑,添加 ADB 解压路径(例如C:\platform-tools)。
  4. 打开命令行输入adb version,如果显示版本号说明安装成功。
macOS 用户

在终端执行以下命令(假设文件解压到 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行加入.zshrc.bash_profile文件,避免每次都要重新设置。


3. 手机端设置:开启开发者权限

为了让电脑能够控制手机,必须开启几个关键权限。

3.1 开启开发者模式

进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已开启开发者选项”。

3.2 启用 USB 调试

返回设置主菜单 → “开发者选项” → 找到并勾选“USB调试”。

注意:不同品牌手机路径略有差异,请根据机型调整。

3.3 安装 ADB Keyboard(推荐)

这是个特殊的虚拟键盘,能让 AI 通过 ADB 发送文本输入,而不是依赖系统默认输入法。

  1. 下载 ADB Keyboard APK 并安装。
  2. 进入“语言与输入法”设置 → 将默认输入法切换为 ADB Keyboard。

这样 AI 就能自动填写账号密码、搜索关键词等内容了。


4. 部署 Open-AutoGLM 控制端

现在我们来部署本地控制程序,它是连接你和 AI 助手的桥梁。

4.1 克隆项目代码

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

确保已激活 Python 虚拟环境(推荐使用 venv),然后安装所需包:

pip install -r requirements.txt pip install -e .

提示:-e .表示以开发模式安装,方便后续修改源码。

安装完成后,你可以尝试导入模块验证是否成功:

from phone_agent.adb import ADBConnection print("环境配置成功!")

如果没有报错,说明一切就绪。


5. 连接手机设备:USB 与 WiFi 两种方式

Open-AutoGLM 支持有线和无线两种连接方式,各有优劣。

5.1 使用 USB 连接(稳定推荐)

  1. 用数据线将手机连上电脑。
  2. 手机弹出“允许USB调试?”对话框时,点击“确定”。
  3. 在终端运行:
adb devices

你应该能看到类似这样的输出:

List of devices attached ABCDEF1234567890 device

其中ABCDEF1234567890就是你的设备ID,后面会用到。

5.2 使用 WiFi 远程连接(灵活便捷)

如果你不想一直插着线,可以用 WiFi 连接。前提是手机和电脑在同一局域网下。

第一步:先用 USB 连接启用 TCP/IP 模式
adb tcpip 5555
第二步:断开 USB,通过 IP 地址连接

查看手机IP地址(通常在“设置→WLAN→已连接网络详情”中),然后执行:

adb connect 192.168.x.x:5555

替换192.168.x.x为实际IP。连接成功后,同样可用adb devices查看状态。

优点:摆脱线缆束缚,适合长期测试
❌ 缺点:网络不稳定可能导致掉线


6. 启动 AI 代理:让手机听你指挥

所有准备工作完成后,终于到了最激动人心的时刻——启动 AI 代理!

6.1 命令行方式运行任务

在项目根目录下执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:前面通过adb devices获取的设备ID
  • --base-url:你的云服务器地址和端口(需提前部署好 vLLM 服务)
  • --model:指定使用的模型名称
  • 最后的字符串:你要下达的自然语言指令

一旦运行,你会看到 AI 开始截图、分析界面、生成操作计划,并逐步执行点击动作。

6.2 Python API 方式集成(适合开发者)

如果你想把功能嵌入自己的应用,也可以用编程方式调用:

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(适用于动态网络) ip = conn.get_device_ip() print(f"设备当前IP: {ip}")

这种方式更适合做批量控制或多设备调度。


7. 实际效果演示:一个完整任务流程

让我们来看一个真实案例:让 AI 帮你在小红书搜索“北京美食推荐”。

7.1 指令输入

打开小红书,搜索“北京美食推荐”,浏览前三个笔记并点赞。

7.2 AI 执行流程解析

  1. 意图理解:识别出目标 App 是“小红书”,核心动作为“搜索+浏览+点赞”
  2. 启动App:发送am start命令打开小红书
  3. 定位搜索框:截屏分析界面,找到放大镜图标或“搜索”文字区域
  4. 输入关键词:调用 ADB Keyboard 输入“北京美食推荐”
  5. 触发搜索:模拟点击“搜索”按钮
  6. 滚动浏览:向下滚动,识别前三个笔记的封面和标题
  7. 执行点赞:逐个点击心形图标完成点赞
  8. 结束任务:返回首页,报告任务完成

整个过程大约耗时 30~60 秒,完全自动化。


8. 常见问题与排查建议

即使配置正确,也可能遇到一些问题。以下是高频故障及解决方案。

8.1 ADB 连接失败

现象可能原因解决方案
unauthorized手机未授权调试重新插拔数据线,确认授权弹窗
offline设备离线重启 ADB 服务:adb kill-server && adb start-server
connection refused网络不通检查防火墙、路由器设置,确认IP正确

8.2 AI 执行卡住或乱点

  • 检查模型响应:确认云服务正常运行,日志无报错
  • 显存不足:vLLM 启动时需合理设置--max-model-len和 GPU 显存分配
  • 界面变化太快:某些App加载慢,AI可能误判。可适当增加等待时间

8.3 输入中文失败

  • 确保已安装并启用ADB Keyboard
  • 检查是否被其他输入法抢占,默认输入法应为 ADB Keyboard
  • 可手动测试输入:adb shell input text "hello"是否生效

9. 应用场景拓展:不只是“点一点”

虽然目前主要用于UI自动化,但 Open-AutoGLM 的潜力远不止于此。

9.1 个人效率提升

  • 自动打卡企业微信/钉钉
  • 每日签到领积分(京东、淘宝等)
  • 批量转发消息给多个联系人

9.2 内容创作者辅助

  • 自动发布图文到多个平台
  • 抓取竞品内容进行分析
  • 生成短视频脚本并上传

9.3 测试与运维

  • 自动化UI测试脚本生成
  • 多设备兼容性验证
  • 异常场景回归测试

未来随着模型能力增强,甚至可以实现:

  • 根据聊天内容自动回复表情包
  • 看到优惠券立刻下单抢购
  • 接收到重要通知时自动录音或截图存档

10. 总结:迈向真正的智能交互时代

Open-AutoGLM 不只是一个技术玩具,它是通往下一代人机交互方式的重要一步。通过结合大模型的理解力自动化工具的执行力,我们正在接近一个“所想即所得”的智能世界。

本文带你完成了从环境搭建、设备连接到实际运行的全过程,相信你现在已经有能力亲手打造属于自己的AI手机助手。下一步,你可以尝试:

  • 修改 prompt 让 AI 更精准地理解你的习惯
  • 结合定时任务实现每日自动操作
  • 将其集成进 Home Assistant 等智能家居系统

技术的进步从来不是为了取代人类,而是让我们从重复劳动中解放出来,去做更有创造力的事。而 Open-AutoGLM,正是这样一个值得期待的起点。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/4 6:13:39

为什么选择YOLOv11?开源可部署优势深度解析

为什么选择YOLOv11&#xff1f;开源可部署优势深度解析 你可能已经熟悉YOLO系列在目标检测领域的强大表现&#xff0c;但当YOLOv11出现时&#xff0c;它不只是又一次版本迭代。它代表了实时检测模型在精度、速度和部署便捷性上的全新平衡点。相比前代模型&#xff0c;YOLOv11不…

作者头像 李华
网站建设 2026/2/3 12:44:49

AList批量操作终极指南:彻底提升文件管理效率

AList批量操作终极指南&#xff1a;彻底提升文件管理效率 【免费下载链接】alist alist-org/alist: 是一个基于 JavaScript 的列表和表格库&#xff0c;支持多种列表和表格样式和选项。该项目提供了一个简单易用的列表和表格库&#xff0c;可以方便地实现各种列表和表格的展示和…

作者头像 李华
网站建设 2026/2/4 9:09:25

宝塔面板v7.7.0离线部署实战手册:零网络依赖的完整解决方案

宝塔面板v7.7.0离线部署实战手册&#xff1a;零网络依赖的完整解决方案 【免费下载链接】btpanel-v7.7.0 宝塔v7.7.0官方原版备份 项目地址: https://gitcode.com/GitHub_Trending/btp/btpanel-v7.7.0 在完全隔离的内网环境中部署服务器管理平台已成为企业级应用的关键需…

作者头像 李华
网站建设 2026/2/3 2:58:02

终极指南:用Chatbox构建永不丢失的AI对话记忆系统

终极指南&#xff1a;用Chatbox构建永不丢失的AI对话记忆系统 【免费下载链接】chatbox Chatbox是一款开源的AI桌面客户端&#xff0c;它提供简单易用的界面&#xff0c;助用户高效与AI交互。可以有效提升工作效率&#xff0c;同时确保数据安全。源项目地址&#xff1a;https:/…

作者头像 李华
网站建设 2026/2/3 13:21:34

Vosk离线语音识别:多语言实时转录的终极解决方案

Vosk离线语音识别&#xff1a;多语言实时转录的终极解决方案 【免费下载链接】vosk-api vosk-api: Vosk是一个开源的离线语音识别工具包&#xff0c;支持20多种语言和方言的语音识别&#xff0c;适用于各种编程语言&#xff0c;可以用于创建字幕、转录讲座和访谈等。 项目地址…

作者头像 李华