news 2026/2/12 19:54:25

Open-AutoGLM定位服务代理:位置共享执行自动化部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM定位服务代理:位置共享执行自动化部署

Open-AutoGLM定位服务代理:位置共享执行自动化部署

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

你有没有想过,让AI帮你操作手机?不是简单的语音助手,而是真正“看懂”屏幕、理解界面、自动点击滑动,像真人一样完成复杂任务。这就是Open-AutoGLM的核心能力。

它是由智谱推出的开源手机端AI Agent框架,基于强大的视觉语言模型(VLM),结合 ADB(Android Debug Bridge)实现对安卓设备的全自动化控制。用户只需要用自然语言下达指令,比如“打开小红书搜美食”、“查一下明天北京飞上海的 cheapest 航班”,系统就能自动解析意图、识别当前屏幕内容、规划操作路径,并一步步执行下去——从打开App到输入关键词,再到点击目标按钮,全程无需人工干预。

这背后的技术组合非常巧妙:

  • 多模态感知:通过截图+VLM 理解屏幕上有什么、按钮在哪、当前处于哪个页面;
  • 动作决策:基于上下文和目标,生成下一步该点哪里、怎么滑动的操作序列;
  • ADB 控制:绕过官方API限制,直接在物理或模拟设备上执行触摸、输入、返回等操作;
  • 人机协同机制:遇到敏感操作(如支付)、验证码或登录弹窗时,支持暂停并交由人工处理。

整个系统分为两部分:云端运行的大模型推理服务,负责“大脑”级别的理解和规划;本地或远程的控制端(即 Open-AutoGLM 客户端),负责与手机通信并执行具体动作。本文将重点讲解如何在本地电脑连接真实安卓设备,完成整套自动化代理的部署与调用。


2. 环境准备:搭建基础运行平台

要让 AI 成功接管你的手机,首先得把软硬件环境配好。这一节我们来一步步准备好所有必需组件。

2.1 操作系统与Python版本

目前 Open-AutoGLM 主要支持主流桌面操作系统:

  • Windows 10/11
  • macOS(Intel 或 Apple Silicon)

不推荐使用 Linux 桌面环境进行初体验,虽然技术上可行,但ADB权限管理和图形调试相对复杂。

建议安装Python 3.10 或更高版本。较低版本可能导致依赖包冲突。你可以通过以下命令检查当前 Python 版本:

python --version # 或 python3 --version

如果未安装合适版本,请前往 python.org 下载安装。

2.2 安装 ADB 工具

ADB 是 Android SDK 的一部分,用于调试和控制安卓设备。我们需要单独下载 Platform Tools 包。

Windows 用户配置步骤:
  1. 前往 Android 开发者官网 下载platform-tools压缩包。
  2. 解压到一个固定目录,例如C:\platform-tools
  3. 设置环境变量:
    • 按下Win + R,输入sysdm.cpl回车;
    • 点击“高级”选项卡 → “环境变量”;
    • 在“系统变量”中找到Path,点击编辑 → 新建 → 添加刚才的路径(如C:\platform-tools);
  4. 打开新的命令提示符窗口,运行:
adb version

若输出类似Android Debug Bridge version 1.xx.xx,说明配置成功。

macOS 用户配置方法:

打开 Terminal,执行以下命令(假设你把文件解压到了 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

为了永久生效,可以将其写入 shell 配置文件:

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

再次运行adb version验证是否正常。


3. 手机端设置:开启调试与输入法

现在切换到手机端,做一些必要的前置配置。

3.1 开启开发者模式

进入手机“设置”应用:

  • 进入关于手机
  • 找到“版本号”或“内部版本号”,连续点击 7 次;
  • 系统会提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主菜单:

  • 进入开发者选项(通常位于“系统”或“更多设置”中);
  • 找到并勾选USB 调试
  • 当你首次通过 USB 连接电脑时,手机可能会弹出授权对话框,请点击“允许”。

⚠️ 注意:某些厂商(如小米、华为)可能还需要额外开启“USB调试(安全设置)”或关闭“MIUI优化”,否则无法稳定连接。

3.3 安装 ADB Keyboard 输入法

由于 AI Agent 不能直接调用系统输入法打字,必须借助一个特殊的虚拟键盘:ADB Keyboard

  1. 前往 GitHub 或可信渠道下载ADBKeyboard.apk安装包;
  2. 在手机上允许“未知来源应用安装”后完成安装;
  3. 进入设置 → 语言与输入法 → 默认键盘/当前输入法
  4. 切换为ADB Keyboard

这样,后续所有文本输入(如搜索词、账号密码)都可以通过 ADB 命令发送,无需手动打字。


4. 部署 Open-AutoGLM 控制端

准备工作完成后,就可以开始部署本地控制程序了。

4.1 克隆项目代码

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目是智谱官方开源的客户端实现,包含了完整的 ADB 封装、指令解析和远程调用逻辑。

4.2 安装 Python 依赖

确保你在项目根目录下,然后运行:

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装phone_agent包,便于后续开发调试。

常见依赖包括:

  • torch,transformers: 支持模型加载(尽管本地不运行模型);
  • fastapi,uvicorn: 若需启动本地服务;
  • adbutils,opencv-python: ADB 控制与图像处理;
  • requests: 调用云端 API。

5. 设备连接方式:USB 与 WiFi 双模式

Open-AutoGLM 支持两种设备连接方式:有线 USB 和无线 WiFi。各有优劣,可根据场景选择。

5.1 使用 USB 连接(推荐新手)

这是最稳定的连接方式。

  1. 用数据线将手机连接电脑;
  2. 手机弹出“允许USB调试?”时,点击确认;
  3. 在终端运行:
adb devices

正常情况下你会看到如下输出:

List of devices attached ABCDEF1234567890 device

只要状态显示为device,就表示连接成功。

5.2 使用 WiFi 远程连接(适合远程操控)

如果你希望摆脱数据线束缚,或者想远程控制家里的测试机,可以用 WiFi 模式。

📌 前提:手机和电脑必须在同一局域网内。

步骤如下:

  1. 先用 USB 连接设备;
  2. 在终端执行:
adb tcpip 5555

这会启动 ADB 的 TCP 服务,监听 5555 端口;

  1. 断开 USB 数据线;
  2. 查找手机 IP 地址(一般在“设置 → WLAN → 当前网络详情”中);
  3. 执行连接命令:
adb connect 192.168.x.x:5555

替换192.168.x.x为实际 IP。连接成功后,再次运行adb devices应能看到设备在线。

此后即使重启手机,只要重新执行adb connect即可恢复连接(前提是未重启路由器或更改IP)。


6. 启动 AI 代理:执行自然语言指令

一切就绪!现在我们可以正式让 AI 接管手机。

6.1 命令行快速运行

在项目根目录下,运行以下命令:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备ID,如果是WiFi连接则填写IP:5555格式;
  • --base-url:指向你部署在云服务器上的 vLLM 或其他推理服务地址,格式为http://公网IP:端口/v1
  • --model:指定使用的模型名称,需与服务端注册的一致;
  • 最后的字符串:你要下达的自然语言指令。

一旦运行,程序会:

  1. 截取当前手机屏幕;
  2. 将截图和指令一起发送给云端模型;
  3. 模型返回应执行的动作(如“点击坐标(x,y)”、“输入文字”);
  4. 客户端通过 ADB 执行该动作;
  5. 循环直到任务完成或失败。

6.2 使用 Python API 编程调用

除了命令行,你也可以在自己的脚本中集成 Open-AutoGLM 的功能。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # (可选)为USB设备启用TCP/IP success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这个 API 非常适合嵌入到自动化测试平台、远程运维系统或企业级 RPA 流程中。


7. 常见问题与排查建议

即使严格按照流程操作,也可能遇到一些意外情况。以下是高频问题及解决方案。

7.1 ADB 无法识别设备

现象:adb devices显示空列表或unauthorized

解决办法:

  • 检查手机是否弹出“允许USB调试”对话框,务必点击“允许”;
  • 更换数据线,有些线仅支持充电;
  • 重启 ADB 服务:
adb kill-server adb start-server
  • 对于华为/荣耀手机,尝试关闭“手机找回”功能;
  • 小米手机需关闭“USB调试(安全设置)”以允许自动授权。

7.2 连接云服务失败(Connection Refused)

现象:程序报错Failed to connect to serverConnection refused

原因分析:

  • 云服务器防火墙未开放对应端口(如 8800);
  • vLLM 服务未绑定公网 IP(默认只监听 127.0.0.1);
  • 安全组规则未放行入站流量。

解决方案:

  • 确保启动 vLLM 时使用--host 0.0.0.0参数;
  • 检查云厂商控制台的安全组策略,添加 TCP 入站规则;
  • 使用curl http://<your-ip>:8800/v1/models测试接口可达性。

7.3 模型响应乱码或无动作

现象:AI 返回看不懂的字符,或长时间无响应。

可能原因:

  • 显存不足导致推理中断;
  • max_model_len设置过小,截断了输出;
  • 模型权重加载错误或 tokenizer 不匹配。

建议做法:

  • 查看服务端日志是否有 OOM(内存溢出)报错;
  • 增加 GPU 显存或降低 batch size;
  • 确保使用与模型配套的 tokenizer 和 config 文件。

7.4 输入中文失败

虽然 ADB Keyboard 支持中文输入,但默认可能只支持英文。

解决方法:

  • 在 ADB Keyboard 设置中启用“中文输入”;
  • 或改用scrcpy配合ime set切换输入法;
  • 临时方案:先手动输入常用词汇,再让 AI 点击“搜索”。

8. 总结

Open-AutoGLM 是一个极具潜力的手机端 AI Agent 开源框架,它将视觉语言模型的能力延伸到了真实的移动设备操作层面。通过 ADB 实现零侵入式的自动化控制,配合自然语言指令解析,使得普通人也能轻松构建属于自己的“数字员工”。

本文带你完成了从环境搭建、手机配置、代码部署到实际调用的完整流程,并介绍了 USB 与 WiFi 两种连接模式以及常见问题的应对策略。无论你是想做自动化测试、批量运营多个账号,还是探索 AI 自主行为的可能性,这套系统都提供了坚实的基础。

更重要的是,它的设计充分考虑了安全性:敏感操作可暂停、验证码场景支持人工介入、远程调试能力完善。这让它不仅适用于个人实验,也具备向企业级应用拓展的潜力。

未来,随着多模态模型的理解能力和动作规划算法的提升,这类手机 AI Agent 有望真正实现“你说我做”的理想交互形态。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/11 15:45:02

BiliTools终极使用指南:5步掌握B站资源高效下载

BiliTools终极使用指南&#xff1a;5步掌握B站资源高效下载 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱&#xff0c;支持视频、音乐、番剧、课程下载……持续更新 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

作者头像 李华
网站建设 2026/2/12 12:01:34

GPT-OSS模型蒸馏尝试:降低部署门槛方案

GPT-OSS模型蒸馏尝试&#xff1a;降低部署门槛方案 你是否也遇到过这样的问题&#xff1a;想用最新的开源大模型做本地推理&#xff0c;但动辄几十GB的显存需求让人望而却步&#xff1f;尤其是像GPT-OSS这类20B级别的大模型&#xff0c;虽然性能强大&#xff0c;但对硬件的要求…

作者头像 李华
网站建设 2026/2/7 22:45:50

GalTransl完整指南:零门槛实现Galgame AI智能汉化 [特殊字符]

GalTransl完整指南&#xff1a;零门槛实现Galgame AI智能汉化 &#x1f3ae; 【免费下载链接】GalTransl 支持GPT-3.5/GPT-4/Newbing/Sakura等大语言模型的Galgame自动化翻译解决方案 Automated translation solution for visual novels supporting GPT-3.5/GPT-4/Newbing/Saku…

作者头像 李华
网站建设 2026/2/8 11:12:16

浏览器视频资源捕获专家:从普通MP4到加密流媒体的完整解决方案

浏览器视频资源捕获专家&#xff1a;从普通MP4到加密流媒体的完整解决方案 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 还在为网页视频无法保存而苦恼&#xff1f;面对复杂的流媒体格式束手无策&a…

作者头像 李华
网站建设 2026/2/12 16:06:09

QtScrcpy分辨率优化:从模糊到超清的专业调校指南

QtScrcpy分辨率优化&#xff1a;从模糊到超清的专业调校指南 【免费下载链接】QtScrcpy Android实时投屏软件&#xff0c;此应用程序提供USB(或通过TCP/IP)连接的Android设备的显示和控制。它不需要任何root访问权限 项目地址: https://gitcode.com/barry-ran/QtScrcpy …

作者头像 李华
网站建设 2026/2/11 5:23:20

Qwen-Image-2512部署划算吗?不同云厂商成本对比案例

Qwen-Image-2512部署划算吗&#xff1f;不同云厂商成本对比案例 1. Qwen-Image-2512-ComfyUI 是什么&#xff1f; 你可能已经听说过 Qwen 系列模型&#xff0c;而这次的 Qwen-Image-2512-ComfyUI 是阿里开源推出的最新一代图像生成模型镜像版本。它基于通义千问图像大模型升级…

作者头像 李华