news 2026/2/1 3:51:14

Open-AutoGLM实战:自动搜美食、关注博主全搞定

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实战:自动搜美食、关注博主全搞定

Open-AutoGLM实战:自动搜美食、关注博主全搞定

你有没有想过,有一天只要动动嘴说一句“帮我找附近评分高的川菜馆”,手机就能自己打开小红书、搜索关键词、筛选结果,甚至帮你收藏推荐?或者,“去抖音关注那个讲科技的博主”,AI 就能自动完成打开 App、搜索账号、点击关注一整套操作?

这不是科幻电影,而是Open-AutoGLM正在实现的现实。作为智谱开源的手机端 AI Agent 框架,它让 AI 真正拥有了“动手能力”——不仅能看懂屏幕,还能像人一样点击、滑动、输入,把你的自然语言指令变成实实在在的操作。

本文将带你从零开始,亲手部署并实操这个“会用手机”的 AI 助理,看看它是如何把“动口不动手”变成日常的。

1. 什么是 Open-AutoGLM?它凭什么能“操作手机”?

1.1 核心能力一句话讲清楚

Open-AutoGLM 是一个基于视觉语言模型(VLM)的 AI 手机智能助理框架。简单来说,它有三样本事:

  • 看得懂:通过截图理解当前手机屏幕上有什么(比如“这是一个搜索框”、“这是‘关注’按钮”)。
  • 想得清:根据你的指令和当前界面,规划出下一步该做什么(比如“先点开小红书图标,再找到搜索栏”)。
  • 做得了:通过 ADB(Android Debug Bridge)技术,真正操控手机执行点击、滑动、输入文字等动作。

整个过程就像有个“数字分身”在替你用手机,而你只需要下命令。

1.2 技术架构拆解:AI 是怎么一步步学会用手机的?

整个系统由三个核心模块协同工作:

模块职责关键技术
视觉感知层理解屏幕内容基于 GLM-4.5V 的多模态模型,识别 UI 元素、文本、图像
任务规划层决策“下一步做什么”结合指令与上下文,生成可执行的操作序列(如 tap, input, swipe)
执行控制层实际操控手机通过 ADB 发送指令,控制真机或模拟器

整个流程是闭环的:AI 每执行一步,就会重新截图观察结果,确认是否成功,再决定下一步,直到任务完成。

1.3 它能做什么?这些场景已经可以实现

别以为这只是个玩具,Open-AutoGLM 已经能处理不少真实生活中的高频任务:

  • 信息检索:“打开大众点评,搜一下公司附近的咖啡厅。”
  • 社交互动:“在抖音上找到用户‘科技老张’并关注他。”
  • 内容浏览:“用小红书搜‘北京周末遛娃好去处’,打开点赞最高的那篇笔记。”
  • 辅助操作:在需要登录或验证码时暂停,等待人工介入,之后继续执行。

未来,它可以帮你自动比价、抢优惠券、填写表单,甚至跨 App 协同完成复杂任务,比如“订完电影票后发链接给微信群”。


2. 手把手部署:从零搭建你的 AI 手机助理

要让 Open-AutoGLM 跑起来,你需要准备三样东西:一台安卓手机(或模拟器)、一台运行 AI 模型的服务器(可以是本地电脑或云主机),以及本地控制端代码。

我们这里以本地电脑控制真机为例,带你一步步配置。

2.1 准备工作:软硬件清单

  • 操作系统:Windows 或 macOS
  • Python 版本:建议 3.10 或更高
  • 安卓设备:Android 7.0 以上的真实手机或模拟器
  • ADB 工具:用于电脑与手机通信
  • 网络环境:手机与电脑在同一局域网(WiFi 连接更方便)

2.2 手机端设置:开启“被控制”权限

为了让电脑能操控手机,必须开启开发者权限。

  1. 开启开发者模式
    进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

  2. 开启 USB 调试
    返回“设置” → “开发者选项” → 找到并勾选“USB 调试”。

  3. 安装 ADB Keyboard(关键!)
    下载并安装 ADB Keyboard 的 APK 文件。
    安装后,在“语言与输入法”中将默认输入法切换为ADB Keyboard
    这是为了让 AI 能通过 ADB 输入文字,否则无法在搜索框打字。

2.3 配置 ADB:让电脑认得手机

ADB 是连接电脑和安卓设备的桥梁。我们需要先安装并配置它。

Windows 用户:
  1. 下载 Platform Tools 并解压。
  2. 将解压后的文件夹路径添加到系统环境变量Path中。
  3. 打开命令行,输入:
    adb version
    如果显示版本号,说明配置成功。
macOS 用户:

在终端执行:

export PATH=${PATH}:~/Downloads/platform-tools

(假设 platform-tools 放在 Downloads 目录下)

2.4 部署控制端代码

现在,我们在本地电脑上拉取 Open-AutoGLM 的控制代码。

# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .

这一步完成后,你的电脑就具备了“指挥”手机的能力。


3. 实战演示:让 AI 自动搜美食、关注博主

一切准备就绪,现在是见证奇迹的时刻。

3.1 连接设备:USB 还是 WiFi?

你可以选择两种方式连接手机:

方式一:USB 连接(稳定推荐)

用数据线将手机连上电脑,确保手机弹出“允许调试”提示时点击“确定”。

然后在命令行输入:

adb devices

如果看到类似ABCDEF123 device的输出,说明连接成功。

方式二:WiFi 无线连接(更自由)

先用 USB 连接,然后执行:

adb tcpip 5555

断开 USB,再通过 IP 连接:

adb connect 192.168.1.100:5555

(将 IP 替换为你的手机实际 IP)

3.2 启动 AI 代理:下达第一条指令

假设你的 AI 模型已经在云服务器上运行,提供了一个 API 接口(如http://your-server-ip:8800/v1),现在就可以启动代理了。

在 Open-AutoGLM 目录下运行:

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘上海网红甜品店’,打开排名第一的笔记。"

参数说明:

  • --device-id:通过adb devices获取的设备 ID 或 IP 地址
  • --base-url:AI 模型服务的地址
  • 最后的字符串:你的自然语言指令

执行后,你会看到 AI 开始自动操作手机:

  1. 解锁屏幕(如果已锁定)
  2. 找到并点击“小红书”图标
  3. 等待 App 加载
  4. 定位搜索框,输入“上海网红甜品店”
  5. 点击搜索
  6. 分析结果列表,点击点赞数最高的笔记

整个过程无需你手动干预,AI 会根据屏幕反馈动态调整操作。

3.3 更复杂任务:关注抖音博主

试试这条指令:

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号 dycwo11nt61d,进入主页并关注。"

AI 会:

  • 打开抖音
  • 点击顶部搜索栏
  • 输入指定抖音号
  • 进入用户主页
  • 点击“关注”按钮

如果你设置了关注需验证,AI 会暂停并提示你手动确认,之后继续执行后续步骤。


4. 常见问题与使用技巧

4.1 遇到问题怎么办?这些坑我帮你踩过了

  • 问题1:ADB 连接失败,显示 unauthorized
    原因:手机未授权电脑调试。
    解决:检查是否弹出“允许USB调试”对话框,务必点击“允许”。

  • 问题2:AI 识别不到按钮或输不了字
    原因:未安装或未启用 ADB Keyboard。
    解决:确认已安装,并在“输入法”设置中将其设为默认。

  • 问题3:模型无响应或返回乱码
    原因:服务端 vLLM 配置不当,如显存不足或 max-model-len 设置过小。
    解决:检查服务端日志,确保模型加载正常,建议 GPU 显存 ≥ 24GB。

  • 问题4:WiFi 连接不稳定导致掉线
    建议:复杂任务优先使用 USB 连接,稳定性更高。

4.2 提升成功率的小技巧

  • 指令尽量具体:比如“搜‘北京三里屯火锅’”比“找个火锅店”更易执行。
  • 避免模糊描述:如“点那个红色的按钮”可能因界面变化导致识别错误。
  • 保持网络畅通:AI 需频繁截图上传,网络延迟会影响响应速度。
  • 关闭省电模式:防止手机自动锁屏或后台杀进程。

4.3 远程调用 API:集成到自己的项目中

除了命令行,你还可以用 Python 脚本远程控制设备:

from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}")

这让你可以把 Open-AutoGLM 集成到自动化测试、批量操作、智能客服等系统中。


5. 总结:AI 操作手机的时代已经到来

Open-AutoGLM 不只是一个技术 Demo,它代表了一种全新的交互范式:从“人操作手机”到“手机替人操作”

通过本文的实战,你应该已经体验到:

  • 如何部署一个能“看懂”和“操作”手机的 AI Agent;
  • 如何用自然语言指令自动完成搜索、关注、浏览等任务;
  • 如何排查常见问题,提升执行成功率。

虽然目前它还不能处理所有 App 的所有场景,复杂任务的成功率也有待提升,但它的开源为开发者提供了无限可能。你可以基于它构建:

  • 企业级自动化工具(如批量注册、数据采集)
  • 老年人友好助手(一键操作复杂流程)
  • 跨平台任务编排引擎(打通微信、淘宝、美团等)

更重要的是,它让我们重新思考:未来的手机,是不是真的需要我们“动手”?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/31 0:09:50

未来可期!FSMN VAD批量处理功能开发中预告

未来可期!FSMN VAD批量处理功能开发中预告 1. FSMN VAD:不只是语音检测,更是效率革命 你有没有遇到过这样的场景?手头有几十段会议录音、客服通话或教学音频,需要从中提取出有效的说话片段。传统方式是手动听、手动剪…

作者头像 李华
网站建设 2026/1/31 17:55:41

Z-Image-Turbo优化建议:小显存也能流畅运行

Z-Image-Turbo优化建议:小显存也能流畅运行 在实际部署Z-Image-Turbo时,很多开发者会遇到一个现实困境:镜像文档明确标注“推荐RTX 4090 / A100(需16GB显存)”,但手头只有RTX 3060(12GB&#x…

作者头像 李华
网站建设 2026/1/31 12:07:11

YOLO11显存占用高?梯度累积优化实战教程

YOLO11显存占用高?梯度累积优化实战教程 你是不是也遇到过这样的问题:想用YOLO11训练自己的目标检测模型,刚跑起train.py就报错CUDA out of memory?明明显卡有24GB显存,却连batch_size8都撑不住?别急——这…

作者头像 李华
网站建设 2026/1/31 3:06:30

YOLOv9 hyp.scratch-high.yaml作用揭秘

YOLOv9 hyp.scratch-high.yaml 作用揭秘 在YOLOv9训练实践中,你是否曾注意到命令行中那个看似普通却反复出现的参数:--hyp hyp.scratch-high.yaml?它不像--weights那样直观指向模型文件,也不像--data那样明确关联数据集&#xff…

作者头像 李华
网站建设 2026/1/31 1:14:56

智能垃圾桶(语音+GSM)(有完整资料)

资料查找方式:特纳斯电子(电子校园网):搜索下面编号即可编号:CJ-51-2021-035设计简介:本设计是基于单片机的垃圾桶系统,主要实现以下功能:可实现通过步进电机完成垃圾桶盖的自动开关…

作者头像 李华
网站建设 2026/1/31 2:59:51

NewBie-image-Exp0.1部署教程:容器内切换目录执行生成脚本详细步骤

NewBie-image-Exp0.1部署教程:容器内切换目录执行生成脚本详细步骤 你是不是刚拉取完 NewBie-image-Exp0.1 镜像,却卡在“进去了容器,但不知道下一步该敲什么命令”?别急——这不是环境没配好,而是你还没摸清这个镜像…

作者头像 李华