news 2026/2/23 10:37:55

Open-AutoGLM保姆级教学:连电脑都不懂也能学会

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM保姆级教学:连电脑都不懂也能学会

Open-AutoGLM保姆级教学:连电脑都不懂也能学会

你有没有想过,有一天只要动动嘴说一句“帮我打开小红书搜美食”,手机就会自己完成所有操作?听起来像科幻片,但现在,这已经变成了现实。

今天要教你的,就是智谱开源的 Open-AutoGLM——一个能让 AI 真正“看懂”手机屏幕、并自动帮你点击、滑动、输入的智能助理框架。最神奇的是,它不需要你懂代码、也不需要你是技术高手,哪怕你连 ADB 是啥都不知道,跟着这篇教程一步步来,也能让 AI 接管你的手机。

我们不讲复杂术语,不说“多模态感知”“强化学习”这种让人头大的词,就用大白话,手把手带你从零开始,把 AI 变成你的私人手机管家。


1. 先搞明白:Open-AutoGLM 到底能干啥?

在动手之前,先说清楚它到底有多厉害。

Open-AutoGLM 是基于 AutoGLM 构建的一个手机端 AI Agent 框架。它的核心能力是:

  • 看懂屏幕:AI 能“看到”你手机屏幕上有什么按钮、文字、图标。
  • 听懂指令:你说“打开抖音,搜索某个博主并关注”,它能理解你的意思。
  • 自动操作:不用你动手,它通过 ADB(一种安卓调试工具)自己点击、滑动、输入。
  • 支持远程控制:可以连 WiFi 操作手机,甚至以后还能远程帮爸妈修手机。

举个例子:

你说:“打开美团,订今晚6点两个人的火锅,人均100以内。”

AI 会自动:

  1. 打开美团 App
  2. 进入“美食”页面
  3. 搜索“火锅”
  4. 筛选价格区间和时间
  5. 列出符合要求的店铺

整个过程完全自动化,你只需要看着就行。

而且它还很安全:

  • 遇到敏感操作(比如支付),会停下来等你确认;
  • 遇到验证码,也会暂停让你手动输入。

所以不用担心 AI 把你账号钱花光。


2. 准备工作:你需要哪些东西?

别担心,不需要买新设备,家里现有的就能用。

2.1 硬件准备

  • 一台电脑:Windows 或 Mac 都行(建议 Win10 以上)
  • 一部安卓手机:Android 7.0 以上就行,真机或模拟器都可以
  • 一根数据线(用于初始连接)

2.2 软件准备

  • Python 3.10+:这是运行程序的基础环境
  • ADB 工具:用来让电脑控制手机
  • Git:用来下载代码

如果你还没装这些,别慌,下面我会告诉你怎么一步步装好。


3. 第一步:安装 ADB,让电脑能“指挥”手机

ADB(Android Debug Bridge)就像是电脑和手机之间的“翻译官”。没有它,AI 再聪明也动不了手机。

3.1 下载 ADB

去谷歌官网下载 Platform Tools(包含 ADB)。

解压后你会看到一堆文件,记住这个文件夹的位置,比如:

C:\platform-tools

3.2 配置环境变量(让命令随时可用)

Windows 用户:
  1. Win + R,输入sysdm.cpl,回车
  2. 点“高级” → “环境变量”
  3. 在“系统变量”里找到Path,双击编辑
  4. 点“新建”,把刚才 ADB 文件夹路径粘贴进去(如C:\platform-tools
  5. 确定保存

然后打开命令提示符(CMD),输入:

adb version

如果能看到版本号,说明成功了!

Mac 用户:

打开终端,输入:

export PATH=${PATH}:~/Downloads/platform-tools

(注意:路径要改成你实际解压的位置)

同样用adb version测试是否成功。


4. 第二步:手机设置,允许被“远程操控”

现在轮到手机出场了。

4.1 开启开发者模式

进入手机【设置】→【关于手机】→ 连续点击“版本号”7次,直到提示“您已开启开发者模式”。

4.2 开启 USB 调试

回到设置主界面 →【开发者选项】→ 找到“USB 调试”,勾上它。

⚠️ 提示时点“确定”。

4.3 安装 ADB Keyboard(关键!解决输入问题)

因为 AI 要打字,但普通输入法会被系统拦截,所以我们得装一个特殊的键盘。

  1. 去 GitHub 下载 ADB Keyboard APK
  2. 安装到手机
  3. 进入【语言与输入法】→【默认输入法】→ 切换为 “ADB Keyboard”

这样 AI 就能通过命令发送文字,实现自动输入了。


5. 第三步:下载 Open-AutoGLM 控制端代码

接下来我们要在电脑上装上“大脑”——也就是 Open-AutoGLM 的控制程序。

打开命令行工具(CMD 或 Terminal),依次执行:

# 1. 克隆代码仓库 git clone https://github.com/zai-org/Open-AutoGLM # 2. 进入项目目录 cd Open-AutoGLM # 3. 安装依赖包 pip install -r requirements.txt # 4. 安装本地包 pip install -e .

这几条命令的意思是:

  • 把代码下载下来
  • 安装运行所需的“零件”(比如图像识别库、网络请求库等)
  • 把项目注册成可调用的模块

如果中间报错,大概率是 Python 版本太低或者网络问题,建议使用国内镜像源:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

6. 第四步:连接手机,建立“通信通道”

有两种方式连接:USB 和 WiFi。推荐先用 USB,稳定又简单。

6.1 USB 连接

  1. 用数据线把手机连上电脑
  2. 手机弹出“允许调试?”时,点“允许”
  3. 在命令行输入:
    adb devices
  4. 如果看到类似这样的输出:
    List of devices attached abcdefgh device
    恭喜!连接成功。

6.2 WiFi 无线连接(进阶玩法)

想摆脱数据线?可以用 WiFi。

前提:手机和电脑在同一局域网下。

步骤:

# 1. 先用 USB 连接,开启 TCP 模式 adb tcpip 5555 # 2. 断开数据线 # 3. 查看手机 IP 地址(设置 → 关于手机 → 状态信息 → IP 地址) # 4. 用 IP 连接 adb connect 192.168.x.x:5555

再运行adb devices,应该还能看到设备在线。

以后就可以远程操控啦!


7. 第五步:启动 AI,让它接管手机!

终于到了最激动人心的时刻。

你现在可以对 AI 下达第一条指令了。

7.1 最简单的命令行启动

在 Open-AutoGLM 目录下运行:

python main.py \ --device-id abcdefgh \ --base-url http://你的云服务器IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数解释:

  • --device-id:就是adb devices显示的那个 ID
  • --base-url:指向运行 AI 模型的服务器地址(需要提前部署 vLLM 或其他推理服务)
  • --model:指定使用的模型名称
  • 最后的字符串:你的自然语言指令

⚠️ 注意:base-url需要你自己有一台云服务器,并部署好 GLM 模型 API。如果没有,可以考虑使用智谱官方提供的 API 接口(需申请权限)。

7.2 如果你不想写命令:试试 Python API

更灵活的方式是写个小脚本:

from phone_agent.adb import ADBConnection, list_devices # 创建连接 conn = ADBConnection() # 连接设备(USB 或 WiFi) success, msg = conn.connect("abcdefgh") # 替换成你的设备ID print(f"连接结果:{msg}") # 获取设备列表 devices = list_devices() for d in devices: print(f"设备:{d.device_id}") # 获取设备IP(可用于后续无线连接) ip = conn.get_device_ip() print(f"当前IP:{ip}") # 断开连接 conn.disconnect("abcdefgh")

这个方法适合做自动化任务,比如定时帮老人查天气、自动打卡等。


8. 实战演示:让 AI 自动完成一次操作

我们来做个真实测试:

指令:“打开小红书,搜索‘北京美食’,点赞第一条笔记。”

AI 会怎么做?

  1. 截图分析:每隔几秒截一次屏,传给视觉模型
  2. 识别元素:找出“首页”“搜索框”“键盘”“点赞按钮”在哪
  3. 规划动作
    • 点击底部“发现”标签
    • 点击顶部搜索框
    • 输入“北京美食”
    • 点击第一条笔记
    • 找到点赞图标并点击
  4. 执行完毕:告诉你“已完成任务”

整个过程无需人工干预,就像有个看不见的手在替你操作。


9. 常见问题 & 解决办法

刚上手难免遇到坑,这里列出最常见的几个:

9.1 手机连不上 ADB

  • ✅ 检查是否开启了“USB 调试”
  • ✅ 是否点了“允许调试”
  • ✅ 换根数据线试试
  • ✅ 重启 ADB 服务:
    adb kill-server adb start-server

9.2 AI 不执行操作 / 卡住

  • 可能是模型没返回动作指令
  • 检查base-url是否正确,服务器是否正常运行
  • 查看日志输出,看是否有错误信息

9.3 输入中文失败

  • 确保已安装并启用ADB Keyboard
  • 在代码中检查是否正确调用了input_text()方法
  • 可尝试手动发送测试文本:
    adb shell input text "hello"

9.4 模型响应慢或乱码

  • 检查服务器显存是否足够(建议至少 24G)
  • 检查 vLLM 启动参数中的max-model-len是否匹配模型需求
  • 网络延迟高的话,优先使用本地部署或内网服务器

10. 总结:你已经迈出了第一步

恭喜你!看到这里,说明你已经完成了 Open-AutoGLM 的完整部署流程。

回顾一下我们都做了什么:

  1. 安装了 ADB,打通电脑和手机的连接
  2. 设置了手机开发者权限和专用输入法
  3. 下载并配置了 Open-AutoGLM 控制端
  4. 成功用 AI 下达指令,实现了自动化操作

虽然过程中有些步骤看起来有点技术感,但只要你一步一步跟着走,真的不需要任何编程基础也能搞定。

更重要的是,你现在已经掌握了未来手机操作的一种全新方式——用语言代替点击

想象一下:

  • 早上起床说一句“帮我看看今天的新闻和天气”
  • 上班路上说“订一杯星巴克美式,到店取”
  • 晚上回家前说“打开空调,调到26度”

这些都不是梦,而是 Open-AutoGLM 正在实现的日常。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 22:19:22

如何快速将网页转为桌面应用:Pake完整使用教程

如何快速将网页转为桌面应用:Pake完整使用教程 【免费下载链接】Pake 利用 Rust 轻松构建轻量级多端桌面应用 项目地址: https://gitcode.com/GitHub_Trending/pa/Pake 想要将常用网页变成独立的桌面应用吗?Pake这款基于Rust构建的轻量级工具&…

作者头像 李华
网站建设 2026/2/17 20:23:29

终极视频防抖指南:用GyroFlow轻松告别画面抖动

终极视频防抖指南:用GyroFlow轻松告别画面抖动 【免费下载链接】gyroflow Video stabilization using gyroscope data 项目地址: https://gitcode.com/GitHub_Trending/gy/gyroflow 你是否曾经为拍摄的视频画面抖动而烦恼?无论是航拍时的风力影响…

作者头像 李华
网站建设 2026/2/20 18:58:01

Emotion2Vec+ Large推理时间多久?首尾次识别性能实测数据

Emotion2Vec Large推理时间多久?首尾次识别性能实测数据 1. 引言:为什么我们关心语音情感识别的响应速度? 你有没有这样的体验:上传一段语音,点击“开始分析”,然后盯着进度条等了十几秒——这到底是模型…

作者头像 李华
网站建设 2026/2/23 7:47:36

重新定义中英混排:LXGW Bright字体全方位解析

重新定义中英混排:LXGW Bright字体全方位解析 【免费下载链接】LxgwBright A merged font of Ysabeau and LXGW WenKai. 项目地址: https://gitcode.com/gh_mirrors/lx/LxgwBright 还在为文档排版发愁吗?当优雅的中文遇到精致的西文,如…

作者头像 李华
网站建设 2026/2/23 3:45:12

Emotion2Vec+ Large本地部署:私有化数据安全解决方案

Emotion2Vec Large本地部署:私有化数据安全解决方案 1. 为什么需要本地化语音情感识别? 在客服质检、心理评估、智能交互等场景中,语音情感识别正变得越来越重要。但大多数在线服务存在一个致命问题:你的语音数据要上传到别人的…

作者头像 李华
网站建设 2026/2/23 1:15:13

GPT-OSS-20B推理加速指南,本地部署效率大幅提升

GPT-OSS-20B推理加速指南,本地部署效率大幅提升 你是否也遇到过这样的问题:想在本地跑一个大语言模型,结果等生成第一句话的时间足够泡好一杯咖啡?尤其是像 GPT-OSS-20B 这种参数量高达210亿的开源模型,虽然性能强大&…

作者头像 李华