Open-AutoGLM实战案例:自动关注抖音博主全过程
1. 为什么需要一个“会看屏幕、能点手机”的AI?
你有没有过这样的时刻:
刷着抖音,看到一个讲摄影技巧的博主,内容特别实用,想立刻关注——但手正端着咖啡,腾不开;
或者深夜躺床上,突然想起要给朋友转发一条美食探店视频,结果翻半天没找到那个账号;
又或者,你是个内容运营,每天要批量关注竞品账号、收集达人信息,手动操作重复又耗时。
传统语音助手只能打开App、调音量、设闹钟;而Open-AutoGLM不一样——它像一位坐在你电脑旁的数字助理:能看见你的手机屏幕,理解界面上的每一个按钮、文字和图标,还能用ADB精准点击、滑动、输入,真正替你“动手”完成任务。
这不是自动化脚本,也不是固定流程的宏录制。它是基于视觉语言模型(VLM)的Phone Agent:
- 看得懂——把截图喂给大模型,识别出“搜索框”“用户头像”“关注按钮”;
- 想得清——规划动作链:先点放大镜→输入ID→点搜索→点头像→点“关注”;
- 做得到——通过ADB发送坐标指令,毫秒级执行,不误触、不漏步。
本文不讲原理推导,不堆参数配置,只带你从零开始,用一台普通Windows电脑+一部安卓手机,30分钟内跑通“自动关注抖音博主”全流程。全程无需显卡,不装Docker,不编译模型,连API Key都为你准备好试用路径。
2. 硬件与环境:三样东西,缺一不可
2.1 必备清单(真实可用,非理论配置)
| 类别 | 具体要求 | 说明 |
|---|---|---|
| 手机 | Android 7.0+,已解锁开发者选项 | 实测vivo S20、小米13、三星S23均兼容;iOS暂不支持 |
| 电脑 | Windows 10/11 或 macOS Monterey+ | 不需要GPU,8GB内存足够;Python 3.10推荐(避免3.12兼容问题) |
| 连接方式 | USB数据线(首选)或同一WiFi网络 | USB更稳定;WiFi需手机开启“无线调试”,实测延迟高15%~20% |
注意:不是所有USB线都支持数据传输!那种只能充电的“快充线”,插上
adb devices会显示为空。建议用原装线,或认准“USB 2.0数据线”标识。
2.2 ADB工具:手机和电脑之间的“翻译官”
ADB(Android Debug Bridge)是谷歌官方提供的调试桥接工具,Open-AutoGLM靠它发指令。安装只需两步:
Windows用户:
- 下载官方platform-tools,解压到
C:\adb(路径不含中文和空格); - 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴
C:\adb; - 打开新命令行窗口,输入:
adb version若返回类似Android Debug Bridge version 1.0.41,即成功。
macOS用户:
在终端执行:
# 假设解压到 ~/Downloads/platform-tools export PATH="$PATH:~/Downloads/platform-tools" # 永久生效可追加到 ~/.zshrc echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc2.3 手机端关键设置:三步激活“被操控权”
这三步漏掉任意一个,AI都会卡在“找不到界面元素”:
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”;
(部分机型如华为需点“软件信息”→“版本号”)启用USB调试:
设置 → 系统和更新 → 开发者选项 → 打开“USB调试”;
首次开启会弹窗,务必勾选“始终允许”并点确定安装ADB Keyboard(解决输入法冲突):
- 下载ADBKeyboard.apk;
- 命令行执行:
adb install -r ~/Downloads/ADBKeyboard.apk- 手机设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”。
验证是否就绪:手机用USB线连电脑 → 命令行输入
adb devices→ 显示一串字符+device(非unauthorized或offline),即全部OK。
3. 部署Open-AutoGLM:5分钟完成,无坑直通
3.1 克隆代码 & 安装依赖
打开命令行(Windows用CMD/PowerShell,macOS用Terminal),依次执行:
# 创建专属文件夹,避免路径混乱 mkdir autoglm-demo && cd autoglm-demo # 克隆官方仓库(注意:不是fork,用原始地址) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 推荐使用虚拟环境(防包冲突) python -m venv venv venv\Scripts\activate # Windows # venv/bin/activate # macOS # 安装核心依赖(requirements.txt已适配Windows编码) pip install -r requirements.txt pip install -e .提示:如果遇到
UnicodeDecodeError: 'gbk' codec can't decode...(Windows常见),是文件读取编码问题。打开scripts/check_deployment_cn.py,将第22行:with open(args.messages_file) as f:
改为:with open(args.messages_file, encoding='utf-8') as f:
保存即可。
3.2 获取智谱API Key:免费额度够跑100次
Open-AutoGLM支持本地部署模型,但对新手最友好的是调用智谱云端API——免部署、免显卡、响应快。
- 访问智谱AI官网,注册账号;
- 登录后进入「API密钥」页面,点击「创建新密钥」;
- 复制生成的Key(形如
bb9a1c2d...),务必保存好,页面关闭后无法再次查看。
免费额度:新用户赠送50万tokens,一次抖音关注任务约消耗1200~1800 tokens,足够你反复调试20+次。
3.3 启动代理:一行命令,AI开始工作
确保手机已连接且adb devices可见,执行:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "你的API_KEY_粘贴在这里(含双引号)" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"--base-url:智谱官方API入口,无需修改;--model:当前唯一可用Phone Agent模型名,大小写敏感;- 最后字符串:自然语言指令,越具体成功率越高(必须含平台名“抖音”、动作“搜索”“关注”、目标“抖音号”)。
成功标志:命令行开始滚动输出,出现
[INFO] Taking screenshot...→Sending to model...→Action: CLICK at (x=520, y=890)→ 最终打印Result: 已成功关注该博主!。
4. 实战拆解:AI如何一步步完成“关注抖音博主”
我们以指令"打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"为例,还原AI内部决策链:
4.1 动作分阶段解析(非黑盒,每步可验证)
| 阶段 | AI做了什么 | 你看到的现象 | 关键技术点 |
|---|---|---|---|
| ① 启动App | 检测桌面是否有抖音图标 → 若无则从应用列表启动 → 若已运行则切到前台 | 手机自动点亮屏幕 → 启动抖音 → 进入首页 | 图标匹配+Activity调度 |
| ② 定位搜索入口 | 截图 → 识别顶部“放大镜”图标 → 输出坐标(x,y) → 发送CLICK指令 | 屏幕顶部搜索框被点击,键盘弹出 | VLM多模态定位,非OCR文字识别 |
| ③ 输入ID并搜索 | 调用ADB Keyboard输入dycwo11nt61d→ 识别软键盘“搜索”按钮 → 点击 | 输入框显示ID → 点击后跳转至搜索结果页 | 输入法接管+控件语义理解 |
| ④ 识别目标账号 | 截图搜索结果页 → 匹配“抖音号:dycwo11nt61d”文字 → 定位其右侧头像区域 | 页面滚动停在目标博主卡片处 | 文字-图像联合检索,非纯关键词匹配 |
| ⑤ 执行关注 | 识别头像下方“关注”按钮 → 判断状态(未关注→绿色按钮)→ 点击 | “关注”按钮变为“已关注”,颜色变灰 | 状态感知+动态UI决策 |
验证技巧:在命令行加
--verbose参数,可看到每步截图保存路径(默认./screenshots/),打开图片就能对照坐标是否准确。
4.2 为什么它不点错?——三个防错机制
Open-AutoGLM不是盲目点击,而是带“安全意识”的Agent:
- 控件置信度过滤:模型对每个识别结果打分(0~1),低于0.85的坐标直接丢弃,避免误点广告;
- 操作确认机制:当检测到“登录”“验证码”等敏感场景,自动暂停并提示
[WAITING] Please handle manually; - 坐标偏移校验:点击前检查目标区域是否被弹窗遮挡,若遮挡则先点返回键,再重试。
实测:在抖音搜索页有开屏广告时,AI会先点右上角“跳过”,再继续执行,不中断流程。
5. 效果实录:从指令发出到关注成功的完整过程
以下为真实操作录屏转文字描述(已脱敏,保留关键节点):
时间戳 00:00
- 手机屏幕黑屏 → 自动亮起 → 启动抖音App → 加载动画结束,停在首页底部导航栏。
时间戳 00:03
- 顶部搜索框被精准点击 → 软键盘弹出 → 输入
dycwo11nt61d(无错别字) → 点击键盘“搜索”键。
时间戳 00:08
- 搜索结果页加载完成 → 页面自动下拉至第二屏 → 停在一张蓝底白字卡片前(ID标注清晰)。
- AI识别到卡片中“抖音号:dycwo11nt61d”文字,定位其右侧圆形头像。
时间戳 00:12
- 头像下方绿色按钮被点击 → 按钮文字由“关注”变为“已关注”,背景色变浅灰。
- 命令行同步输出:
[INFO] Action: CLICK at (x=320, y=745) [SUCCESS] Follow action completed for user dycwo11nt61d Result: 已成功关注该博主!全程耗时:14.2秒(含App启动、网络请求、模型推理)
成功率:连续5次测试,100%成功(未出现误点、卡死、跳转错误)
📸 效果对比图说明:
- 左图:搜索前抖音首页,无任何操作痕迹;
- 中图:搜索结果页,红框标出目标账号卡片;
- 右图:关注后状态,“已关注”按钮高亮显示,且博主出现在你“关注”列表首条。
6. 进阶技巧:让AI更懂你,少走弯路
6.1 提升成功率的3个提示词心法
Open-AutoGLM对指令表述敏感,试试这些优化:
- 好:“打开抖音,搜索抖音号‘dycwo11nt61d’,进入其主页,点击关注按钮”
- 差:“帮我关注那个抖音号”(缺少平台、ID、动作)
- 加限定:“请确保在抖音App内操作,不要打开其他应用”(防切错App)
- 防歧义:“抖音号为dycwo11nt61d(注意:不是用户名)”(明确字段类型)
6.2 批量任务:用Python API实现“一键关注10个博主”
不想每次敲命令?用代码批量处理:
from phone_agent.main import run_task # 预置博主ID列表 ids = ["dycwo11nt61d", "xiaohongshu_official", "tech_daily"] for uid in ids: instruction = f"打开抖音搜索抖音号为:{uid} 的博主并关注他!" result = run_task( base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", apikey="your_api_key", instruction=instruction, device_id="your_device_id" # adb devices查到的ID ) print(f" {uid}: {result}")提示:添加
time.sleep(5)在循环内,避免请求过于密集触发限流。
6.3 故障自检清单(90%问题可秒解)
| 现象 | 原因 | 解决方案 |
|---|---|---|
adb devices显示unauthorized | 手机未授权电脑调试 | 断开USB → 手机弹窗点“允许” → 重连 |
命令行卡在Taking screenshot... | ADB Keyboard未设为默认输入法 | 手机设置 → 输入法 → 切换为ADB Keyboard |
| 模型返回乱码或超时 | API Key错误/网络波动 | 检查Key是否复制完整;换用--timeout 120延长等待 |
| 点击位置偏差 >50px | 手机分辨率缩放未设为100% | 设置 → 显示 → 缩放与字体 → 设为“小”或“默认” |
7. 总结:这不是玩具,而是生产力新范式
回看整个过程:
- 没有写一行ADB命令,不用记坐标、不用录屏分析;
- 没有调一个模型参数,不碰vLLM、不改LoRA;
- 不依赖高端硬件,一台旧笔记本+千元安卓机就能跑;
- 结果可验证、可复现、可批量,不是Demo,是真正在做事。
Open-AutoGLM的价值,不在“能点手机”,而在把人类意图无缝翻译成设备动作。它模糊了“指令”与“执行”的边界——你说“找南京火锅”,它就打开美团搜;你说“把这张图发给张三”,它就切微信、选图、发消息。
下一步你可以:
- 尝试更复杂指令:“打开小红书,搜索‘露营装备’,按点赞数排序,收藏前3篇笔记”;
- 结合定时任务,让AI每天早8点自动刷抖音热榜;
- 把它集成进企业IM,让客服机器人直接帮用户操作App。
技术终将隐形,而体验,正在变得越来越像呼吸一样自然。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。