news 2026/2/13 13:30:53

Open-AutoGLM实战案例:自动关注抖音博主全过程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实战案例:自动关注抖音博主全过程

Open-AutoGLM实战案例:自动关注抖音博主全过程

1. 为什么需要一个“会看屏幕、能点手机”的AI?

你有没有过这样的时刻:
刷着抖音,看到一个讲摄影技巧的博主,内容特别实用,想立刻关注——但手正端着咖啡,腾不开;
或者深夜躺床上,突然想起要给朋友转发一条美食探店视频,结果翻半天没找到那个账号;
又或者,你是个内容运营,每天要批量关注竞品账号、收集达人信息,手动操作重复又耗时。

传统语音助手只能打开App、调音量、设闹钟;而Open-AutoGLM不一样——它像一位坐在你电脑旁的数字助理:能看见你的手机屏幕,理解界面上的每一个按钮、文字和图标,还能用ADB精准点击、滑动、输入,真正替你“动手”完成任务。

这不是自动化脚本,也不是固定流程的宏录制。它是基于视觉语言模型(VLM)的Phone Agent:

  • 看得懂——把截图喂给大模型,识别出“搜索框”“用户头像”“关注按钮”;
  • 想得清——规划动作链:先点放大镜→输入ID→点搜索→点头像→点“关注”;
  • 做得到——通过ADB发送坐标指令,毫秒级执行,不误触、不漏步。

本文不讲原理推导,不堆参数配置,只带你从零开始,用一台普通Windows电脑+一部安卓手机,30分钟内跑通“自动关注抖音博主”全流程。全程无需显卡,不装Docker,不编译模型,连API Key都为你准备好试用路径。


2. 硬件与环境:三样东西,缺一不可

2.1 必备清单(真实可用,非理论配置)

类别具体要求说明
手机Android 7.0+,已解锁开发者选项实测vivo S20、小米13、三星S23均兼容;iOS暂不支持
电脑Windows 10/11 或 macOS Monterey+不需要GPU,8GB内存足够;Python 3.10推荐(避免3.12兼容问题)
连接方式USB数据线(首选)或同一WiFi网络USB更稳定;WiFi需手机开启“无线调试”,实测延迟高15%~20%

注意:不是所有USB线都支持数据传输!那种只能充电的“快充线”,插上adb devices会显示为空。建议用原装线,或认准“USB 2.0数据线”标识。

2.2 ADB工具:手机和电脑之间的“翻译官”

ADB(Android Debug Bridge)是谷歌官方提供的调试桥接工具,Open-AutoGLM靠它发指令。安装只需两步:

Windows用户

  1. 下载官方platform-tools,解压到C:\adb(路径不含中文和空格);
  2. 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴C:\adb
  3. 打开新命令行窗口,输入:
adb version

若返回类似Android Debug Bridge version 1.0.41,即成功。

macOS用户
在终端执行:

# 假设解压到 ~/Downloads/platform-tools export PATH="$PATH:~/Downloads/platform-tools" # 永久生效可追加到 ~/.zshrc echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc

2.3 手机端关键设置:三步激活“被操控权”

这三步漏掉任意一个,AI都会卡在“找不到界面元素”:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”;
    (部分机型如华为需点“软件信息”→“版本号”)

  2. 启用USB调试
    设置 → 系统和更新 → 开发者选项 → 打开“USB调试”;
    首次开启会弹窗,务必勾选“始终允许”并点确定

  3. 安装ADB Keyboard(解决输入法冲突)

    • 下载ADBKeyboard.apk;
    • 命令行执行:
    adb install -r ~/Downloads/ADBKeyboard.apk
    • 手机设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”。

验证是否就绪:手机用USB线连电脑 → 命令行输入adb devices→ 显示一串字符+device(非unauthorizedoffline),即全部OK。


3. 部署Open-AutoGLM:5分钟完成,无坑直通

3.1 克隆代码 & 安装依赖

打开命令行(Windows用CMD/PowerShell,macOS用Terminal),依次执行:

# 创建专属文件夹,避免路径混乱 mkdir autoglm-demo && cd autoglm-demo # 克隆官方仓库(注意:不是fork,用原始地址) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 推荐使用虚拟环境(防包冲突) python -m venv venv venv\Scripts\activate # Windows # venv/bin/activate # macOS # 安装核心依赖(requirements.txt已适配Windows编码) pip install -r requirements.txt pip install -e .

提示:如果遇到UnicodeDecodeError: 'gbk' codec can't decode...(Windows常见),是文件读取编码问题。打开scripts/check_deployment_cn.py,将第22行:
with open(args.messages_file) as f:
改为:
with open(args.messages_file, encoding='utf-8') as f:
保存即可。

3.2 获取智谱API Key:免费额度够跑100次

Open-AutoGLM支持本地部署模型,但对新手最友好的是调用智谱云端API——免部署、免显卡、响应快。

  1. 访问智谱AI官网,注册账号;
  2. 登录后进入「API密钥」页面,点击「创建新密钥」;
  3. 复制生成的Key(形如bb9a1c2d...),务必保存好,页面关闭后无法再次查看

免费额度:新用户赠送50万tokens,一次抖音关注任务约消耗1200~1800 tokens,足够你反复调试20+次。

3.3 启动代理:一行命令,AI开始工作

确保手机已连接且adb devices可见,执行:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "你的API_KEY_粘贴在这里(含双引号)" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • --base-url:智谱官方API入口,无需修改;
  • --model:当前唯一可用Phone Agent模型名,大小写敏感;
  • 最后字符串:自然语言指令,越具体成功率越高(必须含平台名“抖音”、动作“搜索”“关注”、目标“抖音号”)。

成功标志:命令行开始滚动输出,出现[INFO] Taking screenshot...Sending to model...Action: CLICK at (x=520, y=890)→ 最终打印Result: 已成功关注该博主!


4. 实战拆解:AI如何一步步完成“关注抖音博主”

我们以指令"打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"为例,还原AI内部决策链:

4.1 动作分阶段解析(非黑盒,每步可验证)

阶段AI做了什么你看到的现象关键技术点
① 启动App检测桌面是否有抖音图标 → 若无则从应用列表启动 → 若已运行则切到前台手机自动点亮屏幕 → 启动抖音 → 进入首页图标匹配+Activity调度
② 定位搜索入口截图 → 识别顶部“放大镜”图标 → 输出坐标(x,y) → 发送CLICK指令屏幕顶部搜索框被点击,键盘弹出VLM多模态定位,非OCR文字识别
③ 输入ID并搜索调用ADB Keyboard输入dycwo11nt61d→ 识别软键盘“搜索”按钮 → 点击输入框显示ID → 点击后跳转至搜索结果页输入法接管+控件语义理解
④ 识别目标账号截图搜索结果页 → 匹配“抖音号:dycwo11nt61d”文字 → 定位其右侧头像区域页面滚动停在目标博主卡片处文字-图像联合检索,非纯关键词匹配
⑤ 执行关注识别头像下方“关注”按钮 → 判断状态(未关注→绿色按钮)→ 点击“关注”按钮变为“已关注”,颜色变灰状态感知+动态UI决策

验证技巧:在命令行加--verbose参数,可看到每步截图保存路径(默认./screenshots/),打开图片就能对照坐标是否准确。

4.2 为什么它不点错?——三个防错机制

Open-AutoGLM不是盲目点击,而是带“安全意识”的Agent:

  • 控件置信度过滤:模型对每个识别结果打分(0~1),低于0.85的坐标直接丢弃,避免误点广告;
  • 操作确认机制:当检测到“登录”“验证码”等敏感场景,自动暂停并提示[WAITING] Please handle manually
  • 坐标偏移校验:点击前检查目标区域是否被弹窗遮挡,若遮挡则先点返回键,再重试。

实测:在抖音搜索页有开屏广告时,AI会先点右上角“跳过”,再继续执行,不中断流程。


5. 效果实录:从指令发出到关注成功的完整过程

以下为真实操作录屏转文字描述(已脱敏,保留关键节点):

时间戳 00:00

  • 手机屏幕黑屏 → 自动亮起 → 启动抖音App → 加载动画结束,停在首页底部导航栏。

时间戳 00:03

  • 顶部搜索框被精准点击 → 软键盘弹出 → 输入dycwo11nt61d(无错别字) → 点击键盘“搜索”键。

时间戳 00:08

  • 搜索结果页加载完成 → 页面自动下拉至第二屏 → 停在一张蓝底白字卡片前(ID标注清晰)。
  • AI识别到卡片中“抖音号:dycwo11nt61d”文字,定位其右侧圆形头像。

时间戳 00:12

  • 头像下方绿色按钮被点击 → 按钮文字由“关注”变为“已关注”,背景色变浅灰。
  • 命令行同步输出:
[INFO] Action: CLICK at (x=320, y=745) [SUCCESS] Follow action completed for user dycwo11nt61d Result: 已成功关注该博主!

全程耗时:14.2秒(含App启动、网络请求、模型推理)
成功率:连续5次测试,100%成功(未出现误点、卡死、跳转错误)

📸 效果对比图说明:

  • 左图:搜索前抖音首页,无任何操作痕迹;
  • 中图:搜索结果页,红框标出目标账号卡片;
  • 右图:关注后状态,“已关注”按钮高亮显示,且博主出现在你“关注”列表首条。

6. 进阶技巧:让AI更懂你,少走弯路

6.1 提升成功率的3个提示词心法

Open-AutoGLM对指令表述敏感,试试这些优化:

  • :“打开抖音,搜索抖音号‘dycwo11nt61d’,进入其主页,点击关注按钮”
  • :“帮我关注那个抖音号”(缺少平台、ID、动作)
  • 加限定:“请确保在抖音App内操作,不要打开其他应用”(防切错App)
  • 防歧义:“抖音号为dycwo11nt61d(注意:不是用户名)”(明确字段类型)

6.2 批量任务:用Python API实现“一键关注10个博主”

不想每次敲命令?用代码批量处理:

from phone_agent.main import run_task # 预置博主ID列表 ids = ["dycwo11nt61d", "xiaohongshu_official", "tech_daily"] for uid in ids: instruction = f"打开抖音搜索抖音号为:{uid} 的博主并关注他!" result = run_task( base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", apikey="your_api_key", instruction=instruction, device_id="your_device_id" # adb devices查到的ID ) print(f" {uid}: {result}")

提示:添加time.sleep(5)在循环内,避免请求过于密集触发限流。

6.3 故障自检清单(90%问题可秒解)

现象原因解决方案
adb devices显示unauthorized手机未授权电脑调试断开USB → 手机弹窗点“允许” → 重连
命令行卡在Taking screenshot...ADB Keyboard未设为默认输入法手机设置 → 输入法 → 切换为ADB Keyboard
模型返回乱码或超时API Key错误/网络波动检查Key是否复制完整;换用--timeout 120延长等待
点击位置偏差 >50px手机分辨率缩放未设为100%设置 → 显示 → 缩放与字体 → 设为“小”或“默认”

7. 总结:这不是玩具,而是生产力新范式

回看整个过程:

  • 没有写一行ADB命令,不用记坐标、不用录屏分析;
  • 没有调一个模型参数,不碰vLLM、不改LoRA;
  • 不依赖高端硬件,一台旧笔记本+千元安卓机就能跑;
  • 结果可验证、可复现、可批量,不是Demo,是真正在做事。

Open-AutoGLM的价值,不在“能点手机”,而在把人类意图无缝翻译成设备动作。它模糊了“指令”与“执行”的边界——你说“找南京火锅”,它就打开美团搜;你说“把这张图发给张三”,它就切微信、选图、发消息。

下一步你可以:

  • 尝试更复杂指令:“打开小红书,搜索‘露营装备’,按点赞数排序,收藏前3篇笔记”;
  • 结合定时任务,让AI每天早8点自动刷抖音热榜;
  • 把它集成进企业IM,让客服机器人直接帮用户操作App。

技术终将隐形,而体验,正在变得越来越像呼吸一样自然。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/11 22:52:10

ms-swift终极指南:大模型开发者必备工具箱

ms-swift终极指南:大模型开发者必备工具箱 1. 为什么你需要ms-swift——不只是另一个微调框架 你是否经历过这样的场景:想给Qwen3加个行业知识,却发现训练脚本要重写;想用DPO对齐人类偏好,结果发现不同框架的奖励函数…

作者头像 李华
网站建设 2026/2/11 23:28:50

MedGemma 1.5体验:打造个人专属医疗顾问

MedGemma 1.5体验:打造个人专属医疗顾问 1. 为什么你需要一个“不联网的医生”? 你有没有过这样的经历:深夜突然心悸,查完百度后心跳更快了;体检报告里出现几个陌生术语,翻遍网页却找不到靠谱解释&#x…

作者头像 李华
网站建设 2026/2/12 13:19:12

VibeVoice Pro开源大模型部署实操:Docker镜像构建与K8s集群部署方案

VibeVoice Pro开源大模型部署实操:Docker镜像构建与K8s集群部署方案 1. 为什么需要重新思考TTS的部署方式 你有没有遇到过这样的场景:客服系统在用户刚说完问题时,语音助手就立刻开始回应,中间几乎感觉不到停顿?或者…

作者头像 李华
网站建设 2026/2/12 13:01:54

Z-Image-ComfyUI支持API调用?亲测可用并附完整代码

Z-Image-ComfyUI支持API调用?亲测可用并附完整代码 Z-Image-ComfyUI不是只能点点鼠标玩的玩具——它是一套真正能进生产线的图像生成服务。部署完镜像、点开网页、拖几个节点、点一下“队列提示词”,画面就出来了。但如果你以为这就到头了,那…

作者头像 李华