news 2026/2/22 4:28:13

小白也能懂的Open-AutoGLM:零基础搭建手机智能助理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小白也能懂的Open-AutoGLM:零基础搭建手机智能助理

小白也能懂的Open-AutoGLM:零基础搭建手机智能助理

你有没有过这样的时刻——
想查个快递,却要先解锁手机、点开淘宝、翻到订单页、再找物流信息;
想关注一个博主,得手动打开抖音、搜索ID、点进主页、再点关注;
甚至只是“把微信里的截图发给张三”,都要反复切换App、长按、选择、粘贴……

这些操作,对人来说是几秒钟的事,但每天重复十几次,就是实实在在的时间消耗。
而Open-AutoGLM做的,就是让手机自己听懂你的话,然后——真的去做

它不是另一个聊天机器人,也不是只能回答问题的AI。
它是能“看见”你手机屏幕、“理解”当前界面、“动手”点击滑动、“完成”整套任务的真·手机智能助理
更关键的是:不需要写代码、不用配服务器、连安卓开发经验都不用,照着做就能跑起来。
这篇文章,就是为你写的——从完全没听过ADB,到让AI替你刷小红书、搜美团、点关注,全程零门槛。


1. 它到底能干什么?先看几个真实场景

别急着装环境,我们先看看它能做什么。这才是你决定要不要继续往下读的关键。

1.1 一句话,自动完成一整套操作

你输入:

“打开小红书,搜索‘上海咖啡探店’,点开第一个笔记,下滑三屏,截图保存”

它会自动:
连接你的手机
截取当前屏幕(识别界面状态)
判断小红书是否已安装/已打开
如果没开,就启动App;如果已开但不在首页,就返回首页
点击搜索框 → 输入文字 → 点击搜索
解析搜索结果页 → 找到第一个笔记卡片 → 点击进入
模拟手指下滑动作,连续三次
调用系统截图功能 → 保存到相册

整个过程无需你碰一下手机,指令发出后,它自己规划、自己执行、自己确认。

1.2 遇到验证码、登录页,它不瞎操作

它不是“无脑脚本”。当检测到以下界面时,会主动暂停并提醒你:

  • 微信登录页(需要扫码或密码)
  • 支付宝付款密码框
  • AppStore更新弹窗
  • 短信验证码输入框

这时它会说:“检测到登录界面,需人工确认。请完成验证后输入‘继续’。”
——安全不是口号,而是写进流程里的默认机制。

1.3 远程控制?WiFi连上就能用

不用USB线,只要手机和电脑在同一个WiFi下,就能远程操控:

  • 你在公司电脑前,让家里的旧手机自动帮你抢演唱会门票
  • 用MacBook控制放在桌上的安卓测试机,调试新App
  • 给父母手机装好后,远程帮他们订挂号、查医保

它不依赖物理连接,只依赖网络可达性。

这已经不是“自动化工具”,而是你手机里多了一个看得见、听得懂、动得了的手


2. 不用怕术语:三步搞懂它怎么工作

很多人看到“视觉语言模型”“ADB”“vLLM”就退缩。其实核心逻辑非常朴素,就像教一个细心又手巧的朋友做事:

2.1 第一步:让它“看见”屏幕(多模态感知)

它每5秒自动截一次屏(可调),把图片+当前任务指令一起交给AI模型。
这个模型不是纯文本模型,而是能同时看图、读字、理解布局的视觉语言模型
比如你让它“点右上角三个点”,它会:

  • 看图识别出哪是状态栏、哪是标题栏、哪是操作区
  • 定位到右上角区域
  • 找出那个“⋯”图标(哪怕图标样式因App版本不同而变化)
  • 计算出精确点击坐标

不是靠死记硬背坐标,而是靠“理解”。

2.2 第二步:让它“想清楚”下一步(智能规划)

拿到截图和指令后,它不会直接点。而是先思考:

  • 当前是什么App?什么页面?
  • 我的目标是“搜索美食”,现在在桌面,第一步该干嘛?→ 启动小红书
  • 小红书打开了,但没在首页,第二步该干嘛?→ 点底部“首页”Tab
  • 搜索框在哪?第三步该干嘛?→ 点放大镜图标

这个“思考链”叫思维链规划(Chain-of-Thought Planning),它会生成一串可执行动作:
[launch_app("xiaohongshu"), tap_tab("home"), tap_icon("search"), input_text("上海咖啡探店")]

2.3 第三步:让它“动手做”(ADB精准操控)

规划好后,就轮到ADB出场了。
ADB(Android Debug Bridge)是安卓官方提供的调试工具,就像手机的“USB遥控器”。
Open-AutoGLM用它来:

  • adb shell input tap x y→ 模拟点击
  • adb shell input swipe x1 y1 x2 y2 duration→ 模拟滑动
  • adb shell am start -n package/activity→ 启动App
  • adb shell input text "xxx"→ 输入文字(配合ADB Keyboard实现)

所有操作都通过命令行完成,稳定、精准、可复现。

这三步闭环——看→想→做——就是Open-AutoGLM最核心的能力。
你不需要懂模型怎么训练,只需要知道:它看得到、想得清、做得准。


3. 零基础部署:手把手带你连上第一台手机

现在,我们正式开始。全程在Windows或Mac上操作,不需要Linux基础,也不需要显卡。

3.1 准备三样东西(5分钟搞定)

项目要求怎么检查
一台安卓手机Android 7.0及以上(主流机型全支持)设置 → 关于手机 → 查看Android版本
一台电脑Windows 10+/macOS 12+系统自带终端即可
USB数据线(可选)用于首次连接,后续可用WiFi有就行

注意:这不是iOS方案,目前仅支持安卓。苹果设备因系统限制暂不支持。

3.2 手机端设置:开启“被控制权”(3分钟)

这是最关键的一步,但非常简单:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”开关
    (如果找不到“开发者选项”,先去“关于手机”点版本号)

  3. 安装ADB Keyboard(让AI能打字)

    • 去GitHub Releases下载 ADBKeyboard.apk
    • 用手机浏览器打开下载链接 → 安装APK
    • 设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”

做完这三步,手机就准备好“听指挥”了。

3.3 电脑端配置:装好“指挥官”(10分钟)

第一步:安装ADB工具(一次配置,永久可用)
  • Windows用户
    下载 platform-tools → 解压到C:\adb
    右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb
    打开CMD,输入adb version,看到版本号即成功。

  • Mac用户
    打开终端,运行:

    curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH="$PATH:$(pwd)/platform-tools" echo 'export PATH="$PATH:$(pwd)/platform-tools"' >> ~/.zshrc source ~/.zshrc adb version
第二步:连接手机(USB or WiFi)
  • USB连接(推荐新手)
    用数据线连手机和电脑 → 手机弹出“允许USB调试吗?”→ 勾选“始终允许”→点确定
    电脑终端输入:

    adb devices

    如果看到一串字母数字(如ce123456789abcde device),说明连接成功

  • WiFi连接(进阶用)
    先用USB连上,运行:

    adb tcpip 5555

    断开USB,连同一WiFi,查手机IP(设置→关于手机→状态→IP地址),然后:

    adb connect 192.168.1.100:5555

    成功后,adb devices会显示192.168.1.100:5555 device

3.4 运行AI助理:一句话启动(2分钟)

现在,你只需要做三件事:

  1. 克隆代码(复制粘贴即可):

    git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .
  2. 启动本地模型服务(可选)
    如果你不想自己搭云服务,可以用Hugging Face免费空间跑轻量模型:
    直接访问 AutoGLM-Phone-9B on Hugging Face Spaces
    点“Launch Space”,等加载完,复制右上角的API地址(形如https://zai-org-autoglm-phone-9b.hf.space/v1

  3. 下达第一条指令
    在Open-AutoGLM目录下,运行:

    python main.py \ --device-id ce123456789abcde \ --base-url https://zai-org-autoglm-phone-9b.hf.space/v1 \ "打开微信,找到文件传输助手,发送'你好,AI已上线'"

替换--device-id为你自己的设备ID(adb devices看到的那个),回车——
几秒后,你会亲眼看到:微信自动打开 → 搜索“文件传输助手” → 点击进入 → 输入文字 → 点击发送。

你刚刚,用一句话,唤醒了一个能动手的AI。


4. 实用技巧:让AI更听话、更省心

刚跑通只是开始。下面这些技巧,能让你真正用起来、用得顺、用得久。

4.1 指令怎么写才好使?记住这三条

  • 说清楚目标,不说过程
    好:“打开高德地图,导航去北京南站”
    差:“先点图标,再点搜索框,再输‘北京南站’,再点导航”
    → AI自己会规划步骤,你只需告诉它“要什么”。

  • 用日常说法,别翻译成技术词
    好:“把这张截图发给李四”
    差:“将/sdcard/Pictures/Screenshots/IMG_20240501.png通过微信分享给联系人‘李四’”
    → 它能自动识别相册最新截图,也能从通讯录找到“李四”。

  • 加一点上下文,效果翻倍
    好:“我在小红书首页,帮我搜‘露营装备推荐’,点第一个笔记”
    差:“搜‘露营装备推荐’”
    → 告诉它当前状态,能大幅减少误判。

4.2 遇到问题?先查这三个地方

现象最可能原因快速解决
adb devices显示unauthorized手机没点“允许USB调试”断开重连,手机弹窗点“允许”
指令执行一半卡住界面跳转太快,AI没识别到新页面--delay 2参数,每步多等2秒
输入文字乱码/不出现ADB Keyboard没设为默认输入法手机设置→语言与输入法→切换为ADB Keyboard

4.3 想批量处理?试试Python API

如果你需要让AI每天定时执行任务(比如早8点自动查天气、晚9点发日报),用代码更稳:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置你的模型服务地址(用Hugging Face Space或自建) model_config = ModelConfig( base_url="https://zai-org-autoglm-phone-9b.hf.space/v1", model_name="autoglm-phone-9b", ) agent = PhoneAgent(model_config=model_config) # 一次性执行多个任务 tasks = [ "打开墨迹天气,截图今日预报", "打开钉钉,打卡上班", "打开网易云,播放我的每日推荐" ] for task in tasks: print(f"正在执行:{task}") result = agent.run(task, timeout=120) # 最多等120秒 print(f"结果:{result['status']}")

这段代码可以保存为daily_task.py,用系统定时任务(Windows任务计划程序 / macOS launchd)每天自动运行。


5. 它适合谁?以及,它不适合谁?

Open-AutoGLM不是万能神器,认清它的边界,才能用得安心、高效。

5.1 适合这些朋友:

  • 效率控:每天重复操作超过5次,愿意花30分钟配置,换回每周2小时
  • 非技术用户:会用微信、会装App,但不想学Python或Linux命令
  • 测试/运营人员:需要频繁在多台手机上验证App流程
  • 长辈关怀者:给父母手机装好,远程帮他们挂号、查社保、看视频
  • 开发者起点:想基于它二次开发专属Agent,而不是从零造轮子

5.2 暂时不推荐这些场景:

  • 金融级安全操作:如大额转账、修改支付密码——它会主动拦截并要求人工接管
  • 游戏自动化:复杂动态界面(如王者荣耀团战)识别率有限,不保证100%准确
  • iOS设备:苹果系统限制严格,目前无官方支持方案
  • 离线使用:必须联网调用模型服务(本地部署需GPU,不推荐小白尝试)

它不是一个取代人类的“超级AI”,而是一个可靠、可控、可解释的数字助手
它的价值,不在于多聪明,而在于——你说了算,它照做,错了能停,关键时有人兜底。


6. 总结:你已经拥有了一个手机里的“隐形同事”

回顾一下,你今天学会了:

  • 看懂Open-AutoGLM的核心能力:看屏幕 + 想步骤 + 动手做
  • 亲手连上自己的安卓手机,不用一行代码,不用编译环境
  • 用一句大白话,让AI自动完成多步操作,从打开App到发送消息
  • 掌握实用技巧:怎么写好指令、怎么排查问题、怎么批量执行
  • 清楚知道它能做什么、不能做什么,用得放心、不盲目期待

它不神秘,也不遥远。
它就藏在你手机屏幕背后,等着你下一句:“嘿,帮我……”

而你,已经拿到了那把钥匙。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 0:47:33

STM32多设备I2C总线管理策略:系统学习

以下是对您提供的技术博文进行 深度润色与重构后的专业级技术文章 。我以一位深耕嵌入式系统多年、兼具一线开发经验与教学视角的工程师身份,彻底摒弃AI腔调与模板化表达,将原文升级为一篇 逻辑更严密、语言更凝练、实践性更强、可读性更高 的技术分…

作者头像 李华
网站建设 2026/2/22 2:18:05

Ling-flash-2.0开源:6B参数实现40B级推理新高度!

Ling-flash-2.0开源:6B参数实现40B级推理新高度! 【免费下载链接】Ling-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-flash-2.0 导语:近日,inclusionAI正式开源新一代大语言模型Ling-flash-…

作者头像 李华
网站建设 2026/2/20 20:31:07

Z-Image-Turbo浏览器兼容性:Chrome/Firefox访问实战测试

Z-Image-Turbo浏览器兼容性:Chrome/Firefox访问实战测试 1. 为什么浏览器兼容性值得专门测试? 你可能已经成功在本地跑起了Z-Image-Turbo WebUI,输入提示词、点击生成、看着图像一帧帧浮现——整个过程行云流水。但当你把链接发给同事、客户…

作者头像 李华
网站建设 2026/2/19 19:09:35

语音情感识别怎么选?科哥镜像实测对比告诉你答案

语音情感识别怎么选?科哥镜像实测对比告诉你答案 在智能客服、在线教育、心理评估、内容审核等场景中,语音情感识别正从“能用”走向“好用”。但面对市面上琳琅满目的模型和镜像,新手常陷入三重困惑: 情感分类够不够细&#xf…

作者头像 李华
网站建设 2026/2/18 5:37:04

开箱即用的自启方案,测试脚本快速落地实践

开箱即用的自启方案,测试脚本快速落地实践 在日常运维和自动化部署中,经常需要让某些自定义脚本在系统启动时自动运行——比如环境检测、服务预热、日志清理、硬件初始化等。但很多开发者卡在“写好了脚本,却不知道怎么让它开机就跑”这一步…

作者头像 李华
网站建设 2026/2/19 17:01:12

5步实现本地AI自由:面向开发者的低显存大模型部署方案

5步实现本地AI自由:面向开发者的低显存大模型部署方案 【免费下载链接】chatglm-6b-int4 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/chatglm-6b-int4 在AI大模型日益普及的今天,显存限制成为许多开发者体验和应用大模型的主要障碍…

作者头像 李华