在 2025 年 12 月,国内外 AI 技术圈掀起了一波热潮——“豆包手机”火爆出圈,紧接着大模型公司智谱 AI 将 AutoGLM 开源的消息震动开发者社区。这一系列事件不只是“爆款新闻”,对于前后端开发者来说,蕴含着极其丰富的技术机会与思考空间。 36kr+1
一、什么是“豆包手机”?
“豆包手机”是指搭载了字节跳动旗下 AI 助手豆包的智能手机样机(如中兴合作的 nubia M153),其核心特点在于:
- 将 AI 能力嵌入手机操作系统或底层;
- 让用户能用自然语言指令控制手机执行复杂任务;
- 能跨应用完成任务链,如打开 App、搜索、下单等。 36kr
因此,豆包手机并不只是一个聊天机器人,而是一种“AI 驱动的操作系统级智能体”。
不过,它的爆红也伴随着争议,例如微信等大 App 对此类跨应用智能操作提出安全和隐私方面的限制,导致部分功能被屏蔽。 虎嗅
二、什么是 AutoGLM?为什么会开源?
紧接着豆包手机走红之后,AI 公司智谱 AI将其智能体框架AutoGLM(一种具备 “Phone Use” 能力的 AI Agent)全面开源至 GitHub,技术本质是:
✔️ 一个视觉 + 多模态大模型,可以“看懂屏幕内容”
✔️ 自动规划操作步骤并模拟触控(点击、滑动、输入)
✔️ 可跨 App 执行任务链,类似“自动人类操作”
✔️ 支持本地或云端部署,且兼顾隐私控制与开放性 Lightnode+1
也就是说,AutoGLM 为开发者提供了一个真正可编程的智能手机操作 Agent 框架,打破了以往封闭系统级方案的技术壁垒,让任何开发者或厂商都能构建自己的智能 Agent。 AI Studio
三、对于前端开发者的启发与实践
作为前端工程师,你或许会问:“这跟我有什么关系?我怎么用它?”
答案是:AI Agent 与前端开发有着天然的交集点,尤其是在 UI 自动化、用户体验创新和智能交互层面。
✅ 1. 自动化交互与智能测试
AutoGLM 最吸引人的一点是它的跨 App 自动化:
- 自动执行页面导航与操作;
- 在真实的手机环境下模拟用户行为;
- 可用来做自动化测试、回归测试甚至 UI 监控;
对于前端来说,这意味着你可以构建更智能的测试套件,而不只是传统的 Puppeteer / Selenium 级别的脚本。 Lightnode
✅ 2. 在 Web → 移动端交互中集成智能指令
想象这样一个场景:
用户在你的 Web App 里对着麦克风说:
“帮我找一张到杭州的机票 12月30日 上午最便宜的那个。”
如果结合 AutoGLM 和你的前端,
你可以:
- 前端捕获用户指令;
- 发送到后端 / AI 指令分析;
- 指令由 AutoGLM Agent 执行真实手机中的任务;
- 返回结果并反馈到你的 Web UI。
这是B2C、智能助手场景的新交互方式,不是简单的聊天机器人,而是能跨设备执行复杂任务。 36kr
✅ 3. 构建高阶交互组件
配合前端:
类型 | 示例 |
智能搜索 | “帮我找评论最好的酒店” |
自动操作 | “打开淘宝领券” |
UI 录制 | 使用 AutoGLM 录制自动化脚本并可视化到 Web 页面 |
这些功能都可以集成到 React / Vue UI 组件中,作为高级交互插件。
四、后端如何支持 AutoGLM 与 AI 交互场景?
后端主要集中在以下几块:
📍 1. 指令解析与任务规划
用户自然语言 → 意图解析 → 转成 AutoGLM Agent 能理解的操作序列。
你可以:
- 部署一个 LLM API(比如自有模型或开源模型)负责解析;
- 构建一个智能任务路由器,将指令映射到自动序列。
📍 2. 权限管理与安全控制
由于 Agent 能操作真实 UI,在设计系统时:
- 必须严格管理认证和授权;
- 对敏感操作加二次确认;
- 记录操作日志并展示给用户。
📍 3. 任务队列与执行监控
长链任务(如订票)可能需要执行数十步:
- 设计任务队列系统;
- 支持异步状态推送到前端;
- 在失败时做 retry 或回滚。
五、技术挑战与生态限制
虽然技术爆发式发展,但也存在技术与生态的挑战:
🚫 应用生态防护
许多 App 为保护自身业务和数据,不愿被第三方 Agent 操作(如微信对自动操作的限制)。 虎嗅
🔐 隐私与权限
自动操作可能涉及登录凭证、支付信息等敏感领域,必须慎重处理。 36kr
📱 各设备兼容性
不同 Android 版本、App UI 更新会影响 Agent 的识别和执行精度。 Lightnode
六、结语:从趋势看未来
**豆包手机与 AutoGLM 的热度不是昙花一现,而是一个时代的创新标志。**它预示着:
🔹 AI 不再只会“聊天”,还能“做事”
🔹 手机将成为智能体级交互平台
🔹 开源让所有开发者都有机会参与这个生态
🔹 前后端可以一起构建新的智能交互产品
如果你是前端工程师,思考如何将 UI 逻辑和 AI Agent 自动化整合;
如果你是后端工程师,思考如何解析用户需求并安全地控制智能 Agent 构建全栈自动化能力。
这是属于AI×全栈交互的大时代。🚀
以下是一套「可落地」的示例方案,从后端封装 AutoGLM API → 前端 React / Vue 组件集成 → 实时任务状态回传,整体按真实工程思路来写,适合你这种前后端工程师直接理解和改造。
场景示例
用户在 Web 页面输入一句话:
👉「帮我在手机上打开美团,搜索‘杭州 火锅’,按评分排序」
一、整体架构(非常重要)
[ Web 前端 React / Vue ] | | HTTP / WebSocket v [ 业务后端 Node.js / Java ] | | AutoGLM API v [ AutoGLM Agent ] | | Android 真机 / 模拟器核心思想:
- 前端不直接碰 AutoGLM
- 后端作为「任务调度 + 安全控制层」
- AutoGLM 只负责「看屏幕 + 执行动作」
二、后端:封装 AutoGLM API(Node.js 示例)
你可以用 Node / Java / Python,下面用Node.js(Express)举例
1️⃣ AutoGLM 调用封装
// services/autoGLM.js import axios from 'axios'; const AUTO_GLM_BASE_URL = 'http://localhost:8000'; // AutoGLM 服务地址 export async function createTask(prompt) { const res = await axios.post(`${AUTO_GLM_BASE_URL}/v1/agent/run`, { instruction: prompt, mode: "phone_use" }); return res.data; }2️⃣ 后端接口:创建智能任务
// routes/agent.js import express from 'express'; import { createTask } from '../services/autoGLM.js'; const router = express.Router(); router.post('/agent/task', async (req, res) => { const { prompt } = req.body; if (!prompt) { return res.status(400).json({ message: 'prompt is required' }); } try { const task = await createTask(prompt); res.json({ taskId: task.task_id, status: 'running' }); } catch (err) { res.status(500).json({ message: err.message }); } }); export default router;3️⃣ 查询任务状态(轮询 / WebSocket)
// services/autoGLM.js export async function getTaskStatus(taskId) { const res = await axios.get( `${AUTO_GLM_BASE_URL}/v1/agent/status/${taskId}` ); return res.data; }// routes/agent.js router.get('/agent/task/:taskId', async (req, res) => { const data = await getTaskStatus(req.params.taskId); res.json(data); });三、React 前端示例(Hook 风格)
1️⃣ 页面组件
import { useState } from 'react'; import axios from 'axios'; export default function AgentPage() { const [prompt, setPrompt] = useState(''); const [taskId, setTaskId] = useState(''); const [status, setStatus] = useState(''); const runAgent = async () => { const res = await axios.post('/api/agent/task', { prompt }); setTaskId(res.data.taskId); pollStatus(res.data.taskId); }; const pollStatus = (id) => { const timer = setInterval(async () => { const res = await axios.get(`/api/agent/task/${id}`); setStatus(res.data.status); if (res.data.status === 'finished') { clearInterval(timer); } }, 2000); }; return ( <div style={{ padding: 24 }}> <h2>AI 手机智能体</h2> <textarea value={prompt} onChange={e => setPrompt(e.target.value)} placeholder="输入你想让手机做的事" rows={4} /> <br /> <button onClick={runAgent}>执行</button> <div>任务ID:{taskId}</div> <div>当前状态:{status}</div> </div> ); }2️⃣ 更真实的 UX(建议)
- loading 动画
- 步骤流(AutoGLM 的 reasoning / action)
- 屏幕截图回放(AutoGLM 支持)
四、Vue 2 / Vue 3 示例
下面给 Vue2 示例
1️⃣ Vue 组件
<template> <div class="agent-page"> <a-textarea v-model="prompt" placeholder="告诉 AI 你想让手机做什么" rows="4" /> <a-button type="primary" @click="runAgent"> 执行任务 </a-button> <p>任务状态:{{ status }}</p> </div> </template> <script> import axios from 'axios'; export default { data() { return { prompt: '', taskId: '', status: '' }; }, methods: { async runAgent() { const res = await axios.post('/api/agent/task', { prompt: this.prompt }); this.taskId = res.data.taskId; this.pollStatus(); }, pollStatus() { const timer = setInterval(async () => { const res = await axios.get( `/api/agent/task/${this.taskId}` ); this.status = res.data.status; if (this.status === 'finished') { clearInterval(timer); } }, 2000); } } }; </script>五、进阶:任务步骤可视化(强烈推荐)
AutoGLM 返回类似:
{ "steps": [ { "action": "open_app", "target": "美团" }, { "action": "input", "value": "杭州 火锅" }, { "action": "click", "target": "评分排序" } ] }你可以在前端渲染:
<a-steps :current="currentStep"> <a-step v-for="(step, index) in steps" :key="index" :title="step.action" :description="step.target || step.value" /> </a-steps>👉这一步非常“豆包手机风格”
六、安全 & 工程建议(踩坑经验)
⚠️ 一定要做:
- ❌ 前端禁止直连 AutoGLM
- ✅ 后端加白名单指令(如禁止支付)
- ✅ 敏感操作二次确认
- ✅ 全量操作日志(审计)
七、可以做的产品级功能
比如
- 🧠在线调解系统的「AI 助手」
- 自动打开证据 App
- 自动整理聊天记录
- 🧪UI 自动化测试平台
- 📱企业内部“AI 手机助理”