news 2025/12/14 11:40:10

豆包手机为什么会被其他厂商抵制?它的工作原理是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
豆包手机为什么会被其他厂商抵制?它的工作原理是什么?

之所以会想写这个,首先是因为在知乎收到了这个推荐的问题,实际上不管是 AutoGLM 还是豆包 AI 手机,会在这个阶段被第三方厂商抵制并不奇怪,比如微信和淘宝一直以来都很抵制这种外部自动化操作,而非这次中兴的 AI 豆包手机出来才抵制,毕竟以前搞过微信自动化客服应该都知道,一不小心就会被封号。

另外也是刚好看到, B 站的 UP 主老戴深入分析了豆包手机的内部工作机制的视频,视频介绍了从 AI 助手如何读取屏幕、捕捉数据和模拟操作的真实流程,所以对于 AI 手机又有了个更深刻的认知,在这个基础上,更不难理解为什么 AI 手机这种自动化 Agent 会被第三方厂商抵制,推荐大家看原视频:https://b23.tv/pftlDX8 。

那么豆包的 AI 手机是怎么工作的呢?实际上和大家想的可能不一样,它并没有使用无障碍服务(Accessibility Service),而是使用了更底层的实现方案

豆包手机利用底层的系统权限,直接从 GPU 缓冲区获取原始图像数据并注入输入事件,而非依赖截屏或无障碍服务,此外手机还在一个独立的虚拟屏幕中执行后台任务,并将图像低频发送至云端进行推理,云端则返回操作指令。

在视频里, UP 主通过深度拆解豆包手机,分析手机在系统层面的服务分工、数据抓取和模型推理路径,例如aikernel被 UP 主推断为手机端侧 AI 的核心进程,内存占用特性(Native堆高达160M)表明它可能是一个本地AI推理框架:

另外aikernel异常高的Binder数量,证明有大量外部进程通过 RPC 调用它,进一步印证了其系统级服务的角色 。

autoaction是豆包手机 AI 自动操作的关键,这个 APK 权限允许直接从 GPU 渲染的图形缓冲区读取数据,而不是通过上层截图:

而且目前看,豆包手机的 AI 能够捕获受保护的视频输出,这意味着它可以绕过银行 App 等应用的反截图/录屏限制,因为很多银行 App 很多是通过 DRM(数字版权管理) 或应用内安全设置来防止截屏和录屏:

另外,Agent 在操作手机过程也不是直接使用系统的 Accessibility Service ,而是通过调用系统隐藏APIinjectInputEvent来控制手机, AI 通过INJECT_EVENTS权限直接注入输入事件来模拟屏幕点击,权限高于无障碍 API,并且是系统签名:

同时,豆包手机在执行自动操作时,会利用一个与物理屏幕分辨率相同的“无头”虚拟屏幕在后台运行,且拥有独立的焦点,不影响用户在前台的操作,这其实就是内存副屏的概念, 虚拟屏幕的画面由 GPU 合成后,对应的缓冲区信息会直接被autoaction消费,再次证实 AI 无需通过截图 API 即可获取屏幕内容 :

最后,豆包手机在自动化操作时,会频繁地(每3到5秒)与obriccloud.com(字节的服务) 服务器通信,发送约 250K的单帧图片进行推理。

云端在接收图片后,会返回约 1K 的数据,内容是告诉手机下一步要执行的 7 种指令之一,如打开应用、点击、输入、滑动等等,整个自动化 Agent 的推理和路径规划主要在云端完成,云端思考后将执行步骤指令发回本地执行,本地任务很轻:

那么,这整个过程你看下来有什么感觉?如果你是第三方厂商,你会不会同样抵制这种数据收集和处理的行为?特别是绕过现有大家对系统 API 的理解,这种操作途径是否能被友商们接受?

所以目前的这种操作,被微信和淘宝抵制很正常,不管是隐私的边界,还有安全操作的规范,用户对于自己某个产品内容被收集的信息程度,这些都还处于蛮荒状态,数据安全和隐私的边界范围还不可控,并且 Agent 的托管行为,也明显侵犯到了友商们的利益链条

就像是 UP 主说的,AI Agent 的出现将动摇移动互联网的底层商业逻辑——注意力经济,使“注意力”这一硬通货的重要性降低 ,实际上换作另一个概念就是碎片化时间

以前你的碎片化时间都是被各种 App 消费了,比如广告和沉浸引导,但是 Agent 的出现,它明显将这部分时间给托管了,那么数据和时间都被 Agent 服务收集,对于友商们来说,不就是成了单纯的功能性服务商了吗?

另外,说实话像 AutoGLM 这种功能目前的支持,最大受益者不是用户而是灰产,不管是用诈骗还是黄牛,他们都是这种自动化下的第一受益者,所以规范和监管,特别是安全和隐私条款是必须,比如就像 UP 主说的:

豆包手机的 AI 在自动化操作过程中,哪些数据会被发送到云端服务器?

很多人对于 agent 和自动化能力的范畴并不理解,它们可以获取隐私的边界是什么,安全操作的规范是什么,这些都是需要支持和统一边界。

比如 Android 16 实际上官方是有规划 Appfunction Api 的,它的目的是让应用只公布自己开放给 AI 的能力,这样也许边界感更强。

当然,从历史的角度看,Agent 手机势不可挡,就像谷歌自己未来新的 Android PC 系统 Aluminium OS 也是会结合 Gemini Agent 等特点,这是历史进程的必然,但是这个过程中,如何统一规范和监管这是很重要的过程,毕竟 AI 的效应和能力,可比之前更加强,就像 UP 主说的,新的 AI 寡头可能会形成更中心化、更强势的权力,且马太效应更明显

那么,你觉得未来谁家的 Agent 设备会成为新时达的寡头?或者不是手机而是眼镜?

视频链接

https://b23.tv/pftlDX8

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/12 16:53:11

高密度互连板层压创新:从任意层互连到微孔填充技术

高密度互连板的层压技术已超越传统的粘合功能,演进为实现微米级互连的关键赋能者。随着5G毫米波天线与人工智能处理器对布线密度的需求突破每平方厘米万线级别,层压工艺需同步解决介厚均匀性、微孔对准及材料兼容性三重挑战。现代HDI板层压的核心&#x…

作者头像 李华
网站建设 2025/12/14 8:54:57

高频PCB层压材料进化:介电性能博弈

高频PCB层压材料的选择是一场介电性能、热稳定性与工艺适应性的多维博弈。当信号频率进入毫米波波段,基材的介电常数稳定性与损耗因子成为决定信号衰减的主导因素。传统FR-4材料在10GHz时损耗因子高达0.02,而新一代高频材料如液晶聚合物将其降至0.002&am…

作者头像 李华
网站建设 2025/12/12 16:50:39

3.6万专业观众+50+采购团 CES Asia2026破解创新产品市场对接难题

创新产品“叫好不叫座”的核心痛点,在于优质技术与精准市场需求的脱节。定于2026年6月10日至12日在北京举办的CES Asia 2026(亚洲消费电子展),以“精准匹配权益倾斜资源聚合”的三维解决方案,为获奖企业铺设直达全球市…

作者头像 李华
网站建设 2025/12/12 16:50:20

B站漫画下载终极指南:一键搞定海量漫画本地化管理

还在为喜欢的漫画突然下架而烦恼?担心网络不好时无法畅快阅读?今天给大家介绍一款实用工具——BiliBili-Manga-Downloader!这款图形界面工具不仅支持二维码登录、关键词搜索,还能下载未解锁章节,多线程批量下载效率超高…

作者头像 李华
网站建设 2025/12/12 16:50:06

基于SpringBoot+vue的华强北商城二手手机管理系统

1. 演示地址 后台:http://huaqiangbeiershoushojiushangcheng.xiaobias.com/huaqiangbeiershoushojiushangcheng/admin/dist/index.html 前台:http://huaqiangbeiershoushojiushangcheng.xiaobias.com/huaqiangbeiershoushojiushangcheng/front/index.ht…

作者头像 李华
网站建设 2025/12/12 16:49:56

20、音频插件与视频播放的技术实现

音频插件与视频播放的技术实现 1. LADSPA 音频插件 1.1 amp 程序概述 amp 程序是一个重要的 LADSPA 插件示例,位于 LADSPA 源代码的 ladspa_sdk/src/plugins/amp.c 文件中。若想编写 LADSPA 插件或了解其原理,分析该程序很有必要。它包含几个关键函数,以下为你详细说明…

作者头像 李华