近日,媒体揭示了两大科技巨头在人工智能入口布局上的最新进展。谷歌通过全新 Android XR 系统和 Gemini 大模型,布局多形态 AI 眼镜;字节跳动则以“大模型+手机系统”深度融合的豆包手机助手,尝试在智能手机层面实现 AI 操作系统化。两者的技术路线虽不同,却都指向同一个目标——让用户的意图直接驱动设备,而不再受限于传统 APP 界面。
谷歌的四款 AI 眼镜布局
在最新一期 The Android Show 中,谷歌抛弃“一款神机”思路,联合三星、XREAL 等合作伙伴,推出四类 XR 设备,计划于 2026 年陆续上市。其中:
Project Moohan:对标苹果 Vision Pro,支持将 Windows PC 画面流转至头显,并通过 AI 生成逼真用户形象用于视频通话。
Project Aura(有线 XR 眼镜):与国内 XREAL 合作,外观类似普通墨镜,可随时开启工作与娱乐,运行完整 Android XR 应用。
无线 AI 眼镜:对标 Meta Ray‑Ban,全天佩戴,内置扬声器、麦克风、摄像头,配合 Gemini 系统实现语音交互。
单目显示 AI 眼镜:2026 年推出,镜片上显示音乐、导航等基础信息;2027 年计划发布双目 XR 眼镜,实现混合视觉效果。
这些设备的核心是 Gemini 大模型,它不仅提供自然语言理解,还通过摄像头、麦克风等传感器实现实时语义理解和场景化任务处理,使 AI 从单一应用升级为系统级入口。谷歌高层在社交媒体上表示,AI 眼镜是为 Gemini 找到“物理世界的化身”,未来将帮助 Android 生态从手机延伸至眼镜、电脑等多端。
字节的豆包手机助手:AI 深度嵌入手机系统
字节跳动的 豆包手机助手 则以“全场景通用能力”在智能手机上实现了类似的目标。搭载该助手的努比亚 M153 以 3499 元的售价在市场上热销,甚至被炒至万元高价,显示出用户对 AI 手机交互的强烈期待。豆包助手通过 屏幕内容识别 + 云端 AI 分析,将指令直接转化为对各类 APP 的自动化操作,突破了传统 API 调用的限制,实现了对微信、淘宝、抖音等 50 多款应用的深度控制。
然而,快速上线后,豆包助手因涉及微信登录限制、金融与游戏类场景的安全争议,引发监管与行业关注。字节随后对功能进行多项调整,限制了对敏感场景的 AI 操作,以平衡创新与合规。业内人士将其比作“自动驾驶之于汽车”,认为大模型与手机系统的深度结合将成为下一轮移动互联网的增长点。
产业链与竞争格局
在硬件层面,谷歌的 AI 眼镜将采用富士康代工、三星参考设计,并配备高通芯片;而字节的豆包助手则受益于国内供应链的快速响应,舜宇光学为其提供了工程样机镜头和主摄长焦模组。两家公司都在通过生态合作加速产品落地:谷歌依托 Android XR 打通 PC、手机、眼镜等多端,吸引开发者迁移熟悉的 Android 工具链;字节则通过开放的 AutoGLM 模型,让硬件厂商和开发者自行构建类似豆包的 AI 助手。
从市场数据看,Google Gemini 在下载量、月活跃用户和使用时长方面已全面超越 ChatGPT,成为 OpenAI 的最大竞争者。与此同时,字节的豆包在国内 AI 应用活跃用户中排名第二,仅次于 DeepSeek,用户规模已突破 1.7 亿。两大 AI 入口的竞争正从“谁先推出产品”转向“谁能构建更开放、更具生态粘性的生态系统”。
结语
谷歌与字节的布局展示了 AI 入口的两条主线:硬件端的 AI 眼镜 与 系统层的 AI 手机助手。前者通过将 Gemini 融入视觉硬件,试图在未来的 XR 场景中占据先机;后者则通过大模型直接操控手机系统,抢占当下的移动端流量入口。无论是眼镜还是手机,核心都在于让 用户意图 成为唯一的交互方式,去除传统 APP 的束缚。
随着 Android XR 生态的逐步完善以及大模型技术的持续迭代,AI 入口的争夺战仍将加速。业界普遍认为,谁能先在硬件与系统之间搭建起高效、开放的桥梁,谁就有望在下一轮 AI 产业红利中占据制高点。