news 2026/2/1 2:49:54

【Google DeepMind-Ziyi Wu-arXiv26】360Anything

张小明

前端开发工程师

1.2k 24

文章封面图 — 【Google DeepMind-Ziyi Wu-arXiv26】360Anything

文章：360Anything: Geometry-Free Lifting of Images and Videos to 360°

代码：https://360anything.github.io/

单位：Google DeepMind

一、问题背景：传统全景生成的两大“拦路虎”

依赖相机 metadata：传统方法要把普通视角“贴”到全景画面上，必须知道相机的视场角（FoV）、拍摄姿态（俯仰、翻滚等），但现实中大部分“野生”素材（比如手机随手拍、网上下载的视频）都没有这些校准信息，就算靠外部工具估算，结果也容易出错，导致生成的全景变形、错位。
存在接缝 artifacts：全景画面的左右边界本应自然衔接，但传统模型在处理图像时会用“零填充”技术，导致边界数据不连续，最终生成的全景会出现一条明显的“断层线”，影响沉浸式体验。
泛化能力差：很多方法假设输入素材的视角是固定的（比如90°视场角），遇到不同拍摄角度的素材就会出现拉伸、变形，无法适应真实场景的多样性。

二、方法创新：用“数据规律”替代“几何计算”

360Anything的核心思路是“抛开几何约束，让数据自己说话”，主要有三大创新点：

几何无关的序列拼接：不强行计算普通视角和全景的空间对应关系，而是把两者都当成“数据片段序列”。通过扩散Transformer（DiT）模型，让AI从海量数据中自主学习“什么样的普通画面对应什么样的全景”，直接省略相机参数估算步骤，实现端到端生成。
循环 latent 编码，根治接缝问题：找到接缝的根源——VAE编码器的“零填充”操作。为此设计了“循环 latent 编码”：把全景左右两边的部分画面裁剪下来，分别贴到对方一侧，再进行编码，让边界数据自然衔接，从训练阶段就彻底消除接缝。

标准化全景生成：不管输入素材的拍摄角度多怪，都强制生成“重力对齐”的标准化全景（比如地平线水平、重力方向向下）。通过预处理步骤校准训练数据的重力方向，让模型不用学习多种畸变模式，生成的全景更自然、更稳定。

三、实验结果：性能碾压传统方法，还能“反向估算”相机参数

全景生成质量顶尖：在图像生成任务中，360Anything的各项指标（FID、KID等）全面超越CubeDiff等传统方法，其中衡量全景整体质量的FAED指标误差降低近50%；视频生成任务中，在视觉质量、运动流畅度等维度大幅领先Imagine360、Argus等基线模型，就算没有相机参数，也比依赖真实参数的方法表现更好。
零样本相机参数估算：意外解锁“反向技能”——虽然没专门训练过相机校准，但能通过生成的全景反推输入素材的视场角和拍摄姿态，在多个真实数据集上的估算误差仅4.93°，仅次于专门的校准模型，展现了强大的几何理解能力。
3D重建能力出色：生成的全景视频能直接用于3D高斯 splatting 重建，还原出可自由漫游的3D场景，证明了全景内容的几何一致性。
鲁棒性拉满：面对不同视场角（30°-120°）、拍摄姿态的素材，性能波动不超过1.0；就算是AI生成的“野生”视频、大运动幅度的素材，也能生成稳定、无畸变的全景。

四、优势与局限

核心优势

门槛极低：无需相机参数、不用手动调整，输入普通照片/视频+简单文字描述，就能生成高质量全景，普通人也能轻松使用。
效果出色：无接缝、无畸变，全景质量和几何一致性远超传统方法，还能支持3D重建。
泛化性强：适配各种拍摄角度、运动幅度的素材，不管是真实拍摄还是AI生成的内容都能处理。

现存局限

受限于基础模型：基于预训练视频扩散模型微调，难以处理涉及复杂物理规律的场景（比如液体流动、物体碰撞）。
视频长度有限：受算力限制，目前只能处理81帧的视频，无法支持长时间全景生成。
存在数据偏见：训练数据中包含大量YouTube全景视频，偶尔会生成三脚架、手等无关物体，或出现黑色边框。
高分辨率升级难：现有视频超分工具会重新引入接缝，需要专门的全景超分技术支持。

五、一句话总结

360Anything用数据驱动替代几何约束，不仅解决了传统全景生成依赖相机参数、存在接缝的痛点，还实现了顶尖的生成质量和泛化能力，为AR/VR、3D重建等领域的普及提供了易用、高效的解决方案。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/1/31 1:08:43

BAAI/bge-m3支持哪些语言？跨语言检索实战测试教程

BAAI/bge-m3支持哪些语言？跨语言检索实战测试教程 1. 引言随着全球化信息交互的加速，多语言语义理解能力成为构建智能搜索、知识库和跨语言问答系统的核心需求。在众多语义嵌入模型中，BAAI/bge-m3 凭借其卓越的多语言支持与强大的长文本建…

作者头像

李华

网站建设 2026/1/31 9:16:23

QMK Toolbox：让机械键盘焕发全新生命力的固件管理利器

QMK Toolbox：让机械键盘焕发全新生命力的固件管理利器【免费下载链接】qmk_toolbox A Toolbox companion for QMK Firmware 项目地址: https://gitcode.com/gh_mirrors/qm/qmk_toolbox QMK Toolbox作为一款开源固件管理工具，为机械键盘爱好者提供…

作者头像

李华

网站建设 2026/1/30 18:42:44

QMK Toolbox：键盘个性化革命的创造力引擎

QMK Toolbox：键盘个性化革命的创造力引擎【免费下载链接】qmk_toolbox A Toolbox companion for QMK Firmware 项目地址: https://gitcode.com/gh_mirrors/qm/qmk_toolbox 键盘定制正迎来个性化革命，而固件优化是释放创造力的核心。QMK Toolbox作…

作者头像

李华

网站建设 2026/2/1 0:29:55

3D模型转像素艺术破局指南：从建模到体素化的完整解决方案

3D模型转像素艺术破局指南：从建模到体素化的完整解决方案【免费下载链接】ObjToSchematic A tool to convert 3D models into Minecraft formats such as .schematic, .litematic, .schem and .nbt 项目地址: https://gitcode.com/gh_mirrors/ob/ObjToSchematic …

作者头像

李华

网站建设 2026/1/30 15:57:49

Speech Seaco Paraformer支持哪些音频？一文说清格式与采样率

Speech Seaco Paraformer支持哪些音频？一文说清格式与采样率你刚部署好Speech Seaco Paraformer，点开WebUI准备上传一段会议录音，却在点击“选择音频文件”时犹豫了：手头这个 .wma 文件能用吗？手机录的 .m4a 行不行&…

作者头像

李华

网站建设 2026/1/31 18:19:56

VibeThinker-1.5B如何提升数学能力？AIME基准优化实战

VibeThinker-1.5B如何提升数学能力？AIME基准优化实战 1. 这不是“又一个大模型”，而是一次小参数的精准突破你有没有试过：打开一个AI工具，满怀期待地输入一道AIME真题，结果等了半分钟，答案要么跳脱题干、…

作者头像

李华