news 2026/7/2 2:36:08

开源 GR00T N1.7 论文解读:Cosmos-Reason2/Qwen3-VL + DiT 动作头,20K 小时人类视频预训练

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
开源 GR00T N1.7 论文解读:Cosmos-Reason2/Qwen3-VL + DiT 动作头,20K 小时人类视频预训练

论文:GR00T N1: An Open Foundation Model for Generalist Humanoid Robots(完全开源,arxiv 预印,7475 stars)
会议:arxiv 预印
链接:https://arxiv.org/abs/2503.14734
GitHub:NVIDIA/Isaac-GR00T | 7475 stars
作者:NVIDIA, Johan Bjorck, Fernando Castaneda, Nikita Cherniadev, Xingye Da 等(NVIDIA、University of Texas at Austin、Stanford 等)

目录

  • 一、这篇论文解决了什么问题
  • 二、关键方法
  • 三、实验结果
  • 四、本地部署全流程
  • 五、为什么重要
  • 六、适用场景与机器人平台
  • 七、局限

一、这篇论文解决了什么问题

GR00T N1 这篇论文处理的是一个很具体的问题:人形机器人和双臂机器人想做通用操作,不能每换一个机身、相机、末端执行器,就从头收一批数据、训一套策略。

NVIDIA 在 GitHub 上发布的当前主线已经是 GR00T N1.7 Early Access。论文标题仍是 GR00T N1,开源仓库则把 N1.7 作为最新实现。这里按工程写法处理:论文提供方法主干,N1.7 提供当前可跑代码、权重、微调脚本、部署路径和最新 benchmark 数字。

N1.7 的定位不是一个只会跑单臂 tabletop 的策略。它面向 generalized humanoid robot skills,输入包括语言、图像、机器人状态,输出连续动作。官方 README 里写得比较直接:数据混合包含 bimanual、semi-humanoid、humanoid 数据,还加入了 20K 小时 EgoScale human video 预训练。仓库也给了 DROID、LIBERO、SimplerEnv、SO100、Unitree G1 + SONIC 的接入路径。

这篇文章重点看三个点:

  • N1.7 把 VLM backbone 从 N1.6 的 Eagle 换成 Cosmos-Reason2-2B / Qwen3-VL 架构;
  • 动作空间改成相对 EEF action,让人类视频和机器人动作更容易对齐;
  • 部署链路从 PyTorch、torch.compile 到 TensorRT full pipeline 都给了脚本,H100 上官方测到 27.9 ms E2E,也就是 35.9 Hz。

二、关键方法

GR00T N1.7 是典型的双系统 VLA:前面是视觉-语言基础模型,负责把图像和指令压成语义 token;后面是连续动作生成头,负责把语义、状态、噪声动作一起变成机器人控制量。

1. VLM backbone:Cosmos-Reason2-2B / Qwen3-VL

N1.7 的 README 明确写了新 backbone:Cosmos-Reason2-2B,采用 Qwen3-VL architecture,替代 N1.6 使用的 Eagle backbone。这个变化不只是换名字。Qwen3-VL 的视觉侧支持 flexible resolution,可以按原生 aspect ratio 编码图像,不再强行 padding 到固定比例。

在部署文档里,TensorRT full pipeline 把 backbone 拆成几个可导出的组件:

  • ViT:Qwen3-VL Vision,24 blocks,TRT 导出时为了精度保留 FP32;
  • LLM:Qwen3-VL Text Model,16 layers,带 deepstack injection;
  • VL Self-Attention:SelfAttentionTransformer,4 layers,如果模型配置启用就参与导出;
  • 轻量 glue ops:embed_tokensmasked_scatterget_rope_index、VLLN 仍留在 PyTorch。

这个拆法很工程。VLA 推理慢,瓶颈通常不只在动作头。N1.7 的部署文档也点明:full pipeline 推荐给 dGPU、Thor、Spark,因为它连 ViT + LLM backbone 一起加速;Orin 目前只能 DiT-only TRT,backbone 还跑 PyTorch。

2. 动作头:DiT 去噪连续动作,不是离散 token

N1.7 的动作头是 diffusion transformer head。README 描述为 denoises continuous actions;部署文档里对应的 TRT 组件叫 DiT,具体实现名是AlternateVLDiT,32 layers。

推理时不是一次输出单个动作,而是预测一个动作片段。官方命令里常用两个参数:

  • --action-horizon 8:LIBERO / DROID 示例里用 8 个动作步;
  • --denoising-steps 4:部署 benchmark 默认 4 次去噪。

可以把动作生成写成条件去噪流程:

给定观测o_t、语言l、机器人状态s_t,先由 VLM 得到上下文 tokenc = f_vlm(o_t, l)。动作头从带噪动作片段a_tau开始,输入条件(c, s_t, tau),预测去噪方向或噪声残差:

eps_hat = D_theta(a_tau, tau, c, s_t) L = E[||eps - eps_hat||_2^2]

如果按 flow matching 的写法看,也可以把它理解成预测从噪声动作到真实动作轨迹的速度场:

v_hat = D_theta(a_tau, tau, c, s_t) L = E[||v - v_hat||_2^2]

论文和仓库没有把 N1.7 的训练目标在 README 里展开成完整公式,但从“diffusion transformer head denoises continuous actions”和部署参数看,关键不是把动作离散成语言 token,而是在连续空间直接生成 action chunk。这个选择对机器人控制很现实:末端位姿、夹爪、关节角都天然是连续量,硬塞进语言词表会引入量化误差。

3. 相对 EEF action:N1.7 的跨具身重点

N1.7 和 N1.6 的一个核心差别是 Relative EEF Action Space。官方说法是:N1.7 采用 robot 和 human embodiments 共享的 relative end-effector action space,用当前姿态的 delta 表示动作,而不是绝对目标位姿。

DROID 文档把这个动作空间拆得更细:

模态维度表示
eef_9d9D相对末端执行器,XYZ + 6D rotation
gripper_position1D绝对夹爪位置
joint_position7D相对关节位置
合计17DDROID embodiment 的 state/action 维度

这套相对动作空间有两个直接收益。一个是同一条“把物体推近盘子”的局部动作,在不同桌面坐标系下仍然长得像同一种控制片段。另一个是人类视频预训练更容易接进来:人手移动的局部 delta,比人手在某个机器人坐标系里的绝对位置更可迁移。

4. 数据混合:机器人演示 + 20K 小时 EgoScale 人类视频

N1.7 README 明确写了两类训练信号:

  • diverse robot data:bimanual、semi-humanoid、humanoid;
  • 20K hours EgoScale human video data。

这不是把公开视频直接当机器人动作监督。关键在相对 EEF 表示。机器人轨迹有状态和动作,人类视频更像提供视觉-任务-运动先验。N1.7 把二者放进同一个预训练体系里,让 VLM backbone 学到“人怎样接近、抓取、移动、放置物体”的视觉序列规律,再靠机器人数据和动作头落到真实控制量上。

5. 微调策略:state dropout 和大 batch

官方 benchmark 脚本没有藏起来。LIBERO 四个 suite 都是:

  • MAX_STEPS=20000
  • GLOBAL_BATCH_SIZE=640
  • NUM_GPUS=8
  • state-dropout-prob=0.2

SimplerEnv 用更大的 batch:

  • Bridge:GLOBAL_BATCH_SIZE=1024state-dropout-prob=0.8
  • Fractal:GLOBAL_BATCH_SIZE=1024state-dropout-prob=0.5
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 2:36:00

Banana Pi BpiRouterOS 路由器 官方操作系统,基于Openwrt开发 #路由器

简介 现代 Web 管理 A/B 双槽防变砖 一套固件覆盖 6 款 BPI 路由板 项目内容 名称 BpiRouter OS 类型 Banana Pi 路由器板的统一固件 Web 管理系统 底层系统 OpenWrt v25.12.2(Linux 内核 6.12) 支持设备 BPI-R4 / R4-Lite / R4 Pro / R3 / R…

作者头像 李华
网站建设 2026/7/2 2:35:15

异步并行批处理框架设计的一些思考

随着互联网信息技术日新月异的发展,一个海量数据爆炸的时代已经到来。如何有效地处理、分析这些海量的数据资源,成为各大技术厂商争在激烈的竞争中脱颖而出的一个利器。可以说,如果不能很好的快速处理分析这些海量的数据资源,将很…

作者头像 李华
网站建设 2026/7/2 2:32:45

01:Agent Loop:Claude Code 的运行时主循环

01:Agent Loop:Claude Code 的运行时主循环 上一篇先把 Claude Code 放回工程系统里看。它更像一个能进入仓库、观察环境、调用工具、处理风险、验证结果的 coding agent。 沿着这个角度往下拆,第一条主线就是 Agent Loop。 工具、上下文、…

作者头像 李华
网站建设 2026/7/2 2:22:57

密码学中的欧拉定理研究与应用

摘要欧拉定理是数论中的一个核心定理,它为现代密码学提供了坚实的数学基础。本文系统研究了欧拉定理的数学原理及其在密码学领域中的广泛应用,重点分析了欧拉定理在RSA公钥密码体制、离散对数问题、椭圆曲线密码学以及数字签名等领域中的关键作用。研究表…

作者头像 李华