news 2026/3/8 19:49:37

【论文自动阅读】Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-traini

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-traini

快速了解部分

基础信息(英文):

  1. 题目: Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training
  2. 时间: 2026.1
  3. 机构: AgiBot Research, AgiBot, Shanghai Innovation Institute
  4. 3个英文关键词: Embodied Reasoning, Vision-Language-Action (VLA), Flow Matching

1句话通俗总结本文干了什么事情

本文提出了一个名为GenieReasoner的机器人系统,通过一种新的“动作分词器”将复杂的连续动作转化为离散的“思维令牌”,让机器人既能像大模型一样进行深度思考和推理,又能精准地执行具体的物理动作。

研究痛点:现有研究不足 / 要解决的具体问题

现有的机器人视觉-语言-动作(VLA)模型面临一个两难困境:要么擅长推理但动作粗糙(离散动作模型),要么动作精准但缺乏深度思考能力(连续动作模型)。这两种能力很难在同一个模型中兼得。

核心方法:关键技术、模型或研究设计(简要)

提出了GenieReasoner系统,核心在于FACT(基于流匹配的动作分词器)。它将连续的机器人动作转化为离散的令牌序列,使得模型可以在离散空间进行推理规划,同时通过解码器还原出高精度的连续控制信号。

深入了解部分

相比前人创新在哪里

  1. 解耦评估:提出了ERIQ基准,首次将“具身推理能力”和“动作执行精度”分开评估,证明了推理能力直接影响任务成功率。
  2. 精度与推理的统一:不同于以往离散化方法(如FAST)会损失精度,FACT利用流匹配技术,用极短的离散令牌就能还原出高保真的连续轨迹,打破了“离散则粗糙”的限制。

解决方法/算法的通俗解释

想象一下,机器人思考时用的是“语言”(离散的词),但行动时用的是“肌肉”(连续的运动)。

  • 以前的做法:要么让机器人用“肌肉”直接思考(连续模型),但这很难处理复杂的语言逻辑;要么把动作切成一个个格子(离散模型),但这让动作变得像像素画一样粗糙。
  • 本文的做法:发明了一种“翻译器”(FACT)。机器人思考时,把复杂的动作压缩成几个简单的“动作密码”(离散令牌);执行时,再根据这几个密码,瞬间还原出流畅精准的动作(流匹配解码)。

解决方法的具体做法

  1. 设计FACT分词器
    • 编码端:使用VQ-VAE将连续动作压缩为紧凑的离散令牌(Code),保留语义。
    • 解码端:使用流匹配(Flow Matching)技术,通过求解微分方程,从离散令牌和噪声中重建出平滑、精确的连续动作轨迹。
  2. 构建GenieReasoner:将上述分词器与视觉语言模型(VLM)结合,进行三阶段训练(预训练、联合训练、后训练),实现视觉、语言、动作的统一。

基于前人的哪些方法

  1. VQ-VAE / 离散化:借鉴了将连续信号转化为离散码本的思想,但改进了量化方式。
  2. 流匹配(Flow Matching):利用了Rectified Flow等生成式模型的思想,用于动作的高保真重建。
  3. VLA架构:基于现有的视觉-语言-动作模型框架(如π0\pi_0π0等),旨在解决其推理与控制的割裂问题。

实验设置、数据、评估方式、结论

  • 数据:使用了自建的ERIQ基准(6000+问答对)和AgiBot World等机器人操作数据集。
  • 评估
    • ERIQ得分:测试模型的推理能力(空间感知、规划、错误恢复、意图理解)。
    • 真实世界任务:测试抓取、摆放等操作的成功率和语言跟随准确性。
  • 结论
    • GenieReasoner在ERIQ上的得分(82.72%)显著高于基座模型(58.64%)。
    • 在真实任务中,它既保持了离散模型优秀的语义理解(语言跟随),又达到了连续模型的高操作精度,综合表现优于π0\pi_0π0π0.5\pi_0.5π0.5π0\pi_0π0-FAST等基线。

提到的同类工作

  1. π0\pi_0π0/π0.5\pi_0.5π0.5(Google DeepMind等):典型的VLA模型,通常使用连续动作头,虽然动作精准但推理能力受限。
  2. π0\pi_0π0-FAST:一种将动作转化为离散令牌的方法,虽然利于推理,但重建精度差且解码不稳定。
  3. RoboBrain / Gemini Robotics:强调具身推理的工业级项目,通常采用分层规划,存在高层推理与低层控制的对齐问题。

和本文相关性最高的3个文献

  1. π0\pi_0π0:本文直接对比的核心VLA架构之一,代表了“连续动作控制”的主流方法。
  2. π0\pi_0π0-FAST:本文直接对比的核心VLA架构之一,代表了“离散动作量化”的现有技术(SOTA),本文的FACT旨在解决FAST的精度和稳定性问题。
  3. ERQA:现有的具身推理基准,本文的ERIQ基准是在此基础上的扩展和完善,旨在解决现有基准缺乏对错误恢复和人类意图理解覆盖的问题。

我的

  1. 能够推理,离散token+流匹配解码的VLA。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/7 4:12:59

彻底解决Play Integrity验证限制:自定义ROM用户的5个突破技巧

彻底解决Play Integrity验证限制:自定义ROM用户的5个突破技巧 【免费下载链接】PlayIntegrityFix Fix Play Integrity (and SafetyNet) verdicts. 项目地址: https://gitcode.com/GitHub_Trending/pl/PlayIntegrityFix 为什么你的自定义ROM总是验证失败&…

作者头像 李华
网站建设 2026/3/7 9:13:49

手把手教你学Simulink--电机电磁兼容与可靠性​场景示例:基于Simulink的电机轴电压与轴电流抑制仿真

目录 手把手教你学Simulink 一、引言:为什么“新电机用半年就轴承烧毁”?——轴电压是隐形杀手! 二、轴电压产生机理:从PWM到轴承电蚀的路径 1. 共模电压来源 2. 耦合路径:寄生电容网络 三、应用场景:新能源汽车驱动电机的轴承保护设计 系统参数 设计目标 四、建…

作者头像 李华
网站建设 2026/3/8 2:30:40

百度网盘命令行工具BaiduPCS-Go:高效文件管理指南

百度网盘命令行工具BaiduPCS-Go:高效文件管理指南 【免费下载链接】BaiduPCS-Go iikira/BaiduPCS-Go原版基础上集成了分享链接/秒传链接转存功能 项目地址: https://gitcode.com/GitHub_Trending/ba/BaiduPCS-Go BaiduPCS-Go是一款基于Go语言开发的百度网盘C…

作者头像 李华
网站建设 2026/3/8 2:20:43

从零搭建企业级开源仓库管理系统:KopSoft WMS实战指南

从零搭建企业级开源仓库管理系统:KopSoft WMS实战指南 【免费下载链接】KopSoftWms KopSoft仓库管理系统 项目地址: https://gitcode.com/gh_mirrors/ko/KopSoftWms 在数字化转型加速的今天,高效的仓库管理已成为企业降本增效的关键环节。本文将以…

作者头像 李华
网站建设 2026/3/2 14:56:51

如何高效配置微信防撤回补丁:3个步骤轻松掌握消息保护功能

如何高效配置微信防撤回补丁:3个步骤轻松掌握消息保护功能 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcod…

作者头像 李华
网站建设 2026/3/7 21:21:45

4个革命性技巧:用Kronos实现智能股票预测的超额收益

4个革命性技巧:用Kronos实现智能股票预测的超额收益 【免费下载链接】Kronos Kronos: A Foundation Model for the Language of Financial Markets 项目地址: https://gitcode.com/GitHub_Trending/kronos14/Kronos 价值定位:重新定义金融AI的能力…

作者头像 李华