news 2026/2/6 18:25:16

【论文自动阅读】ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

快速了解部分

基础信息(英文):

  1. 题目: ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
  2. 时间: 2025.09
  3. 机构: NVIDIA, National Taiwan University
  4. 3个英文关键词: Vision-Language-Action (VLA), Reinforced Visual Latent Planning, Embodied Reasoning

1句话通俗总结本文干了什么事情

本文提出了一种名为ThinkAct的框架,让机器人先通过视觉和语言进行“思考”(规划),再执行动作,从而解决复杂任务。

研究痛点:现有研究不足 / 要解决的具体问题

现有的VLA模型通常是端到端训练的,缺乏显式的推理过程,导致在多步规划、适应复杂任务变化以及动态环境中的自我纠错能力上存在不足。

核心方法:关键技术、模型或研究设计(简要)

采用双系统架构,利用强化学习(RL)训练多模态大模型(MLLM)生成基于视觉奖励的推理计划,将这些计划压缩为视觉潜伏轨迹,指导下游的动作模型执行。

深入了解部分

相比前人创新在哪里

  1. 引入强化学习进行推理:不同于以往依赖昂贵的监督式思维链(CoT)数据,ThinkAct利用视觉对齐的奖励信号(如目标完成度和轨迹一致性)通过强化学习引导模型进行长程规划。
  2. 视觉潜伏规划:将抽象的语言推理转化为紧凑的视觉潜伏轨迹(Visual Plan Latent),作为高层意图连接低层动作执行,实现了“慢思考、快行动”的异步操作。
  3. 涌现能力:该方法使得模型具备了少样本适应、长程规划以及在执行失败时进行自我纠错的能力。

解决方法/算法的通俗解释

ThinkAct就像给机器人装了一个“大脑”和一个“小脑”。大脑(MLLM)负责看懂环境并制定计划(比如“先抓这个,再放那个”),它通过想象动作带来的视觉效果来判断计划好不好(强化学习)。大脑把计划简化成一张“地图”(视觉潜伏轨迹),交给小脑(动作模型)去根据这张地图精确地控制手臂移动。两者可以异步工作,大脑想一步,小脑执行多步。

解决方法的具体做法

  1. 强化微调(GRPO):使用Group Relative Policy Optimization (GRPO)算法,基于动作对齐的视觉反馈(目标奖励rgoalr_{goal}rgoal和轨迹奖励rtrajr_{traj}rtraj)来微调MLLM,使其生成包含推理过程和视觉轨迹的输出。
  2. 视觉潜伏规划:MLLM生成的视觉轨迹被编码为潜伏向量ctc_tct
  3. 动作适应:冻结MLLM,训练一个基于DiT的策略模型(Action Model),通过潜伏投影器(Latent Projector)接收ctc_tct的指导,预测具体的动作。

基于前人的哪些方法

基于预训练的多模态大模型(Qwen2.5-VL),结合了Open X-Embodiment (OXE) 数据集进行动作预训练,并借鉴了GRPO(类似DeepSeek-R1的强化学习方法)进行推理优化。

实验设置、数据、评估方式、结论

  • 数据:使用Open X-Embodiment (OXE) 子集、Something-Something v2 人类视频数据,以及RoboVQA、EgoPlan-Bench等问答数据。
  • 设置:在SimplerEnv和LIBERO两个模拟机器人操作基准上进行评估。
  • 评估方式:任务成功率(Manipulation)、准确率(Reasoning Benchmarks)。
  • 结论:ThinkAct在少样本适应(10-shot)、长程规划(LIBERO-Long)和自我纠错方面均优于现有SOTA模型(如OpenVLA, CoT-VLA, Magma等)。

提到的同类工作

  1. OpenVLA(Kim et al., 2024): 基于MLLM的大规模机器人动作模型,作为本文的基线之一。
  2. CoT-VLA(Zhao et al., 2025): 通过视觉子目标帧进行推理的VLA模型。
  3. Magma(Yang et al., 2025): 一个通用的多模态AI代理基础模型。

和本文相关性最高的3个文献

  1. CoT-VLA(Zhao et al., 2025): 同样关注VLA中的推理(思维链),但采用视觉子目标而非本文的强化学习潜伏规划。
  2. Video-R1(Feng et al., 2025): 使用R1风格的强化学习优化视频推理,启发了本文使用RL进行推理的方法,但本文将其扩展到了动作执行领域。
  3. RAD(Clark et al., 2025): 利用无动作的人类视频进行推理数据整理,与本文利用人类视频进行推理训练有相似动机,但方法不同。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 13:03:43

SpringCloud:Nacos 原理与解析学习

总体设计 Nacos架构 整体架构分为 用户层、业务层、内核层和插件,用户层主要解决用户使用的易用性问题,业务层主要解决服务发现和配置管理的功能问题,内核层解决分布式系统一致性、存储、高可用等核心问题, 插件解决扩展性问题。…

作者头像 李华
网站建设 2026/2/6 23:59:30

wav转mp3批处理脚本

@echo off setlocal enabledelayedexpansion:: 设置路径 set "FFMPEG_PATH=C:\softwares\ffmpeg-n6.1-latest-win64-gpl-shared-6.1\ffmpeg-n6.1-latest-win64-gpl-shared-6.1\bin\ffmpeg.exe" set "OUTPUT_DIR=converted":: 检查ffmpeg是否存在 if not ex…

作者头像 李华
网站建设 2026/2/6 22:17:22

倒立摆系统建模与控制仿真文件与设计报告(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

倒立摆系统建模与控制仿真文件与设计报告(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码详细推导系统动力学方程,完成精确数学建模。针对控制难题,精心设计并仿真实现PID控制与线性二次型最优控制(LQR)…

作者头像 李华