news 2026/2/17 7:04:43

<span class=“js_title_inner“>【华东师范-林绍辉组-ICLR26】Vision-R1</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>【华东师范-林绍辉组-ICLR26】Vision-R1</span>

文章:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

代码:暂无

单位:华东师范大学


一、问题背景:多模态推理的两大核心痛点

当前多模态大模型的推理能力提升面临着难以逾越的障碍:

  • 数据层面:现有多模态推理数据集多依赖人工标注,不仅成本高,还容易产生缺乏人类认知过程的“伪思维链”(Pseudo-CoT),缺少质疑、反思等关键认知环节,无法支撑复杂推理训练。

  • 训练层面:直接将强化学习(RL)应用于多模态大模型时,由于缺乏高质量多模态推理数据,模型难以生成复杂连贯的推理过程,甚至出现推理步骤冗长却性能下降的“过度思考”问题,导致推理能力提升受限。

与此同时,纯文本大模型DeepSeek-R1通过RL技术成功实现了推理能力的自主涌现,这启发研究者探索:能否将RL技术迁移至多模态领域,突破其推理瓶颈?

二、方法创新:三步打造强推理多模态模型

Vision-R1提出“冷启动初始化+渐进式强化学习”的创新框架,从数据构建到训练策略实现全流程优化:

  1. 模态桥接技术(Modality Bridging):无需人工标注,构建20万高质量多模态思维链数据集。先利用现有多模态大模型将图像-问题对转化为包含视觉描述和结构化推理的“伪思维链”,再通过模态桥接将视觉信息转化为文本,输入DeepSeek-R1生成具备人类认知特征的复杂思维链,最终经数据过滤形成Vision-R1-cold冷启动数据集。

  1. 渐进式思维抑制训练(PTST):针对冷启动后模型的“过度思考”问题,设计分阶段训练策略。初期限制推理长度,引导模型掌握正确推理方法;随训练推进逐步放宽长度约束,让模型自主学习复杂推理过程。

  2. 改进型强化学习框架:采用组相对策略优化(GRPO),搭配严格格式+结果双奖励函数(仅当格式合规且答案正确时给予奖励),确保模型在扩展推理复杂度的同时保持准确性。

三、实验结果:7B参数实现“以小博大”

在三大主流多模态数学推理基准测试中,Vision-R1展现出惊人性能:

  • 核心性能:7B参数的Vision-R1在MathVista基准上达到73.5%的准确率,仅比当前顶尖模型OpenAI O1低0.4%,超越众多10倍参数以上的大模型。

  • 细分任务优势:在几何推理(80.3%)、代数推理(79.0%)等细分任务上,较基础模型平均提升超10%,展现出强大的逻辑推理能力。

  • 数据集质量验证:Vision-R1-cold数据集中包含“Wait”“Hmm”等反思类词汇的频率远超现有数据集,用该数据训练的模型在通用和数学基准上均实现SOTA性能,验证了数据的高质量。

  • 消融实验证明:冷启动初始化+PTST策略的组合是性能关键,较直接RL训练(Vision-R1-Zero)平均准确率提升4.7%,有效解决了过度思考问题。

四、优势与局限

核心优势

  1. 效率领先:7B参数规模兼顾性能与部署成本,较70B+参数模型大幅降低计算开销,为实际应用提供可能。

  2. 数据高效:模态桥接技术突破人工标注瓶颈,实现高质量数据集的低成本构建,可扩展性强。

  3. 推理自然:模型生成的思维链包含质疑、反思等人类认知特征,展现出“顿悟时刻”(Aha Moment),推理过程更具可解释性。

现存局限

  1. 任务范围集中于数学推理,在常识推理、情感分析等多模态任务上的泛化能力仍需验证;

  2. 训练过程需依赖DeepSeek-R1等强推理文本模型,整体流程的独立性有待提升;

  3. 分阶段训练策略对超大规模数据集的适应性,以及更长推理序列的性能稳定性仍需优化。

五、一句话总结

Vision-R1通过模态桥接构建高质量数据集、PTST策略优化强化学习流程,首次实现了强化学习在多模态大模型推理能力提升中的有效应用,让7B参数模型具备对标70B+参数模型的推理性能,为多模态智能的实用化推进提供了全新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/17 2:12:34

救命神器!千笔ai写作,最受欢迎的AI论文工具

你是否曾为论文选题发愁,面对浩如烟海的文献无从下手?是否在深夜里对着空白文档苦苦思索,却写不出一句像样的内容?论文写作不仅考验知识储备,更是一场与时间、精力和耐心的较量。而如今,一款真正懂学生的AI…

作者头像 李华
网站建设 2026/2/15 11:27:16

<span class=“js_title_inner“>AI那些趣事系列111:谷歌新范式Nested Learning:让AI告别“顺行性遗忘”,像人类一样日积月累地学习</span>

导读:本文是“数据拾光者”专栏的第一百一十一篇文章,这个系列将介绍在AI领域中的一些学习和思考,以及实战中的经验教训总结。本文将用通俗的语言、生动的例子,学习谷歌最新的论文Nested Learning。欢迎转载,转载请注明…

作者头像 李华
网站建设 2026/2/16 17:12:35

GBase 8c用户、角色、权限体系详解

一、核心概念定义1.用户(User)定义:数据库的认证实体,用于登录数据库和执行操作特性:必须有唯一用户名可设置密码、有效期、资源限制可被授予角色或直接拥有权限2.角色(Role)定义:权…

作者头像 李华