＜span class=“js_title_inner“＞【华东师范-林绍辉组-ICLR26】Vision-R1＜/span＞-育师

文章：Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

代码：暂无

单位：华东师范大学

一、问题背景：多模态推理的两大核心痛点

当前多模态大模型的推理能力提升面临着难以逾越的障碍：

数据层面：现有多模态推理数据集多依赖人工标注，不仅成本高，还容易产生缺乏人类认知过程的“伪思维链”（Pseudo-CoT），缺少质疑、反思等关键认知环节，无法支撑复杂推理训练。
训练层面：直接将强化学习（RL）应用于多模态大模型时，由于缺乏高质量多模态推理数据，模型难以生成复杂连贯的推理过程，甚至出现推理步骤冗长却性能下降的“过度思考”问题，导致推理能力提升受限。

与此同时，纯文本大模型DeepSeek-R1通过RL技术成功实现了推理能力的自主涌现，这启发研究者探索：能否将RL技术迁移至多模态领域，突破其推理瓶颈？

二、方法创新：三步打造强推理多模态模型

Vision-R1提出“冷启动初始化+渐进式强化学习”的创新框架，从数据构建到训练策略实现全流程优化：

模态桥接技术（Modality Bridging）：无需人工标注，构建20万高质量多模态思维链数据集。先利用现有多模态大模型将图像-问题对转化为包含视觉描述和结构化推理的“伪思维链”，再通过模态桥接将视觉信息转化为文本，输入DeepSeek-R1生成具备人类认知特征的复杂思维链，最终经数据过滤形成Vision-R1-cold冷启动数据集。

渐进式思维抑制训练（PTST）：针对冷启动后模型的“过度思考”问题，设计分阶段训练策略。初期限制推理长度，引导模型掌握正确推理方法；随训练推进逐步放宽长度约束，让模型自主学习复杂推理过程。
改进型强化学习框架：采用组相对策略优化（GRPO），搭配严格格式+结果双奖励函数（仅当格式合规且答案正确时给予奖励），确保模型在扩展推理复杂度的同时保持准确性。

三、实验结果：7B参数实现“以小博大”

在三大主流多模态数学推理基准测试中，Vision-R1展现出惊人性能：

核心性能：7B参数的Vision-R1在MathVista基准上达到73.5%的准确率，仅比当前顶尖模型OpenAI O1低0.4%，超越众多10倍参数以上的大模型。
细分任务优势：在几何推理（80.3%）、代数推理（79.0%）等细分任务上，较基础模型平均提升超10%，展现出强大的逻辑推理能力。
数据集质量验证：Vision-R1-cold数据集中包含“Wait”“Hmm”等反思类词汇的频率远超现有数据集，用该数据训练的模型在通用和数学基准上均实现SOTA性能，验证了数据的高质量。
消融实验证明：冷启动初始化+PTST策略的组合是性能关键，较直接RL训练（Vision-R1-Zero）平均准确率提升4.7%，有效解决了过度思考问题。

四、优势与局限

核心优势

效率领先：7B参数规模兼顾性能与部署成本，较70B+参数模型大幅降低计算开销，为实际应用提供可能。
数据高效：模态桥接技术突破人工标注瓶颈，实现高质量数据集的低成本构建，可扩展性强。
推理自然：模型生成的思维链包含质疑、反思等人类认知特征，展现出“顿悟时刻”（Aha Moment），推理过程更具可解释性。

现存局限

任务范围集中于数学推理，在常识推理、情感分析等多模态任务上的泛化能力仍需验证；
训练过程需依赖DeepSeek-R1等强推理文本模型，整体流程的独立性有待提升；
分阶段训练策略对超大规模数据集的适应性，以及更长推理序列的性能稳定性仍需优化。

五、一句话总结

Vision-R1通过模态桥接构建高质量数据集、PTST策略优化强化学习流程，首次实现了强化学习在多模态大模型推理能力提升中的有效应用，让7B参数模型具备对标70B+参数模型的推理性能，为多模态智能的实用化推进提供了全新范式。

2026最新谷歌浏览器下载与安装教程：离线版稳定安装与开发者高效配置全指南

前言在当今的 Web 开发与远程办公环境中，浏览器早已不仅是用来浏览网页的入口，更是程序员最重要的工作平台。众多浏览器中，谷歌浏览器（Google Chrome） 以其强大的性能表现、完善的调试功能和庞大的开发者生态&#x…

李华

前言对于网站站长、前端开发者、后端工程师以及系统运维人员来说，FTP/SFTP 客户端是日常文件传输与网站部署中不可或缺的工具。而在众多传输软件中，FileZilla 以其高稳定性、跨平台特性和免费开源优势，长期稳居全球 FTP 客户端使用榜首。 …

李华

救命神器!千笔ai写作，最受欢迎的AI论文工具

你是否曾为论文选题发愁，面对浩如烟海的文献无从下手？是否在深夜里对着空白文档苦苦思索，却写不出一句像样的内容？论文写作不仅考验知识储备，更是一场与时间、精力和耐心的较量。而如今，一款真正懂学生的AI…

李华

＜span class=“js_title_inner“＞AI那些趣事系列111：谷歌新范式Nested Learning：让AI告别“顺行性遗忘”，像人类一样日积月累地学习＜/span＞

导读：本文是“数据拾光者”专栏的第一百一十一篇文章，这个系列将介绍在AI领域中的一些学习和思考，以及实战中的经验教训总结。本文将用通俗的语言、生动的例子，学习谷歌最新的论文Nested Learning。欢迎转载，转载请注明…

李华

GBase 8c用户、角色、权限体系详解

一、核心概念定义1.用户（User）定义：数据库的认证实体，用于登录数据库和执行操作特性：必须有唯一用户名可设置密码、有效期、资源限制可被授予角色或直接拥有权限2.角色（Role）定义：权…

李华

＜span class=“js_title_inner“＞【华东师范-林绍辉组-ICLR26】Vision-R1＜/span＞