MedMO Grounding and Understanding Multimodal Large Language Model for Medical Images-育师

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Authors:Ankan Deria, Komal Kumar, Adinath Madhavrao Dukre, Eran Segal, Salman Khan, Imran Razzak

Deep-Dive Summary:

MedMO：面向医学图像定位与理解的多模态大语言模型

摘要

MedMO 是一款功能强大的开源多模态大语言模型（VLM），专为医学图像的全面理解与定位而设计。通过在包含 45 个数据集、超过 2600 万个样本的多模态医学语料库上进行多阶段训练，MedMO 在 VQA、报告生成和视觉定位（Grounding）等任务中均取得了显著提升。特别是在细菌分割任务中，其 IoU（交并比）相较于基准模型提升了+ 40.4 +40.4+40.4，相较于 Fleming-VL 提升了+ 37.0 % +37.0\%+37.0%，充分展现了其卓越的空间推理和定位能力。MedMO 提供 4B 和 8B 两个版本。

图 1.MedMO-8B 在多种医学成像任务中的基准表现。模型在 MMMU-Med（+ 1.3 % +1.3\%+1.3%）、MedQA（+ 24.3 % +24.3\%+24.3%）、MIMIC-CXR（+ 5.1 % +5.1\%+5.1%）以及细菌分割（IoU+ 43.8 +43.8+43.8）等方面均实现了稳健增长。

2. 相关工作

2.1 医学多模态大模型

从早期的 LLaVA-Med 到近期的 Med-Gemini 和 Med-PaLM，医学 MLLM 经历了从线性投影对齐到引入丰富数据集和强化学习的发展过程。MedMO 在此基础上强调大规模开源后训练和渐进式多模态对齐。

2.2 多模态模型中的定位（Grounding）

与传统的基于检测的方法不同，现代 VLM（如 Qwen2.5-VL）开始通过坐标和点位回归实现显式的视觉定位。MedMO 将这些原始定位能力迁移到临床数据中，以应对精细的临床定位挑战。

4. 实验

4.1 实验设置

MedMO 在 64 块 AMD MI210 GPU 上训练了 25 天。各阶段的分辨率从768 × 768 768\times 768768×768提升至1280 × 1280 1280\times 12801280×1280。

4.2 数据集

整合了 45 个数据集，总计超过 2600 万个样本，涵盖了人体各主要生物系统和成像模态。

图 4.统一多模态医学数据集的组成。

4.3 结果与分析

4.3.1 问答性能

MedMO 在 MMMU-Med（64.6%）和 MedQA（90.4%）等基准测试中达到了 SOTA 水平，显著优于 Qwen3VL 基础模型。

4.3.2 医学理解（报告生成）

在 MIMIC-CXR 数据集上，MedMO 的 CIDEr 分数达到 140.0，在 Med-Trinity 跨模态数据集上更是以 270.4 的 CIDEr 分数遥遥领先（见表 2）。

4.3.3 定位性能

MedMO 在 DeepLesion（IoU38.5 % 38.5\%38.5%）和细菌检测（IoU54.6 % 54.6\%54.6%）中表现卓越。在 MedSG 综合基准测试中，其在多视图、目标跟踪和指代定位任务中均大幅超过现有模型（见表 3）。

图 3.不同模型在医学问答和定位任务中的定性比较。MedMO 提供了更准确的医学理解和边界框定位。

4.4 消融研究

（此处省略具体消融细节，详见原文）

4.4.1. 训练后阶段的消融实验

我们进行了阶段性的消融实验，以评估训练后（Post-training）每个阶段对 MedMO 在放射学和问答（QA）基准测试中表现的贡献。如图 5 和图 6 所示，性能随阶段逐步提升，验证了我们优化策略的有效性。在第一阶段，模型在 MedTrinity 数据集上训练，虽然在该数据集上取得了很强的准确率，但在其他数据集上表现出轻微的性能下降。第二阶段通过高分辨率和多样化的医学数据训练提供了最大的性能增益，而第三阶段则通过指令微调（Instruction Tuning）进一步提升了 QA 和 VQA 的性能，增强了多模态对齐和推理能力。每个阶段都贡献了互补的改进，使得 MedMO 在所有任务中的整体性能得到了持续增强。

图 5. 放射学数据集在训练后各阶段的性能表现。MedMO 在 IU-Xray、MIMIC-CXR、CheXpert 和 MedTrinity 数据集上的诊断准确率和定位能力呈现出持续增长。第二阶段的显著提升突显了结合医学推理目标的对齐微调所带来的益处。

图 6. QA 和 VQA 在各阶段的消融实验结果。问答（QA）和视觉问答（VQA）的准确率均逐步提高，表明阶段性优化增强了医学领域的多模态推理和事实依据。

4.4.2. 边界框可验证奖励

表 4 显示了强化学习后模型获得的一致性收益，证实了我们边界框奖励（Bounding-box Reward）的有效性。尽管提升幅度较小，但该奖励可靠地增强了跨数据集的空间精度和定位一致性。

5. 结论

我们推出了 MedMO，这是一个通用的医学多模态基础模型，它统一了多种医学模态下的视觉定位、临床推理和语言理解。通过一个可扩展的四阶段训练后流水线——涵盖大规模对齐、高分辨率微调、指令微调以及带有可验证奖励的强化学习——MedMO 实现了强大的多模态理解和精确的空间定位。实验结果表明，MedMO 相比强大的开源基线模型取得了显著的增益。作为一种开源医学 MLLM，MedMO 为构建可靠且透明的医学 VLM 系统开辟了一条可扩展的路径。未来的工作可能会探索在强化学习框架中更好地保留 SFT（监督微调）知识的策略。

局限性：MedMO 的阶段性训练导致了细微的任务级性能偏移，如附图 5 和 6 所示，这是大型多模态模型中由于灾难性遗忘所导致的典型行为。未来的工作将专注于提高跨任务的知识保留，同时扩大对更多医学成像模态的覆盖。

Original Abstract:Multimodal large language models (MLLMs) have rapidly advanced, yet their adoption in medicine remains limited by gaps in domain coverage, modality alignment, and grounded reasoning. In this work, we introduce MedMO, a medical foundation model built upon a generalized MLLM architecture and trained exclusively on large-scale, domain-specific data. MedMO follows a multi-stage training recipe: (i) cross-modal pretraining to align heterogeneous visual encoders with a medical language backbone; (ii) instruction tuning on multi-task supervision that spans captioning, VQA, report generation, retrieval, and grounded disease localization with bounding boxes; and (iii) reinforcement learning with verifiable rewards that combine factuality checks with a box-level GIoU reward to strengthen spatial grounding and step-by-step reasoning in complex clinical scenarios. MedMO consistently outperforms strong open-source medical MLLMs across multiple modalities and tasks. On VQA benchmarks, MedMO achieves an average accuracy improvement of +13.7% over the baseline and performs within 1.9% of the SOTA Fleming-VL. For text-based QA, it attains +6.9% over the baseline and +14.5% over Fleming-VL. In medical report generation, MedMO delivers significant gains in both semantic and clinical accuracy. Moreover, it exhibits strong grounding capability, achieving an IoU improvement of +40.4 over the baseline and +37.0% over Fleming-VL, underscoring its robust spatial reasoning and localization performance. Evaluations across radiology, ophthalmology, and pathology-microscopy confirm MedMO’s broad cross-modality generalization. We release two versions of MedMO: 4B and 8B. Project is available at https://genmilab.github.io/MedMO-Page

PDF Link:2602.06965v1

【收藏向】LLM-based智能体综述：通往AGI的关键路径，小白程序员必看学习指南

MedMO Grounding and Understanding Multimodal Large Language Model for Medical Images