news 2026/2/27 4:55:22

MedMO Grounding and Understanding Multimodal Large Language Model for Medical Images

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MedMO Grounding and Understanding Multimodal Large Language Model for Medical Images

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Authors:Ankan Deria, Komal Kumar, Adinath Madhavrao Dukre, Eran Segal, Salman Khan, Imran Razzak

Deep-Dive Summary:

MedMO:面向医学图像定位与理解的多模态大语言模型

摘要

MedMO 是一款功能强大的开源多模态大语言模型(VLM),专为医学图像的全面理解与定位而设计。通过在包含 45 个数据集、超过 2600 万个样本的多模态医学语料库上进行多阶段训练,MedMO 在 VQA、报告生成和视觉定位(Grounding)等任务中均取得了显著提升。特别是在细菌分割任务中,其 IoU(交并比)相较于基准模型提升了+ 40.4 +40.4+40.4,相较于 Fleming-VL 提升了+ 37.0 % +37.0\%+37.0%,充分展现了其卓越的空间推理和定位能力。MedMO 提供 4B 和 8B 两个版本。

图 1.MedMO-8B 在多种医学成像任务中的基准表现。模型在 MMMU-Med(+ 1.3 % +1.3\%+1.3%)、MedQA(+ 24.3 % +24.3\%+24.3%)、MIMIC-CXR(+ 5.1 % +5.1\%+5.1%)以及细菌分割(IoU+ 43.8 +43.8+43.8)等方面均实现了稳健增长。

2. 相关工作

2.1 医学多模态大模型

从早期的 LLaVA-Med 到近期的 Med-Gemini 和 Med-PaLM,医学 MLLM 经历了从线性投影对齐到引入丰富数据集和强化学习的发展过程。MedMO 在此基础上强调大规模开源后训练和渐进式多模态对齐。

2.2 多模态模型中的定位(Grounding)

与传统的基于检测的方法不同,现代 VLM(如 Qwen2.5-VL)开始通过坐标和点位回归实现显式的视觉定位。MedMO 将这些原始定位能力迁移到临床数据中,以应对精细的临床定位挑战。

4. 实验

4.1 实验设置

MedMO 在 64 块 AMD MI210 GPU 上训练了 25 天。各阶段的分辨率从768 × 768 768\times 768768×768提升至1280 × 1280 1280\times 12801280×1280

4.2 数据集

整合了 45 个数据集,总计超过 2600 万个样本,涵盖了人体各主要生物系统和成像模态。

图 4.统一多模态医学数据集的组成。

4.3 结果与分析

4.3.1 问答性能

MedMO 在 MMMU-Med(64.6%)和 MedQA(90.4%)等基准测试中达到了 SOTA 水平,显著优于 Qwen3VL 基础模型。

4.3.2 医学理解(报告生成)

在 MIMIC-CXR 数据集上,MedMO 的 CIDEr 分数达到 140.0,在 Med-Trinity 跨模态数据集上更是以 270.4 的 CIDEr 分数遥遥领先(见表 2)。

4.3.3 定位性能

MedMO 在 DeepLesion(IoU38.5 % 38.5\%38.5%)和细菌检测(IoU54.6 % 54.6\%54.6%)中表现卓越。在 MedSG 综合基准测试中,其在多视图、目标跟踪和指代定位任务中均大幅超过现有模型(见表 3)。

图 3.不同模型在医学问答和定位任务中的定性比较。MedMO 提供了更准确的医学理解和边界框定位。

4.4 消融研究

(此处省略具体消融细节,详见原文)

4.4.1. 训练后阶段的消融实验

我们进行了阶段性的消融实验,以评估训练后(Post-training)每个阶段对 MedMO 在放射学和问答(QA)基准测试中表现的贡献。如图 5 和图 6 所示,性能随阶段逐步提升,验证了我们优化策略的有效性。在第一阶段,模型在 MedTrinity 数据集上训练,虽然在该数据集上取得了很强的准确率,但在其他数据集上表现出轻微的性能下降。第二阶段通过高分辨率和多样化的医学数据训练提供了最大的性能增益,而第三阶段则通过指令微调(Instruction Tuning)进一步提升了 QA 和 VQA 的性能,增强了多模态对齐和推理能力。每个阶段都贡献了互补的改进,使得 MedMO 在所有任务中的整体性能得到了持续增强。

图 5. 放射学数据集在训练后各阶段的性能表现。MedMO 在 IU-Xray、MIMIC-CXR、CheXpert 和 MedTrinity 数据集上的诊断准确率和定位能力呈现出持续增长。第二阶段的显著提升突显了结合医学推理目标的对齐微调所带来的益处。

图 6. QA 和 VQA 在各阶段的消融实验结果。问答(QA)和视觉问答(VQA)的准确率均逐步提高,表明阶段性优化增强了医学领域的多模态推理和事实依据。

4.4.2. 边界框可验证奖励

表 4 显示了强化学习后模型获得的一致性收益,证实了我们边界框奖励(Bounding-box Reward)的有效性。尽管提升幅度较小,但该奖励可靠地增强了跨数据集的空间精度和定位一致性。

5. 结论

我们推出了 MedMO,这是一个通用的医学多模态基础模型,它统一了多种医学模态下的视觉定位、临床推理和语言理解。通过一个可扩展的四阶段训练后流水线——涵盖大规模对齐、高分辨率微调、指令微调以及带有可验证奖励的强化学习——MedMO 实现了强大的多模态理解和精确的空间定位。实验结果表明,MedMO 相比强大的开源基线模型取得了显著的增益。作为一种开源医学 MLLM,MedMO 为构建可靠且透明的医学 VLM 系统开辟了一条可扩展的路径。未来的工作可能会探索在强化学习框架中更好地保留 SFT(监督微调)知识的策略。

局限性:MedMO 的阶段性训练导致了细微的任务级性能偏移,如附图 5 和 6 所示,这是大型多模态模型中由于灾难性遗忘所导致的典型行为。未来的工作将专注于提高跨任务的知识保留,同时扩大对更多医学成像模态的覆盖。

Original Abstract:Multimodal large language models (MLLMs) have rapidly advanced, yet their adoption in medicine remains limited by gaps in domain coverage, modality alignment, and grounded reasoning. In this work, we introduce MedMO, a medical foundation model built upon a generalized MLLM architecture and trained exclusively on large-scale, domain-specific data. MedMO follows a multi-stage training recipe: (i) cross-modal pretraining to align heterogeneous visual encoders with a medical language backbone; (ii) instruction tuning on multi-task supervision that spans captioning, VQA, report generation, retrieval, and grounded disease localization with bounding boxes; and (iii) reinforcement learning with verifiable rewards that combine factuality checks with a box-level GIoU reward to strengthen spatial grounding and step-by-step reasoning in complex clinical scenarios. MedMO consistently outperforms strong open-source medical MLLMs across multiple modalities and tasks. On VQA benchmarks, MedMO achieves an average accuracy improvement of +13.7% over the baseline and performs within 1.9% of the SOTA Fleming-VL. For text-based QA, it attains +6.9% over the baseline and +14.5% over Fleming-VL. In medical report generation, MedMO delivers significant gains in both semantic and clinical accuracy. Moreover, it exhibits strong grounding capability, achieving an IoU improvement of +40.4 over the baseline and +37.0% over Fleming-VL, underscoring its robust spatial reasoning and localization performance. Evaluations across radiology, ophthalmology, and pathology-microscopy confirm MedMO’s broad cross-modality generalization. We release two versions of MedMO: 4B and 8B. Project is available at https://genmilab.github.io/MedMO-Page

PDF Link:2602.06965v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/25 20:51:35

用实力说话最受喜爱的AI论文写作软件 —— 千笔·专业论文写作工具

你是否曾为论文选题发愁,反复修改却总不满意?面对繁杂的文献资料和格式要求,是不是感到力不从心?论文写作不仅是学术能力的考验,更是时间与耐心的挑战。而如今,一款专为学生打造的AI论文写作工具——千笔AI…

作者头像 李华
网站建设 2026/2/25 15:31:48

微信小程序 路演中 演出报名投票系统的设计与实现

目录微信小程序路演演出报名投票系统设计与实现摘要系统目标核心功能技术实现创新点应用价值项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作微信小程序路演演出报名投票系统设计与实现摘要 系统目标 该系…

作者头像 李华
网站建设 2026/2/25 22:08:37

智能恒温调奶器温控系统的设计与实现

为解决传统调奶器温控精度低、响应滞后、功能单一的问题,我围绕“精准控温、智能适配、安全便捷”核心设计四章论文,每章控制在400字左右,确保全文贴合母婴喂养场景需求且不超1500字。 智能恒温调奶器温控系统的设计与实现 第一章 设计背景与…

作者头像 李华
网站建设 2026/2/26 17:48:50

必收藏|程序员转行大模型全攻略(从0到1,小白也能轻松上手)

打开任意程序员交流群,十句话里必有一句绕不开“转型”。当GPT-4o能独立写出完整项目代码、调试bug,当企业招聘启事上“熟悉大模型优先”的标注越来越密集,“转行大模型”早已不是可选的“加分题”,而是很多程序员安身立命的“生存…

作者头像 李华