news 2026/6/23 7:29:05

理解与生成统一多模态模型:现状与未来 | 直播预约

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
理解与生成统一多模态模型:现状与未来 | 直播预约

主题

理解与生成统一多模态模型:现状与未来

时间

北京时间:2025.12.17 (周三) 10:30

直播平台

微信视频号:

b站直播间:

论文信息

  • 标题

    • A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges

  • 地址

    • https://www.techrxiv.org/users/993777/articles/1355509-a-survey-of-unified-multimodal-understanding-and-generation-advances-and-challenges

内容介绍

从GPT-4o的惊艳亮相到Gemini的持续迭代,AI不仅能理解文本,更能看懂图像、听辨声音、创作视频,实现跨模态的联合理解与生成。这一前沿领域的核心,正是统一多模态基础模型(Unified Foundation Models, UFMs)。

然而,尽管闭源模型取得了巨大成功,开源社区在构建强大的统一模型方面仍面临诸多挑战:技术路线不统一、关键设计缺乏共识、训练策略与数据管理复杂等。

来自南京大学、中科院自动化所、北京大学的研究团队联手,参考超过750篇论文,推出《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,通过对海量文献的梳理,分析当前领域的主流技术路线,构建了一个清晰的分类体系和全景式技术视图。

嘉宾

杨言,南京大学计算机学院博士二年级,主要研究领域为多模态大模型、长视频理解智能体。

主持人

李磊,香港大学PhD在读,师从孔令鹏教授和刘琦教授。研究兴趣包括多模态大语言模型与大模型可解释性,以第一作者在ICLR、CVPR、ACL、EMNLP及TASLP等会议和期刊发表多篇论文,谷歌学术引用8000+,MiMo-VL Team 核心成员。担任 ACL ARR Area Chair,曾获EMNLP 2023最佳长文奖、EMNLP Outstanding Area Chair、CVPR Highlight等奖项。

个人网站:https://lilei-nlp.github.io/

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。

NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

编辑 | 宁钰成 中国科学院大学

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 14:45:06

5分钟快速上手:awesome-godot项目带你玩转游戏开发

5分钟快速上手:awesome-godot项目带你玩转游戏开发 【免费下载链接】awesome-godot A curated list of free/libre plugins, scripts and add-ons for Godot 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-godot 想要轻松入门游戏开发却不知从何开始…

作者头像 李华
网站建设 2026/6/23 17:13:25

深入Linux实时调度:5个关键机制彻底改变你的应用响应速度

还在为系统响应延迟而烦恼?🚀 当你按下工业控制按钮,音频播放器出现卡顿,或者传感器数据采集丢失关键帧时,问题往往出在调度策略的选择上。今天,我们将揭开Linux内核实时调度的神秘面纱,带你从底…

作者头像 李华
网站建设 2026/6/23 17:16:45

MATLAB中实现图像超分辨率

MATLAB中实现图像超分辨率,可以选择从简单的传统插值方法到更先进的深度学习技术。表格汇总了几种主流方法及其核心代码方法类别方法名称核心 MATLAB 函数/代码片段主要特点传统插值双三次插值I_highres imresize(I_lowres, scale, bicubic);速度快,简单…

作者头像 李华
网站建设 2026/6/23 17:13:25

Wechaty v1.20.2深度解析:智能对话机器人的企业级实践指南

Wechaty v1.20.2深度解析:智能对话机器人的企业级实践指南 【免费下载链接】wechaty 项目地址: https://gitcode.com/gh_mirrors/wec/wechaty 还在为聊天机器人的稳定性和扩展性发愁吗?Wechaty v1.20.2版本带来了革命性的升级,让企业…

作者头像 李华
网站建设 2026/6/23 18:51:12

Moonlight安卓串流终极指南:手机畅玩PC游戏的完整教程

你是否曾经想过,在手机上就能流畅运行《赛博朋克2077》或《艾尔登法环》这样的PC大作?Moonlight安卓串流技术让这个梦想成为现实。本文将为你提供从环境配置到性能优化的完整解决方案。 【免费下载链接】moonlight-android GameStream client for Androi…

作者头像 李华
网站建设 2026/6/23 18:52:00

强化学习第六课 —— SAC:熵驱动的更智能探索

目录 引言:不仅仅是为了赢 第一章:最大熵目标——混乱中的秩序 2.1 传统 RL 的局限 2.2 引入熵奖励:J(π)J(\pi)J(π) 的重构 第二章:软策略迭代——数学推导的核心 3.1 软值函数与软 Bellman 方程 3.2 策略评估与策略提升 第三章:SAC 的工程实现——Actor 与 Critic 的共…

作者头像 李华