2025年12月17日,在小米“人车家全生态”合作伙伴大会上,新近加入小米的Xiaomi MiMo大模型负责人罗福莉首次公开亮相,发布了小米自研的推理大模型MiMo-V2-Flash,并宣布其全面开源。
该模型采用混合专家架构,总参数为309B,激活参数为15B,实现极致的推理效率。
01 技术背景
小米此次发布的MiMo-V2-Flash是该公司自主研发的首个推理大模型。
模型负责人罗福莉于今年11月加入小米,此前她曾主导开发多语言预训练模型VECO,并参与了MoE大模型DeepSeek-V2的研发。
罗福莉在本次大会上表示,智能终将从语言迈向物理世界,她正在小米与团队共同构建这样的未来。
02 核心参数与性能
MiMo-V2-Flash采用混合专家架构,总参数量为309B,实际激活参数量为15B。
罗福莉指出,与同类模型相比,MiMo-V2-Flash的参数量减少了1/2至2/3,但在多项评测中性能表现突出。
该模型在多项权威代码与智能体评测基准中已位居全球开源模型前列。具体来看,其在SWE-Bench Verified测试中获得73.4%的分数,超越了DeepSeek-V3.2和Kimi-K2-Thinking等主流开源模型。
03 技术创新
MiMo-V2-Flash在技术架构上采用了一系列创新设计。该模型采用了混合注意力架构,具体为5层滑动窗口注意力与1层全局注意力交替使用。
滑动窗口注意力机制将每个token的注意力视野限制在邻近的128个token内,这种设计可以将注意力计算复杂度从平方级降低为线性级。
研究团队发现,128被证明是窗口大小的最佳数值,而512反而会导致性能下降。为缓解滑动窗口可能导致的长文理解问题,模型引入了可学习的注意力汇聚偏置。
04 训练与效率优化
在模型训练方面,MiMo-V2-Flash采用了多教师在线策略蒸馏的新范式。这种方法只需要传统训练方法约1/50的算力,就能使学生模型达到教师模型的性能峰值。
模型支持深度思考与联网搜索功能,能够实现自然流畅的人机对话,并在需要实时数据获取、动态信息查询或资料验证的场景中提供支持。
模型原生支持32K序列长度,可扩展至256K上下文窗口。
05 成本与可用性
MiMo-V2-Flash展现出卓越的推理速度与成本控制能力。API定价为每百万token输入0.1美元、输出0.3美元。
罗福莉指出,对比闭源竞品Claude 4.5 Sonnet,该模型的推理成本仅为其2.5%左右。模型已经在Hugging Face上以MIT许可协议发布,包括基础版权重。
小米还推出了在线AI聊天服务Xiaomi MiMO Studio,可以通过该平台体验MiMo-V2-Flash。该服务支持深度思考和联网搜索功能。
小米模型体验地址:
https://aistudio.xiaomimimo.com/