news 2026/2/23 5:11:43

小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

摘要

在追求 AGI 的道路上,如何在保持高性能推理能力的同时,极致压缩计算成本与显存占用?小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数(激活参数仅 15B)的 MoE 模型,通过混合滑动窗口注意力(Hybrid SWA)轻量级多 Token 预测(MTP)以及多教师在线蒸馏(MOPD),在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。


1. 引言:突破“不可能三角”?

长上下文大语言模型(LLM)长期面临一个“不可能三角”:长窗口(Long Context)、**高智能(High Intelligence)低延迟(Low Latency)**往往难以兼得。全注意力机制(Full Attention)的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰,而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于:

  1. 架构侧:利用带“可学习 Sink Bias”的滑动窗口注意力,将 KV Cache 和计算量降低 6 倍。
  2. 推理侧:利用 MTP 模块实现无损投机采样,大幅提升 Decoding 速度。
  3. 训练侧:首创 MOPD 范式,解决了强化学习(RL)中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计:极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构,但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈,MiMo-V2-Flash 并没有选择完全的线性 Attention,而是采用了一种5:1 的混合策略

  • 结构:每 6 层为一个 Block,其中前 5 层使用滑动窗口注意力(Sliding Window Attention, SWA),第 6 层使用全局注意力(Global Attention, GA)。
  • 参数:滑动窗口大小W=128W=128W=128。这是一个极小的窗口(相比于常见的 4K 或 8K),意味着绝大多数层只关注极局部的上下文。
核心创新:可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后,长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题,而 MiMo-V2-Flash 选择了一种更轻量的方案:Learnable Attention Sink Bias

在 SWA 层中,模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sinkR,用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时,将注意力权重“倾泻”到 Sink 上,从而保留全局语义的聚合能力。

数学表达
对于 Tokeniiijjj,注意力 Logit 计算如下:
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 17:45:00

超高性能订单簿系统:5大核心功能打造极致交易体验

超高性能订单簿系统:5大核心功能打造极致交易体验 【免费下载链接】HFT-Orderbook Limit Order Book for high-frequency trading (HFT), as described by WK Selph, implemented in Python3 and C 项目地址: https://gitcode.com/gh_mirrors/hf/HFT-Orderbook …

作者头像 李华
网站建设 2026/2/21 9:46:00

Orleans分布式追踪:如何选择最适合的监控工具?

Orleans分布式追踪:如何选择最适合的监控工具? 【免费下载链接】orleans dotnet/orleans: Orleans是由微软研究团队创建的面向云应用和服务的分布式计算框架,特别适合构建虚拟 actor模型的服务端应用。Orleans通过管理actors生命周期和透明地…

作者头像 李华
网站建设 2026/2/20 5:50:07

耳机vs扬声器:不同设备播放体验差异

耳机 vs 扬声器:不同设备播放体验差异 在语音合成技术日益成熟的今天,我们已经能用几秒钟的音频样本“克隆”出一个活灵活现的声音,并赋予它喜怒哀乐。像 EmotiVoice 这样的开源高表现力 TTS 引擎,正让个性化语音生成变得触手可及…

作者头像 李华
网站建设 2026/2/22 4:46:51

Photon框架深度解析:构建Electron应用的终极指南

Photon框架深度解析:构建Electron应用的终极指南 【免费下载链接】photon The fastest way to build beautiful Electron apps using simple HTML and CSS 项目地址: https://gitcode.com/gh_mirrors/pho/photon 你是否曾经为选择合适的Electron UI框架而苦恼…

作者头像 李华
网站建设 2026/2/22 9:15:24

剧透 2026 年第一个值得你奔赴现场的 AI 大会

以下文章来源于谷歌云服务,作者 Google CloudAI 驱动,智胜全球2026 年 1 月 15 日 北京Google Cloud 出海峰会即将开幕2026 年,AI 正从 "技术尝鲜" 走向 "规模化落地"。对于出海企业而言,这不再是一道选择题&…

作者头像 李华
网站建设 2026/2/22 15:39:14

解锁地理智能:ArcGIS API for Python 全栈开发实战指南

在当今数据驱动的世界中,地理空间分析已成为各行各业决策的重要支撑。然而,传统GIS软件往往操作复杂、学习曲线陡峭,让许多开发者和数据分析师望而却步。ArcGIS API for Python应运而生,它将专业级GIS功能封装成简洁的Python接口&…

作者头像 李华