news 2026/6/23 19:46:13

MoE架构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MoE架构

🍋🍋AI学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


一、Decoder-only原始架构

在MoE中,decoder-only就是改造的前馈神经网络层。

二、MoE图解

三、前向传播过程

Top-k (k=1 或 2)为例:

1、计算路由权重

2、选择专家

  • 取权重最大的 k 个专家,得到索引集合 S(x)。

3、专家前向

  • 对选中的每个专家 e:

4、加权合并

五、MoE的优势

1、参数量大,计算量可控

(1)普通 Transformer:每次前向传播都要用到所有参数,想增加容量就必须增加计算量。

(2)MoE:可以把参数拆分成 N 个“专家”,每个 token 只激活Top-k个专家(常见 k=1 或 2)。

(3)计算量 ≈ k/N × 总参数量,总参数可以做到数百亿甚至上万亿,而实际每步计算只相当于几十亿

2、表达能力更强

不同专家可以学习不同的子任务/语义模式(例如语法、数学、代码、图像描述等)。

通过 gating 机制,每个 token 动态选择专家 →条件计算 (conditional computation), 类似于“如果输入属于某类特征,就让某些专家专门处理”

3、训练与扩展灵活

易于扩展:只需增加专家数量即可增加模型容量,而计算成本几乎不变。

模块化训练:专家可以并行分布到不同 GPU/节点,方便大规模分布式训练。

局部更新:理论上可以只更新某些专家以实现增量学习或领域适配。

4、更好的多样性与鲁棒性

由于专家学习到不同的特征空间,模型在面对分布外数据时往往更有鲁棒性。

对长尾任务更友好:稀有任务可能被特定专家捕获,而不会被主流任务“淹没”。

六、常见变体

  • Switch Transformer:Top-1 路由,最简单高效。

  • GShard:Top-2 路由 + 负载均衡 loss。

  • Mixtral、DeepSeek-MoE:更大规模专家、改进 gating、共享路由策略。

  • Shared MoE / Residual MoE:增加共享专家或残差,稳定训练。

七、总结

MoE 的前馈网络内部仍然是“升维→激活→降维”的 FFN, 区别在于:

不止一个 FFN,而是多个专家并存,由门控网络为每个 token 动态选择少数专家执行, 这样可以在保持计算成本可控的同时显著扩大模型容量与表示能力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 22:13:09

C#内存加载dll和EXE是不是差不多,主要是EXE有入口点

C#内存加载dll和EXE是不是差不多,主要是EXE有入口点?是的!在 C# 中,内存加载 DLL 和 EXE(仅限 .NET 托管程序集)的核心逻辑几乎完全一致,唯一的关键差异确实集中在「EXE 有入口点(En…

作者头像 李华
网站建设 2026/6/22 20:02:44

DSP28335模型设计自动化代码生成与外设驱动库实战指南

dsp28335基于模型的设计,自动代码生成,还有各种外设的驱动库DSP28335这玩意儿在工控领域混得风生水起不是没道理的。以前搞电机控制得手动撸寄存器,现在有了基于模型的设计(Model-Based Design),画个框图就…

作者头像 李华
网站建设 2026/6/21 17:25:00

账号频繁被风控?一文教你做IP纯净度检测!

很多人做跨境平台、广告投放或多账号运营时,都会遇到一个非常头疼的问题:账号明明按规则操作,却频繁被风控、限流,甚至直接封号。排查一圈后发现,问题往往不在内容、不在操作,而是出在一个被严重低估的因素…

作者头像 李华
网站建设 2026/6/23 1:18:04

EVF8602-E-V009逆变器

EVF8602-E-V009 是 LENZE(伦茨)生产的一款高性能交流变频器(逆变器),主要用于工业自动化系统中对三相异步电机或伺服电机进行速度、转矩和位置控制。以下是详细信息整理:EVF8602-E-V009 逆变器主要特点宽调…

作者头像 李华
网站建设 2026/6/23 16:10:27

惠普M1005打印机驱动下载与安装指南:告别故障,高效办公不卡顿!

“惠普M1005驱动安装失败,80%不是设备问题而是渠道错了!”“惠普M1005打印机驱动找不到”,“安装后无法打印”“驱动与系统不兼容”?。惠普M1005作为经典的多功能打印机,凭借稳定性能成为职场办公、小型打印店、家庭使…

作者头像 李华
网站建设 2026/6/23 16:10:40

戴西HPC高性能计算平台:为工业仿真打造的专业计算引擎

在工业产品研发进入数字化深水区的今天,仿真计算正在从“辅助设计”转变为“研发核心驱动力”。更复杂的模型、更精细的网格、更长的求解时间,使得企业急需一个稳定、灵活、可视化且易用的高性能计算平台,帮助工程师从传统单机的性能瓶颈和算…

作者头像 李华