华为开源盘古Pro MoE：720亿参数大模型如何重构AI效率边界-育师

导语

【免费下载链接】openPangu-Pro-MoE-72B-modelopenPangu-Pro-MoE (72B-A16B)：昇腾原生的分组混合专家模型项目地址: https://ai.gitcode.com/ascend-tribe/pangu-pro-moe-model

华为正式开源昇腾原生的盘古Pro MoE大模型，以720亿总参数与160亿激活参数的创新设计，在推理性能与部署成本间取得突破性平衡，为AI工业化应用提供全新技术范式。

行业现状：大模型的效率困境与突围方向

当前大模型发展面临"规模扩张"与"计算成本"的尖锐矛盾。数据显示，全球AI算力需求每3.4个月翻一番，但单芯片算力提升速度已跟不上模型参数增长。传统稠密模型的全量激活模式导致计算资源严重浪费，而混合专家模型(MoE)虽通过稀疏激活缓解了这一问题，却又陷入专家负载不均衡的技术瓶颈。

在此背景下，盘古Pro MoE的开源具有标志性意义。根据SuperCLUE中文大模型基准测评5月的数据，盘古72B在开源排行榜中位列第五，仅次于DeepSeek-R1满血版、DeepSeek-V3满血版以及Qwen3-32B和235B。有媒体评论称，华为通过从芯片（昇腾NPU）、到框架（MindSpore），再到模型（盘古）形成了完整的垂直整合体系，证明在英伟达主导的单一产业格局之外，存在一种可行的高性能替代方案。

产品亮点：MoGE架构解决三大行业难题

1. 分组专家机制实现负载均衡

盘古Pro MoE基于创新的MoGE（Mixture of Grouped Experts）架构，将64个路由专家划分为8个独立组，强制每个输入token在每组中精确激活1个专家。这种设计使专家利用率方差降低80%以上，从根本上解决传统MoE的负载均衡难题。

在典型的分布式部署中，每个专家分组对应独立的计算设备，从而MoGE天然地实现了跨设备的计算负载均衡。华为表示，这一设计显著提升了训练和推理场景下的系统吞吐量。

2. 昇腾原生优化释放硬件潜力

该模型专门针对昇腾硬件优化，在昇腾800I A2上实现单卡1148 tokens/s的推理吞吐性能，通过投机加速技术可进一步提升至1528 tokens/s，显著优于同等规模的稠密模型。在昇腾300I Duo推理服务器上，华为也实现了极具性价比的模型推理方案，为中低端算力场景提供经济高效的部署选择。

3. 双系统推理提升响应效率

盘古Embedded 7B模型引入"快思考"和"慢思考"双系统，简单问题用快速模式响应，复杂问题用深度模式推理，可自动切换。这种自适应推理机制使模型在保持高精度的同时，进一步降低了平均响应延迟，提升了用户体验。

技术实现：从训练到部署的全栈创新

大规模分布式训练

在预训练阶段，华为使用了4000个昇腾NPU，在包含13万亿tokens的高质量语料库上进行预训练，分为通用、推理和退火三个阶段，逐步提升模型能力。在后训练阶段，其通过监督微调（SFT）和强化学习（RL）进一步增强推理能力，还采用了检查点合并等技术优化模型。

推理性能优化

团队设计了双循环流水线和乒乓调度器，将具有不同计算模式的操作分离到不同的循环中，消除了键、softmax和值计算交错执行导致的流水线气泡。在低并发场景下，批次大小为1、序列长度为2K的配置实现了超低延迟，而在高并发场景下，数百个批次规模在100毫秒延迟约束内达到每卡1148 token/秒的平均输出吞吐量，相比72B密集模型和32B密集模型分别提升了97%和18%。

完整开源生态

华为此次开源包括三个主要组件：盘古Pro MoE 72B模型权重和基础推理代码已正式上线开源平台，基于昇腾的超大规模MoE模型推理代码同步发布，盘古7B相关模型权重与推理代码将于近期上线。开发者可通过以下仓库获取完整资源：

https://gitcode.com/ascend-tribe/pangu-pro-moe-model

如上图所示，该图像象征着华为盘古Pro MoE大模型的全球技术影响力与开源生态布局。这一开源行动不仅为开发者提供了高效的大模型解决方案，更推动了AI技术的开放与共享，加速了人工智能在千行百业的应用与价值创造。

行业影响：从参数竞赛到效率优先的范式转变

盘古Pro MoE的开源标志着大模型发展正式进入"质量时代"。通过解决负载均衡这一行业难题，华为不仅提供了"够用就好"的务实技术路线，更以架构创新重构行业价值标准。金融、医疗等行业可基于该模型快速开发专业大模型。如润达医疗已基于类似架构构建医学影像分析系统，在肺结节检测任务中准确率达96.3%，较传统方案提升8.7个百分点。

此次开源正值国产大模型开源浪潮兴起之际。继DeepSeek-R1成功后，MiniMax、阿里巴巴、月之暗面等头部厂商陆续升级开源模型，推动大模型价格下探60%-80%，加速应用普及。华为的加入将进一步丰富国产大模型生态，为企业级应用提供更多选择。

结论与前瞻：AI工业化的中国方案

盘古Pro MoE的开源不仅打破了"参数即正义"的行业迷思，更为中小企业和开发者提供了接触千亿级模型能力的机会。随着计划于Q4发布的量化权重，以及昇腾硬件生态的持续完善，我们有理由相信，AI技术将加速从实验室走向产业实践，推动各行各业的智能化转型。

华为通过从芯片到模型的垂直整合，证明了在英伟达主导的产业格局之外，存在一种可行的高性能替代方案。这种"中国方案"不仅提升了我国在AI领域的技术自主性，更为全球AI发展贡献了创新思路。未来，随着昇腾生态的不断壮大，我们有望看到更多基于盘古Pro MoE的创新应用和行业解决方案涌现。

对于开发者而言，现在正是加入昇腾生态、探索MoGE架构应用的最佳时机。通过参与盘古Pro MoE的社区建设，不仅可以提升个人技术能力，还能为国产AI生态的发展贡献力量。让我们共同期待，这场由效率革命引发的AI工业化浪潮，能够为社会带来更多福祉。

【免费下载链接】openPangu-Pro-MoE-72B-modelopenPangu-Pro-MoE (72B-A16B)：昇腾原生的分组混合专家模型项目地址: https://ai.gitcode.com/ascend-tribe/pangu-pro-moe-model

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

华为开源盘古Pro MoE：720亿参数大模型如何重构AI效率边界

导语

行业现状：大模型的效率困境与突围方向

产品亮点：MoGE架构解决三大行业难题

1. 分组专家机制实现负载均衡

2. 昇腾原生优化释放硬件潜力

3. 双系统推理提升响应效率

技术实现：从训练到部署的全栈创新

大规模分布式训练

推理性能优化

完整开源生态

行业影响：从参数竞赛到效率优先的范式转变

结论与前瞻：AI工业化的中国方案

字节跳动开源Bamboo-mixer：AI驱动电解液研发革命，周期缩短60%

后端学习笔记

Gitea权限管理：构建安全高效的代码访问控制体系

AI视频生成终极指南：从零开始快速上手WAN2.2-14B-Rapid-AllInOne

Ascend C 编译器内幕与自动调优实战：从手写 Kernel 到 AI 驱动的性能优化

Ascend C 绿色计算与边缘部署：面向低碳 AI 的极致能效优化实践