news 2026/2/2 6:36:46

DeepSeek悄悄开源LPLB！MoE训练负载均衡新方案，5行代码搞定，值得收藏学习

张小明

前端开发工程师

1.2k 24

文章封面图 — DeepSeek悄悄开源LPLB！MoE训练负载均衡新方案，5行代码搞定，值得收藏学习

LPLB是DeepSeek开源的MoE训练负载均衡方案，解决了小批量训练中专家token数剧烈抖动问题。它将冗余专家视为带容量边的图，通过GPU上的线性规划动态分配token，实现单节点100µs级快速求解。相比静态EPLB，LPLB能每批按负载即时决定冗余专家，使用NVSHMEM和NVLINK优化通信，仅需5行代码即可集成。项目已开源，适合MoE训练场景。

DeepSeek悄悄的开源了LPLB，真的没有任何宣传，PaperAgent带大家一起来扒一扒。

太长不看版

问题：MoE 小批量训练时，专家每批 token 数剧烈抖动，静态 EPLB 无法根治。
解法：LPLB 在 EPLB 的基础上，把“冗余专家”看成一张带容量边的图，每批解一次线性规划，瞬间把 token 重新路由到空闲 GPU。
性能：单节点 100 µs 级求解；多节点稍慢，但对大 batch 可忽略。

为什么 EPLB 不够了？

对比维度	EPLB（静态）	LPLB（动态）
优化目标	数据分布长期倾斜	每 batch随机倾斜
冗余专家	离线选好，终身不变	每批按负载即时决定
算法	贪心重排序	线性规划
通信	`torch.distributed.allreduce`	NVSHMEM + NVLINK

核心思想：把“负载均衡”写成线性规划

2.1 问题建模

给定一个 EP 组（大小=ep_size）：

每个原始专家i有d_i个 token 要处理；
为i准备了r_i个冗余专家，分布在不同 GPU；
冗余专家j的边容量c_j= 它在本批最多能吃的 token 数；

目标：把超载专家的 token沿边分流，使得最终各 GPU 的总 token 数尽可能均衡。

2.2 LP 形式

最小化最大负载T
s.t.

流量守恒：原始专家i分出去的 token =d_i
边容量：每条边e的流量 ≤c_e
非负

变量数 = 冗余边数（通常 < 128），用单 SM 的 Interior Point Method在 GPU 上直接解。

系统架构：100 µs 的求解器如何炼成？

模块	实现细节
LP Solver	自研单-SM IPM，调用`cuSolverDx`+`cuBLASDx`做 Cholesky 与 GEMM，全程 CUDA kernel 内完成，零 CPU 回拷。
Workload 采集	3 条路径： 1. 用户传入`torch.Tensor`； 2.`torch.distributed.allreduce`； 3.DeepEP buffer 自带计数器（推荐，零额外延迟）。
通信优化	用NVSHMEM把冗余专家的计数器放 NVLink 上。
拓扑描述	一个`r2o`矩阵（`n_physical × n_logical`）即可自定义任意图结构。

开箱：5 行代码把 Planner 跑起来

from lplb import Planner# 1. 描述冗余拓扑：8 专家，2 冗余/GPU，Cube 图r2o = torch.tensor([...]).T.cuda() planner = Planner(r2o, n_physical, n_logical, group=ep_group)# 2. 可选：从 DeepEP 缓冲区直接初始化# planner.init_from_deep_ep(buffer)# 3. 每批调用redirected_indices = planner.run(indices, # 逻辑专家 ID avail_counter, N_SMS=100) # 占用 SM 数

典型拓扑怎么选？

拓扑	适用场景	GPU 数	特点
Cube	单节点 8 GPU	≥ 8	对角边加持，零跨节点即可平衡
Hypercube	16 GPU	16	无对角，跨节点均匀
Torus	多机	≥ 8	全局平衡最好，牺牲部分 intra-node 带宽

想玩新图？直接改r2o矩阵即可，Planner 不做任何硬编码。

局限与未来方向

线性假设：只均衡 token 计数，没考虑grouped GEMM 非线性开销→ 可能“均衡却更慢”。
求解时延：100 µs 对小 batch 占比不可忽略；后续计划用学习式 warm-start剪枝。
全局倾斜：若所有节点都超载，LPLB 的冗余边反而成累赘；此时应回退 EPLB或动态扩专家。
总结一句话

LPLB 把“每批专家随机爆雷”问题转成一张带权图 + 一次 GPU 上的 100 µs 线性规划，让 MoE 训练再也无需手动调负载。
研究仍在早期，代码已开源，欢迎一起把求解器推向< 50 µs！

ERNIE-4.5思维版：21B轻量模型推理能力再进化

ERNIE-4.5思维版：21B轻量模型推理能力再进化【免费下载链接】ERNIE-4.5-21B-A3B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/ERNIE-4.5-21B-A3B-Thinking 百度ERNIE系列推出最新升级版本ERNIE-4.5-21B-A3B-Thinking，在保持…

李华

网站建设 2026/2/2 2:03:23

IBM Granite-4.0：轻量高效多语言AI模型

IBM Granite-4.0：轻量高效多语言AI模型【免费下载链接】granite-4.0-h-micro-base-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/granite-4.0-h-micro-base-bnb-4bit IBM推出全新轻量级语言模型Granite-4.0，以30亿参数规模实…

李华

网站建设 2026/2/2 3:29:55

字节跳动Seed-OSS-36B：512K超长上下文智能推理平台

字节跳动Seed-OSS-36B：512K超长上下文智能推理平台【免费下载链接】Seed-OSS-36B-Instruct-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Seed-OSS-36B-Instruct-GGUF 导语：字节跳动Seed团队正式发布360亿参数开源大模型Seed-OSS…

李华

网站建设 2026/1/25 4:13:43

AI编程助手高效配置全攻略：一键解锁智能编程新体验

AI编程助手高效配置全攻略：一键解锁智能编程新体验【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached your trial …

李华

网站建设 2026/1/30 10:45:06

STLink与STM32怎么接线？支持JTAG模式吗？全面讲解

STLink与STM32怎么接线？支持JTAG吗？一文讲透调试接口的底层逻辑在嵌入式开发中，最让人抓狂的不是写不出代码，而是——明明程序编译通过了，烧录却失败；点下调试按钮，IDE却提示“Target Not Respo…

李华

网站建设 2026/2/1 2:43:58

Windows平台APK安装器终极指南：轻松实现跨平台应用部署

Windows平台APK安装器终极指南：轻松实现跨平台应用部署【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在当今多设备生态中，你是否曾希望在Wind…

李华