ms-swift分布式训练指南：DeepSpeed+ZeRO3配置详解-育师

ms-swift分布式训练指南：DeepSpeed+ZeRO3配置详解

在大模型时代，单卡训练早已无法满足日益增长的参数规模与数据量需求。面对百亿甚至千亿级模型的微调任务，如何高效利用多GPU资源、降低显存占用、提升训练吞吐，成为每一个AI工程师必须面对的核心挑战。

ms-swift作为魔搭社区推出的轻量级大模型微调框架，不仅支持600+纯文本和300+多模态模型的全链路训练与部署，更深度集成了DeepSpeed分布式训练技术，尤其是其最先进的ZeRO-3（Zero Redundancy Optimizer Stage 3）显存优化策略，使得在有限硬件条件下完成大规模模型训练成为可能。

本文将带你从零开始，深入掌握如何在 ms-swift 中配置并使用 DeepSpeed + ZeRO3 实现高效的分布式训练，涵盖环境准备、配置文件编写、命令行调用、性能调优等关键环节，并结合实际案例解析常见问题与最佳实践。

1. 为什么选择 DeepSpeed + ZeRO3？

在进入具体配置之前，我们先来理解：为什么要用 DeepSpeed？它解决了什么问题？

1.1 单机单卡的瓶颈

以一个7B参数的LLM为例，在FP16精度下：

模型权重：约14GB
梯度：14GB
优化器状态（如Adam）：28GB（每个参数需存储momentum和variance）

仅这三项就已超过50GB显存，远超消费级显卡（如3090/4090）的24GB上限。即使使用LoRA等轻量化方法，全参数微调或预训练仍需应对巨大的显存压力。

1.2 DeepSpeed 的三大核心能力

DeepSpeed 是微软开发的开源深度学习优化库，专为超大规模模型训练设计，具备以下三大优势：

显存优化：通过ZeRO系列技术，将优化器状态、梯度、模型参数分片到多个设备上，显著降低单卡显存占用。
计算加速：集成Fused Ops（如Fused Adam）、Gradient Checkpointing、Mixed Precision Training等技术，提升训练速度。
可扩展性强：支持单机多卡、多机多卡，最高可扩展至数千张GPU。

其中，ZeRO-3 是目前最激进的显存优化策略，它不仅能分区优化器状态（ZeRO-1）和梯度（ZeRO-2），还能将模型参数本身也进行切分，实现“按需加载”，极大释放显存空间。

1.3 ms-swift 如何整合 DeepSpeed？

ms-swift 原生支持 DeepSpeed 集成，用户只需通过简单的命令行参数或配置文件即可启用，无需修改代码。无论是全参数训练、LoRA 还是 QLoRA，均可无缝对接 DeepSpeed，真正实现“一键分布式”。

2. 环境准备与基础部署

在开始分布式训练前，确保你的运行环境满足以下条件。

2.1 硬件要求

组件	推荐配置
GPU	至少2张A10/A100/H100，或RTX 3090及以上
显存	单卡≥24GB（用于全参数训练），≥16GB（用于LoRA）
CPU	≥16核，主频≥2.5GHz
内存	≥64GB
存储	≥500GB SSD（建议NVMe）
网络	多机训练时建议InfiniBand或10Gbps以上以太网

💡 提示：若使用云平台（如阿里云PAI、AWS EC2），推荐选择p4d或g5系列实例。

2.2 软件依赖安装

# 创建虚拟环境 conda create -n swift python=3.10 conda activate swift # 安装PyTorch（根据CUDA版本选择） pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装ms-swift（推荐从源码安装以获取最新特性） git clone https://github.com/modelscope/ms-swift.git cd ms-swift pip install -e .

验证安装是否成功：

swift --help

你应该能看到sft,pt,rlhf,deepspeed等子命令。

3. DeepSpeed 配置文件详解

DeepSpeed 的行为由一个 JSON 格式的配置文件控制。ms-swift 支持直接传入该配置文件，实现精细化调控。

3.1 最小可用 ZeRO-3 配置模板

{ "train_batch_size": "auto", "train_micro_batch_size_per_gpu": "auto", "gradient_accumulation_steps": "auto", "optimizer": { "type": "AdamW", "params": { "lr": 1e-5, "weight_decay": 0.01, "betas": [0.9, 0.999] } }, "fp16": { "enabled": true }, "bf16": { "enabled": false }, "zero_optimization": { "stage": 3, "offload_optimizer": { "device": "cpu" }, "allgather_bucket_size": 5e8, "reduce_bucket_size": 5e8 }, "activation_checkpointing": { "partition_activations": true, "cpu_checkpointing": true, "contiguous_memory_grabbing": true, "number_checkpoints": null, "synchronize_checkpoint_boundary": false, "profile": false }, "steps_per_print": 1000, "wall_clock_breakdown": false }

3.2 关键参数说明

参数	说明
`stage`: 3	启用ZeRO-3，参数、梯度、优化器状态全部分片
`offload_optimizer.device`: cpu	将优化器状态卸载到CPU内存，进一步节省显存
`fp16.enabled`: true	使用半精度训练，减少显存占用并加速计算
`activation_checkpointing`	开启梯度检查点，用时间换空间，降低激活值显存
`allgather_bucket_size`	控制通信桶大小，影响带宽利用率

⚠️ 注意：offload_optimizer会增加CPU-GPU数据传输开销，适合显存极度紧张但CPU内存充足的场景。若显存尚可，建议设为"device": "none"以提升速度。

4. 在 ms-swift 中启用 DeepSpeed + ZeRO3

4.1 命令行方式（推荐新手）

NPROC_PER_NODE=4 \ CUDA_VISIBLE_DEVICES=0,1,2,3 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --dataset AI-ModelScope/alpaca-gpt4-data-zh#1000 \ --train_type full \ --deepspeed ds_zero3.json \ --output_dir output_ds3 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 8 \ --learning_rate 2e-5 \ --max_length 2048 \ --save_steps 100 \ --eval_steps 100 \ --logging_steps 10

参数解释：

NPROC_PER_NODE=4：每台机器启动4个进程（对应4张GPU）
--deepspeed ds_zero3.json：指定DeepSpeed配置文件路径
--train_type full：表示全参数训练，配合ZeRO-3效果最佳

4.2 使用 LoRA + ZeRO3（平衡效率与资源）

如果你希望在更低显存下训练大模型，可以结合 LoRA 与 ZeRO3：

NPROC_PER_NODE=2 \ CUDA_VISIBLE_DEVICES=0,1 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --dataset swift/self-cognition#500 \ --train_type lora \ --lora_rank 64 \ --lora_alpha 128 \ --target_modules all-linear \ --deepspeed ds_zero3_lora.json \ --output_dir output_lora_ds3 \ --num_train_epochs 1 \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 4 \ --learning_rate 1e-4

此时即使单卡显存不足，也能顺利完成训练。

5. 性能调优与常见问题解决

5.1 如何判断是否真正启用了 ZeRO-3？

查看日志输出中是否有如下关键字：

[deepscale] Using ZeRO Optimizer with stage=3 [deepscale] Offloading optimizer states to CPU [deepscale] All model states are partitioned across devices

此外，可通过nvidia-smi观察各GPU显存使用情况。ZeRO-3 正常工作时，所有GPU显存应基本均衡，且总量远低于未使用时的水平。

5.2 训练速度太慢？可能是这些原因

问题	解决方案
显存溢出导致OOM	减小`per_device_train_batch_size`或启用`offload`
通信成为瓶颈	增大`allgather_bucket_size`和`reduce_bucket_size`
CPU卸载拖慢训练	若显存允许，关闭`offload_optimizer`
梯度累积步数过多	调整`gradient_accumulation_steps`到合理范围（4~16）

5.3 多机训练配置（进阶）

对于跨节点训练，需额外配置主机列表和端口：

{ "zero_optimization": { "stage": 3, "stage3_gather_16bit_weights_on_model_save": true }, "distributed_backend": "nccl", "communication_data_type": "bf16", "enable_cuda_graph": false, "flops_profiler": { "enabled": false } }

启动命令：

swift dist \ --config ds_zero3.json \ --nnodes 2 \ --node_rank 0 \ --master_addr "192.168.1.10" \ --master_port 29500 \ --gpus 4 \ --launcher torchrun \ sft \ --model Qwen/Qwen2.5-7B-Instruct \ --dataset large_dataset \ --train_type full

6. 实战案例：在双卡3090上训练7B模型

假设你有一台配备两张RTX 3090（24GB显存）的工作站，想对 Qwen2.5-7B-Instruct 进行全参数微调。

6.1 配置文件优化版（ds_zero3_opt.json）

{ "train_micro_batch_size_per_gpu": 1, "gradient_accumulation_steps": 8, "fp16": { "enabled": true }, "bf16": { "enabled": false }, "zero_optimization": { "stage": 3, "offload_optimizer": { "device": "cpu" }, "allgather_bucket_size": 1e9, "reduce_bucket_size": 1e9 }, "activation_checkpointing": { "partition_activations": true, "cpu_checkpointing": true }, "aio": { "block_size": 262144, "queue_depth": 32, "thread_count": 4, "single_submit": false, "overlap_events": true } }

6.2 启动训练

NPROC_PER_NODE=2 CUDA_VISIBLE_DEVICES=0,1 swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --dataset AI-ModelScope/alpaca-gpt4-data-zh#2000 \ --train_type full \ --deepspeed ds_zero3_opt.json \ --output_dir output_full_7b \ --num_train_epochs 1 \ --learning_rate 1e-5 \ --max_length 1024

6.3 预期效果

显存占用：单卡约18~20GB（可接受）
训练速度：约0.8 samples/sec（受CPU卸载影响）
可完整跑完一轮微调

✅ 成功标志：看到Saving model checkpoint...日志，且无OOM报错。

7. 总结：构建高效分布式训练的最佳实践

通过本文的学习，你应该已经掌握了在 ms-swift 中使用 DeepSpeed + ZeRO3 进行分布式训练的核心技能。以下是几点关键总结：

ZeRO-3 是突破显存限制的利器，特别适合全参数微调和预训练任务；
配置文件要因地制宜，根据硬件条件调整 offload、bucket size 等参数；
LoRA + ZeRO3 组合拳可在低资源环境下实现高质量微调；
多机训练需注意网络配置，避免通信成为瓶颈；
始终监控显存与日志，及时发现并解决问题。

ms-swift 的设计理念是“让复杂的事情变简单”。你不需要成为分布式系统专家，也能轻松驾驭百亿参数模型的训练。而这正是现代AI工程化的方向——把底层复杂性交给框架，把创造力还给开发者。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ms-swift分布式训练指南：DeepSpeed+ZeRO3配置详解