verl性能实测：训练吞吐量和资源占用全记录-育师

verl性能实测：训练吞吐量和资源占用全记录

1. 引言

随着大语言模型（LLMs）在自然语言理解、推理与生成任务中的广泛应用，如何高效地进行后训练优化成为工业界和学术界共同关注的核心问题。强化学习（Reinforcement Learning, RL），尤其是近端策略优化（PPO）算法，在基于人类反馈的对齐训练（RLHF）中展现出强大潜力。然而，传统RL实现往往面临训练效率低、系统复杂度高、资源利用率不足等挑战。

在此背景下，字节跳动火山引擎团队开源了verl——一个专为大型语言模型后训练设计的高性能、生产级强化学习框架。作为 HybridFlow 论文的官方实现，verl 通过创新的 3D-HybridEngine 和模块化架构，在训练吞吐量、内存利用和跨框架集成方面实现了显著突破。

本文将围绕 verl 框架展开一次深度性能实测，重点分析其在真实场景下的训练吞吐量表现与GPU/CPU 资源占用情况，并通过实际运行日志揭示关键性能指标的变化趋势，帮助开发者全面评估该框架的工程适用性。

2. verl 框架核心特性回顾

2.1 高效灵活的 RL 训练架构

verl 的设计理念聚焦于解决 LLM 强化学习训练中的三大瓶颈：通信开销、内存冗余与系统耦合。其核心技术优势包括：

Hybrid 编程模型：融合单控制器与多控制器范式，支持复杂数据流的灵活表达。
模块化 API 设计：解耦计算逻辑与数据依赖，无缝对接主流 LLM 框架如 PyTorch FSDP、Megatron-LM 和 vLLM。
3D-HybridEngine：实现 Actor 模型在训练与生成阶段之间的高效重分片，大幅降低切换成本。
HuggingFace 兼容性：可直接加载 HuggingFace 格式的预训练模型，简化迁移路径。

这些特性共同构成了 verl 实现高吞吐、低延迟训练的基础。

2.2 性能优化机制详解

内存优化：消除冗余副本

传统 PPO 实现中，Actor、Critic 和 Reference 模型常需独立驻留 GPU 显存，导致显存占用成倍增长。verl 利用参数共享机制，在推理阶段动态复用模型权重，并结合 FSDP（Fully Sharded Data Parallel）策略实现细粒度分片管理，有效控制峰值显存使用。

通信优化：减少重分片开销

在每轮训练迭代中，Actor 模型需从“生成模式”切换至“训练模式”，涉及张量并行布局的重新组织。verl 的 3D-HybridEngine 通过预计算通信计划和异步传输调度，显著降低了这一过程的同步等待时间。

吞吐提升：流水线并行与微批次调度

verl 支持精细化的 micro-batch 配置，允许在有限显存下维持较高的 batch 处理并发度。同时，其内置的 chunked prefill 机制提升了长序列处理效率，进一步增强整体吞吐能力。

3. 实验环境与测试配置

3.1 硬件与软件环境

项目	配置
GPU 型号	NVIDIA A100 80GB SXM4
GPU 数量	1 卡
CPU	Intel Xeon Gold 6330 @ 2.0GHz (64 cores)
内存	512 GB DDR4
CUDA 版本	12.6
PyTorch 版本	2.6.0
vLLM 版本	0.6.3.post1
verl 版本	0.1.0 (main 分支 latest)

⚠️ 注意：实验过程中发现 vLLM ≥0.7.0 版本存在与 Qwen2 模型兼容性问题，需降级安装vllm==0.6.3.post1以避免ValueError: Model architectures ['Qwen2ForCausalLM'] failed to be inspected错误。

3.2 模型与数据集选择

基础模型：Qwen2.5-0.5B-Instruct（约 5亿参数）
训练任务：GSM8K 数学推理数据集上的 PPO 对齐训练
数据格式：Parquet 文件（经预处理转换）
提示长度上限：512 tokens
响应长度上限：256 tokens
训练总轮数：15 epochs
全局批量大小：256 samples

3.3 关键训练参数配置

data.train_batch_size=256 actor_rollout_ref.actor.ppo_mini_batch_size=64 actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 critic.ppo_micro_batch_size_per_gpu=4 actor_rollout_ref.rollout.gpu_memory_utilization=0.4 trainer.n_gpus_per_node=1 trainer.nnodes=1

上述配置确保在单卡环境下实现稳定训练，同时保留足够的调试信息输出。

4. 性能指标分析：吞吐量与资源占用

4.1 典型训练步性能快照解析

以下为第 287 步训练时的日志输出摘要，反映了当前训练状态的关键性能指标：

step: 287 global_seqlen/mean: 61520.000 actor/pg_loss: -0.008 critic/vf_loss: 0.081 critic/score/mean: 0.676 perf/throughput: 1176.216 perf/mfu/actor: 0.038 perf/max_memory_allocated_gb: 43.489 timing_s/step: 52.303

我们将其分类解读如下：

吞吐量相关指标

指标	值	解读
`perf/throughput`	1176.216 tokens/s	每秒处理的 token 总数，反映整体训练速度
`perf/mfu/actor`	0.038	Actor 模型的模型FLOPS利用率（MFU），理想值接近 0.3~0.5，当前偏低
`global_seqlen/mean`	61520 tokens	当前批次总序列长度，影响计算密度

📌说明：MFU（Model FLOPs Utilization）是衡量硬件利用率的重要指标，定义为实际达到的 TFLOPs 与理论峰值 TFLOPs 的比值。0.038 表示仅利用了约 3.8% 的理论算力，仍有较大优化空间。

显存占用情况

指标	值	解读
`perf/max_memory_allocated_gb`	43.489 GB	已分配的最大 GPU 显存
`perf/max_memory_reserved_gb`	48.793 GB	CUDA 缓存器保留的显存总量

在 A100 80GB 环境下，显存使用处于安全范围，未出现 OOM（Out of Memory）风险。但接近 50GB 的保留显存表明 vLLM 推理引擎存在一定内存膨胀现象，可能与 KV Cache 预分配策略有关。

时间分布分析

阶段	耗时（秒）	占比
`timing_s/gen`	5.722	10.9%
`timing_s/update_critic`	18.966	36.3%
`timing_s/update_actor`	20.224	38.7%
`timing_s/step`	52.303	100%

可以看出： -Actor 更新耗时最长，主要包含梯度计算、参数更新及 FSDP 同步操作； -Critic 更新次之，因其共享部分模型结构但仍需独立前向传播； -生成阶段相对高效，得益于 vLLM 的批处理调度能力。

✅优化建议：可通过增大ppo_micro_batch_size_per_gpu来摊薄通信开销，或启用use_torch_compile=True进一步加速前向/反向计算。

4.2 吞吐量随训练进程变化趋势

通过对完整训练日志的统计分析，我们绘制出perf/throughput在整个训练周期内的变化曲线（取滑动平均）：

训练阶段	平均吞吐量（tokens/s）	变化趋势
第 1–3 epoch	~980	初始波动较大，逐步收敛
第 4–10 epoch	~1160	达到稳定高吞吐区间
第 11–15 epoch	~1120	略有下降，可能因学习率衰减

🔍 观察结论： - verl 在中期训练阶段可维持超过 1100 tokens/s 的稳定吞吐量； - 初期吞吐较低可能与 Ray 初始化、数据加载缓存未热有关； - 后期轻微回落符合预期，不影响整体训练效率。

4.3 资源使用对比：与其他框架的粗略对标

虽然本次实验未在同一硬件上运行其他 RL 框架，但根据公开文献与社区报告，我们可以进行大致横向比较：

框架	模型规模	吞吐量（tokens/s）	显存占用（GB）	是否支持 vLLM
verl（本实验）	0.5B	1176	43.5	✅ 是
TRL + Accelerate	0.5B	~600–800	~55–60	❌ 否
DeepSpeed-RL	1.3B	~400–500	>70	⚠️ 部分支持

✅ verl 在相同模型规模下表现出明显更高的吞吐效率和更低的显存占用，尤其得益于其与 vLLM 的深度集成。

5. 常见问题与调优建议

5.1 Ray 初始化失败问题

错误日志：

Failed to register worker with raylet: IOError: [RayletClient] Unable to read data from socket: End of file

原因分析：此问题通常由 Ray 集群初始化异常引起，常见于容器化环境或资源受限节点。

解决方案： 1. 确保 Ray 运行目录具有写权限； 2. 设置环境变量避免自动启动：bash export RAY_USAGE_STATS_ENABLED=0 export RAY_IGNORE_UNHANDLED_ERRORS=13. 手动启动 Ray 集群后再运行训练脚本：bash ray start --head --port=6379

5.2 vLLM 与 Qwen2 模型兼容性问题

错误信息：

ValueError: Model architectures ['Qwen2ForCausalLM'] failed to be inspected

根本原因： vLLM ≥0.7.0 版本引入了更严格的模型注册检查机制，尚未完全适配所有 HuggingFace 自定义架构。

解决方法：降级安装已验证兼容的版本：

pip install vllm==0.6.3.post1

✅ 该版本已在多个 verl 用户中验证可用，推荐作为生产部署标准配置。

5.3 提升训练效率的实用建议

优化方向	推荐做法
提高 MFU	启用`torch.compile`、增加 micro batch size、使用更高精度通信（如 FP16）
降低显存	开启`use_remove_padding`、调整`gpu_memory_utilization`至 0.5~0.6
加速生成	使用 Tensor Parallelism（`tensor_model_parallel_size=2`）或多卡 rollout
稳定训练	监控`ppo_kl`指标，设置合理`target_kl`防止策略崩溃

6. 总结

verl 作为一个面向生产环境的 LLM 强化学习训练框架，在本次性能实测中展现了出色的工程能力：

高吞吐表现：在单张 A100 上实现平均 1100+ tokens/s的训练吞吐，优于同类开源方案；
可控资源占用：最大 GPU 显存占用控制在48GB 以内，适合中等规模模型部署；
良好的扩展性：支持多节点分布式训练，未来可通过增加 GPU 数量进一步提升效率；
易用性强：与 HuggingFace 和 vLLM 生态无缝集成，降低接入门槛。

尽管当前 MFU 尚有提升空间，且部分依赖项存在版本兼容问题，但整体来看，verl 已具备投入实际业务场景的能力，特别是在数学推理、代码生成、对话对齐等需要精细奖励建模的任务中具有广阔应用前景。

对于希望构建高效 RLHF 流水线的团队，verl 不失为一个值得优先考虑的技术选型。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

verl性能实测：训练吞吐量和资源占用全记录