news 2026/1/6 20:36:47

大规模分布式训练的硬件扩展趋势与收益递减:为什么模型并行比FSDP更重要!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大规模分布式训练的硬件扩展趋势与收益递减:为什么模型并行比FSDP更重要!

简介

文章研究了大规模分布式训练中硬件扩展的趋势和收益递减问题。研究发现,单纯依赖FSDP在超大规模集群下会遭遇严重的"收益递减",因为计算能力增长远超通信带宽提升。H100虽然算力是A100的3倍以上,但NVLink和HBM带宽仅增加50%,导致硬件利用率反而下降。文章提出,模型并行(张量/流水线并行)是缓解通信瓶颈、提升整体吞吐量的关键手段,而非仅仅是显存不足时的妥协。在2048 GPU规模下,引入模型并行比纯FSDP能带来更高的全局吞吐量和能效。


  • 标题: Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training
  • 作者: Jared Fernandez, Luca Wehrstedt, Leonid Shamis, Mostafa Elhoushi, Kalyan Saladi, Yonatan Bisk, Emma Strubell, Jacob Kahn
  • 时间: Submitted on 20 Nov 2024 (last revised 12 Apr 2025)
  • 链接: https://arxiv.org/abs/2411.13055v2

主要内容

核心观点:单纯依赖FSDP(全分片数据并行)在超大规模集群下会遭遇严重的“收益递减”;模型并行(张量/流水线并行)实际上是缓解通信瓶颈、提升整体吞吐量的关键手段,而非仅仅是显存不足时的妥协。

1.核心矛盾:计算能力的增长 VS 通信带宽的滞后

当前大规模训练面临的根本性物理瓶颈:硬件算力(FLOPS)的提升速度远超互连带宽和显存带宽的提升速度。

  • 现象:随着集群规模扩大(从单机扩展到2048个H100 GPU),“计算”不再是主要瓶颈,“通信”成为了主导因素。
  • 硬件悖论(A100 vs H100):
  • H100虽然算力是A100的数倍(bf16 FLOPS提升3倍以上),但NVLink和HBM带宽仅增加50%。

  • 后果:计算内核运行得太快,导致无法有效掩盖通信延迟(Communication-Computation Overlap失效)。在H100上训练时,硬件利用率(MFU)反而比A100下降了近20%,因为GPU大部分时间在等待数据。

2.范式转移:重新评估FSDP与模型并行的关系

这是本文最反直觉、最具洞察力的部分。

传统认知(旧范式)

  • 观点:只要显存放得下,就优先用数据并行(或FSDP)。
  • 理由:认为模型并行(张量并行TP、流水线并行PP)会引入额外的通信开销和流水线气泡,降低硬件利用率。

深度洞察(新范式)

  • 问题:FSDP在扩展时并非“免费午餐”。FSDP依赖 AllGather 和 ReduceScatter 操作。随着节点数(N)增加,虽然单卡显存压力减小了,但通信环路变长,通信开销呈爆发式增长(特别是跨节点的InfiniBand通信)。

  • 解决方案:引入模型并行(TP/PP)不仅是为了存下模型,更是为了“减少数据并行的规模”。

  • 逻辑推演:

  • 总设备数 = 数据并行组大小 × 模型并行组大小。

  • 通过增加张量并行(TP)或流水线并行(PP),虽然引入了层间通信,但显著缩小了FSDP的数据并行组。

  • 结果:FSDP原本巨大的全局通信开销被大幅削减,总的“暴露通信时间”反而降低了。

  • 实证:在2048 GPU规模下,引入TP=2或TP=4,比纯FSDP带来了更高的全局吞吐量(WPS)和能效。

3.扩展性陷阱:弱扩展与强扩展的收益递减

论文通过详实的实验(Llama-2 7B/70B,最高2048 H100)量化了扩展的代价。

弱扩展(Weak Scaling,增加设备同时增加全局Batch Size)

  • 表现:即使通信可以部分掩盖,但随着节点增加,集合通信绝对耗时依然上升。
  • 代价:从128扩展到2048 GPU,TFLOPS和吞吐量下降了37.22%。这意味着你买更多的卡,每张卡干的活却变少了。

强扩展(Strong Scaling,固定全局Batch Size,增加设备)

  • 场景:为了加快训练速度而堆算力。
  • 表现:灾难性的收益递减。由于单卡分到的Batch Size变小,计算量不足以掩盖通信,导致硬件利用率(MFU)从40%骤降至不足15%(在32节点下)。

4.能效分析:隐形成本

  • 功耗非线性:当吞吐量因通信瓶颈出现次线性增长时,GPU的功耗却保持线性增长(空闲等待时功耗下降并不明显)。
  • 结论:大规模训练的能源效率(Tokens/Watt)随着集群规模扩大而显著降低。这在环境成本和运营成本上都是一个巨大的警示。

结语

这篇论文是对当前“暴力美学”(单纯堆砌GPU)的一记警钟。它证明了系统设计必须从粗放的资源堆叠,转向精细的通信-计算协同设计(Co-design)。未来的时代,带宽即算力。

为了训练现代应用(如大型语言模型,LLM)所需的大规模神经网络,模型训练通常分布在数万个硬件加速器(如GPU)上,这要求在大型计算集群中实现计算和通信的协同。本文表明,仔细考量硬件配置和并行化策略,对于实现高效(即计算和成本高效)的模型训练扩展至关重要。我们对大规模LLM训练负载的性能进行了广泛的实证研究,涵盖模型规模、硬件配置以及当前最佳实践的分布式并行化策略。在参数量高达70B、使用最多2048个H100 GPU的实验中,我们证明:(1)全分片数据并行(Fully Sharded Data Parallelism, FSDP)的简单扩展会引入通信开销,这使得先前被认为次优的并行化策略实际上更具优势;(2)即使硬件和并行化策略得到适当优化,增加训练加速器总数也会迅速导致收益递减,这意味着每额外单位功耗或GPU小时的边际性能会降低。

1 引言

最先进的神经语言模型规模不断增长,目前已超过数千亿参数,这导致训练期间的计算负载和内存需求随之增加。在此规模下,由于模型参数量和大型批次规模的持续增加,模型训练所需的模型参数、激活和优化器状态已无法容纳在单个GPU加速器的内存中。为了克服单个设备的内存限制,并充分利用额外加速器的处理能力,最大规模的训练任务必须分布在数千个硬件加速器(即GPU和TPU)上。

训练算法的需求推动了各种数据并行和模型并行策略的开发,我们将在第2节中详细讨论。结合数据、张量和流水线并行(3D并行)以及分片数据并行(FSDP和DeepSpeed ZeRO)已成为解决训练内存限制的主要方法。特别是,无需模型并行的分片数据并行已成为语言模型训练中最常见的方法之一,并用于训练开放模型,如OLMo、IBM Granite、Apple OpenELM和Mosaic MPT。

图1 尽管在少于32个节点时通信开销极小,但增加的通信开销导致FSDP在扩展时功耗效率上出现收益递减效应,在大规模应用中降低超过30%。

尽管已开发了许多理论成本模型来估算各种并行化方法的通信和计算性能但现有方法并未全面考虑现代训练系统中的所有组件,包括模型架构、网络拓扑、并行方式、硬件速度和硬件架构。先前工作已对3D并行的性能和扩展属性进行了实证研究,但分片并行策略的扩展和效率属性,以及其与模型并行技术的交互作用,研究较少,尽管其在实践中得到了广泛应用(如OLMo、Granite、OpenELM、MPT)。

尽管存在大规模下性能良好的稳定分布式训练方案,但此类配置的选择过程及其扩展属性尚未得到充分理解和记录;并且所选并行策略的通信和计算效率的适用范围往往未得到明确说明。先前工作研究了各种模型并行对训练效率的影响;我们在此基础上进行了扩展,涵盖了更大范围的硬件,并调研了先前研究未覆盖的并行配置。特别是,我们考量FSDP对训练效率的影响,并观察到其集成会显著影响最优训练配置的选择。我们证明,先前工作和在无FSDP情况下确定的现有最佳实践,与分片数据并行策略结合时,会导致次优的性能和效率。此外,我们测量了GPU功耗利用率,并证明这些现有方法会导致显著降低的功耗效率,这可能会加剧机器学习研究和开发的能源及环境成本。

本文通过并行化策略和硬件规模的广泛实证研究,贡献如下:

  • 对分布式训练的硬件设置、模型规模和并行策略进行大规模实证研究,刻画分片训练的扩展特性;在第4.1和4.3节中使用最多2048个H100 GPU训练,并在第4.5节中研究高达70B参数的模型。
  • 提出了并行化策略的建议,强调模型并行可以提升全局吞吐量,尽管先前工作传统认知认为模型并行会降低硬件利用率。
  • 对真实世界成本指标的分析显示,尽管吞吐量出现收益递减,但总GPU功耗消耗和可用FLOPS会随设备数线性扩展;这导致功耗效率降低和并行度增加时硬件利用率下降(见图1)。
  • 跨GPU硬件世代的比较研究,表明未来计算吞吐量的改进仅能对整体吞吐量和功耗效率带来边际改善,除非网络架构得到改进且加速器内存容量增加,见第4.4节。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

2 预备知识

本节回顾大规模神经网络分布式训练中常用的并行技术。分布式训练的主要目标在于实现以下两点:(1)支持批次大小和参数量超过单个GPU内存限制的模型训练;(2)利用额外硬件加速器的并行处理能力。

2.1 并行化策略

下面简要介绍常用的分布式训练算法和内存优化方法的分类。在实践中,这些算法并非相互排斥,通常会结合使用。

数据并行

在GPU间复制模型参数和优化器状态,每个设备处理全局小批量中的一部分样本。在本地前向和后向传播后,GPU通过AllReduce集合操作交换并聚合部分梯度,从而使每个设备获得相同的全局梯度,确保模型参数的同步更新。数据并行具有良好的通信属性,因为AllReduce操作具有非阻塞的特性。

分片数据并行

通过在数据并行组中分片模型参数、优化器状态和梯度来缓解原生数据并行(Vanilla Data Parallelism)的内存需求;通过AllGather和ReduceScatter操作动态重构和更新所需的权重。全分片数据并行和DeepSpeed ZeRO是常用分片数据并行策略,可在无模型并行的情况下训练大型模型。与分布式数据并行不同,分片数据并行引入阻塞通信操作来执行模型参数的AllGather;其中一部分可以通过在上层计算期间预取后续层来与计算重叠。

模型并行

在GPU间分片模型参数;每个分片同时处理相同小批量。在此设置中,激活及其梯度在GPU间进行传输。

  • 张量并行沿隐藏维度分片模型参数,使得每个GPU计算中间激活的部分结果,然后通过AllReduce操作在张量并行组中进行聚合。由于后续层需要完整的激活集,张量并行引入阻塞通信以同步模型并行组中的中间激活。
  • 流水线并行沿模型深度进行分片,将层组分区并分配给不同的设备;激活通过点对点通信在设备间转发。为了使所有设备同时活跃,输入的小批量被拆分为微批量,并根据各种调度交错地进行流水线处理。“流水线气泡”指的是设备在等待其他阶段的数据或指令时处于闲置状态,这会降低流水线效率。

序列和上下文并行通过沿序列维度进行分区和分片,以减少中间激活内存需求的技术。数据、张量和流水线并行技术的联合组合(即3D并行)常用于实现更高的通信效率;或在训练更长序列时与上下文并行结合形成4D并行

通信-计算重叠

利用与计算无关的专用GPU资源(如专用复制引擎、NVLink/NVSwitch),在加速器间通过网络移动数据,并可以与计算并行执行。通信与计算的重叠最大程度地提升了分布式训练效率,有助于隐藏通信延迟,实现近乎完美的扩展。暴露通信,即指没有同时计算的通信执行,会导致GPU计算资源利用不足。

2.2 通信原语和库

现代深度学习框架利用了专用集合通信库,如NCCL、RCCL或XLA。特别是,NCCL被用作NVIDIA GPU分布式操作的主要后端通信库。

在图2中,我们对NCCL库的AllReduce和AllGather操作性能进行了实证基准测试。用于原生分布式数据并行和张量并行的AllReduce集合,用于聚合参数梯度和中间激活,在NCCL中支持树和环算法,并随节点数增加表现出良好的扩展特性。相反,而用于FSDP和ZeRO中参数重构和梯度更新的AllGather和ReduceScatter仅在NCCL中支持环算法,且随设备数增加,其延迟迅速成为瓶颈。

(a)使用树算法的NCCL AllReduce带宽,(b)使用环算法的NCCL AllGather带宽;前者随节点数扩展良好(即带宽更高)。后者随节点数扩展较差(即带宽更低)。

图2 在配备八个GPU的DGX H100服务器上,使用InfiniBand连接,在4到512节点的全局规模下,NCCL原语的GB/s带宽测量结果。

3 实验方法

在后续部分,我们调查训练负载扩展对端到端系统性能以及通信量和计算量的影响。特别是,我们针对分布式并行策略、加速器数量、硬件世代、模型规模和输入形状(即上下文长度)进行了实验研究。硬件和框架配置的更多细节请参阅附录B。

模型架构

我们使用Llama-2仅解码器Transformer模型作为代表性的大型语言模型进行实验。我们采用AdamW优化器,并使用上下文长度为4096、词汇量为32K的样本进行训练;训练数据从Wikipedia和StackExchange中采样。

硬件配置。我们在包含8个GPU的NVIDIA DGX节点的Ampere (80GB A100)和Hopper (80GB H100)架构的数据中心集群上评估分布式训练,并在附录13中补充了Volta GPU (32GB V100) 架构的实验。我们的主要实验在1到32个八GPU节点之间的硬件规模上进行,附加实验规模高达256个节点或2048个GPU,以模拟预训练规模。

并行化策略。我们考察了数据、张量和流水线并行策略(俗称3D并行,如Shoeybi et al. (2019); Rasley et al. (2020)所述,并在Dubey et al. (2024); BigScience Workshop (2022)中使用)。模型使用全分片数据并行训练,带有显式预取且前向传播中不进行参数重分片(即FSDP,Zhao et al. (2023)),这相当于Llama-3.1训练中使用的DeepSpeed ZeRO阶段2。

我们检查张量和流水线并行策略的组大小范围,如第2节所述,从组大小为1(即无并行的单GPU训练)到组大小为16(即需要跨多个节点的并行组)。

性能指标

为了理解硬件和模型扩展对端到端全局性能、本地每设备性能和硬件利用率的影响,我们考察了以下性能和效率指标:

  • 吞吐量是指模型处理样本的速率。我们计算每设备估计的每秒词数(WPS)和所有设备的全局每秒词数。
  • 计算和通信负载通过CUDA和NCCL内核的总执行时间来衡量。我们通过聚合PyTorch执行跟踪中的CUDA和NCCL内核来计算总计算和通信负载。
  • 通信效率衡量的是通信内核暴露时间或与并发计算重叠的时间。
  • 硬件利用率通过每秒浮点运算数(FLOPS)来衡量;或者,作为模型FLOPS利用率(Model FLOPS Utilization, MFU),即观察到的FLOPS占硬件理论最大值的百分比。
  • 功耗报告为使用NVML测量的每GPU功耗,即平均功耗。

指标从60个训练迭代中聚合获得,丢弃前10个迭代,以确保初始训练迭代期间性能已稳定。报告的指标是最后50个迭代的聚合结果。

4 性能分析

4.1 弱扩展:可变全局批次大小

图3 在Llama-7B的FSDP训练中,扩展节点数和数据并行副本会导致硬件利用率和功耗效率下降,这是由于暴露通信增加,由通信内核大小相对计算内核大小占比增加所致。尽管总功耗随节点数近似线性增加,但全局吞吐量表现出次线性扩展。“理想硬件扩展”对应于假设额外加速器能产生线性吞吐量增加的预期吞吐量。

我们首先考虑弱扩展设置,其中随着GPU加速器数量的增加,每设备负载保持恒定。每个设备携带Llama 7B的数据并行副本,本地批次大小为2个样本,并使用无任何模型并行的FSDP训练。这代表了在设备不足以在没有梯度累积的情况下训练模型的设置;增加设备数可用于减少梯度累积的步骤。

在图3中,我们考察了从8个GPU到2048个GPU增加加速器数量时,弱扩展数据并行训练实例的影响。正如预期,增加设备数会随着全局批次大小的增加而提升全局吞吐量(即Gustafson弱扩展定律)。在小规模(即使用有限设备训练)时,集合通信内核的开销相对于计算开销较低,且弱扩展下的通信开销极小,因为FSDP的非阻塞通信可以通过并发执行数据传输和计算操作来实现重叠隐藏。

然而,如第2节讨论,增加分片数据并行度会为前向传播中的参数重构(通过AllGather)和后向传播中的梯度更新(通过ReduceScatter)引入更大的集合通信开销;两者延迟均会随着节点数的增加而增加,如图4所示。因此,NCCL通信内核的总执行时间和暴露通信量会随着计算节点数的增加而增加,这限制了弱扩展应用于分布式分片数据并行训练的适用范围,与图2(b)中通信集合的预期行为相符。

尽管通信量随节点数增加而扩展,但每设备CUDA计算内核执行时间保持恒定,并逐渐被通信开销所主导。因此,在超过128个GPU的规模下,暴露通信变得不可避免,硬件利用率下降,因为在等待更大的通信内核执行时,计算不足以使GPU饱和,这导致全局吞吐量的边际加速降低,以及随着设备数增加,本地吞吐量也随之减少。

按操作类型划分的内核执行时间

图4 AllGather和ReduceScatter集合的相对执行时间随硬件全局规模的增加而扩展。

尽管每设备吞吐量随设备数呈次线性扩展,但总功耗近似呈线性扩展,这导致以GPU小时和能源消耗衡量的真实世界效率显著降低(即每瓦处理的token更少)。从128到2048个GPU扩展时,由于暴露通信增加,观察到的TFLOPS和每秒词数吞吐量下降了37.22%。尽管加速器在大规模下大部分处于闲置状态,并以更低的算术强度运行,但每GPU功耗大致保持恒定,仅从658W下降5.87%至620W。因此,如图3所示,系统整体功耗效率也会随着硬件规模的增加而下降。

4.2 强扩展:固定全局批次大小

图5 在增加节点数时以固定全局批次大小进行训练。我们为最多32个H100节点(共256个GPU)的配置,选择了图6中实验结果确定的最优并行化策略,以全局批次大小32训练。即使采用最优并行化策略,本地吞吐量和硬件利用率也会随着全局规模的增加而下降。

现在我们考察以固定全局批次大小训练负载时,强扩展加速器数量的影响,这会导致随着设备数增加,有效本地每设备批次大小相应减少。这代表了行业中的一种设置,即可以为单个训练运行分配超出需求的计算资源;目的是最小化完成训练运行所需的时间,而不是最大化硬件利用率。

在图5中,我们展示了在2到32个节点间,以32个样本的固定全局批次大小进行训练时,分配额外设备会导致全局吞吐量的收益递减,并降低本地硬件利用率和功耗效率。为了在更多设备上分布固定的负载,必须引入更高的模型并行度,这导致分配给每个加速器的计算量不足;我们观察到CUDA内核执行时间减少。在足够大规模下,过度的并行会导致先前计算受限的负载转变为通信受限,并产生硬件利用率降低,我们观察到MFU从2节点时的40%下降到32节点时的不足15%。实际上,当使用超过4个节点或32个GPU时,强扩展的开销尤其明显,因为每设备负载大小减少且模型并行变得必要。

在附录D中,我们在完整的预训练规模下进行了额外的强扩展实验,在512到2048个GPU之间训练LLAMA-7B和70B模型,增加硬件加速器数量仅带来有限的边际回报,并观察到MFU(本地硬件利用率)下降超过30%。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

4.3 扩展模型并行

正如对强扩展和弱扩展的观察所示,使用全分片数据并行训练大型神经网络,在具有足够并行度的硬件平台上进行时,会遭遇通信瓶颈,这归因于大规模下AllGather和ReduceScatter操作的开销增加。

图6 模型并行提升FSDP吞吐量。在Llama-7B模型并行训练中,当固定全局批次大小(512)和加速器数量(256个GPU)时,模型并行策略可以通过减少总暴露通信,来提高训练吞吐量、硬件利用率和功耗效率。

模型并行常用于辅助数据并行训练,并减少训练负载的内存需求,以适应单个设备的内存限制。此外,模型并行还具有另一个有益的特性,即可以减少集合通信操作的规模;因为每个模型并行组维护着单独的数据并行副本(即数据并行集合操作是在总模型并行度设备数所构成的全局规模上执行,而不是在总设备数量上执行)——其中总模型并行度是张量和流水线并行组大小的乘积。

在图6中,我们针对Llama 7B模型在32个节点上,以有效本地批次大小为2的配置,搜索了可行的并行策略,并观察到较低总模型并行度(即张量或流水线并行度为2或4)能减少暴露通信量并提高吞吐量。虽然张量和流水线并行均引入额外通信操作,但两者均能减少FSDP AllGather和ReduceScatter集合的数据并行组规模;从而产生更高的吞吐量、硬件利用率和功耗效率。

此外,在图7中,我们发现张量并行和流水线并行均能有效减少暴露通信;从而产生高于数据并行基线的每秒词数。当扩展到更多设备时,我们观察到集合通信规模增大,这需要增加模型并行度以减少FSDP集合通信的规模,如图10所示。

值得注意的是,模型并行减少暴露通信和提升吞吐量的程度是有限的——因为张量并行所需的AllReduce内核以及流水线并行引入的气泡效应都会随着模型并行度的增长而增加。这些通信开销在并行跨越多个节点时变得尤其巨大,因为它们依赖于较慢的节点间互连结构(如InfiniBand)——如图7所示,其中对于分片超过8个设备(即跨多个节点)的张量和流水线并行策略,暴露通信大幅增加。

4.4 扩展硬件速度

在图7中,我们考察了硬件速度扩展的影响,通过比较DGX-A100和H100集群进行。在两种情况下,存在模型并行配置,相对于数据并行基线(即总模型并行度为1),能够增加整体吞吐量并减少暴露通信量。

当比较前一代A100硬件到更快H100硬件的训练性能时,使用每个平台的最优并行化策略,MFU(硬件利用率)从59.67%下降到40.77%。硬件利用率的降低可归因于通信和计算速度的非对称改进,从而导致暴露通信增加(+12.83%)(即bf16 FLOPS超过三倍,但NVLink和HBM带宽仅增加50%;见表1)。

(a) 32个节点A100 (b) 32个节点H100

图7 模型并行改善吞吐量。增加张量或流水线并行度可以提高吞吐量,并减少相对于数据并行基线的暴露通信。

在A100和H100架构间,训练的通信受限程度随着硬件世代的演进进一步增加。计算速度的改进超过了数据传输速度的增长,导致计算内核执行更快,从而使得与通信的重叠难以实现(见表1)。在附录F中,我们使用V100 GPU进行额外实验,确认了最高吞吐量是通过模型并行实现的。

4.5 扩展模型架构规模

我们考察了神经网络架构规模扩展的影响,涵盖1B、7B、13B和70B等不同参数量的模型。人们可能会假设模型参数化的增加仅会增加计算量,而通信不受影响。然而,随着模型参数数量的增加,用于参数重构和梯度散布的通信量也会随之增加。

图8 通信与计算均随模型规模增加而扩展。随着模型规模增大,计算负载增加,总通信量和暴露通信量也会增加。在所有模型规模下,模型并行减少暴露通信。

此外,我们发现跨架构规模,存在超越数据并行基线或最小模型并行度(针对70B参数模型)的模型并行策略,能够为所有模型规模减少暴露通信量;并带来更高的硬件利用率和吞吐量。

4.6 扩展上下文长度

图9 增加序列长度会产生更大的计算内核,可以更好地与NCCL通信内核重叠,从而带来更低的暴露通信、更高的硬件利用率和功耗效率。

最后,我们在图9中检查变化上下文长度对训练的影响。当GPU内存允许时,增加序列长度会增加分配给每个设备的计算负载,而不增加通信负载,从而提升吞吐量、硬件利用率和功耗效率。然而,此类训练过程的重新参数化往往不可行,因为对每批序列长度的更改会影响计算-架构规模定律所预测的训练动态

5 推荐与启示

我们对研究发现进行总结,并为未来的工作、研究人员和实践者提供最佳实践方向。

模型并行

可缓解FSDP不断增长的通信开销。 先前研究3D并行的大规模训练工作是在无FSDP或ZeRO的情况下进行的,并得出当模型可适应设备内存时,数据并行通常优于模型并行的结论。然而,FSDP和ZeRO所需的集合通信原语表现出比标准分布式数据并行所使用的更差的扩展特性,如图2、3、5所示。我们证明在大规模应用中,FSDP不断增加的通信开销可以通过张量和流水线并行来缓解。

特别是,我们观察到7B LLM的标准FSDP训练在超过128个H100 GPU时会不可避免地受到通信限制。在此规模之外,张量并行度为2或4时,可实现比FSDP基线更好或相当的吞吐量。在我们最大实验的2048个GPU下,引入张量并行带来了52.60%的WPS吞吐量增加,而每设备平均GPU功耗仅增加了30W。

功耗效率和硬件利用率在扩展时表现出收益递减效应

随着设备数量的扩展,能源效率会下降,因为每设备计算吞吐量(FLOPS)减少,尽管功耗大致恒定(见图3和5)。低效的扩展和并行方法会加剧模型训练的能源效率和环境成本问题与其依赖于单一大型模型的同步训练,不如研究可减少通信开销的替代训练范式,以提高模型效率,如通过联邦平均、异步训练、集成和模块化模型架构等方法。

硬件的非对称改进加剧通信受限

硬件改进导致计算速度呈不成比例的增长,超过了内存和网络速度的改进。因此,与使用A100硬件相比,使用H100硬件进行相同训练负载时,观察到硬件利用率下降了近20%(见第4.4节),模型训练正日益受到通信的限制。

除了加速器速度的改进外,大规模训练时还需要更快的互连。同样,增加节点大小,如NVIDIA的GB-200,将更多设备与高带宽内存连接,这使得更大的并行度成为可能,并有助于缓解通信限制。

性能指标和规模定律必须同时实现计算最优和通信最优

总浮点运算次数(FLOPs)常用于指导高效模型架构的开发和计算最优规模定律的建立。如果不充分考虑通信动态,性能指标和规模定律就无法从小规模外推到大规模应用。鉴于在大规模应用中集合通信主导了执行时间,将硬件的整体信息整合到扩展实践中至关重要;因此,规模定律应同时追求计算最优和通信最优。

6 相关工作

大规模训练方法

尽管数据、张量和流水线并行以及FSDP是大规模神经网络分布式训练中最常见的方法,但同时也开发了其他方法来应对分布式训练中的内存限制和通信开销。

为解决GPU内存限制,已提出众多解决方案:要么减少训练负载的存储需求;要么利用卸载到更低带宽CPU内存。激活检查点过在前向传播期间丢弃中间激活,并在后向传播期间按需重新计算激活,以减少峰值内存利用。已开发出确定激活重新计算最优调度的策略,以在激活内存和计算成本之间进行权衡管理,使用手工设计调度或约束求解器

或者,激活压缩和重构是缓解内存压力的检查点替代方案两者均以额外的计算开销为代价,来换取内存利用的减少。异构CPU-GPU方法将FSDP和ZeRO引入的内存分片方法扩展到更大RAM和NVMe内存中,用于卸载参数、梯度和优化器状态然而,这些方法依赖于比GPU内存慢几个数量级的CPU和PCI-E内存带宽,从而产生实质性的数据传输开销。

通信开销随着设备数量增加而增加,因此需要减少通信负载的方法。层次并行策略,如混合分片数据并行(Hybrid-Sharded Data Parallelism, HSDP),以及标准小批量SGD的算法变体,例如通过联邦平均减少通信量,并进行较不频繁的参数更新,如Diloco、本地SGD、Model Soups和Branch-Train-Merge方法。

并行化策略评估

先前对神经网络分布式训练策略扩展特性进行实证评估的研究主要关注模型并行与标准数据并行技术的交互作用,而无FSDP或ZeRO-3并行这些研究通常推荐最小化总模型并行度,因为模型并行引入了额外的通信操作和开销,我们证明这在单独使用FSDP或ZeRO-3进行训练时并不适用。

作为对实证研究的补充,自动并行策略和成本模型已被开发用于分布式训练;如Alpa、Galvatron和FlexFlow等。然而,这些工作的验证局限于较小的模型和较少的加速器(最多64个GPU),这一规模远小于我们实验评估的全局规模。

深度学习扩展特性

先前调查神经网络训练扩展特性方面的工作主要研究数据量、训练计算预算和模型架构变化所带来的影响。这些工作主要检查这些因素对模型预训练损失和下游微调性能的影响,相对于分配的计算资源理论量(即FLOPs的数量)。

然而,这些分析假设负载性能会直接随着计算量的增加而扩展,而没有考虑底层硬件平台和框架的限制。在实践中,理论指标(即FLOPs)被认为是对端到端真实世界性能(如延迟、吞吐量)的不精确表示,这是由于计算图管理、数据传输和通信瓶颈所导致的性能限制,或者,正如我们所强调的,是由于通信受限。

7 结论

本文考察了大规模分布式训练大型语言模型过程中硬件扩展的影响。具体而言,我们对并行化策略、模型架构和硬件平台在分片数据并行扩展过程中对吞吐量和能源效率的影响进行了全面研究。我们强调,尽管分片数据并行在较小规模下可有效减少内存利用,但通信受限会主导大规模分布式训练,并导致硬件利用率降低。

我们证明通信受限在规模扩展和新硬件世代更迭时都会加剧,并且跨越不同的模型规模持续存在。此外,我们证明这些趋势导致在分配深度学习训练任务时,出现了可行的模型并行替代方案,这与现有推荐和训练并行最佳实践的结论是相反的。最后,我们证明这些趋势在以功耗和吞吐量衡量的真实世界资源效率方面,会导致训练性能出现显著的收益递减。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/4 13:36:38

BiliPlus进阶指南:解锁B站深度体验的全新方式

BiliPlus进阶指南:解锁B站深度体验的全新方式 【免费下载链接】biliplus 🧩 A Chrome/Edge extension to feel better in bilibili.com 项目地址: https://gitcode.com/gh_mirrors/bi/biliplus 还在为B站首页的杂乱推荐感到困扰吗?是否…

作者头像 李华
网站建设 2025/12/26 19:51:20

37、Linux 网络服务管理全解析

Linux 网络服务管理全解析 1. TCP/IP 网络服务端口概述 在 TCP/IP 网络环境中,不同的网络服务通过特定的端口号进行标识。查看 /etc/services 文件中的条目,可以了解到丰富的网络服务。以下是一些常见服务及其端口号: ftp-data 20/tcp ftp 21/tcp …

作者头像 李华
网站建设 2026/1/3 14:18:11

非晶磁芯:国产化“市占率”突围战背后的中国力量|深圳金鑫磁材

在新能源汽车驱动电机高速运转的轰鸣声中,在光伏逆变器将直流电转化为交流电的毫秒级转换里,在5G基站高频信号传输的电磁波震荡间,一种名为"非晶磁芯"的磁性材料正以原子级的精密结构,重构着现代电子设备的能量转换与信…

作者头像 李华
网站建设 2026/1/1 15:13:53

荒原之梦考研数学:考研报名人数连续两年下降,还要考研吗?

做了多年的考研数学培训,我跟学生们说的最多的是,是不是考研,一定要根据自己的需求来决定。 如果你想走学术的道路,或者说,你想要做的工作需要一个硕士学历,或者博士学历,那么,就可…

作者头像 李华
网站建设 2025/12/28 6:04:12

32、深入了解 Linux 系统安全防护

深入了解 Linux 系统安全防护 1. 构建全面的安全解决方案 要保障计算机系统安全,需依据安全策略、业务需求和可用技术,制定一套综合运用人员、流程和技术的解决方案。该方案涵盖以下要素: - 服务 :包括认证、访问控制和加密。 - 机制 :如用户名/密码、防火墙等。 …

作者头像 李华