交换机和网卡的 PFC 机制工作原理与实例解析-育师

PFC（Priority-based Flow Control，基于优先级的流控）是数据中心以太网（如 RoCE v2、DCB）的核心技术，属于链路层（Layer 2）流量控制机制。其核心目标是解决拥塞导致的丢包问题—— 通过在链路两端（交换机端口与网卡端口）基于流量优先级实现 “按需暂停 / 恢复”，而非传统的全局流控，适配智算中心 RDMA 网络对零丢包、低延迟的严苛需求。

一、PFC 的核心设计逻辑

优先级划分：基于 802.1p 协议，将流量划分为 8 个优先级（0-7），智算中心通常将RDMA 梯度同步流、存储数据传输流标记为高优先级，普通业务流标记为低优先级。
独立队列映射：交换机端口和网卡端口为每个优先级分配独立的缓冲区队列，不同优先级流量互不干扰。
端到端反馈机制：当某一端口的某优先级队列出现拥塞时，主动向对端端口发送暂停帧（PAUSE Frame），指令其暂停发送对应优先级的流量；拥塞缓解后发送恢复帧，恢复流量传输。

二、PFC 的工作流程（交换机 + 网卡协同）

PFC 的工作分为拥塞检测、暂停帧发送、流量暂停、拥塞缓解、恢复帧发送、流量恢复六个步骤，涉及网卡发送端、交换机转发端、网卡接收端三个核心角色，以下是标准化流程：

1. 初始化配置

网卡与交换机通过DCBx 协议（数据中心桥接交换协议）协商 PFC 使能状态、优先级映射规则、队列阈值参数，确保两端配置一致。
例如：约定优先级7为 RDMA 梯度流，优先级0为普通监控流；设置队列拥塞阈值TH_high=80%（触发暂停）、TH_low=30%（触发恢复）。

2. 拥塞检测（交换机端口 / 网卡接收端）

以交换机端口接收 RDMA 流量为例：

高优先级（7）的 RDMA 数据包持续进入交换机端口的队列Q7，队列长度快速增长。
当Q7的缓冲区占用率达到TH_high=80%时，交换机判定该优先级队列拥塞。

3. 暂停帧发送

交换机端口向对端网卡发送端发送 PFC 暂停帧，帧中包含两个核心字段：
Priority Code Point（PCP）：指定需要暂停的优先级（此处为 7）；
Pause Time：暂停时长（单位：时隙，1 时隙 = 512 比特传输时间）。
注意：暂停帧仅针对指定优先级，其他优先级（如 0）的流量不受影响。

4. 流量暂停（网卡发送端）

网卡发送端收到暂停帧后，立即暂停发送优先级 7的 RDMA 流量，但继续发送优先级 0 的普通流量。
此时网卡的优先级 7 队列数据暂存于本地缓冲区，不向交换机传输，避免交换机队列溢出丢包。

5. 拥塞缓解与恢复帧发送

交换机端口的Q7队列持续转发数据包，缓冲区占用率逐渐下降。
当占用率降至TH_low=30%时，交换机判定拥塞缓解，向网卡发送端发送PFC 恢复帧（或暂停时长设为 0 的暂停帧）。

6. 流量恢复

网卡发送端收到恢复帧后，立即恢复优先级 7 的 RDMA 流量传输，整个过程无丢包、无重传。

三、具体实例：智算中心 GPU 集群 RDMA 梯度同步场景

1.场景背景

某智算中心采用Spine-Leaf 架构 RoCE v2 网络，包含 100 台 GPU 服务器（每台配备支持 PFC 的 Mellanox CX6 网卡）和 10 台 Leaf 交换机。GPU 节点在千亿参数大模型训练的梯度同步阶段，需通过 RDMA all-reduce 协议传输 TB 级梯度数据，流量优先级标记为 7；同时节点需发送低优先级（0）的监控日志数据。

2.PFC 协同工作全过程

流量发送：GPU A 的网卡向 GPU B 发送优先级 7 的 RDMA 梯度流和优先级 0 的监控流，数据包经 Leaf 交换机转发。
交换机拥塞触发：由于多台 GPU 同时向 GPU B 发送梯度流，Leaf 交换机连接 GPU B 的端口队列Q7缓冲区占用率快速升至 85%（超过阈值 80%），触发 PFC。
交换机发送暂停帧：Leaf 交换机端口向 GPU A 的网卡发送暂停帧，指定暂停优先级 7，暂停时长为 1000 时隙。
网卡暂停高优先级流量：GPU A 的网卡收到暂停帧后，立即停止发送优先级 7 的梯度流，仅继续发送优先级 0 的监控流，避免交换机Q7队列溢出丢包。
拥塞缓解：交换机Q7队列的梯度数据包持续转发至 GPU B，缓冲区占用率降至 25%（低于阈值 30%），拥塞缓解。
恢复流量传输：交换机发送恢复帧，GPU A 的网卡恢复优先级 7 的梯度流传输，梯度同步继续进行，全程无丢包。
低优先级流量不受影响：在整个 PFC 过程中，优先级 0 的监控流始终正常传输，未因高优先级流量拥塞被中断。