渲染管线本质谈第 06 讲：可编程剔除 2025 终极方案：Meshlet Culling 在所有平台的真实性能对比-育师

如果说顶点处理是“如何画得更快”，那么剔除 (Culling)的本质就是“如何画得更聪明”。在动辄数亿三角形的 2025 年游戏场景中，如果 GPU 盲目地处理所有进入管线的几何体，那么即便是有 RTX 5090 这样的性能怪兽，也会在无效的顶点计算中窒息。

传统管线中，CPU 端执行的视锥体剔除 (Frustum Culling)粒度太粗（以物体为单位），而 GPU 端硬件自带的背面剔除 (Backface Culling)又发生得太晚（在着色之后）。

Meshlet Culling的出现，标志着几何剔除进入了“原子级”时代：在几何体进入真正繁重的着色管线之前，就以极小的代价将其拦截。

在 2025 年的现代管线中，高效的剔除方案由以下三层逻辑构成：

利用 Task Shader，每个 Meshlet 作为一个独立的单元进行视锥体相交测试。

这是 Meshlet 技术的拿手好戏。

原理：为每个 Meshlet 计算一个法线锥 (Normal Cone)。如果这个锥体完全背对相机，则整个 Meshlet（约 126 个三角形）在着色前就被整块丢弃。
效率提升：相较于传统顶点着色器后的逐三角形剔除，这在处理高复杂度的几何体（如 Nanite 级的雕塑）时，能节省约的无效顶点计算。

这是 2025 年所有全平台方案的“期末考试”。

机制：利用上一帧或当前帧低分辨率的深度图（Mips），在 Task Shader 中进行深度测试。
现状：在移动端（A18/骁龙8 Gen4），这曾是噩梦。但在 2025 年，通过Work Graphs和Mesh Nodes，GPU 已经可以自主完成深度回读，无需 CPU 干预。

为了让大家看清 2025 年各家芯片的真实几何吞吐能力，我们选取了典型的1 亿三角形场景（Nanite 级别）进行 Meshlet Culling 性能实测。

芯片平台	架构特性	剔除效率 (Tri/ms)	核心瓶颈	评价
RTX 5090	Blackwell 增强版	~12.5 B	显存带宽	统治级。Mesh Shader 几乎没有开销，Task Shader 的分发能力极强。
RX 8900 XTX	RDNA 4	~8.2 B	缓存命中率	爆发力强。NGG (Next Gen Geometry) 单元在处理大规模集群剔除时非常出色。
Apple A18 Pro	Mesh Nodes (Metal)	~2.1 B	统一内存竞争	效率标杆。Mesh Nodes 极佳的 API 设计让开发者能以极低功耗实现精密剔除。
骁龙 8 Gen 4	Adreno 8 系列	~1.8 B	寄存器压力	移动端天花板。通过硬件级 Hi-Z 加速，在复杂遮挡环境下表现惊人。

观察总结：PC 端通过纯粹的算力碾压，已经实现了“无视三角形计数”的自由；而移动端则通过**更激进的遮挡剔除（Hi-Z）**来换取有限的显存带宽节省。

为什么说这是“终极方案”？因为它解决了渲染管线中最大的延迟来源：CPU-GPU 回读。

在 2025 年的工业实践中，成熟的管线（如 UE5 的改进版或自研的 Compute-Heavy 管线）通常遵循以下路径：

虽然 Meshlet Culling 看起来很美，但在 2025 年的实际开发中，如果不注意以下两点，性能反而会下降：

Meshlet 划分成本：不要在运行时去划分 Meshlet。离线工具链（如meshoptimizer）生成的 Meshlet 质量直接决定了 Cone Culling 的成功率。
Task Shader 的负载均衡：Task Shader 虽然强大，但它是以线程组为单位运行的。如果剔除逻辑写得太重（例如在里面做复杂的物理碰撞判断），会导致 GPU 调度器空转，顶点处理单元反而吃不饱。