【昇腾CANN训练营·算力篇】唤醒沉睡的野兽：Ascend C 调用 Cube 单元加速矩阵运算-育师

训练营简介
2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。

报名链接：https://www.hiascend.com/developer/activities/cann20252#cann-camp-2502-intro

摘要：在 AI 计算中，矩阵乘法（GEMM）占据了 90% 以上的算力消耗。如果说 Vector 单元是精密的瑞士军刀，那么 Cube 单元就是重型核武器。很多开发者习惯于用 Vector 模拟矩阵计算，却忽略了 Ascend 910B 真正的核心优势。本文将深入解析Cube Unit的硬件架构，通过Ascend C 高阶 MatMul API，带你驾驭这头“算力野兽”，并攻克最令人头秃的Fractal 分形内存布局。

前言：不要用 Vector 绣花

在昇腾算子开发群里，常看到有同学用Mul和ReduceSum指令在 Vector 单元上手搓矩阵乘法。精神可嘉，但方向错了。

Vector Unit：SIMD 架构，擅长一维向量计算（Add, Exp, Activation）。910B 上每周期能进行 128 次 FP16 计算。
Cube Unit：Systolic Array（脉动阵列）架构，专为 $C = A \times B + C$ 设计。910B 上每周期能进行4096次 FP16 MAC（乘加）运算。

算力差距是32 倍。如果不调用 Cube，你的算子性能永远只有理论峰值的 3%。但是，Cube 的编程难度远高于 Vector。最大的拦路虎就是：数据格式（Layout）。

一、核心图解：Cube 的“怪癖”——分形格式 (Fractal Z)

通用 CPU/GPU 习惯ND 格式（Row Major，行优先存储）。矩阵A：[Row0, Row1, Row2...]线性排布。

但 Cube 单元极其挑剔，它不吃 ND 格式，只吃Fractal 格式（分形格式）。为了配合 Cube 的 16x16 脉动阵列，由于物理电路连线的限制，数据必须被重排成一个个 $16 \times 16$ 的微小矩阵块（Fractal Block）。

L1 -> L0A/L0B：当数据从 L1 Cache 搬运到 Cube 的输入寄存器（L0A/L0B）时，必须通过MTE1进行“在线格式转换”。
Cube -> UB：计算结果从 L0C 输出到 UB 时，通常是 NZ（分形）格式，需要再次转换回 ND 才能写回内存。

二、关键武器：Ascend C Matmul 高阶 API

为了不让开发者手动去写复杂的内存重排，Ascend C 封装了一套Template-based High-Level API。它像一个黑盒，自动帮你管理 L1 Buffer、L0 寄存器以及数据的搬运。

2.1 核心对象：`Matmul`

// 模板参数：<A类型, B类型, C类型, bias类型> // CFG_MODE: 针对不同 Shape 的优化模式 typedef Matmul<MatmulType<AscendC::TPosition::GM, CubeFormat::ND, half>, MatmulType<AscendC::TPosition::GM, CubeFormat::ND, half>, MatmulType<AscendC::TPosition::GM, CubeFormat::ND, float>, MatmulType<AscendC::TPosition::GM, CubeFormat::ND, float>, CFG_MDL> MatmulObj;

2.2 极简流水线

传统的 Tiling、CopyIn、Compute 流程被 API 内部接管了。你只需要：

SetTensor: 告诉 API 数据在哪里（GM 地址）。
Iterate: 启动计算（API 内部会自动进行分块、搬运、Cube 计算）。
GetTensor: 等待计算结束，把结果搬回 GM。

// 伪代码：极简 Matmul Kernel __aicore__ inline void Process() { // 1. 设置左矩阵 A 和右矩阵 B 的 GM 地址 mm.SetTensorA(gm_a); mm.SetTensorB(gm_b); // 2. 启动全自动计算 // Iterate 会自动进行 Tiling 切分（基于 Host 侧传入的参数） // 并驱动 MTE1 加载数据，驱动 Cube 计算 mm.IterateAll(gm_c); // 3. 结束 (IterateAll 内部包含了搬出操作) }

三、实战：从“能跑”到“跑得快”

虽然 API 封装得很完美，但想跑出极致性能，必须深入理解Tiling。

3.1 Base M, Base N, Base K

Cube 单元计算的最小粒度不是 1，而是16（FP16 场景）。 Ascend C 定义了三个基础单位：

Base M: Cube 一次能处理的行数（通常 16）。
Base N: Cube 一次能处理的列数（通常 16）。
Base K: 内部累加维度（通常 16）。

你的 Tiling 策略必须是 BaseMNK 的整数倍。如果输入 Shape 是[31, 31]，对不起，必须 Padding 到[32, 32]，否则 Cube 无法启动。

3.2 Single Core vs Multi Core

Matmul API 支持多核并行。

Host 侧：计算总任务量，按 M 轴或 N 轴切分给不同的 Core。

Device 侧：每个 Core 拿到自己的SingleCoreM和SingleCoreN，初始化 Matmul 对象。

// 假设按 M 轴切分，当前 Core 负责第 core_idx 块 mm.SetLocalWorkspace(workspace); // 必须给 API 分配显存空间 mm.SetTail(tailM, tailN, tailK); // 处理不能被 16 整除的尾块

四、进阶：L0C 驻留与算子融合

Cube 算完的结果存在L0C 寄存器中（速度极快）。普通的 Matmul 算子会立即把 L0C 的结果搬到 UB，再搬回 GM。

极致优化思路：如果后面紧接着一个ReLU或Add，能不能不搬回 GM？能！Ascend C 允许 Matmul 结果暂存在 L0C 或 UB 中，直接透传给 Vector 单元进行 Point-wise 计算，最后再输出。

// 融合算子：C = ReLU(A * B) while (mm.Iterate()) { // 单次迭代 mm.GetTensorC(ub_c); // 把结果搬到 UB，而不是 GM Vector::Relu(ub_c, ub_c); // Vector 单元介入，在 UB 内做 ReLU DataCopy(gm_c, ub_c); // 手动搬回 GM }

这种Cube + Vector 异构流水线是昇腾算子性能起飞的关键。

五、总结

调用 Cube 单元是 Ascend C 开发的分水岭。

思维转变：从“线性处理”转变为“块状处理”（Block-based）。
格式敬畏：时刻谨记 16x16 对齐，理解 Fractal 格式的必要性。
异构协同：Cube 负责重火力（MatMul），Vector 负责精细操作（Bias, ReLU），两者通过 UB 紧密配合。

当你开始用 Cube 思考问题，你才真正触摸到了昇腾 910B 的灵魂。

本文基于昇腾 CANN 8.0 及 Ascend C 高阶 API 编写，部分底层内存行为可能随硬件版本变化。

【昇腾CANN训练营·算力篇】唤醒沉睡的野兽：Ascend C 调用 Cube 单元加速矩阵运算

前言：不要用 Vector 绣花

一、核心图解：Cube 的“怪癖”——分形格式 (Fractal Z)

二、关键武器：Ascend C Matmul 高阶 API

2.1 核心对象：`Matmul`

2.2 极简流水线

三、实战：从“能跑”到“跑得快”

3.1 Base M, Base N, Base K

3.2 Single Core vs Multi Core

四、进阶：L0C 驻留与算子融合

五、总结

嵌入式模组温控策略

【昇腾CANN训练营·架构篇】打破内存墙：Ascend C 算子融合（Operator Fusion）的极致心法

【昇腾CANN训练营·算法篇】寻找消失的除法器：Newton Iteration 与高精度数学计算的艺术

19、Linux 帧缓冲接口设计与图形库应用

人才发展ℓℓ 人才盘点怎么做？这篇完全应用手册给出答案

真相来了｜字节跳动的人才真相：真正拉开差距的，是“人才密度”（附人才密度清单）

前言：不要用 Vector 绣花

一、 核心图解：Cube 的“怪癖”——分形格式 (Fractal Z)

二、 关键武器：Ascend C Matmul 高阶 API

2.1 核心对象：Matmul

2.2 极简流水线

三、 实战：从“能跑”到“跑得快”

3.1 Base M, Base N, Base K

3.2 Single Core vs Multi Core

四、 进阶：L0C 驻留与算子融合

五、 总结

嵌入式模组温控策略

【昇腾CANN训练营·架构篇】打破内存墙：Ascend C 算子融合（Operator Fusion）的极致心法

【昇腾CANN训练营·算法篇】寻找消失的除法器：Newton Iteration 与高精度数学计算的艺术

19、Linux 帧缓冲接口设计与图形库应用

人才发展ℓℓ 人才盘点怎么做？这篇完全应用手册给出答案

真相来了｜字节跳动的人才真相：真正拉开差距的，是“人才密度”（附人才密度清单）

一、核心图解：Cube 的“怪癖”——分形格式 (Fractal Z)

二、关键武器：Ascend C Matmul 高阶 API

2.1 核心对象：`Matmul`

三、实战：从“能跑”到“跑得快”

四、进阶：L0C 驻留与算子融合

五、总结