07章标量内存操作 - “Vega“ 7nm Instruction Set ArchitectureReference Guide-育师

标量内存读（SMEM）指令允许着色器程序通过标量数据缓存将数据从内存加载到SGPR中，或将数据从SGPR通过标量数据缓存写入内存。指令一次可以读取1到16个双字（Dword），或写入1到4个双字。数据直接读入SGPR，无需任何格式转换。

标量单元在内存和SGPR之间读写连续的双字。这主要用于加载ALU常量和间接T#/S#查找。不支持数据格式转换，也不支持字节或短数据。

7.1 微码编码

标量内存读、写和原子指令使用SMEM微码格式进行编码。

字段描述如下表所示：

表24. SMEM编码字段描述

字段	大小	描述
OP	8	操作码
IMM	1	确定如何解释OFFSET字段。 IMM=1：偏移量是地址的20位无符号字节偏移量。 IMM=0：OFFSET[6:0]指定提供无符号字节偏移量的SGPR或M0（对于存储，必须是M0）。STORE和ATOMIC指令不能使用SGPR：只能使用立即数或M0。
GLC	1	全局一致性。对于加载：控制L1缓存策略：0=hit_lru，1=miss_evict。对于存储：控制L1缓存旁路：0=写合并，1=写直达。对于原子操作，"1"表示原子操作返回操作前的值。
SDATA	7	要返回读取数据的SGPR，或要从中获取写入数据的SGPR。读取两个双字时，SDST-sgpr必须是偶数。读取四个或更多双字时，DST-gpr必须对齐到4的倍数。SDATA必须是：SGPR或VCC。不能是：exec或m0。
SBASE	6	SGPR对（SBASE的隐含LSB为零），提供基地址，或对于BUFFER指令，提供包含资源常量的4个SGPR（4-sgpr对齐）。对于BUFFER指令，仅使用的资源字段是：base、stride、num_records。
OFFSET	20	无符号字节偏移量，或保存偏移量的SGPR地址。写入和原子操作：只能是M0或立即数，不能是SGPR。
NV	1	非易失性。
SOE	1	标量偏移启用。

7.2 操作

7.2.1 S_LOAD_DWORD, S_STORE_DWORD

这些指令在SGPR和内存之间加载1-16个双字或存储1-4个双字。SGPR中的数据在SDATA中指定，地址由SBASE、OFFSET和SOFFSET字段组成。

标量内存寻址

S_LOAD / S_STORE / S_DCACHE_DISCARD：

ADDR = SGPR[base] + inst_offset + { M0或SGPR[offset]或零 }

S_SCRATCH_LOAD / S_SCRATCH_STORE：

ADDR = SGPR[base] + inst_offset + { M0或SGPR[offset]或零 } * 64

偏移字段的使用：

IMM	SOFFSET_EN (SOE)	地址
0	0	SGPR[base] + (SGPR[offset]或M0)
0	1	SGPR[base] + (SGPR[soffset]或M0)
1	0	SGPR[base] + inst_offset
1	1	SGPR[base] + inst_offset + (SGPR[soffset]或M0)

地址的所有组件（base、offset、inst_offset、M0）都以字节为单位，但最低两位被忽略并被视为零。S_DCACHE_DISCARD忽略最低六位，使地址64字节对齐。

如果inst_offset为负数且结果(inst_offset + (M0或SGPR[offset]))为负数，则是非法且未定义的。

对私有空间的标量访问必须使用缓冲区常量或手动转换地址：

Addr = Addr - private_base + private_base_addr + scratch_baseOffset_for_this_wave

"隐藏的私有基地址"对硬件不可用：必须预先加载到SGPR中或通过常量缓冲区可用。这相当于驱动程序为缓冲区常量从头计算基地址所必须做的操作。

标量指令不能覆盖自己的源寄存器，因为指令可能由于ATC XNACK而重放。类似地，标量内存子句中的指令不能覆盖子句中任何指令的源寄存器。子句定义为同一类型的内存指令字符串。任何非内存指令都会中断子句。

原子操作是另一种情况，因为它们自然对齐，并且必须在单指令子句中。根据定义，返回操作前值的原子操作会覆盖其数据源，这是可以接受的。

使用缓冲区常量的读/写/原子操作

使用的缓冲区常量字段：base_address、stride、num_records、NV。其他字段被忽略。

标量内存读/写不支持"swizzled"缓冲区。stride仅用于内存地址边界检查，不用于计算访问地址。

SMEM仅提供SBASE地址（字节）和偏移量（字节或双字）。任何"索引 * stride"必须在着色器代码中手动计算，并在SMEM之前添加到偏移量中。

V#.base和最终地址的最低两位被忽略以强制双字对齐。

"m_*" 组件来自缓冲区常量（V#）：

offset = IMM ? OFFSET : SGPR[OFFSET] m_base = { SGPR[SBASE * 2 +1][15:0], SGPR[SBASE] } m_stride = SGPR[SBASE * 2 +1][31:16] m_num_records = SGPR[SBASE * 2 + 2] m_size = (m_stride == 0) ? 1 : m_num_records m_addr = (SGPR[SBASE * 2] + offset) & ~0x3 SGPR[SDST] = read_Dword_from_dcache(m_base, offset, m_size)

如果要读取多于1个双字，则返回到SDST+1、SDST+2等，偏移量每DWORD增加4字节。