深度学习进阶（二十一）跨窗口的 RPE-育师

为什么要提出跨窗口的 RPE？#

1.1 正余弦绝对编码的局限#

我们还是用上一篇的例子来展开这个问题：假设模型上下文窗口长度为 4，一段长文本被切成了两个 segment：

Segment 1	Segment 2
Position 1	A	E
Position 2	B	F
Position 3	C	G
Position 4	D	H

引入 Memory 后，Segment 2 中的 token 可以看到 Segment 1 的编码信息。
但模型无法区分位置 4 到底是指 D（第一个 segment 的末尾），还是 H（第二个 segment 的末尾）。

那可不可以这样：

利用正余弦的无限外推能力，直接让位置编码跨 segment 递增不就行了？Segment 1 用位置 1~4，Segment 2 用位置 5~8？

但问题在于：

正余弦位置编码虽然可以理论上无限生成，却并不意味着模型真的具备无限长度泛化能力。

要理解这一点，我们需要明白的是：PE 只是帮助学习的一环。
注意力真正的学习是词嵌入、位置编码、QKV 矩阵等综合实现的，这些实际上都是在训练长度范围内形成的。

假设模型训练的上下文长度为 512，那么模型长期接触的位置范围其实只有 0 ~ 512，它会在这个空间内形成比较稳定的分布。

但如果采用跨 segment 递增，出现了一个 PE(512000)，模型没有在这种位置分布上训练过，导致无法泛化。
从专业名词上说，这叫：extrapolation degradation（外推退化）。
这时就像让一个每天练习正常考试题的学生没有任何防备的去做竞赛题。巨大的差异会直接影响原本已经稳定的“解题思路”。
从而导致KQV 矩阵投影异常、注意力得分漂移等问题。
总结来说就是：

强行使用看似合理实际却不适配的配件，表面上解决了问题，但实际却带来了更多 bug。

因此，单纯使用全局递增的绝对位置编码，实际上并不能真正跨段的长上下文建模。

1.2 可学习绝对编码的局限#

相比正余弦绝对编码，可学习绝对编码的局限就更明显了：

完全没有外推能力。

展开来说，Transformer 中的可学习绝对位置编码本质上其实是一张位置查找表，当我们设置上下文长度为 512 时，它就为每个位置初始化一组向量作为位置编码并注入，在反向传播中不断更新。

它不是位置越大，自动推导，而只是：“训练时记住了这个位置应该长什么样”。
所以，当采用跨 segment 递增，出现了一个 PE(512000），但可学习绝对编码只到PE（512）。而要增加就又回到了最初的窗口大小和计算量问题。

最终，可学习绝对位置编码因为本质上无法支持无限长度扩展，不适用于 Transformer-XL 。

1.3 原始 RPE 的局限#

在原始 RPE中，我们介绍了 Shaw 等人提出的相对位置编码：引入可学习的和，分别加到 Key 和 Value 上。

从逻辑上说，相对位置天然就是跨窗口的，但过去的水救不了现在的火，原始 PRE 存在两个待优化问题：

可学习的相对位置表有长度限制。如果训练时最大相对距离是 10，而需要分段的长序列相对距离可能达到几千，这时候查表查不到，只能截断，信息丢失严重。
"K/V 加法注入"的方式过于粗糙。它只是简单地把位置信息线性叠加到语义表示上，无法形成更丰富的交互。

因此，Transformer-XL 并没有直接用原始 RPE，而是重新设计了一套相对位置编码方案。

2.正余弦相对位置编码#

现在我们知道了 Transformer-XL 必须使用 RPE ，在正式展开其注入逻辑前，我们需要先了解 Transformer-XL 本身对编码逻辑的设计：正余弦相对位置编码。

一个问题是：

“继续沿用原始 RPE 的相对位置表不可以吗？”

就像这样：

相对距离	编码
-1
-2
-3

原因就是我们上面提到的：

可学习的相对位置表有长度限制，外推能力不足。

于是 Transformer-XL 做了一个非常关键的决定：

重新使用正余弦函数生成相对编码。

具体来说，对于相对距离：

Transformer-XL 会直接使用正余弦函数生成对应位置编码：

公式本身的计算逻辑和原始 Transformer的正余弦绝对编码没有任何区别，只是把绝对位置变成了相对距离。

假设位置编码维度：，：

维度	公式	计算结果

最终得到：

这就是 “相对距离为 -2” 对应的相对位置编码，它完善了长序列中的位置编码，相比绝对编码具有更好的泛化性。

不过这里需要注意的是，这种编码仍然存在上面提到的正余弦绝对编码的局限。
因为模型中的QKV 投影矩阵、Attention 模式等本质上仍然是在有限上下文范围内训练得到的，不能通过单独的编码设计就完全解决这些问题。
因此也催生了后续的更多改进。

3. 跨窗口的 RPE#

现在，我们通过正余弦相对位置编码解决了原始 RPE 可学习的相对位置表有长度限制的问题，一下个问题就是："K/V 加法注入"的方式过于粗糙。

而 Transformer-XL 的做法并不是继续修补原始 RPE，而是重新推导 Relative Attention 的计算形式。

还是先回忆一下普通 Self-Attention 公式：

其中计算注意力分数的部分是：

但问题在于原始的它只包含“内容”，没有真正包含“位置关系”，所以原始 RPE 才会把 RPE 注入到 Attention 中。
而现在，这部分再次被重新改写为：

这也是 Transformer-XL 最核心的 Relative Attention 公式。
看起来很复杂，但它其实只是把“内容”和“位置”进行了分开建模。
我们分点来看：

深度学习进阶（二十一）跨窗口的 RPE

为什么要提出跨窗口的 RPE？#

1.1 正余弦绝对编码的局限#

1.2 可学习绝对编码的局限#

1.3 原始 RPE 的局限#

2.正余弦相对位置编码#

3. 跨窗口的 RPE#

3.1 内容项和位置项#

GraalVM原生镜像构建实战：十分钟让你的Java应用启动速度快100倍

Windows平台FTP服务器搭建实战：从FileZilla Server配置到安全加固

体检报告翻译去哪办理？办理体检报告翻译件的费用是多少？

Rust 生命周期的工程意义

大数据没那么远：把散乱数据理顺，让业务敢用

终极修复指南：快速恢复DSM 7.2+群晖Video Station功能