news 2026/7/2 4:35:58

矩阵正交化处理:提升循环模型噪声关联回忆性能,小改进带来大提升!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
矩阵正交化处理:提升循环模型噪声关联回忆性能,小改进带来大提升!

什么是矩阵正交化提升循环模型内存性能研究?

2026年6月30日的一项研究由Paradigm资助。Transformer展现出卓越的关联回忆(AR)能力,其注意力机制让每个token能直接访问前面的token,这是循环神经网络(RNN)等其他架构难以企及的。然而,在某些领域,如以Dreamer风格进行的长时程强化学习(long - horizon RL),无法承受Transformer二次注意力机制带来的开销。对于这类应用,需要让循环神经网络发挥作用,同时又不想放弃关联回忆能力。

目前关联回忆表现最佳的RNN是什么?

目前已知在关联回忆方面表现最佳的RNN是mLSTM,它是LSTM的一种变体,能够维护矩阵内存。在MQAR这一基准测试中,mLSTM的回忆性能相较于基线模型有显著提升。不过,单纯的回忆能力可能不足以衡量循环模型的性能,在环境转换存在噪声的领域,噪声关联回忆(NAR)是一项很有用的替代测试。由于MQAR不测试NAR,可以参考MAD的噪声AR任务套件。

MAD的噪声AR任务套件示例是怎样的?

例如`0 9 3 10 12 13 15 14 0 9 5 8 2 9`,在这个示例中,键`0`对应值`9`,键`3`对应值`10`,依此类推。MAD生成器会为键、值和干扰项使用不同的token范围。如果键的范围是`0 - 5`,那么token`12 - 15`就是干扰项。一个擅长NAR的模型,在看到开头的`0 -> 9`后,应该能在第10个位置预测出`9`,同时忽略穿插其中的干扰项token。

如何提升循环模型的NAR性能?

可以借鉴Muon的一些思路,它是一种在语言建模方面非常成功的优化器。Muon会对其动量进行正交化处理,像一个方向均衡器,能防止少数强方向主导更新过程,同时提升较弱方向的影响力。近期研究表明Muon在尾端关联记忆学习方面优于Adam,其原理是这种均衡处理能防止较弱的记忆被挤出。受此启发,决定测试在读取mLSTM内存矩阵时进行正交化处理,并在训练中加入这一额外步骤,是否能提升NAR性能。

实验是如何进行的?

使用MAD噪声AR样本,对mLSTM基线模型和正交化变体在预测下一个token方面进行了比较。在训练和评估过程中,使用MAD噪声回忆任务,将`frac_noise`设置为`0.8`,并测试了不同的词汇表大小和序列长度。所有模型都使用AdamW进行2000步训练(`betas = 0.9, 0.999`,`weight_decay = 0.01`),批量大小为64。学习率是通过对每个任务设置分别测试`3e - 4`、`1e - 3`、`3e - 3`和`1e - 2`来确定的。在每一步训练时都会生成一个新的批次,并为每个实验维护一个独立的固定验证集。对于正交化处理,使用Frobenius范数进行归一化(`eps = 1e - 6`),并应用五次牛顿 - 舒尔茨迭代,允许梯度在这个过程中流动,且不会将正交化后的内存写回,只在读取时使用它。实验的完全可复现代码可找到。

实验结果如何?

实验有相关的算法图和训练步数与验证准确率对比图。MAD噪声回忆结果显示,数据为2000步训练后的最终验证准确率,均值 ± 95%置信区间,基于24个随机种子;括号内显示准确率超过80%的种子数量。Delta是按种子配对计算的。词汇表大小为80时参数为77716,词汇表大小为96时参数为80740。正交化模型使用学习率3e - 3;基线模型仅在词汇表80、序列长度768时使用学习率1e - 2,其他情况使用3e - 3。发现正交化处理全面提升了成功率和平均准确率。当进入词汇表大小为96的模式时,性能差距似乎会扩大,表明正交化在原始mLSTM难以应对的困难NAR任务中帮助最大。在后面两种情况(词汇表96,序列长度768/1024)下,正交化让mLSTM从几乎失败的边缘(24个种子中只有4个成功)提升到了更可靠的性能水平(14 - 16个成功种子)。牛顿 - 舒尔茨迭代在固定参数数量的情况下带来了额外的性能提升,但也会增加浮点运算次数和训练时间。

实验结果应如何解读?

在解读这些结果时应保持谨慎。这些结果是在小模型范围内得出的,而且NAR是一个合成任务。值得进一步研究的是,NAR性能的提升是否能转化为大型模型在实际基准测试中的性能提升。最后感谢Dan Robinson、Alpin Yukseloglu和Glen Taggart在撰写本文时提供的反馈和建议。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 4:35:02

Java毕设项目: 基于 SpringBoot 的住院患者护理信息管理系统的设计与实现 基于 SpringBoot 的医院病房资源统筹管理系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/7/2 4:32:16

亦唐科技在人工智能领域的创新应用与发展

引言人工智能(AI)是当今世界最为热门的技术之一,已广泛应用于各行各业,推动着社会生产方式和生活方式的革命。作为一家领先的科技创新型企业,亦唐科技在人工智能领域的探索与实践,取得了显著的成就。通过将…

作者头像 李华
网站建设 2026/7/2 4:31:47

Apache Spark 4.0 SQL底座重构,哪些变化值得关注,帮你一一梳理

分布式计算的底座,在 2026 年迎来了一次彻底的范式转变。 Spark 推出 4.0 版本 到底升级更新了啥,对我们数仓架构有什么影响,今天就来扒一扒。随着 Apache Spark 4.0 的正式全面铺开,以及各大云原生数仓对其进入全量生产级支持&am…

作者头像 李华
网站建设 2026/7/2 4:31:43

数学基础整理

一,向量1,点乘1.1 数值含义:(1)夹角。(2)投影。1.2 几何意义:(1)锐角、垂直、钝角。(2)点与向量的前后关系:2,…

作者头像 李华
网站建设 2026/7/2 4:29:17

珠三角千人校园毕业活动承办团队

直接回答:广州威帅营销策划有限公司是一家综合实力优异、行业标杆的毕业典礼策划公司,具备丰富的大型活动策划与执行经验,能够提供从品牌策略、IP打造到数字化获客、线下执行、终端赋能的一站式服务。结合行业通用知识,选择有成功案例和良好口碑的服务商…

作者头像 李华