news 2026/1/3 10:02:54

12.5 注意力机制革命:Bahdanau注意力与Luong注意力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
12.5 注意力机制革命:Bahdanau注意力与Luong注意力

12.5 注意力机制革命:Bahdanau注意力与Luong注意力

注意力机制的提出是序列到序列学习领域的一次根本性革命,它有效解决了传统编码器-解码器架构中的“信息瓶颈”问题。该机制允许解码器在生成输出的每一个时间步,动态地、有选择地聚焦于输入序列的不同部分,而非依赖于单一的、固定维度的上下文向量。这种模仿人类认知中“选择性关注”的思想,极大地提升了模型处理长序列和复杂依赖关系的能力。在神经网络机器翻译的发展历程中,Bahdanau等人[1]与Luong等人[2]的工作分别代表了注意力机制的开创性引入与系统性改进,奠定了现代注意力模型的基础。

12.5.1 核心思想与基本框架

传统编码器-解码器模型将整个输入序列X=(x1,x2,…,xT)X = (x_1, x_2, \ldots, x_T)X=(x1,x2,,xT)压缩为一个固定长度的上下文向量ccc。当处理长句子时,该向量难以承载全部必要信息,导致模型性能下降。注意力机制的核心思想是:在解码的每一步ttt,为解码器生成一个独特的、与当前步相关的上下文向量ctc_tct

其基本框架包含三个核心步骤:

  1. 计算注意力分数:度量解码器当前状态sts_tst与编码器所有隐藏状态hih_ihi之间的相关性。
  2. 计算注意力权重:将注意力分数通过Softmax函数归一化,得到权重向量αti\alpha_{ti}αti,满足∑i=1Tαti=1\sum_{i=1}^{T} \alpha_{ti} = 1i=1Tαti=1。权重αti\alpha_{ti}αti表示在生成第ttt个目标词时,对第iii个源语言词的关注程度。
  3. 生成上下文向量:对编码器隐藏状态进行加权求和,得到当前步的动态上下文向量ctc_tct
    ct=∑i=1Tαtihi c_t = \sum_{i=1}^{T} \alpha_{ti} h_ict=i=1Tαtihi

最终,解码器在预测下一个词yty_tyt时,不仅依赖于自身的隐藏状态sts_tst和上一个词yt−1y_{t-1}yt1,更关键地依赖于这个动态生成的上下文向量ctc_tct。条件概率写为:
P(yt∣y<t,X)=g(yt−1,st,ct) P(y_t | y_{<t}, X) = g(y_{t-1}, s_t, c_t)P(yty<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/2 4:24:23

13.5 扩散模型:前向过程、反向过程与得分匹配

13.5 扩散模型:前向过程、反向过程与得分匹配 扩散模型是当前生成式人工智能领域的核心范式之一,其灵感源于非平衡热力学,通过模拟数据在噪声空间中的扩散与逆扩散过程来学习数据分布[reference:0]。本节将系统阐述扩散模型的三个核心组成部分:前向扩散过程、反向生成过程…

作者头像 李华
网站建设 2025/12/31 6:13:24

Java毕设项目:基于springboot的游泳用品专卖店系统的设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2025/12/30 23:07:58

39、Windows XP 辅助功能使用指南

Windows XP 辅助功能使用指南 在使用 Windows XP 系统时,有许多实用的辅助功能可以帮助用户更方便地操作电脑,尤其是对于那些有视力障碍或无法有效使用标准键盘的用户。以下将详细介绍几个重要的辅助功能及其使用方法。 1. 使用放大镜(Magnifier) 放大镜是 Windows XP 提…

作者头像 李华
网站建设 2025/12/31 14:46:47

图片自适应缩放实战指南:从算法到多端实现与优化

图片自适应缩放实战指南一 核心概念与策略选择 目标与约束 输入&#xff1a;原始尺寸 (iw, ih)&#xff0c;可用区域 (cw, ch)&#xff08;如纸张可绘制宽度、屏幕视口、控件客户区&#xff09;。约束&#xff1a;保持宽高比不变&#xff0c;缩放后尺寸 (ow, oh) 满足 ow ≤ cw…

作者头像 李华
网站建设 2026/1/1 21:38:30

基于Java+SpringBoot+SSM钱币收藏交流系统(源码+LW+调试文档+讲解等)/钱币收藏平台/钱币交流社区/收藏交流软件/钱币收藏论坛/收藏系统介绍/钱币交易系统/古钱币收藏/钱币知识交流

博主介绍 &#x1f497;博主介绍&#xff1a;✌全栈领域优质创作者&#xff0c;专注于Java、小程序、Python技术领域和计算机毕业项目实战✌&#x1f497; &#x1f447;&#x1f3fb; 精彩专栏 推荐订阅&#x1f447;&#x1f3fb; 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/1/1 22:28:25

Excalidraw Discord社区运营成功经验复制

Excalidraw 与 Discord&#xff1a;如何打造一个自我进化的开源社区 在今天这个“人人都是创作者”的时代&#xff0c;工具的价值早已不再局限于功能本身。真正能脱颖而出的产品&#xff0c;往往是那些懂得把用户变成共建者的——它们不只是被使用&#xff0c;更是在被共同塑造…

作者头像 李华