NLP任务的首次大一统合集 - 深度学习进阶(31)1.深度学习进阶（一）从注意力到自注意力03-312.深度学习进阶（二）多头自注意力机制（Multi-Head Attention）-育师

了位置信息，我们真的需要把自注意力拆成四项吗？

这并非无端质疑， 2020 年的论文： Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 反其道而行之，提出了一种极简的偏置型 RPE，成功让 RPE 进入了下一个阶段。
不过同样的是，论文并非专门提出这种 RPE，它的工作中心就是题目中的T5，即 Text-to-Text Transfer Transformer，核心思想就是：

把分类、摘要、问答、翻译等一切 NLP 任务都塞进一个框架里：输入是文本，输出也是文本。

从地位和后续影响来说，T5 可以说是现代自然语言指令对话的起点，是对 NLP 任务形式的首次大一统，因此，本篇同样先展开 T5 本身的架构，再说明其 RPE 逻辑。

1. 如何训练统一模型？#

如何统一训练统一模型？其实这部分内容就是整篇论文的核心思路，T5 将模型训练分为两部分：

使用 span corruption 的无监督预训练。
使用 task prefix 的监督多任务训练。

下面就来分点展开：

1.1 跨度破坏 Span Corruption#

T5 本身的整体架构仍然是原始 Transformer 的编码-解码架构。
而这部分是模型的第一阶段训练，它使用 C4 数据集（一个包含数百亿个 token 的语料库）进行无监督预训练。

这里的关键词就是题目里的Span Corruption，概括来说是这样的：

从输入序列中随机选取一些连续的 token 片段,替换为哨兵 token，以预测这些哨兵 token 为目标，训练整个模型的基础语言理解能力。

这部分其实和我们之前讲的 Word2Vec 的逻辑是类似的，只是前者训练的是词向量表，而现在我们训练的是整个模型的所有相关参数。
其实还有另外一个相关的概念是 BERT，它的想法是遮住单个 token 后判别恢复，而 T5 改为了遮住连续 token 生成恢复，等涉及到相关内容我们再展开。

拿一个英文句子举例：

"Thank you for inviting me to your party last week"

假设我们抹掉两个 span：

"for inviting" →<X>
"last week" →<Y>

现在，模型的输入和标签其实是这样的：

输入：[替换 span 后的原句子] "Thank you <X> me to your party <Y>" 目标输出：[<哨兵 token 序号>对应预测内容···<结束符>] "<X> for inviting <Y> last week <Z>"

你会发现多了一个<Z>，实际上这是在训练阶段我们手动添加的，作为生成任务的结束符加入学习内容。这和我们之前的语言模型中提到的<EOS>是一个道理。

按这种方式，使用海量数据进行训练后，模型便拥有了基础的语言理解能力。
但要注意，我们要的不是一个“填空模型”，这种做其实就是为了给模型的参数进行一个具备语言理解能力的初始化，所以才被称为“预训练”。

而下面这步，才是实现“统一”的逻辑。

1.2 任务前缀 task prefix#

这部分其实是最好理解的部分，但也是实现 NLP 任务统一的最大前提：

给所有使用的数据加一个任务前缀，让 Transformer 架构按前缀生成对应类型的输出序列。

就像这样：

任务	传统做法	T5 的做法
翻译	Encoder-Decoder 架构，标准 Seq2Seq	输入`translate English to German: ...`，输出译文
摘要	专门的 Seq2Seq 模型	输入`summarize: ...`，输出摘要
分类	BERT + 分类头	输入`cola sentence: ...`，输出`acceptable`/`unacceptable`
相似度	双塔 + 回归头	输入`stsb sentence1: ... sentence2: ...`，输出`3.8`
问答	专门的抽取式/生成式模型	输入`question: ... context: ...`，输出答案

你会发现，这种设计就是把任务类型放到了输入序列中，通过大量数据让模型学习到相应的生

Amber99SB-ILDN力场MD模拟mdp文件及数据处理脚本分享

在我的文章《在云服务器AutoDL实现分子动力学模拟全流程》中我分享了MD的步骤和相关的命令行，而本文中我将分享其中提到的mdp文件和python绘图脚本。这一部分涉及非常多可选参数，我将进行注释。主要由AI生成，这一部分涉及的知识太多&#xff…

李华

构建个人数字身份标识系统：从jfm608实践看统一管理与安全防护

1. 项目概述：从“jfm608”看个人数字身份标识的构建与管理最近在整理一些旧项目时，翻到了一个名为“jfm608”的文件夹。这个看似随机的字符串，其实是我多年前为自己建立的一套个人数字身份标识系统的核心代号。它不仅仅是一个用户名或ID&…

李华

DeepSeek 本地部署完全方案：从环境搭建到推理优化

DeepSeek 本地部署完全方案：从环境搭建到推理优化一、前言：为什么选择本地部署 DeepSeek DeepSeek 系列模型在 2026 年持续迭代，V3 与 R1 版本在代码生成、逻辑推理、长文本理解等场景表现突出。虽然官方提供了在线 API 服务，但…

李华

智谱面试官问：CC 派子 Agent 翻一堆文件，怎么不占主对话的上下文？

你以为 Claude Code 派子 agent 就是再开个对话窗口、或者调一个函数——其实它是一个从零冷启动、跟主对话完全隔开的独立 agent。这课拆它的子 agent 机制：内部靠什么把探索过程隔在主对话外面，只回你一条干净摘要。先把术语翻成人话子 agent suba…

李华

【基础算法精讲 12】二叉树的最近公共祖先

236. 二叉树的最近公共祖先给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：“对于有根树 T 的两个节点 p、q，最近公共祖先表示为一个节点 x，满足 x 是 p、q 的祖先且 x 的深度尽可能大&#xff…

李华

AI 生成动效代码：从自然语言描述到可运行 CSS 动画的编译管线

AI 生成动效代码：从自然语言描述到可运行 CSS 动画的编译管线一、动效描述的语义鸿沟——当"弹一下"无法直接编译为代码设计师说"弹一下"，前端工程师需要追问：是弹性回弹还是线性弹出？回弹幅度多大&#xf…

李华