收藏备用！从SFT到RL——LLM是这样炼成的-育师

对于刚入门大模型的程序员和技术小白来说，常常会有这样的困惑：能流畅对话、精准完成任务的大语言模型（LLM），到底是怎么一步步“修炼成型”的？从最初的预训练模型，到能听懂人类指令的实用工具，中间的SFT和RL究竟扮演了什么角色？本期内容就为你拆解LLM的成长链路，用通俗易懂的语言讲清核心原理，干货满满建议收藏！

Part0 前置知识

1 大语言模型

大语言模型（LLM）是指使用大量文本数据训练的深度学习模型，使得该模型可以生成自然语言文本或理解语言文本的含义。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。

目前，LLM的主流范式是Next Token Prediction(NTP)，也就是根据上文的内容，推断下个词元（token）的概率分布，并从中抽取下一个词元，不断迭代，直到生成整个序列。

下图就是一个典型的步骤。给定上文“the”，大模型会计算出下一个token的概率。如果选择了dog，那么现在的上文是"the dog"，LLM继续根据这个求出下一个token的概率分布，这样继续下去直到大模型生成一个表示“结束”的token。

现在的大语言模型多采用Transformer架构，简图如下：

Transformer的工作流程如下：

①经过Embedding层，每个token根据编号和位置转换为一个d维向量；

②张量依次经过多个Transformer块，在每个块里面，张量先经过注意力（Attention）部分，再经过逐位前馈神经网络（FFN）部分；

③最后，张量经过线性层解嵌入，并经过softmax层生成下个位置为哪个token的概率分布。

更详细的介绍可见链接

2 大语言模型训练范式

目前，大语言模型的训练分为三个主要阶段：预训练(Pretraining)，有监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)。

在预训练阶段，模型的训练目标是Next Token Prediction，也就是最大化预测的下一个token正确的概率。为了，在预训练过程中，模型通常要在海量的数据上进行训练，这些数据包括互联网数据(CommonCrawl)、维基百科、书籍、ArXiv论文、GitHub仓库等。GPT-3和The Pile数据集的组成如下：

预训练阶段后，你输入一条提示词，模型会无脑根据提示词往后续写，因为预训练训练的就是预测下一个词的能力。因此，我们需要SFT和RL对模型进行对齐，使得模型能够听懂指令，完成任务。下图展示了GPT3微调前后的变化。

Part1 监督微调（ SFT ）

1.1 SFT概述

既然要让模型“听得懂”人类指令，并完成指定的任务，就需要专门编写各式各样人们在对话中可能询问的问题，以及问题的答案。换句话来说，SFT就是通过高质量的“指令-回答”数据对，训练模型学习遵循指令、进行对话的能力。

需要注意的是，SFT是激发模型本身遵循指令、思考的能力，而不是教会模型新知识，后者会引发模型幻觉。

1.2 SFT数据

以FLAN为例。下图为该数据集的概览和随机样例。可以看到，该数据集包含了QA、CoT等多种类型的指令-回答数据对。

那SFT数据集到底有多大呢？以及通过什么途径获得呢？下图是InstructGPT的后训练数据集大小。

可以看到，在InstructGPT中，大部分SFT数据由标注员和试用用户提供，要想scale up就需要成倍的人力物力。

一个解决方法是Self Instruction，也就是让模型生成问题与回答。给定问题生成回答只需要调一下api就能解决，但生成有价值的问题存在困难。一个典型的例子是Stanford Alpaca，通过“种子指令”(seed)，让模型既生成问题又生成答案。种子指令（prompt.txt）的具体内容见下：

You are asked to come up with a set of 20 diverse task instructions. These task instructions will be given to a GPT model and we will evaluate the GPT model for completing the instructions.Here are the requirements:1. Try not to repeat the verb for each instruction to maximize diversity.2. The language used for the instruction also should be diverse. For example, you should combine questions with imperative instrucitons.3. The type of instructions should be diverse. The list should include diverse types of tasks like open-ended generation, classification, editing, etc.2. A GPT language model should be able to complete the instruction. For example, do not ask the assistant to create any visual or audio output. For another example, do not ask the assistant to wake you up at 5pm or set a reminder because it cannot perform any action.3. The instructions should be in English.4. The instructions should be 1 to 2 sentences long. Either an imperative sentence or a question is permitted.5. You should generate an appropriate input to the instruction. The input field should contain a specific example provided for the instruction. It should involve realistic data and should not contain simple placeholders. The input should provide substantial content to make the instruction challenging but should ideally not exceed 100 words.6. Not all instructions require input. For example, when a instruction asks about some general information, "what is the highest peak in the world", it is not necssary to provide a specific context. In this case, we simply put "<noinput>" in the input field.7. The output should be an appropriate response to the instruction and the input. Make sure the output is less than 100 words.List of 20 tasks:

1.3 SFT训练方式

SFT的训练方法很简单：梯度下降。预训练怎么训的，SFT就怎么训。所不同的是，SFT只需要在Response部分计算loss，因为——模型又不学怎么生成prompt，只要学会回答就行。

为了节省更改的参数量，提升泛化性，SFT可采用低秩自适应(LoRA)等方法。LoRA的核心思想是将权重更新分解为2个低秩矩阵，从而减少更新量。具体实现上，LoRA在权重外加了一个LoRA模块（下图的A、B），使得输出y=(W+BA)x。其中A用高斯函数初始化，B初始化为0。训练时，LoRA保持W不变，训练A和B，以减少计算开销。

Part2 强化学习 ( RL )

2.0 强化学习介绍

强化学习是一种学习如何通过状态选取动作，以获得最大奖励的机制。学习者不会被告知要采取哪些动作，而是必须通过尝试来发现哪些动作会产生最大的回报。此外，动作不仅可以影响直接奖励，还可以影响下一个状态，并通过下一个状态，影响到随后而来的奖励。这两个特征 -试错法和延迟奖励- 是强化学习的两个重要特征。

强化学习主要由以下几个核心元素组成：

状态（State）：反映环境或系统当前的情况。
动作（Action）：智能体在特定状态下可以采取的操作。
奖励（Reward）：一个数值反馈，用于量化智能体采取某一动作后环境的反应。
策略（Policy）：一个映射函数，指导智能体在特定状态下应采取哪一动作。

这四个元素共同构成了马尔可夫决策过程（Markov Decision Process, MDP），这是强化学习最核心的数学模型。

在LM中，“状态”指提示词+之前生成的token， “动作”指下一个token，而“策略”指根据上文生成下个token的方法（也就是LLM生成过程本身）。换句话说，SFT是在模仿生成人类回答的可能性，概率越高越好；而RL训练则是将模型的生成过程作为行动的策略，以获得最高奖励。

2.1 奖励函数构建

我们遇到的第一个问题是：“如何构建奖励函数？”

在数学、编程等可验证性强的领域，可以用可验证奖励强化学习（RLVR）来构建奖励函数。具体来说，RLVR通过构建一系列明确的规则，来计算最终奖励。该方法可靠性较强，但试用场景受限，仅限于数学、编程等可验证领域。DeepSeek R1就在部分领域采用了这个方法。

对于难以用特定规则的领域，则需要训练一个奖励模型(reward model)，以判断输出的奖励。常见的范式包括基于人类反馈的强化学习(RLHF)以及基于AI反馈的强化学习(RLAIF)。

实践过程中，绝对分数很难统一，比如一篇英语作文，新疆的判卷老师能打到13分，而浙江的判卷老师可能只会给11分（狗头保命）。因此，改为让人类或AI标注数据间的相对优劣关系，来训练最终的奖励模型。

有了相对好坏，那么损失函数思路也就出来了：让好答案得分高于差答案。一个常见的损失函数是Rank Loss，也就是对每对数据，最大化好答案与差答案的得分差值：

其中，分别表示一对答案中的提示词、好答案、差答案，表示奖励函数，而表示sigmoid函数（归一化）。

2.2 策略优化算法

~~真正的重头戏才刚刚开始~~

有了奖励函数，该如何优化策略呢？

2.2.1 策略梯度

一个直观的想法：**强化学习的目标就是找到那些可能获得更多奖励的动作，使它们对应的概率更大。**因此，我们定义的最大化目标函数如下：

其中为Agent产生的状态(s)-动作(a)轨迹，代表生成路径的策略，代表奖励函数，而代表参数为时生成路径的概率，这个概率可以拆分成状态转移概率与动作生成概率之积，公式如下：

为了优化模型，我们还需要求出梯度，也就是计算对的导数：

将P表示为对数形式后，有：

其中，状态转移概率只与环境有关，与参数无关。

利用轨迹样本对期望进行近似，有：

根据梯度，我们可以更新参数：

上面的方法为策略梯度方法，好处是简单直接（至少在实现撒行），坏处是学习率不合适时策略可能更差。

为了评估参数的好坏，我们引入一个回报函数：

2.2.2 TRPO

为了让策略单调不减，一个直观的想法是把新策略的回报表示为旧策略的回报加一个其他项。只要保证加的项非负，策略的回报函数值就不会减小。TRPO的起点就是以下等式：

其中，优势函数意义为状态s下选择动作a的回报相对与均值的好坏，定义如下：

为了在起点公式中加入策略项，我们需要把优势函数的期望做如下转化：

其中，表示在状态s对整个动作空间求和，表示对第t步出现的状态求和，而表示对整个时间序列求和。

定义,则：

在此基础上，TRPO还引入了一下几个技巧：

（1）**对状态分布进行处理。**上述等式右边的状态分布仍然依赖未知的、新的策略函数，此时，在参数改动很小的情况下，可以用旧的状态分布近似表示新的状态分布。改进后上面的式子如下：

（2）**利用重要性采样对动作分布进行处理。**通过把动作求和换成重要性采样，我们可以将右式转换为期望：

经过以上两步，我们用代替了。可以证明，二者在旧策略处一阶近似，因此在旧策略附近能改善L的策略也能改善η。

为了更精确地确定改进的步长，有如下不等式：

这个不等式估计了的下界，记为。利用这个下界，我们可以得到如下单调性：

因此，优化M也能优化η。将“优化M”的目标形式化如下：

直接用C的迭代步长很小，因此可将KL散度项作为限制条件：

注意到，有无穷多的状态，因此约束条件

有无数多个，不可解。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

收藏备用！从SFT到RL——LLM是这样炼成的

Part0 前置知识

1 大语言模型

2 大语言模型训练范式

Part1 监督微调（ SFT ）

1.1 SFT概述

1.2 SFT数据

1.3 SFT训练方式

Part2 强化学习 ( RL )

2.0 强化学习介绍

2.1 奖励函数构建

2.2 策略优化算法

2.2.1 策略梯度

2.2.2 TRPO

如何学习大模型 AI ？

① 全套AI大模型应用开发视频教程

② 大模型系统化学习路线

③ 大模型学习书籍&文档

④ AI大模型最新行业报告

⑤ 大模型项目实战&配套源码

⑥ 大模型大厂面试真题

以上资料如何领取？

为什么大家都在学大模型？

这些资料真的有用吗？

以上全套大模型资料如何领取？

大模型智能体开发指南：文件系统如何优化Agent性能！

ComfyUI集成Qwen3-14B的可能性探索：视觉+语言新组合

GPT-5.2震撼上线！性能碾压人类专家，程序员必学大模型技术，建议收藏

CompTIA CV0-004 Cloud+ 認證考試完整介紹

PyTorch安装避坑指南 + vLLM性能调优技巧

AutoGPT与Metabase Plus集成：增强版报表自动化

Part0 前置知识

1 大语言模型

2 大语言模型训练范式

Part1 监督微调 （ SFT ）

1.1 SFT概述

1.2 SFT数据

1.3 SFT训练方式

Part2 强化学习 ( RL )

2.0 强化学习介绍

2.1 奖励函数构建

2.2 策略优化算法

2.2.1 策略梯度

2.2.2 TRPO

如何学习大模型 AI ？

① 全套AI大模型应用开发视频教程

② 大模型系统化学习路线

③ 大模型学习书籍&文档

④ AI大模型最新行业报告

⑤ 大模型项目实战&配套源码

⑥ 大模型大厂面试真题

以上资料如何领取？

为什么大家都在学大模型？

这些资料真的有用吗？

以上全套大模型资料如何领取？

大模型智能体开发指南：文件系统如何优化Agent性能！

ComfyUI集成Qwen3-14B的可能性探索：视觉+语言新组合

GPT-5.2震撼上线！性能碾压人类专家，程序员必学大模型技术，建议收藏

CompTIA CV0-004 Cloud+ 認證考試完整介紹

PyTorch安装避坑指南 + vLLM性能调优技巧

AutoGPT与Metabase Plus集成：增强版报表自动化

Part1 监督微调（ SFT ）