一、为什么当下 LLM 强化学习备受关注?
LLM 的训练过程分为两个阶段:预训练(Pre-training)和后训练(Post-training)。预训练阶段旨在奠定语言能力基础,而后训练阶段则让模型掌握对用户有用的行为模式。自 2022 年 ChatGPT 问世以来,强化学习(RL)在后训练中扮演了举足轻重的作用。
强化学习在LLM 应用中的重要性
图片来源:Beyond Pipelines: A Survey ofthe Paradigm Shift toward Model-Native Agentic AI
首先,ChatGPT 的成功离不开 RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)。通过收集人类对回答质量的评估数据,模型学习了一个奖励模型(Reward Model),并利用该模型最大化 LLM 的奖励。这一过程中使用的算法正是PPO。PPO 使得 LLM 能够生成对人类来说更自然、更有用的回答。
然而,PPO 面临着挑战:需要同时处理奖励模型和 LLM 本身,导致训练复杂且计算成本高昂。为解决这一问题,DPO应运而生。DPO 无需通过奖励模型,直接从人类偏好数据中训练 LLM,极大简化了训练流程。
2024 年下半年,强化学习的角色发生了显著变化。OpenAI 的 o1 和 DeepSeek-R1 等推理模型的出现,标志着新的里程碑。DeepSeek-R1 采用了GRPO算法,通过强化学习获得了“停下来思考”、“发现错误并修正”等推理能力。GRPO 摒弃了 PPO 中所需的 Critic 模型,进一步提高了学习效率。2025 年,字节跳动(ByteDance)发布了 GRPO 的改进版DAPO,预示着该领域仍在快速发展。
LLM 的定制化方法中,除了强化学习,还有监督微调(SFT,Supervised Fine-Tuning)。SFT 通过大量“输入-输出”正确配对的数据进行学习。而强化学习则是基于“任务是否完成”、“是否出现错误”等评估标准(奖励)进行学习(这两种方法在基础模型学习阶段均有应用)。强化学习的一大优势在于,它无需准备大量完美的正确数据。SFT 可能需要数千到数万个正确配对,而强化学习只要定义好评估标准,即使数据量相对较少也能发挥作用。许多企业对定制化 AI 来适应自身工作流兴趣浓厚,但往往面临“无法获取足够的正确数据”的困境。笔者认为,到 2026 年,强化学习有望成为解决这一难题的有力方案。
本文将为定制 LLM 的构建做准备,带您全面了解 LLM 强化学习领域的关键技术——PPO、DPO、GRPO、DAPO。我们将探讨这些方法解决了哪些问题,它们是如何演进的,并结合数学公式直观地进行解释。那么,让我们一同深入探索吧!
以下是本文对 LLM 强化学习方法的解读路线图:
二、强化学习的宏观演进:从基于价值到基于策略
强化学习主要分为两大类方法。理解这两个基本点是掌握策略梯度法的第一步。
基于价值的方法(Value-Based Methods)
以 DQN(Deep Q-Network)为代表的基于价值的方法,通过计算“当前状态有多有利”的价值,并选择能达到最高价值的行为。以象棋为例,就如同观察棋盘后判断当前局面“胜率 80%”,然后走出能最大化这个评估值的棋步。
基于价值的方法在 Atari 游戏等离散动作空间(例如“向右走”、“跳跃”)中取得了巨大成功。然而,对于像机械臂控制这种连续动作空间(例如“关节旋转 32.5 度”),这种方法就显得难以处理了。
本文将不再深入探讨基于价值的方法,但它确实是强化学习的重要基础概念。感兴趣的读者可以参考以下书籍进行了解。
基于策略的方法(Policy-Based Methods)
另一方面,策略梯度法(Policy-Based Methods)不通过价值计算,而是直接学习针对特定状态(情况)应该以“多大的概率执行何种行动”的策略(Policy)π。
这就好比学习骑自行车:当身体向右倾斜时,反射性地向左转动车把,这种将状态直接映射到行动的肌肉记忆。
基于策略的方法的优势在于能够自然地处理连续动作空间。相较于基于价值的方法“比较所有行动的价值并选择最大值”,基于策略的方法能够直接输出“在这种情况下如何行动”的映射,因此可以轻松处理像机械臂角度控制这样的连续值。此外,它还能自然地表达概率性策略,允许“以 70% 的概率选择 A,以 30% 的概率选择 B”这种灵活的行动选择。鉴于 LLM 的文本生成是基于概率分布选择下一个 token,策略梯度法与 LLM 的特性也高度契合。
三、策略梯度法:REINFORCE 基础算法
策略梯度法最基本的算法为REINFORCE,由 Ronald J. Williams 于 1992 年提出。
什么是策略(Policy)?
在策略梯度法中,策略通常表示为一个函数(例如神经网络):
- s:状态(State)- 输入
- a:行动(Action)- 输出
- ****:参数(神经网络的权重)
这个函数输出在给定状态 s 下,采取行动 a 的概率。
例如,对于机器人行走:
- 输入 s:当前关节角度、倾斜度
- **策略 **:神经网络
- 输出 a:“迈出右脚的概率:80%”、“迈出左脚的概率:20%”
学习机制
策略梯度法学习的目标是“调整概率分布,使最终获得的累计奖励(收益)增加”。其优化目标(需要最大化的函数)是期望收益:
其中 是轨迹(状态和行动的序列), 是从该轨迹中获得的累计奖励。
学习的更新公式(策略梯度定理)如下:
在实际应用中,通常通过采样轨迹来近似:
这个公式的含义非常简单:
- ****:AI 选择某个行动的概率
- **R (Reward)**:采取该行动后,最终结果的好坏程度
- ****:学习率
工作原理:
- 如果结果是好的(R 为正),则增加采取该行动的概率()。
- 如果结果是坏的(R 为负),则降低采取该行动的概率()。
通过反复进行这个过程,AI 会逐渐学会以更高的概率选择那些能够带来“好结果”的行动。
REINFORCE 的挑战
REINFORCE 直观且简单,但也存在一些重大问题:
- 学习不稳定(方差大):因为它要等到整个任务结束才根据“最终结果”进行判断。如果偶然获得了一个很高的奖励(“侥幸”),它可能会过度强化一个本来不好的行动。例如,在剪刀石头布中,如果出了“石头”偶然赢了,它可能会学习到“石头是好手!”然后下次就一直出“石头”。
- 数据效率低下:为了学习,它需要大量的尝试次数(回合,episode)。由于奖励反馈延迟,它需要很长时间才能学会什么是好,什么是坏。为了解决这些问题,下一代算法应运而生。
四、Actor-Critic:策略与价值的融合
为了克服 REINFORCE 的不稳定性,Actor-Critic架构应运而生。这一概念最早可追溯到 Barto 等人于 1983 年的研究。
两种角色:Actor 和 Critic
Actor-Critic 模型中包含两个相互协作的神经网络:
Actor(行动者)
- 职责:负责实际决策(策略 )
- 工作:根据当前情况,以概率方式决定执行“向右走”、“跳跃”等动作
- 形象:一名运动员
Critic(评论者/评估者)
- 职责:评估 Actor 行为好坏的评分员(价值函数 或 )
- 工作:根据当前状态和行动,预测“这种行为未来可能带来多少收益”
- 形象:一名专属教练
为何需要两者协作?
REINFORCE 模型需要等到任务结束后才根据“最终结果”进行判断。这种方式较为粗糙,甚至可能对“侥幸取胜”也给予过高评价。
而 Actor-Critic 模型由于有教练(Critic)的参与,可以进行更细致的评估。每次 Actor 采取行动后,Critic 都会立即提供反馈,比如“这次表现不错!”或“这次选择有点欠妥”。
学习机制
学习过程循环往复,遵循以下步骤:
- Actor 观察当前状态 ,执行行动 。
- Critic 根据行动结果,计算“实际表现比预期好还是差”(即计算优势函数)。
- “比预期好!”→正面评价
- “比预期差……”→ 负面评价
- Actor 更新:Actor 依照 Critic 的评价,增加正确行动的概率,降低错误行动的概率。
- Critic 更新:Critic 根据实际结果修正自己的评分能力(即价值估计),确保其判断的准确性。
在数学上,通常使用优势函数来代替传统策略梯度:
这里的 被称为优势函数,它是由 Critic 计算出的“比平均期望值好多少”的数值:
其中,
- 表示“在状态 下采取行动 后,预期获得的累计奖励” (=衡量当前选择“综合好坏”的指标)。
- 表示“从状态 出发,尽力而为时预期获得的累计奖励”(=仅仅处于该状态所能获得的平均期望值)。
数值化地表示了“在当前情境下,偶然选择了 后,相对于平均水平是获得了多少收益(或损失了多少)”。
A2C / A3C 的出现
DeepMind 于 2016 年发布了A3C(Asynchronous Advantage Actor-Critic)及其同步版A2C(Advantage Actor-Critic),将 Actor-Critic 的概念付诸实践。
这些算法通过并行运行多个 Actor(智能体)来收集数据,从而加速学习。A3C 在当时在 Atari 游戏的基准测试中取得了巨大成功,证明了 Actor-Critic 架构的有效性。
Actor-Critic 的挑战
尽管 Actor-Critic 使得学习更加稳定,但仍存在一个根本性问题:
学习率(步长)的调整极其困难
- 学习率过低:学习速度慢。
- 学习率过高:可能导致“策略崩塌(Policy Collapse)”。
一旦进行了错误的更新,AI 可能会采取混乱的行动,导致产生的数据质量下降,从而无法恢复到原有的智能水平。这就像“从悬崖上坠落”一样。为了解决这个问题,需要更具理论严谨性的方法。
OpenAI 在开发 GPT 时使用的 PPO 算法就涉及了这个问题。所以,让我们努力理解下一个关键算法 TRPO!
五、TRPO:基于信任域的安全学习
2015 年,加州大学伯克利分校的 John Schulman 等人提出了TRPO(Trust Region Policy Optimization:信任域策略优化)(TRPO 的理论基础源于 Kakade 和 Langford 在 2002 年的研究)。
这是一个开创性的算法,它以数学上严谨的方式解决了策略梯度法中最大的挑战——“学习的不稳定性”。该算法在 ICML 2015 上发表,并在机器人行走控制、Atari 游戏等广泛任务中证实了其有效性。
TRPO 的核心思想
简而言之,TRPO是一种“在确保‘绝不恶化’的安全区域(信任域)内,尽可能大幅推进学习的方法”。传统的策略梯度法面临着“在不跌落悬崖的边缘,尽可能大步前进”的问题。TRPO 将其建模为一个数学约束。
信任域与 KL散度
TRPO 在更新策略(AI 的行动概率)时,施加了一个严格的约束(刹车),即“在更新前后,策略不能改变太多”。为了衡量这种“改变太多”,它使用了 **KL 散度(Kullback-Leibler Divergence)**这一指标。
TRPO 的优化问题可以公式化为:
- 目标函数:最大化期望奖励。
- 约束条件:旧策略 和新策略 之间的 KL 散度必须保持在允许范围 (信任域)内。
正是由于这个约束,TRPO 在理论上更容易实现稳定的学习。
TRPO 的优缺点
优点:
- 学习非常稳定:性能几乎不会出现灾难性下降(模型不会突然“变蠢”)。
- 参数调整更容易:无需精细调整学习率,只需确定信任域的大小()即可。
**缺点:-计算量大:为了遵守约束并进行优化,需要进行“Hessian 矩阵(二阶导数)”这种巨大的矩阵计算,以及共轭梯度法(Conjugate Gradient)等复杂的处理。
- 难以实现:正确实现需要较高的数学知识。
TRPO在理论上非常优雅,但其高昂的计算成本成为实际应用中的瓶颈。
六、PPO:TRPO 的简化与实践
如何改进 TRPO 繁重的计算?2017 年,John Schulman 等人提出的PPO(Proximal Policy Optimization:近端策略优化)给出了答案。
PPO 是目前广泛使用的强化学习方法。据称,OpenAI 的 GPT-3.5/4 在强化学习阶段(RLHF)也主要使用了 PPO。
PPO 的定位:TRPO 的“精髓吸取者”
大模型入门(七)—— RLHF中的PPO算法理解
PPO摒弃了 TRPO 复杂的数学(二阶导数和带约束优化),转而采用了一种名为“Clipped”的简单技巧,从而实现了与 TRPO 相当的稳定性。
- TRPO:通过数学上严谨地计算“信任域”,小心翼翼地前进,避免超出范围(重甲装备)。
- PPO:简化计算,但如果变化过大,则会强制忽略(Clipped)(轻甲装备,更实用)。
PPO 的核心:Clipping(裁剪)
PPO 的强大之处在于其学习更新公式(目标函数)中集成的“裁剪功能”。首先,我们定义概率比 :
- 如果 ,表示没有变化。
- 如果 ,表示概率翻倍。
- 如果 ,表示概率减半。
PPO 的目标函数 (PPO-Clip) 如下:
其中 通常取 0.1 到 0.2 左右的值。
这个公式的含义是:
- 如果概率比 在 范围内,则正常更新。
- 如果超出范围,则“裁剪(Clip)”超出部分的更新,将其忽略。
具体示例:
假设我们得到了“当前行动非常好”的数据。
-传统策略梯度:“好!那就把采取这个行动的概率提高 100 倍!” → 危险。如果那只是偶然,AI 的策略就会被破坏。
- PPO:“好,提高概率。但是,只允许提高到上次的 1.2 倍。如果改动过于极端,风险太大,所以忽略(Clip)超出部分。” → 安全。可以稳步前进。
正是这种“简单的妥协”使得学习变得稳定,而无需进行复杂的计算。
PPO 的优势
PPO 在全球范围内广泛使用的原因如下:
- 易于实现:无需 TRPO 那样复杂的矩阵计算,可以使用基本的深度学习框架(如 PyTorch 和 TensorFlow)轻松编写。
- 计算量小:只需一阶导数(普通的梯度下降法),因此计算速度快。
- 对超参数不敏感:需要调整的参数较少,即使使用默认设置也能获得不错的性能。
PPO 的实际应用
PPO 已在各种场景中得到实际应用:
- **ChatGPT (RLHF)**:在根据人类编写的理想回答(奖励模型)微调语言模型时,使用了 PPO。OpenAI 在 InstructGPT 论文(2022 年) 中详细阐述了 RLHF 的方法。
- **OpenAI Five (Dota 2)**:击败职业玩家团队的 AI 也是基于 PPO 进行训练的。
- 机器人控制:在模拟环境中控制机器人行走等任务中,PPO 也被作为标准方法使用。
七、DPO:简化强化学习的挑战
尽管 PPO 成为主流,2023 年斯坦福大学的 Rafael Rafailov 和 Chelsea Finn 提出了一个截然不同的方法:DPO(Direct Preference Optimization:直接偏好优化)。
这彻底颠覆了之前讨论的“强化学习(PPO)”的核心思想。【图解LLM · RL】之:DPO详解/β参数/对比RLHF/Prompt收集
DPO 的核心思想
一言以蔽之,DPO是一种**“抛弃了奖励模型、PPO 和 Critic,只用与普通学习(监督学习)一样简单的计算,就能创建出符合人类偏好的 AI 的方法”**。
过去的困扰:RLHF 的复杂性
PPO 面临的问题是,需要同时在内存中加载“奖励模型”、“Actor”和“Critic”共三个模型,这使得调整复杂,也容易导致训练失败。
DPO 的研究人员发现,“经过推导,强化学习(PPO)所要解决的数学公式(最大化问题),实际上可以不使用‘奖励模型’,而是直接从‘人类选择的数据’中更新 AI,得到一个简化的公式”。具体来说,他们证明了 RLHF 的最优解可以写成以下形式:
通过变形,奖励函数 可以用策略 表示:
DPO 的损失函数
这一发现使 DPO 的损失函数变得异常简洁:
其中:
-x:输入(问题)
- ****:获胜回答(人类选择的优秀回答)
- ****:失败回答(人类选择的不佳回答)
- ****:Sigmoid 函数
- ****:温度参数(控制与原始模型偏离的程度)
这意味着,无需麻烦地构建“评审员(奖励模型)”,只要有“A 和 B 哪个更好?”这样的数据(偏好数据),就可以直接让 AI 变得更智能。
DPO 的学习过程
DPO的学习过程非常简单:
- 准备数据:准备“问题”以及对应的“获胜回答()”和“失败回答()”对。
- 学习:按照以下规则更新 AI(神经网络):
- 增加生成“获胜回答”的概率。
- 降低生成“失败回答”的概率。
- 但要避免与原始模型(参考模型,Reference Model)偏离过远。
仅此而已。无需 Critic、无需价值函数、无需奖励模型。计算方式与解决普通“分类问题(这是狗还是猫)”几乎相同,使用“二元交叉熵(Binary Cross Entropy)”,因此非常稳定,计算成本也远低于 PPO。
“
PPO 与 DPO 对比
PPO 需要同时处理 Actor、Reference、Critic 和Reward Model 四个模型,导致内存消耗巨大,参数调整困难,实现复杂,且容易出现训练失败。但如果调整得当,可以发挥出强大的性能。
另一方面,DPO 仅需 Actor 和 Reference 两个模型,大大降低了内存消耗。它的学习过程非常稳定,实现起来也只需对 SFT 代码稍作修改。由于学习稳定,DPO 在提升性能方面也具有优势。
DPO 的实际应用
DPO 在开源 AI 社区得到了爆发式普及:
- Meta 公司“Llama 3”:目前全球使用最广泛的开源模型。其技术报告明确指出“结合使用了 PPO 和 DPO”。(《Llama 3 模型群》)
- Hugging Face “Zephyr”:在一项令人震惊的 研究结果 中,Zephyr 表明通过对普通模型 Mistral 使用 DPO,其聊天性能甚至优于规模大数倍的 Llama 2(使用 PPO 训练)。这直接引爆了 DPO 的热潮。
- 阿里巴巴“通义千问 2 / 通义千问 2.5”:这款性能被誉为堪比 GPT-4 的中国模型也采用了 DPO。
“
DPO 普及的原因
实施 PPO 需要大量昂贵的高端 GPU(如 H100),只有谷歌或 OpenAI 这样的大公司才能有效处理。而 DPO 内存消耗低,计算简单,使得大学研究室和个人开发者也能进行“ChatGPT 式的调整”。这种便利性被认为是 DPO 普及的关键原因。
DPO与 PPO/GRPO 的应用场景区分
那么,PPO 是否已经过时了呢?实际上并非如此。每种方法都有其擅长的领域。
DPO 擅长(离线学习・风格调整):
当需要从现有配对数据中学习偏好,例如“说得更客气些”、“不要带有歧视性言论”时。DPO 学习稳定,计算成本低,但其在数据之外挖掘未知能力的能力有限。
PPO/GRPO 擅长(在线学习・探索):
当需要让 AI 反复试错,自我发现数据中不存在的“新解法”(探索)时。只要能定义奖励函数,PPO/GRPO 就可以应用于数学、代码,甚至推理任务、图像生成、机器人控制等更广泛的领域。特别是 GRPO,由于无需 Critic 模型,更适合大规模模型的训练。
八、GRPO 的诞生
至此,我们已经见证了策略梯度法的演进:
- REINFORCE:最基本的策略梯度法
- Actor-Critic:引入 Critic 使其稳定
- TRPO:通过数学上严谨的信任域确保安全性-PPO:简化 TRPO 并使其更实用
- DPO:避免强化学习过程,直接进行优化
在 2024 年,DeepSeek 提出了GRPO(Group Relative Policy Optimization)。DeepSeekMath 论文将 GRPO 描述为“PPO 的变种,旨在提升数学推理能力,并优化 PPO 的内存使用”。
“
GRPO 的首次亮相:DeepSeekMath
GRPO 最早于 2024 年 2 月在 DeepSeekMath 中提出。随后,在 2025 年 1 月的 DeepSeek-R1 中引起了广泛关注。
现在我们终于聊到了 GRPO。### GRPO 的背景
PPO 虽是强大的方法,但在应用于 LLM 时却面临“成本问题”。
- PPO 的机制:需要 Actor(生成文本的 AI)和 Critic(评估文本的 AI)两个部分。
- 问题:如果 Actor 庞大(例如 700 亿参数),那么 Critic 也需要同样庞大。这意味着内存(VRAM)需求翻倍,计算成本也随之飙升。
“仅仅为了评估,就再准备一个如此庞大的 AI 太笨重了……有没有办法让 Actor 单独学习?”GRPO 正是为了解决这个难题而诞生的。
GRPO 的机制:“小组面试”模式
GRPO 摒弃了 Critic(专属教练)。取而代之的是,它通过“比较自己生成的多个回答”来判断优劣。
步骤:
- Group Sampling(批量生成):对于一个问题 q,让 AI 生成多个(例如 G 个)回答 。
- Scoring(评分):对这 G 个回答都打分 (例如,正确得1 分,错误得 0 分)。
- Group Relative Advantage(组内相对优势):计算组内的相对好坏。
优势函数的计算公式:
Optimization(优化):利用这种相对评价,GRPO 像 PPO 一样在裁剪的同时更新策略。GRPO 的目标函数如下:
让我们用一个直观的例子来理解。
PPO 与 GRPO 的直观比较
以“备考”为例进行说明:
PPO(家教模式):
- 学生(Actor)每写完一个答案,旁边的老师(Critic)就告诉他“这个答案值 80 分”。
- 缺点:请家教的费用很高。
GRPO(标准分模式):
- 没有老师。学生(Actor)一口气写完 64 份答案。
- 计算这 64 份答案的“平均分”,并将“比平均分做得好的答案”作为正确答案来学习。
- 优点:无需专属家教。
虽然您可能会觉得“64 份答案也很耗费精力!”,但从学习角度来看,拥有一个 Critic 模型实际上更耗费资源。
GRPO 的优势
1. 内存效率极高:
无需在内存中加载庞大的 Critic 模型(价值函数)。这使得在相同计算资源下,可以训练更大规模的模型,或使用更大的批次大小。2. 通用性强:
GRPO 能够灵活设计奖励函数,因此可应用于多种任务。只要能够定义奖励,它就能在数学、代码,以及推理任务、图像生成、机器人控制等广泛领域发挥作用。
GRPO 的多种应用实例
GRPO 最初因DeepSeek-R1 在数学推理方面的应用而受到关注,但目前已扩展到各个领域:
- 提升 LLM 推理能力:稳定和优化思维链(CoT)训练(arXiv:2509.24494)
- 图像・视频生成:根据人类偏好调整生成模型(arXiv:2511.16955)
- 视觉语言模型(VLM):增强图像理解和推理能力
- 机器人学:应用于连续控制任务(arXiv:2507.19555)
- 几何问题求解:提升辅助构造判断能力(arXiv:2506.07160)
Hugging Face TRL 库中也实现了 GRPOTrainer,作为通用的 LLM 对齐工具被广泛使用。
DeepSeek-R1 的成功
DeepSeek-R1 通过将 GRPO 与基于规则的奖励设计相结合,取得了令人瞩目的成就。
奖励设计(针对可验证任务):
- 准确性奖励(Accuracy Reward):用于数学问题或代码等可自动验证的任务。机械地判断最终答案是否正确。
- 格式奖励(Format Reward):判断思考过程是否写在
<think>...</think>标签内。
重要的一点:并没有明确要求模型“进行逻辑思考”。仅仅是要求它“使用标签”和“给出正确答案”。AI 却自行发现“在标签内写更多文字,似乎能提高正确率?”,并自然而然地开始进行长考(Chain of Thought)。
随着学习的深入,模型甚至在没有人教的情况下,开始进行“自我修正(Self-Correction)”。它发现,先写错一次,然后自行否定并重新修改,最终获得“准确性奖励”的概率更高。这就是 AI 不需人类教导便获得“思考能力”的内在机制。
扩展到一般任务:
值得一提的是,GRPO 可以自由设计奖励函数,因此也适用于可验证任务以外的场景。例如,在图像生成中可以使用学习了人类偏好的奖励模型;在机器人控制中可以使用物理模拟的奖励等,根据任务进行相应的奖励设计。
九、DAPO:GRPO 的进一步改进
GRPO 的成功促使了其进一步的改进。2025 年 3 月,字节跳动(ByteDance)公司发布了DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)。DAPO 在 GRPO 的基础上,进行了多项改进。
DAPO 也是 2025年的一项重要技术。
DAPO 的主要改进点
DAPO 对 GRPO 进行了以下四个方面的改进:
1. 非对称裁剪范围(Decoupled Clip)
PPO 和 GRPO 都使用对称的裁剪范围(例如:±0.2),而DAPO 则扩展了上限,并保持了下限。
例如,将下限 设为 0.2,上限 设为 0.28,可以更积极地强化好的行为。这有助于提升模型探索能力。
2. 动态采样(Dynamic Sampling)
DAPO 根据每个 token 的概率动态调整采样次数,从而提高学习效率。对于已经有很高概率能正确采样的样本,分配较少的资源;对于较难的样本,则分配更多资源。
3. Token 级别的损失函数
GRPO 对整个序列给出奖励,而 DAPO 则考虑每个 token 的损失,从而实现更精细的学习。
4. 过滤超长输出并施加惩罚
在LLM 的强化学习中,为了获得高奖励,模型通常会生成过长的输出(奖励作弊)。DAPO 采取了以下措施:
- 过滤极端过长的输出。
- 引入软长度惩罚。
通过这些改进,DAPO 实现了比 GRPO 更高的性能和学习效率。
从 GRPO 到 DAPO 的演进
GRPO 使用对称裁剪(±),而 DAPO 则引入了非对称裁剪(不同的 , )以提升探索能力。采样方面,GRPO 采用固定采样,而 DAPO则根据难度动态调整。损失函数上,GRPO 针对序列级别,DAPO 则改为 token 级别,实现了更精细的学习。此外,针对 GRPO 未涵盖的长度控制问题,DAPO 引入了过滤和惩罚机制。
DAPO 继承了 GRPO “排除 Critic 并提高效率”的设计理念,同时解决了大规模学习中出现的实际问题(如探索不足、奖励作弊等),可以说是一个经过实践检验的改良版本。
总结
本文从 REINFORCE → Actor-Critic → TRPO → PPO → DPO → GRPO → DAPO的演进脉络,详细介绍了 LLM 强化学习的主要方法。
PPO是结合了 Actor、Critic 和奖励模型的方法。其特点是基于裁剪的稳定学习,因在 ChatGPT 的 RLHF 中被采用而通用性强。然而,它需要同时处理多个模型,计算成本较高。
DPO是一种不使用奖励模型和 Critic,直接从人类偏好配对数据中训练 LLM 的方法。实现简单,学习稳定,因此被许多开源模型采用。另一方面,它在学习过程中生成新回答和进行探索的能力有限。
GRPOPPO 中排除了 Critic,通过组内相对评估来计算优势。只要能定义奖励函数,它就能进行学习,内存效率高,特别适用于大规模模型。DeepSeek-R1 采用了 GRPO,并成功提升了推理能力。
DAPO是 GRPO 的进一步改进版本。它通过非对称裁剪提升探索能力,通过动态采样提高效率,并采用 token 级别的损失函数等,针对大规模学习中出现的问题(如探索不足、奖励作弊等)进行了实践性改进。
在定制化 AI 以适应企业工作流时,许多企业都面临“无法获取足够正确数据”的挑战。强化学习由于只需定义评估标准即可进行学习,因此有望成为解决这一难题的有力方案。理解本文所阐述的方法演进,将极大地拓宽企业在利用强化学习时的选择。希望本文能为您提供帮助!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。