大模型学习基础（五）强化学习（Reinforcement Learning，RL）初步-育师

前面的文章简单介绍过，传统的监督学习所使用的数据集是（特征，标签），有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案，而只是知晓一个大概正确的方向：如在下围棋时，第一步下在哪里？显然这个问题没有一个明确答案，这个时候使用强化学习显然比监督学习更加合适，因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示：

三要素：1.Actor，即模型；2.Environment，环境 3.Action，即模型的输出

Environment输入Observation给Actor，Actor输出一个Action给Environment，Environment回复一个Reward（奖励）分数给Actor，接着继续把Observation交给Actor，如此循环。模型训练的要求就是使得Reward最大，代表我们找到了最优的模型。

对于模型来说，Environment输入Observation给Actor，即代表模型从环境中提取到了状态信息，根据这个状态信息模型来判断下一步的动作；而模型输出的是一个分类的结果，即多个动作对应多个不同的概率；在输出概率分布以后要添加一定的随机性，使得每次的输出结果具有差异性，然后选择最大概率所对应的动作。

模型在选择一个动作之后，这个动作实际是对Environment发生，相应的Environment会给模型一个回馈Reward，然后再给模型一个新的Observation，模型继续选择新的动作，循环此过程。这个过程中的Reward会被累积下来，Reward越大，代表模型做出的动作越好。用表示reward累计，因为我们希望R越大越好，所以R取反可以直接作为损失函数，使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下：

需要注意的是，只有Actor本身是神经网络结构，而Env和Reward都是黑盒子，这意味着我们只能优化Actor的参数，而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数，有了模型Actor，显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时，模型能输出指定的值a？

这个时候的输出是可以明确的，这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理，即用交叉熵定义损失函数。如果不想要模型输出指定的值a，只需要对损失函数取反。

而实际的情况是，环境的状态S是由多个Si构成的，每训练一组S-a即训练一个多分类问题，把这些问题的损失函数（交叉熵）加在一起，即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问：上述介绍的问题似乎都是监督学习问题，即可以明确正确输出的标签，与reward又有什么关联呢？这个问题将在下一讲给出答案。

VibeVoice-Large-Q8：语音模型存储与性能的革命性突破——8位选择性量化技术深度解析

在语音合成技术快速发展的今天，模型性能与硬件资源的矛盾日益凸显。VibeVoice-Large-Q8的横空出世，以其创新性的8位选择性量化技术，成功解决了这一难题，成为首款实现可用级效果的8位VibeVoice模型。该模型不仅在存储体积上实现了显…

李华

腾讯开源双引擎AI模型：混元3D开创多模态创作新纪元，千倍效率革命重塑数字内容生产

腾讯开源双引擎AI模型：混元3D开创多模态创作新纪元，千倍效率革命重塑数字内容生产【免费下载链接】Hunyuan3D-1 项目地址: https://ai.gitcode.com/hf_mirrors/tencent/Hunyuan3D-1 近日，中国科技巨头腾讯对外公布了其在人工智能领域…

李华

Csharp学习笔记——常用类、集合框架、泛型、字典精华总结

思维导图总结不知不觉在Csharp的学习已经投入快1个月了，这1个月下来学习的东西还是挺多的，前面也分享了两篇博客，这是我的第三篇博客了，这周学习了很多东西，主要学习了集合框架、字典、泛型等等，所以一周一…

李华

下载神器downkyi：5分钟掌握任务优先级管理技巧

下载神器downkyi：5分钟掌握任务优先级管理技巧【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取、去水印等）。…

李华

63.测试策略-领域模型测试集成测试实操方法-附测试框架选择

63 测试策略：领域模型测试、集成测试的实操方法你好，欢迎来到第 63 讲。在软件工程领域，有一句经典名言：“未经测试的代码，都是不可信的。” 这对于承载着核心业务逻辑的 DDD 应用来说，更是至理名言。一个设计精良的领域模型，除了要具备业务表达力、灵活性和高性能…

李华

matlab debug 调试程序

VibeVoice-Large-Q8：语音模型存储与性能的革命性突破——8位选择性量化技术深度解析

腾讯开源双引擎AI模型：混元3D开创多模态创作新纪元，千倍效率革命重塑数字内容生产

Csharp学习笔记——常用类、集合框架、泛型、字典精华总结

下载神器downkyi：5分钟掌握任务优先级管理技巧

63.测试策略-领域模型测试集成测试实操方法-附测试框架选择