news 2026/6/24 4:25:48

大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

前面的文章简单介绍过,传统的监督学习所使用的数据集是(特征,标签),有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案,而只是知晓一个大概正确的方向:如在下围棋时,第一步下在哪里?显然这个问题没有一个明确答案,这个时候使用强化学习显然比监督学习更加合适,因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示:

三要素:1.Actor,即模型;2.Environment,环境 3.Action,即模型的输出

Environment输入Observation给Actor,Actor输出一个Action给Environment,Environment回复一个Reward(奖励)分数给Actor,接着继续把Observation交给Actor,如此循环。模型训练的要求就是使得Reward最大,代表我们找到了最优的模型。

对于模型来说,Environment输入Observation给Actor,即代表模型从环境中提取到了状态信息,根据这个状态信息模型来判断下一步的动作;而模型输出的是一个分类的结果,即多个动作对应多个不同的概率;在输出概率分布以后要添加一定的随机性,使得每次的输出结果具有差异性,然后选择最大概率所对应的动作。

模型在选择一个动作之后,这个动作实际是对Environment发生,相应的Environment会给模型一个回馈Reward,然后再给模型一个新的Observation,模型继续选择新的动作,循环此过程。这个过程中的Reward会被累积下来,Reward越大,代表模型做出的动作越好。用表示reward累计,因为我们希望R越大越好,所以R取反可以直接作为损失函数,使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下:

需要注意的是,只有Actor本身是神经网络结构,而Env和Reward都是黑盒子,这意味着我们只能优化Actor的参数,而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数,有了模型Actor,显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时,模型能输出指定的值a?

这个时候的输出是可以明确的,这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理,即用交叉熵定义损失函数。如果不想要模型输出指定的值a,只需要对损失函数取反。

而实际的情况是,环境的状态S是由多个Si构成的,每训练一组S-a即训练一个多分类问题,把这些问题的损失函数(交叉熵)加在一起,即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问:上述介绍的问题似乎都是监督学习问题,即可以明确正确输出的标签,与reward又有什么关联呢?这个问题将在下一讲给出答案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 8:28:26

matlab debug 调试程序

设置断点(一般在循环之前),点击运行然后点step分步运行点击Quit Debugging 退出调试 如果有改动,保存程序之后,才可以重新设置断点

作者头像 李华
网站建设 2026/6/23 20:23:47

Csharp学习笔记——常用类、集合框架、泛型、字典精华总结

思维导图总结不知不觉在Csharp的学习已经投入快1个月了,这1个月下来学习的东西还是挺多的,前面也分享了两篇博客,这是我的第三篇博客了,这周学习了很多东西,主要学习了集合框架、字典、泛型等等,所以一周一…

作者头像 李华
网站建设 2026/6/23 22:00:12

下载神器downkyi:5分钟掌握任务优先级管理技巧

下载神器downkyi:5分钟掌握任务优先级管理技巧 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。…

作者头像 李华
网站建设 2026/6/23 18:51:04

63.测试策略-领域模型测试集成测试实操方法-附测试框架选择

63 测试策略:领域模型测试、集成测试的实操方法 你好,欢迎来到第 63 讲。 在软件工程领域,有一句经典名言:“未经测试的代码,都是不可信的。” 这对于承载着核心业务逻辑的 DDD 应用来说,更是至理名言。 一个设计精良的领域模型,除了要具备业务表达力、灵活性和高性能…

作者头像 李华