news 2026/6/23 19:06:12

强化学习DeepQLearning求最优策略的代码实现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习DeepQLearning求最优策略的代码实现

理论基础:

可运行代码:

import numpy as np import torch from torch import nn from torch.utils import data from env import GridWorldEnv from utils import drow_policy class DeepQLearning(object): def __init__(self, env: GridWorldEnv, gamma=0.9): self.env = env self.action_space_size = self.env.num_actions self.state_space_size = self.env.num_states self.gamma = gamma self.policy = np.ones((self.state_space_size, self.action_space_size)) / self.action_space_size self.net = nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.target_net = nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.target_net.load_state_dict(self.net.state_dict()) self.optimizer = torch.optim.SGD(self.net.parameters(), lr=0.01, momentum=0.9) self.loss = nn.MSELoss() def data_iter(self, episode, batch_size=32, is_train=True): reward = [] state = [] action = [] next_state = [] for s, a, r, next_s in episode: reward.append(r) state.append((s // self.env.size, s % self.env.size)) # 有空间位置 next_state.append((next_s // self.env.size, next_s % self.env.size)) action.append(a) reward = torch.tensor(reward, dtype=torch.float32) state = torch.tensor(state, dtype=torch.float32) next_state = torch.tensor(next_state, dtype=torch.float32) action = torch.tensor(action, dtype=torch.long) data_arrays = (state, action, reward, next_state) dataset = data.TensorDataset(*data_arrays) return data.DataLoader(dataset, batch_size=batch_size, shuffle=is_train, drop_last=False) def solve(self, epochs, update_frep): s = self.env.reset() a = np.random.choice(self.action_space_size, p=self.policy[s]) episodes = [] for _ in range(self.action_space_size * self.state_space_size + 1): episode = self.env.generate_episodes(self.policy, s, a, max_steps=1000) episodes.extend(episode) dataloader = self.data_iter(episodes) step = 0 for epoch in range(epochs): for state, action, reward, next_state in dataloader: step += 1 with torch.no_grad(): q_value = self.target_net(next_state) # [B,N] max_q = q_value.max(dim=1).values y_target = reward + self.gamma * max_q # [B,] y = self.net(state) y_ = y.gather(1, action.unsqueeze(1)).squeeze(1) l = self.loss(y_target, y_) self.optimizer.zero_grad() l.backward() self.optimizer.step() if step % update_frep == 0: self.target_net.load_state_dict(self.net.state_dict()) def get_policy(self): for s in range(self.state_space_size): if s in self.env.terminal: self.policy[s, 4] = 1 break s_t = torch.tensor((s // self.env.size, s % self.env.size), dtype=torch.float32) q_value = self.net(s_t) a = q_value.argmax(dim=0).item() self.policy[s] = 0 self.policy[s, a] = 1 return self.policy if __name__ == '__main__': env = GridWorldEnv( size=5, forbidden=[(1, 2), (3, 3)], terminal=[(4, 4)], r_boundary=-1, r_other=0, r_terminal=1, r_forbidden=-1, r_stay=-0.1 ) # 注意samples要大一点,否则每个state被访问到的概率很小 vi = DeepQLearning(env=env, gamma=0.8) vi.solve(epochs=50, update_frep=20) policy = vi.get_policy() print(policy) drow_policy(policy, env)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 22:34:03

加密PDF处理新进展(Dify进度跟踪深度剖析)

第一章:加密PDF处理新进展(Dify进度跟踪深度剖析)随着企业对文档安全性的要求日益提升,加密PDF的自动化处理成为技术攻关的重点方向。Dify作为新兴的AI工作流引擎,在处理受密码保护的PDF文件方面展现出显著进展&#x…

作者头像 李华
网站建设 2026/6/22 7:50:03

从零构建智能Agent文档系统:Dify配置与最佳实践全揭秘

第一章:智能Agent文档系统的演进与Dify的崛起随着人工智能技术的深入发展,传统的静态文档系统已无法满足现代企业对实时交互、动态生成和智能响应的需求。智能Agent文档系统应运而生,它将自然语言处理、知识图谱与自动化工作流深度融合&#…

作者头像 李华
网站建设 2026/6/23 1:02:13

高负载环境下Docker Offload调度失控?优先级设置不当是元凶!

第一章:高负载环境下Docker Offload调度失控?优先级设置不当是元凶!在高并发、高负载的生产环境中,Docker容器调度的稳定性直接影响服务的可用性与响应性能。当多个容器实例同时竞争CPU与I/O资源时,若未合理配置任务优…

作者头像 李华
网站建设 2026/6/22 23:04:33

还在手动校验语音数据?Dify 1.7.0自动检测功能已上线(限时体验)

第一章:还在手动校验语音数据?Dify 1.7.0自动检测功能已上线(限时体验)Dify 1.7.0 正式引入语音数据自动校验功能,彻底告别低效的人工听写比对。该功能面向所有语音识别、语音质检和智能客服场景开放限时免费体验&…

作者头像 李华
网站建设 2026/6/22 15:18:53

专家警告:不掌握量子计算镜像缓存技术,你的研发效率已落后同行三年

第一章:量子计算镜像的构建缓存在量子计算环境中,构建和管理镜像的缓存机制是提升系统效率的关键环节。由于量子模拟器和量子编译器通常依赖于大量预配置的运行时环境,合理利用缓存可显著减少重复构建时间,并优化资源调度。缓存策…

作者头像 李华
网站建设 2026/6/15 23:01:12

对标行业高标准,全星研发项目管理系统赋能汽车芯片研发升级:PLM系统更专业化

对标行业高标准,全星研发项目管理系统赋能汽车芯片研发升级:PLM系统更专业化 一、 产品定位与核心理念 全星研发项目管理APQP软件系统,是一款专为满足汽车部件、芯片半导体等高合规、高复杂性行业需求而设计的体系化研发管理平台。本系统超越…

作者头像 李华