强化学习DeepQLearning求最优策略的代码实现-育师

理论基础：

可运行代码：

import numpy as np import torch from torch import nn from torch.utils import data from env import GridWorldEnv from utils import drow_policy class DeepQLearning(object): def __init__(self, env: GridWorldEnv, gamma=0.9): self.env = env self.action_space_size = self.env.num_actions self.state_space_size = self.env.num_states self.gamma = gamma self.policy = np.ones((self.state_space_size, self.action_space_size)) / self.action_space_size self.net = nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.target_net = nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.target_net.load_state_dict(self.net.state_dict()) self.optimizer = torch.optim.SGD(self.net.parameters(), lr=0.01, momentum=0.9) self.loss = nn.MSELoss() def data_iter(self, episode, batch_size=32, is_train=True): reward = [] state = [] action = [] next_state = [] for s, a, r, next_s in episode: reward.append(r) state.append((s // self.env.size, s % self.env.size)) # 有空间位置 next_state.append((next_s // self.env.size, next_s % self.env.size)) action.append(a) reward = torch.tensor(reward, dtype=torch.float32) state = torch.tensor(state, dtype=torch.float32) next_state = torch.tensor(next_state, dtype=torch.float32) action = torch.tensor(action, dtype=torch.long) data_arrays = (state, action, reward, next_state) dataset = data.TensorDataset(*data_arrays) return data.DataLoader(dataset, batch_size=batch_size, shuffle=is_train, drop_last=False) def solve(self, epochs, update_frep): s = self.env.reset() a = np.random.choice(self.action_space_size, p=self.policy[s]) episodes = [] for _ in range(self.action_space_size * self.state_space_size + 1): episode = self.env.generate_episodes(self.policy, s, a, max_steps=1000) episodes.extend(episode) dataloader = self.data_iter(episodes) step = 0 for epoch in range(epochs): for state, action, reward, next_state in dataloader: step += 1 with torch.no_grad(): q_value = self.target_net(next_state) # [B,N] max_q = q_value.max(dim=1).values y_target = reward + self.gamma * max_q # [B,] y = self.net(state) y_ = y.gather(1, action.unsqueeze(1)).squeeze(1) l = self.loss(y_target, y_) self.optimizer.zero_grad() l.backward() self.optimizer.step() if step % update_frep == 0: self.target_net.load_state_dict(self.net.state_dict()) def get_policy(self): for s in range(self.state_space_size): if s in self.env.terminal: self.policy[s, 4] = 1 break s_t = torch.tensor((s // self.env.size, s % self.env.size), dtype=torch.float32) q_value = self.net(s_t) a = q_value.argmax(dim=0).item() self.policy[s] = 0 self.policy[s, a] = 1 return self.policy if __name__ == '__main__': env = GridWorldEnv( size=5, forbidden=[(1, 2), (3, 3)], terminal=[(4, 4)], r_boundary=-1, r_other=0, r_terminal=1, r_forbidden=-1, r_stay=-0.1 ) # 注意samples要大一点，否则每个state被访问到的概率很小 vi = DeepQLearning(env=env, gamma=0.8) vi.solve(epochs=50, update_frep=20) policy = vi.get_policy() print(policy) drow_policy(policy, env)

加密PDF处理新进展（Dify进度跟踪深度剖析）

第一章：加密PDF处理新进展（Dify进度跟踪深度剖析）随着企业对文档安全性的要求日益提升，加密PDF的自动化处理成为技术攻关的重点方向。Dify作为新兴的AI工作流引擎，在处理受密码保护的PDF文件方面展现出显著进展&#x…

李华

从零构建智能Agent文档系统：Dify配置与最佳实践全揭秘

第一章：智能Agent文档系统的演进与Dify的崛起随着人工智能技术的深入发展，传统的静态文档系统已无法满足现代企业对实时交互、动态生成和智能响应的需求。智能Agent文档系统应运而生，它将自然语言处理、知识图谱与自动化工作流深度融合&#…

李华

高负载环境下Docker Offload调度失控？优先级设置不当是元凶！

第一章：高负载环境下Docker Offload调度失控？优先级设置不当是元凶！在高并发、高负载的生产环境中，Docker容器调度的稳定性直接影响服务的可用性与响应性能。当多个容器实例同时竞争CPU与I/O资源时，若未合理配置任务优…

李华

还在手动校验语音数据？Dify 1.7.0自动检测功能已上线（限时体验）

第一章：还在手动校验语音数据？Dify 1.7.0自动检测功能已上线（限时体验）Dify 1.7.0 正式引入语音数据自动校验功能，彻底告别低效的人工听写比对。该功能面向所有语音识别、语音质检和智能客服场景开放限时免费体验&…

李华

专家警告：不掌握量子计算镜像缓存技术，你的研发效率已落后同行三年

第一章：量子计算镜像的构建缓存在量子计算环境中，构建和管理镜像的缓存机制是提升系统效率的关键环节。由于量子模拟器和量子编译器通常依赖于大量预配置的运行时环境，合理利用缓存可显著减少重复构建时间，并优化资源调度。缓存策…

李华

对标行业高标准，全星研发项目管理系统赋能汽车芯片研发升级：PLM系统更专业化

对标行业高标准，全星研发项目管理系统赋能汽车芯片研发升级：PLM系统更专业化一、产品定位与核心理念全星研发项目管理APQP软件系统，是一款专为满足汽车部件、芯片半导体等高合规、高复杂性行业需求而设计的体系化研发管理平台。本系统超越…

李华