SARSA 强化学习-育师

摘要：SARSA是一种基于在线策略的强化学习算法，其名称来源于"状态-动作-奖励-状态-动作"的学习序列。该算法通过Q值迭代更新，使智能体在环境中通过试错法学习最优策略。核心流程包括Q表初始化、ε-贪婪策略选择动作、执行动作获取奖励、更新Q值并选择新动作。与Q学习相比，SARSA采用在线策略更新，收敛较慢但更稳定，适用于医疗、交通管理等安全性要求高的场景。两者主要区别在于策略类型、更新规则和适用环境。

SARSA 强化学习

什么是 SARSA？

SARSA 的核心组件

SARSA 算法的工作原理

SARSA 与 Q 学习的对比

SARSA 强化学习

什么是 SARSA？

SARSA（State-Action-Reward-State-Action，状态 - 动作 - 奖励 - 状态 - 动作）是一种强化学习算法，用于描述学习过程中的一系列事件。它是一种有效的 “在线策略（On Policy）” 学习技术，能帮助智能体在各种情况下做出正确选择。SARSA 的核心思想是试错法：智能体在某一情境下采取行动，观察结果，并根据结果调整其策略。

例如，假设你正在教一个机器人穿越迷宫。机器人从某个特定位置出发（即 “状态”），你的目标是找到通往迷宫终点的最佳路径。机器人在每一步都可以选择向不同方向移动（即 “动作”）。我们会以奖励的形式给机器人提供反馈（正向或负向），以指示其表现好坏。

SARSA 算法的 Q 值更新公式如下：

Updated Q-value：更新后的 Q 值
Current Q-value：当前 Q 值
Target Q-value：目标 Q 值
Current Q-value：当前 Q 值

SARSA 的核心组件

SARSA 算法的核心组件包括：

状态（S）：状态是环境的反映，包含智能体当前处境的所有细节。
动作（A）：动作是智能体根据当前状态做出的决策。智能体从动作集合中选择的行为会使当前状态转换到下一个状态，这种转换是智能体与环境交互以产生期望结果的方式。
奖励（R）：奖励是环境对智能体在特定状态下所采取动作的反馈信号，反映了智能体选择的即时结果。奖励帮助智能体学习，明确在特定情境下哪些动作是可取的。
下一个状态（S'）：当智能体在特定状态下执行动作后，会转换到一个新的情境，即 “下一个状态”。这个新状态（s'）是智能体更新后的环境状态。

SARSA 算法的工作原理

SARSA 强化学习算法通过状态 - 动作 - 奖励 - 状态 - 动作序列，使智能体在环境中学习并做出决策，以最大化长期累积奖励。它涉及与环境交互、从过往事件中获取经验、优化决策策略的迭代循环。SARSA 算法的工作流程如下：

Q 表初始化：SARSA 首先初始化状态 - 动作对的 Q 值（Q (S,A)）为任意值。在此过程中，确定初始状态（s），并基于当前 Q 值，采用 ε- 贪婪（epsilon-greedy）算法策略选择初始动作（A）。
探索与利用（Exploration Vs. Exploitation）：利用（Exploitation）是指使用先前估计的已知值，以提高学习过程中获得奖励的概率；而探索（Exploration）则是选择可能带来短期收益，但有助于未来发现更优动作和奖励的行为。
动作执行与反馈：执行所选动作（A）后，智能体将获得奖励（R）并转换到下一个状态（S'）。
Q 值更新：根据获得的奖励和新状态，更新当前状态 - 动作对的 Q 值。从更新后的 Q 表中选择下一个动作（A'）。
迭代与学习：重复上述步骤，直到达到终止状态。在整个过程中，SARSA 通过考虑状态 - 动作 - 奖励的转换，持续更新 Q 值。这些改进增强了算法预测状态 - 动作对未来奖励的能力，引导智能体在长期内做出更优决策。

SARSA 与 Q 学习的对比

SARSA 和 Q 学习均属于强化学习中的基于价值（value-based）方法，但 SARSA 遵循当前策略，而 Q 学习不遵循当前策略。这种差异影响了两种算法调整动作价值函数的方式。二者的具体区别如下表所示：

特征	SARSA	Q 学习
策略类型	在线策略（On-policy）	离线策略（Off-Policy）
更新规则	Q(s,a)=Q(s,a)+ɑ(r+γQ(s′,a′)−Q(s,a))	Q(s,a)=Q(s,a)+ɑ(r+γmaxaQ(s′,a)−Q(s,a))
收敛速度	收敛到最优策略的速度较慢	通常收敛到最优策略的速度更快
探索与利用	探索直接影响学习更新	探索策略可与学习策略不同
策略更新	基于实际采取的动作更新动作价值函数	假设始终采取最优动作，并据此更新动作价值函数
适用场景	适用于稳定性要求较高的环境	适用于效率要求较高的环境
应用示例	医疗保健、交通管理、个性化学习	游戏、机器人