news 2026/1/22 14:21:22

Q-learning 算法 —— 无模型(model-free)强化学习

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Q-learning 算法 —— 无模型(model-free)强化学习

眼里没有对纪念日的专属感言,只有对优质文章诞生的渴望!!!

    • 一、研究背景与意义
    • 二、Q-learning 的核心思想
      • 1. 状态-动作价值函数(Q 函数)
      • 2. 核心创新点
    • 三、Q-learning 的更新公式(核心公式)
    • 四、Q-learning 的算法流程
    • 五、理论基础与收敛性(Watkins 的重要贡献)

1989 年,Christopher J. C. H. Watkins在其博士论文中系统提出并分析了Q-learning 算法, 开创无模型(model-free)强化学习理论体系,为智能体在未知环境中通过试错交互直接学习最优状态-动作价值函数。

一、研究背景与意义

  • 80 年代以前的强化学习 =已知 MDP + 动态规划 + 解 Bellman 方程
  • Watkins 的Q-learning = 未知环境 + 交互采样 + 收敛保证

在 20 世纪 80 年代以前,强化学习研究多依赖于已知环境模型(如马尔可夫决策过程 MDP 的转移概率与奖励函数),典型方法包括动态规划。

但在现实问题中:

  • 环境模型往往未知或难以精确建模
  • 状态空间可能很大
  • 只能通过与环境交互获得经验

Watkins 的核心贡献在于:

不需要已知环境模型,仅通过经验样本,就能在理论上保证收敛到最优策略。

这使强化学习真正具备了“从试错中学习”的能力。

二、Q-learning 的核心思想

1. 状态-动作价值函数(Q 函数)

在强化学习中,Q-learning 直接学习状态-动作价值函数

Q ∗ ( s , a ) = E [ ∑ t = 0 ∞ γ t r t + 1 ∣ s 0 = s , a 0 = a , π ∗ ] Q^*(s,a) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0=s, a_0=a, \pi^*\right]Q(s,a)=E[t=0γtrt+1s0=s,a0=a,π]

含义:在状态s ss下采取动作a aa,并在此后始终执行最优策略所能获得的期望折扣回报。

一旦得到Q ∗ ( s , a ) Q^*(s,a)Q(s,a),最优策略可直接由:

π ∗ ( s ) = arg ⁡ max ⁡ a Q ∗ ( s , a ) \pi^*(s) = \arg\max_a Q^*(s,a)π(s)=argamaxQ(s,a)

得到。

2. 核心创新点

Q-learning 的关键思想是:

  • 不学习环境模型(转移概率、奖励函数)
  • 直接逼近最优 Q 函数
  • 采用“贪婪目标 + 任意行为策略”进行学习

这使它成为一种off-policy 强化学习算法

三、Q-learning 的更新公式(核心公式)

Watkins 提出的 Q-learning 更新规则如下:

Q ( s t , a t ) ← Q ( s t , a t ) ∗ α [ r t + 1 ∗ γ max ⁡ a ′ Q ( s t + 1 , a ′ ) − Q ( s t , a t ) ] Q(s_t, a_t) \leftarrow Q(s_t, a_t) * \alpha \Big[ r_{t+1} * \gamma \max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t) \Big]Q(st,at)Q(st,at)α[rt+1γamaxQ(st+1,a)Q(st,at)]

各项解释:

  • s t , a t s_t, a_tst,at:当前状态与动作
  • r t + 1 r_{t+1}rt+1:执行动作后获得的即时奖励
  • s t + 1 s_{t+1}st+1:下一状态
  • α \alphaα:学习率(learning rate)
  • γ \gammaγ:折扣因子(discount factor)
  • max ⁡ a ′ Q ( s t + 1 , a ′ ) \max_{a'} Q(s_{t+1}, a')maxaQ(st+1,a)对下一状态采取最优动作的估计回报

📌关键点:即使当前执行的动作不是最优的,更新时仍然假设“下一步采取最优动作”,这正是off-policy的本质。

四、Q-learning 的算法流程

典型 Q-learning 算法步骤如下:

  1. 初始化:对所有状态-动作对,初始化Q ( s , a ) Q(s,a)Q(s,a)(通常为 0 或随机值)

  2. 重复以下过程(每个 episode)

    • 初始化状态s ss
    • 在状态s ss下,根据某种行为策略(如 ε-greedy)选择动作a aa
    • 执行动作,观察奖励r rr和下一状态s ′ s's
    • 按 Q-learning 更新公式更新Q ( s , a ) Q(s,a)Q(s,a)
    • s ← s ′ s \leftarrow s'ss
    • 若到达终止状态,结束 episode
  3. 最终策略π ( s ) = arg ⁡ max ⁡ a Q ( s , a ) \pi(s) = \arg\max_a Q(s,a)π(s)=argmaxaQ(s,a)

五、理论基础与收敛性(Watkins 的重要贡献)

Watkins 在理论上证明了:

在以下条件下,Q-learning几乎必然收敛到最优Q QQ函数Q ∗ Q^*Q

  1. 所有状态-动作对被无限次访问
  2. 学习率满足 Robbins–Monro 条件:∑ t α t = ∞ , ∑ t α t 2 < ∞ \sum_t \alpha_t = \infty,\quad \sum_t \alpha_t^2 < \inftytαt=,tαt2<
  3. 环境是有限状态、有限动作的 MDP
  4. 折扣因子γ < 1 \gamma < 1γ<1

这是无模型强化学习中首个具有严格收敛性证明的算法之一

没有 1989 年的 Q-learning,就没有后来的深度强化学习浪潮。

Watkins 的 Q-learning 直接催生了大量后续研究:

  • 表格型强化学习的标准算法
  • Deep Q-Network (DQN):用神经网络近似 Q 函数(DeepMind, 2013)
  • Double Q-learning、Dueling DQN、Prioritized Replay 等改进
  • 成为现代深度强化学习的理论起点之一
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/22 9:39:04

如何避免过拟合?EmotiVoice在小样本下的鲁棒性设计

如何避免过拟合&#xff1f;EmotiVoice在小样本下的鲁棒性设计 在语音合成技术迅速普及的今天&#xff0c;我们早已不再满足于“能说话”的机器。用户期待的是有情感、有个性、像真人一样的声音——无论是虚拟助手温柔地安慰你&#xff0c;还是游戏角色愤怒地呐喊&#xff0c;背…

作者头像 李华
网站建设 2026/1/22 17:02:25

JavaScript 动态网页开发核心问题及实现页面动态更新方法

动态网页开发是现代Web应用的核心&#xff0c;而JavaScript是实现这一能力的关键语言。它不再是简单的页面装饰工具&#xff0c;而是驱动复杂交互、数据处理和实时内容更新的引擎。掌握JavaScript动态开发&#xff0c;意味着你能构建出响应迅速、体验流畅的现代网站。本文将避开…

作者头像 李华
网站建设 2026/1/22 15:28:59

Python中append()方法的使用、原理及效率解析

在Python编程中&#xff0c;列表的append()方法是一个基础且高频使用的操作&#xff0c;用于在列表末尾添加新元素。它看似简单&#xff0c;却直接影响着代码的效率与可读性。许多开发者因其便利性而过度依赖&#xff0c;却忽略了其背后的原理和潜在的性能陷阱。理解append()的…

作者头像 李华
网站建设 2026/1/22 15:48:18

评管理信息系统教材:过时问题、理论实践结合及专业适配性

对《管理信息系统》教材进行客观审视&#xff0c;有助于我们认识其在教学与实践中的真实价值。一本优秀的教材应紧跟技术变革&#xff0c;平衡理论与应用&#xff0c;成为连接课堂与商业世界的桥梁。以下将从几个具体角度&#xff0c;分析这部教材可能存在的优势与不足。 管理信…

作者头像 李华
网站建设 2026/1/22 15:40:43

生产执行系统怎么选?2025年制造业高性价比MES系统推荐

生产执行系统&#xff08;MES&#xff09;作为制造业数字化转型的核心枢纽&#xff0c;正深刻重塑现代工厂的运行逻辑与管理范式。它并非简单的数据采集工具&#xff0c;而是连接企业战略层&#xff08;ERP&#xff09;与底层自动化设备&#xff08;如SCADA、DCS&#xff09;的…

作者头像 李华