images/logo.jpg

枕石的个人博客

强化学习的数学原理(四):值迭代和策略迭代

在基于模型的强化学习(特别是使用动态规划求解马尔可夫决策过程)中,价值迭代(Value Iteration)和策略迭代(Policy Iteration)是两大基石算法。它们从不同角度出发,最终都旨在找到最优策略 $\pi_*$。本文将深入剖析这两种算法的运作机制,并引出统一两者的泛化算法——截断策略迭代(Truncated Policy Iteration)。

强化学习的数学原理(二):贝尔曼公式

强化学习核心:贝尔曼方程详解

在强化学习(Reinforcement Learning)中,我们的目标是让智能体(Agent)学会如何在一个环境中采取行动,以最大化累积奖励。为了评估一个策略(Policy)的好坏,我们需要一个标准来衡量在某个状态或采取某个动作后,未来可能获得的奖励总和。价值函数(Value Function)应运而生,而贝尔曼方程(Bellman Equation)则是连接价值函数的核心桥梁。

强化学习的数学原理(二):贝尔曼公式(笔记整理版)

贝尔曼方程笔记整理

一、基本过程与定义

1. 单步过程 (A single step process) $$S_t \xrightarrow{A_t} R_{t+1}, S_{t+1}$$

  • $t, t+1$: 离散时间步 (discrete time instances)。
  • $S_t$: 状态
  • $A_t$: 动作
  • $R_{t+1}$: 奖励
  • $S_{t+1}$: 下一状态

此过程由以下概率分布所决定:

  • $S_t \to A_t$ 由策略决定: $\pi(A_t=a | S_t=s)$
  • $S_t, A_t \to R_{t+1}$ 由环境动态决定: $p(R_{t+1}=r | S_t=s, A_t=a)$
  • $S_t, A_t \to S_{t+1}$ 由环境动态决定: $p(S_{t+1}=s’ | S_t=s, A_t=a)$

2. 多步轨迹 (Multi-step trajectory) $$S_t \xrightarrow{A_t} R_{t+1}, S_{t+1} \xrightarrow{A_{t+1}} R_{t+2}, S_{t+2} \xrightarrow{A_{t+2}} \dots$$