枕石的个人博客

Go语言make使用指南：slice、map、channel的初始化与动态特性

枕石 published on 2025-09-19 included in Go

在 Go 语言中，切片 (slice)、map 和 channel 都是引用类型，使用前必须初始化，否则直接使用会导致运行时错误（nil 引用）。本文系统讲解 make 的作用、使用场景、动态变化特性，并配合示例分析。

强化学习的数学原理（四）：值迭代和策略迭代

枕石 published on 2025-09-18 included in 强化学习

在基于模型的强化学习（特别是使用动态规划求解马尔可夫决策过程）中，价值迭代（Value Iteration）和策略迭代（Policy Iteration）是两大基石算法。它们从不同角度出发，最终都旨在找到最优策略 $\pi_*$。本文将深入剖析这两种算法的运作机制，并引出统一两者的泛化算法——截断策略迭代（Truncated Policy Iteration）。

强化学习的数学原理（三）：贝尔曼最优公式

枕石 published on 2025-09-18 included in 强化学习

在强化学习中，我们的最终目标是寻找一个最优策略（Optimal Policy），使得智能体（Agent）在与环境交互时能够获得最大的累积奖励。贝尔曼最优性方程是实现这一目标的基础工具，它为我们定义了最优价值函数，并指明了通向最优策略的道路。

强化学习的数学原理（二）：贝尔曼公式

枕石 published on 2025-09-18 included in 强化学习

强化学习核心：贝尔曼方程详解

在强化学习（Reinforcement Learning）中，我们的目标是让智能体（Agent）学会如何在一个环境中采取行动，以最大化累积奖励。为了评估一个策略（Policy）的好坏，我们需要一个标准来衡量在某个状态或采取某个动作后，未来可能获得的奖励总和。价值函数（Value Function）应运而生，而贝尔曼方程（Bellman Equation）则是连接价值函数的核心桥梁。

强化学习的数学原理（二）：贝尔曼公式（笔记整理版）

枕石 published on 2025-09-18 included in 强化学习

贝尔曼方程笔记整理

一、基本过程与定义

1. 单步过程 (A single step process) $$S_t \xrightarrow{A_t} R_{t+1}, S_{t+1}$$

$t, t+1$: 离散时间步 (discrete time instances)。
$S_t$: 状态
$A_t$: 动作
$R_{t+1}$: 奖励
$S_{t+1}$: 下一状态

此过程由以下概率分布所决定：

$S_t \to A_t$ 由策略决定: $\pi(A_t=a | S_t=s)$
$S_t, A_t \to R_{t+1}$ 由环境动态决定: $p(R_{t+1}=r | S_t=s, A_t=a)$
$S_t, A_t \to S_{t+1}$ 由环境动态决定: $p(S_{t+1}=s’ | S_t=s, A_t=a)$

2. 多步轨迹 (Multi-step trajectory) $$S_t \xrightarrow{A_t} R_{t+1}, S_{t+1} \xrightarrow{A_{t+1}} R_{t+2}, S_{t+2} \xrightarrow{A_{t+2}} \dots$$

强化学习的数学原理（一）：基本概念

枕石 published on 2025-09-17 included in 强化学习

一、基本概念 (Basic Concepts)

State (状态)
- The status of the agent with respect to the environment. (Agent 相对于环境的状态)
- State 是在环境中观测到的形态。
- State Space (状态空间, $S$): The set of all states, $S = \{s_i\}_{i=1}^n$.
Action (动作)