枕石的个人博客

强化学习的数学原理（九）：策略梯度方法

枕石 published on 2025-09-26 included in 强化学习

策略梯度方法将策略直接参数化为一个由 $θ$ 定义的可微函数 $\pi_\theta$（如神经网络），进而将强化学习问题转化为一个优化问题：它定义了一个衡量策略优劣的性能度量 $J(θ)$，并计算该度量关于参数 $θ$ 的梯度，最终通过梯度上升算法，沿着梯度方向迭代更新参数，以寻找能使性能度量最大化的最优策略。

强化学习的数学原理（七）：时序差分方法TD Learning

枕石 published on 2025-09-25 included in 强化学习

在强化学习领域，当我们没有环境的完整模型时，如何评估一个策略的好坏并最终找到最优策略呢？蒙特卡洛（Monte Carlo）方法为我们提供了一种思路：通过完整的经验序列来估计价值。然而，它必须等到一个完整的 episode 结束后才能进行学习。动态规划（Dynamic Programming）虽然高效，却依赖于已知的环境模型。

Go语言sort包与排序实战

枕石 published on 2025-09-24 included in Go

在 Go 语言中，排序是一项常见的操作，无论是处理用户数据、实现算法，还是优化性能，都离不开排序。Go 标准库提供了一个强大的 sort 包，它设计精巧、用法灵活，能够满足各种排序需求。本文将带你深入探索 sort 包的用法，从基础的切片排序到复杂的自定义结构体排序，助你轻松掌握 Go 语言的排序实战技巧。

Go语言数组与切片详解

枕石 published on 2025-09-21 included in Go

在 Go 语言中，数组（Array）和切片（Slice）是最常用的顺序容器。它们看似相似，却有本质上的区别：数组是值类型、长度固定；切片是引用类型、长度可变。本文将从定义、内存模型、函数传参/返回、使用场景等方面进行详细总结。

强化学习的数学原理（六）：随机近似与随机梯度下降

枕石 published on 2025-09-20 included in 强化学习

在现代机器学习和深度学习领域，随机梯度下降（Stochastic Gradient Descent, SGD）算法几乎无处不在。从训练庞大的神经网络到处理海量数据集，SGD 及其变体是优化模型参数的核心引擎。然而，要真正理解 SGD 为何如此有效以及其收敛性的理论保障，我们不能仅仅将其视为一个简单的算法，而应追溯其深刻的数学根源——随机近似（Stochastic Approximation）理论。本文将从一个最基础的问题“增量式均值计算”出发，逐步揭示 Robbins-Monro 算法的精髓，并最终证明 SGD 正是该理论框架下的一个经典应用。

强化学习的数学原理（五）：蒙特卡洛方法

枕石 published on 2025-09-19 included in 强化学习

1. 蒙特卡洛方法的基本思想

1.1 回顾策略迭代 (Policy Iteration)

策略迭代是强化学习中的一个经典框架，它由两个核心步骤交替进行：

策略评估 (Policy Evaluation): 对当前的策略 $\pi_k$ 进行评估，计算出其状态价值函数 $v_{\pi_k}$。这需要求解贝尔曼期望方程： $v_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$