images/logo.jpg

枕石的个人博客

Linux根目录结构指南

探索 Linux 的神经中枢:根目录(/)结构终极指南

对于每一位 Linux 用户来说,无论是初学者还是资深系统管理员,理解其文件系统的层级结构(Filesystem Hierarchy Standard, FHS)都是一项至关重要的基本功。这个结构定义了系统中每个目录应该存放什么样的文件,保证了软件和用户都能以一种可预测的方式找到所需的数据。

强化学习的数学原理(八):值函数近似

深度Q网络(DQN)的核心思想是通过学习价值来指导策略。它并不直接学习一个策略函数,而是训练一个深度神经网络(Q网络)来精确地近似动作价值函数(Q函数),即评估在任何状态下执行各个动作的长期回报。在训练过程中,智能体采用探索性的ϵ-贪心策略与环境交互并收集数据,其学习目标则始终是纯粹的贪心策略。完成训练后,采用纯粹的贪心策略 (Greedy Policy),将状态 s 输入已训练好的Q网络,网络输出所有动作的Q值向量,选择并执行Q值最高的那个动作。

强化学习的数学原理(十):Actor Critic方法

Actor-Critic 方法使用两个神经网络协同工作:Actor (策略网络):负责决策,学习在特定状态下应该采取什么动作。它输入状态,输出动作的概率;Critic (价值网络):负责评估,学习当前状态有多好。它输入状态,输出一个价值评分。工作流程:训练时,Actor 做出动作,Critic 对其进行评分。Actor 根据 Critic 的评分来调整自己的策略,力求做出更好的决策。最终策略:训练过程中策略是随机的以鼓励探索,训练完成后则变为贪心的,总是选择概率最高的动作以获得最大回报。