枕石的个人博客

强化学习：什么是PPO算法

枕石 published on 2025-09-16 included in 强化学习

PPO（Proximal Policy Optimization，近端策略优化） 算法是深度强化学习里非常重要的一类 策略梯度（Policy Gradient） 方法，被广泛应用于游戏智能体、机器人控制等场景。

Go语言如何实现面向对象编程

枕石 published on 2025-09-16 included in Go

Go 没有类（class），但它依然支持 封装、继承（组合）、多态 这些面向对象思想，只是实现方式和传统语言（Java/C++/Python）不同。

1. struct（结构体）代替 class ✅ 非常常用

Go 用 struct 表示对象的数据。在所有实际项目中，几乎所有业务实体都要用 struct。

Go变量声明完整总结

枕石 published on 2025-09-16 included in Go

Go 是一门 静态类型语言，所有变量在 编译期 必须有确定的类型（可推断）。Go 提供了多种声明方式，既保持了静态语言的安全性，又在语法上简洁。

1. 使用 `var` 声明

基本语法：

var name type
var name type = value
var name = value // 类型自动推断

示例：

强化学习入门：使用近端策略优化(PPO)求解倒立摆问题

枕石 published on 2025-09-15 included in 强化学习

摘要

本文旨在从理论层面深入探讨强化学习（Reinforcement Learning, RL）的运作机制。我们以经典的**倒立摆（CartPole-v1）**环境为例，首先将其形式化为马尔可夫决策过程（Markov Decision Process, MDP），然后详细阐述策略梯度（Policy Gradient）方法的基础，并最终推导出现今最稳定和常用的算法之一——近端策略优化（Proximal Policy Optimization, PPO）。每一部分理论都将与Python（PyTorch）代码实现紧密结合，展示理论公式在实践中的落地。

Go并发编程核心笔记：深入理解协程、通道与GMP调度器

枕石 published on 2025-09-15 included in Go

好的，这是为您整理的关于Go语言并发核心概念的笔记博客。

Go并发编程核心笔记：深入理解协程、通道与GMP调度器

Go语言之所以能在后端开发领域迅速崛起，其简洁而强大的并发模型是核心原因之一。对于初学者来说，理解Goroutine、Channel以及其背后的调度器原理，是跨入Go语言高手行列的关键一步。

Go语言基础语法快速入门

枕石 published on 2025-09-14 included in Go

Go语言基础语法快速入门：开启你的Go编程之旅

Go（又称Golang）是Google开发的一种开源编程语言，以其简洁、高效和强大的并发处理能力而备受开发者青睐。无论你是编程新手，还是希望扩展技能树的资深开发者，Go语言都是一个绝佳的选择。

枕石的个人博客

强化学习：什么是PPO算法

Go语言如何实现面向对象编程

1. struct（结构体）代替 class ✅ 非常常用

Go变量声明完整总结

1. 使用 var 声明

基本语法：

强化学习入门：使用近端策略优化(PPO)求解倒立摆问题

摘要

Go并发编程核心笔记：深入理解协程、通道与GMP调度器

Go并发编程核心笔记：深入理解协程、通道与GMP调度器

Go语言基础语法快速入门

Go语言基础语法快速入门：开启你的Go编程之旅

1. 使用 `var` 声明