《动手学强化学习》阅读笔记
本文是《动手学强化学习》一书的学习笔记,记录了强化学习的基础概念、关键算法与理论框架。力求结构清晰、概念到位,便于入门与复习。
第一章 强化学习基础
什么是强化学习?
强化学习(Reinforcement Learning, RL)是一种实现序贯决策的机器学习方法,智能体通过与环境交互、获取奖励信号,不断改进策略以实现长期目标。
环境与随机性
用于决策任务的环境是一个动态的随机过程:未来状态的分布由当前状态与智能体选择的动作共同决定。每次状态转移包含两类随机性:
- 动作选择的随机性(策略的随机性)
- 环境状态转移的随机性($P(s’\mid s,a)$ 的采样)
目标:最大化策略价值
强化学习的优化目标是最大化在与环境交互过程中的策略价值(长期累积奖励的期望)。
数据从何而来
数据并非来自固定数据集,而是在智能体与环境的交互过程中不断产生,且会随策略更新而改变分布。
占用度量(Occupancy Measure)
- 定义:某策略与环境交互时,采样到状态-动作对 $(s,a)$ 的概率分布。
- 性质:当且仅当两个策略诱导的占用度量完全相同时,这两个策略等价;策略变化会引起占用度量变化。
- 关联:策略价值等价于在该占用度量下的奖励期望,因此“找最优策略 ≈ 找最优占用度量”。
与有监督学习的区别
- 有监督学习:给定数据分布,最小化损失的期望。
- 强化学习:通过交互诱导数据分布,最大化奖励的期望。
- 关键差异:RL 的数据分布随策略变化,非 i.i.d.
第二章 多臂老虎机:探索 vs 利用
多臂老虎机(Multi-Armed Bandit, MAB)刻画“探索未知”和“利用已知”的权衡:既要尝试可能更优的臂(探索),又要选择当前估计最优的臂(利用)。
目标与懊悔(Regret)
- 时刻 $t$ 的即时懊悔:$r_t = \mu^* - \mu_{a_t}$。
- 累积懊悔:$R_T = \sum_{t=1}^{T} (\mu^* - \mu_{a_t})$。
- 目标等价:最大化累积奖励 ⇔ 最小化累积懊悔。
期望奖励的估计
对某一拉杆(动作)$a$ 的经验期望奖励估计:
$$
\hat{\mu}a = \frac{1}{n_a} \sum{i=1}^{n_a} r_i
$$
其中 $n_a$ 为选择臂 $a$ 的次数,$r_i$ 为获得的奖励。
三类经典策略
ε-贪心($\varepsilon$-greedy):
- 以概率 $1-\varepsilon$ 选择当前估计最优的臂(利用),以概率 $\varepsilon$ 随机选择(探索)。
- 常用做法:随时间衰减 $\varepsilon_t$(例如 $\varepsilon_t = c/t$ 或分段衰减)。
上置信界(UCB):
- 利用“乐观估计”促进探索。常见形式:
$$
a_t = \arg\max_a \Big( \hat{\mu}_a + c\sqrt{\frac{2\ln t}{n_a}} \Big)
$$ - 思想:不确定性越大($n_a$ 越小),上置信界越宽,更值得探索。
- 利用“乐观估计”促进探索。常见形式:
汤普森采样(Thompson Sampling):
- 将每个臂的奖励建模为后验分布(如 Beta 分布),按后验进行一次采样并选择样本最大的臂。
- 兼顾探索与利用,实践中表现优异、实现简单。
小结:MAB 不改变环境状态,可视为“无状态”RL 的特例。
第三章 马尔可夫决策过程(MDP)与价值
马尔可夫过程与马尔可夫奖励过程(MRP)
- 马尔可夫性质:$P(S_{t+1}\mid S_{0:t}) = P(S_{t+1}\mid S_t)$。
- 状态转移矩阵的每行和为 1。
- 在马尔可夫过程中加入奖励与折扣因子 $\gamma\in(0,1]$ 得到 MRP。
- 折扣动机:考虑不确定性与时间偏好;$\gamma$ 越接近 1 越重视长期。
回报(从时刻 $t$ 出发的累积折扣奖励):
$$
G_t = \sum_{k=0}^{T-t-1} \gamma^k, R_{t+k+1}
$$
状态价值函数(MRP):
$$
V(s) = \mathbb{E}[G_t\mid S_t=s] = R(s) + \gamma, \sum_{s’} P(s’\mid s), V(s’)
$$
常见求解:动态规划(DP)、蒙特卡洛(MC)、时序差分(TD)。
马尔可夫决策过程(MDP)
在 MRP 基础上加入动作 $a$ 与策略 $\pi(a\mid s)$:
- 状态价值:$V^\pi(s) = \mathbb{E}_\pi[,G_t\mid S_t=s,]$。
- 动作价值:$Q^\pi(s,a) = \mathbb{E}_\pi[,G_t\mid S_t=s, A_t=a,]$。
- 期望型贝尔曼方程:
$$
V^\pi(s) = \sum_a \pi(a\mid s) \sum_{s’} P(s’\mid s,a)\big[ R(s,a,s’) + \gamma V^\pi(s’) \big]
$$
占用度量(在 MDP 下)
策略的占用度量描述在策略 $\pi$ 与动力学 $P$ 下,状态-动作对 $(s,a)$ 被访问的频率分布。它直接决定了奖励期望与策略价值,是连接“采样分布”和“最优性”的桥梁。
关键要点速记
- RL 的核心在于“交互诱导的数据分布”和“长期最优”。
- MAB:ε-贪心、UCB、汤普森采样是三大基石;目标是最小化累积懊悔。
- MRP/MDP:价值函数与贝尔曼方程是算法设计的基础;DP/MC/TD 各有适用场景。
- 占用度量提供了从策略到数据分布、再到价值最大化的统一视角。
参考资料
- 《动手学强化学习》
- Sutton & Barto. Reinforcement Learning: An Introduction




