TRPO

基于策略的方法的缺点：当策略网络是深度模型时沿着策略梯度更新参数，很有可能由于步长太长，策略突然显著变差，进而影响训练效果。

1. 策略目标

April 2, 2025

Actor-Critic 算法本质上是基于策略的算法，因为这一系列算法的目标都是优化一个带参数的策略，只是会额外学习价值函数，从而帮助策略函数更好地学习。

Actor-Critic 算法则可以在每一步之后都进行更新，并且不对任务的步数做限制。

Actor 要做的是与环境交互，并在 Critic 价值函数的指导下用策略梯度学习一个更好的策略。

Actor 的更新采用策略梯度的原则。

Critic 要做的是通过 Actor 与环境交互收集的数据学习一个价值函数，这个价值函数会用于判断在当前状态什么动作是好的，什么动作不是好的，进而帮助 Actor 进行策略更新。

April 1, 2025

Q-learning、DQN 算法都是基于价值（value-based）的方法

在强化学习中，除了基于值函数的方法，还有一支非常经典的方法，那就是基于策略（policy-based）的方法。

对比 value-based 和 policy-based

将策略参数化：寻找一个最优策略并最大化这个策略在环境中的期望回报，即调整策略参数使平均回报最大化。
策略学习的目标函数
- J(θ) 是策略的目标函数（想要最大化的量）；
- πθ 是参数为θ的随机性策略，并且处处可微（可以理解为AI的决策规则）；
- Vπθ(s0) 指从初始状态s₀开始遵循策略π能获得的预期总回报；
- Es0 是对所有可能的初始状态求期望。