欢迎来到我的博客,这里记录着一些我最近的生活。
「每一篇文章,都是一次未完的对话,
期待与你的反馈与交流」
欢迎来到我的博客,这里记录着一些我最近的生活。
「每一篇文章,都是一次未完的对话,
期待与你的反馈与交流」
Proximal Policy Optimization Algorithms
随机初始化 actor 参数 theta
玩 n 次游戏,收集 n 个 trajectory(state、action),算出 reward
用得到的 data 去更新参数 theta
如果 R(τⁿ) 为正,梯度更新会提升该轨迹中所有动作的概率;若为负,则降低概率。
enviroment:看到的画面+看不到的后台画面,不了解细节
agent(智能体):根据策略得到尽可能多的奖励
state:当前状态
observation:state的一部分(有时候agent无法看全)
action:agent做出的动作
reward:agent做出一个动作后环境给予的奖励
action space:可以选择的动作,如上下左右
policy:策略函数,输入state,输出Action的概率分布。一般用π表示。
Trajectory/Episode/Rollout:轨迹,用 t 表示一连串状态和动作的序列。有的状态转移是确定的,也有的是不确定的。
Return:回报,从当前时间点到游戏结束的 Reward 的累积和。
强化学习目标:训练一个Policy神经网络π,在所有状态S下,给出相应的Action,得到Return的期望最大。