Proximal Policy Optimization(PPO)算法 / 2017相关文章列表 - 风君子博客

Proximal Policy OptimizationPPO算法 / 2017

Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable（用于大模型和并行实现）, data … Continue reading Proximal Policy OptimizationPPO算法 / 2017