Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable(用于大模型和并行实现), data … Continue reading Proximal Policy OptimizationPPO算法 / 2017
Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable(用于大模型和并行实现), data … Continue reading Proximal Policy OptimizationPPO算法 / 2017