一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 Evaluate) [v_{i}s) = sum_{ain … Continue reading 强化学习 3—— 使用蒙特卡洛采样法(MC)解决无模型预测与控制问题
一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 Evaluate) [v_{i}s) = sum_{ain … Continue reading 强化学习 3—— 使用蒙特卡洛采样法(MC)解决无模型预测与控制问题