https://tf.wiki/zh/appendix/rl.html
数字三角形(变式 1)中的策略评估和策略改进框架中的图里面,策略评估(第 0 轮)左边的红字里面计算向下和向右下的期望的算式是不是写反了。
不好意思,确实有一些很奇怪的笔误,以下是修正的图示:
感谢提醒!
策略评估(第0轮)右边坐标值为2,计算动作的期望值是不是有点问题,结果是1.25,但是过程不对?我觉得应该是:0.25 2+0.751=1.25
抱歉应该又是笔误,修正后图示如下
看过的所有讲 RL 基础的资料里,博主写的是最清晰易懂的。感谢博主