强化学习简介

强化学习简介

https://tf.wiki/zh/appendix/rl.html

1 Like

数字三角形(变式 1)中的策略评估和策略改进框架中的图里面,策略评估(第 0 轮)左边的红字里面计算向下和向右下的期望的算式是不是写反了。

不好意思,确实有一些很奇怪的笔误,以下是修正的图示:

感谢提醒!