强化学习简介

snowkylin · April 16, 2020, 12:41pm

EssalTaol · June 12, 2020, 8:26am

数字三角形（变式 1）中的策略评估和策略改进框架中的图里面，策略评估（第 0 轮）左边的红字里面计算向下和向右下的期望的算式是不是写反了。

snowkylin · June 13, 2020, 6:40pm

不好意思，确实有一些很奇怪的笔误，以下是修正的图示：

感谢提醒！

yangdeai · September 17, 2020, 3:28am

策略评估（第0轮）右边坐标值为2，计算动作的期望值是不是有点问题，结果是1.25，但是过程不对？我觉得应该是：0.25 2+0.751=1.25

snowkylin · September 17, 2020, 11:58am

抱歉应该又是笔误，修正后图示如下

elevenxx · February 1, 2021, 4:38am

看过的所有讲 RL 基础的资料里，博主写的是最清晰易懂的。感谢博主