我在看 DeepMind 的强化学习系列视频讲座,在看无模型 RL 的视频时,老师说蒙特卡洛方法比时间差分方法的偏差更小。我理解这背后的原因,但我想知道当他们提到 RL 中的偏差-方差权衡时是什么意思。
偏差-方差权衡的使用方式与机器学习或深度学习中的使用方式相同吗?
(我只是一个初学者,刚刚开始学习 RL,所以如果这是一个愚蠢的问题,我很抱歉。)
我在看 DeepMind 的强化学习系列视频讲座,在看无模型 RL 的视频时,老师说蒙特卡洛方法比时间差分方法的偏差更小。我理解这背后的原因,但我想知道当他们提到 RL 中的偏差-方差权衡时是什么意思。
偏差-方差权衡的使用方式与机器学习或深度学习中的使用方式相同吗?
(我只是一个初学者,刚刚开始学习 RL,所以如果这是一个愚蠢的问题,我很抱歉。)
您所指的偏差-方差权衡与return estimator有关。您选择的任何 RL 算法都需要对累积回报进行一些估计,这是一个具有许多随机性来源的随机变量,例如随机转换或奖励。
Monte Carlo RL 算法通过运行完整轨迹并从字面上平均每个状态所获得的回报来估计回报。这对系统施加的假设很少(事实上,这些方法甚至不需要马尔可夫属性),因此偏差很小。但是,方差很高,因为每个估计都取决于您观察到的文字轨迹。因此,您将需要很多很多轨迹来获得对价值函数的良好估计。
另一方面,使用 TD 方法,您将收益估计为, 在哪里是您对价值函数的估计。使用这会带来一些偏差(例如,在训练开始时值函数的初始化会影响您的下一个值函数估计),有利于减少方差。在 TD 学习中,您不需要完整的环境部署来进行回报估计,您只需要一次过渡。这也让你可以更好地利用你所学到的关于价值函数的知识,因为你正在学习如何“分段”推断价值,而不仅仅是通过你碰巧看到的文字轨迹。